微信号:aitechtalk

介绍:关注国内外人工智能与机器科学领域的前沿技术.

专访|网易有道段亦涛:丁磊亲自过问的神经网络翻译技术到底是什么?

2017-05-17 22:47 叨叨

AI科技评论按:很多读者在思考,“我和AI科技评论的距离在哪里?”答案就是:一封求职信。

近日,网易有道正式对外公布:由网易公司自主研发的神经网络翻译( Neural Machine Translation)技术正式上线,网易内部人士称,该项目受到了丁磊的亲自过问。

有道2008年诞生,诞生伊始的核心业务是搜索。在2013年剥离搜索业务之后,有道仅翻译业务(包括有道词典、有道翻译官等)就获得了7亿用户,体量庞大。

就此,AI科技评论独家专访了有道首席科学家段亦涛,聊了聊有道在机器翻译领域的研究和探索。

有道是国内第一批提供机器翻译服务的互联网公司,从2008年正式推出到现在,已近十年。十年时间里,有道一直聚焦于中文与其他外语之间的翻译,通过不断提升机器翻译的质量,吸引了大量用户,积累了海量的语料和数据。

即便如此,机器翻译的质量还是差强人意。随着人工智能技术的发展,深度学习逐渐应用在机器翻译领域,神经网络翻译模型开始得以运用,而有道也借此将其机器翻译能力提到了一个新的高度。用段亦涛的话来说就是:

神经网络翻译是人工智能及深度学习在机器翻译领域的具体应用,是目前最前沿的机器翻译技术,它带来的翻译质量提升是过去十年的总和。

通过机器来实现翻译一直是人类一个梦想,在计算机诞生之前,人类就设想过用自动化的方法将一种语言的文字翻译成另外一种语言。计算机诞生之后,人类开始希望做出一个能够实现自动翻译的程序。早期的尝试都不太成功,统计翻译模型的出现,给机器翻译领域带来了第一次飞跃。

统计翻译模型不依赖于人为设定的规则,而是从大量的平行语料里总结语言规律,从而得到翻译的结果。但它的问题也很多,最大的问题在于统计翻译模型是一个由很多组件组成的模型,比如分词、短语、对齐,调序等组件,这些组件独立存在,各司其职,每个组件完成自己的意向任务,最后“拼凑”起来,产生一个“还看得过去”的翻译结果,远远谈不上“满意”。但两年前,无论是我们熟知的谷歌翻译、百度翻译,还是其他翻译类产品,用的基本都是统计翻译模型。

当神经网络模型用于机器翻译之后,这一切有了改观。神经网络翻译能够对整个句子进行编码,更充分地利用上下文信息,判定多义词的词义,生成更自然的译文。最直观的一点,是神经网络翻译的译文句子结构完整,语序更符合人类语言使用习惯,翻译结果通顺。

神经网络翻译原理

如此评价,除了实际使用中用户的感知,还有一个更为理性的标准,由IBM在2002年建立,被称为BLEU(Bilingual Evaluation understudy)值。据维基百科介绍,BLEU是一种评价机器翻译文本质量的算法,该算法的核心价值观认为:机器翻译越接近专业翻译,质量越高。

BLEU的具体方法是将候选译文和参考答案做对比,把单个翻译片段(一般是句子)与一组良好的质量参考译文进行比较,判断词语、语序的重合部分,重合越多,得分越高,之后通过整个语料库平均得出翻译的总体质量的估计。

在机器翻译领域,神经网络翻译模型逐渐取代了统计翻译模型,其中一个重要原因就是,前者的BLEU值大幅度提升。

除了纵向对比,横向和其他同行比较的话,BLEU值也是一个重要参考标准。按照有道官方给出的数据显示,在英语学习场景中,有道神经网络翻译的英译中和中译英的BLEU值领先了同行7个百分点;而在新闻文章翻译场景中,其英译中BLEU值超同行6个百分点,而中译英超过了8个百分点。

神经网络翻译中译英对比

之所以能比同行高出6-8个百分点,段亦涛认为优势在于两个方面:

  • 以中文为核心,更加专注。针对中文特有的语言现象做了非常多的优化,包括中文的分词等;

  • 词典近十年积累了庞大数据,依托有道词典积累的语料和用户数据,能够在英语学习这种翻译场景下做到最好。


“效果不错”,但段亦涛也承认,“在缺乏完备的理论基础的情况下,实践中需要非常依赖经验和摸索。效果是最硬的指标,理论再完美,不起效果对我们来说就没有意义”。

在行业里曾经有人做过一个类比,“深度学习(包括神经网络模型)就像炼丹,把各种素材放在一起,然后掌握火候,在不断试炼中才能达到最好效果”,或许这也反映了,在行业缺乏完备的理论基础的情况下,现实的困难是——大家都只能摸索,这就存在非常大的不确定性。但对目前有道做出来的效果,段亦涛还是满意的。

当然,这离不开一个强大的技术团队。段亦涛表示,有道团队将会持续聚焦在机器翻译领域,未来将着力于三个方面:

  • 调整模型和算法

  • 获取更多数据

  • 不同领域适配

AI科技评论了解到,有道神经网络翻译技术已经在有道词典、有道翻译官、有道翻译网页版、有道e读等产品中应用,覆盖用户超过7亿。

小结

在采访的最后,还聊到了段亦涛加入网易有道的经历。段亦涛本硕专业读的是北航的飞机设计,专注研究"隐身技术",和计算机基本没关系。但去加州大学伯克利分校读博时,因为兴趣,转到了计算机科学,读的方向是分布式计算领域的隐私和加密。对于这种转变,段亦涛觉得难度没有想象那么大,因为在工程上都是相通的,其次他有数学的优势。

在伯克利读博期间,段亦涛结识了的周枫,也就是现在网易有道CEO。

当时,周枫受丁磊之邀,正在考虑加入网易开发有道项目。于是,周枫便邀请段亦涛一起加入了网易。从2008年到2017年,接近十年,段亦涛热情不减,他说"我还是挺喜欢的"。

很多业内人士,并不知道网易有道也在做 Al方面的研究。段方涛表示,希望有更多 Al人才加入进来。

报名 |【2017 AI 最佳雇主】榜单

在人工智能爆发初期的时代背景下,雷锋网联合旗下人工智能频道AI科技评论,携手 环球科学 和 BOSS 直聘,重磅推出【2017 AI 最佳雇主】榜单。

从“公司概况”、“创新能力”、“员工福利”三个维度切入,依据 20 多项评分标准,做到公平、公正、公开,全面评估和推动中国人工智能企业发展。

本次【2017 AI 最佳雇主】榜单活动主要经历三个重要时段:

2017.4.11-6.1 报名阶段

2017.6.1-7.1  评选阶段

2017.7.7    颁奖晚宴

最终榜单名单由雷锋网、AI科技评论、《环球科学》、BOSS 直聘以及 AI 学术大咖组成的评审团共同选出,并于7月份举行的 CCF-GAIR 2017大会期间公布。报名期间欢迎大家踊跃自荐或推荐心目中的最佳 AI 企业公司。

报名方式

如果您有意参加我们的评选活动,可以点击【阅读原文】,进入企业报名通道。提交相关审核材料之后,我们的工作人员会第一时间与您取得联系。

【2017 AI 最佳雇主】榜单与您一起,领跑人工智能时代。

AI科技评论招聘季全新启动!


很多读者在思考,“我和AI科技评论的距离在哪里?”答案就是:一封求职信。

AI科技评论自创立以来,围绕学界和业界鳌头,一直为读者提供专业的AI学界、业界、开发者内容报道。我们与学术界一流专家保持密切联系,获得第一手学术进展;我们深入巨头公司AI实验室,洞悉最新产业变化;我们覆盖A类国际学术会议,发现和推动学术界和产业界的不断融合。


而你只要加入我们,就可以一起来记录这个风起云涌的人工智能时代!


如果你有下面任何两项,请投简历给我们:


*英语好,看论文毫无压力

*理工科或新闻相关专业优先,好钻研

*对人工智能有一定的兴趣或了解

 * 态度好,学习能力强



简历投递:

北京:lizongren@leiphone.com

深圳:guoyixin@leiphone.com


 
AI科技评论 更多文章 干货 | 大神支招:机器学习中用来防止过拟合的方法有哪些? 清华大学朱军博士:可扩展的贝叶斯方法与深度生成模型 秒懂 | 南京大学俞扬博士独家演讲:强化学习前沿(下) 业界|David Patterson教授加入谷歌TPU团队,跟英伟达的好戏才刚刚开场 AI科技评论专访Yann LeCun: 关于深度学习未来的14个问题
猜您喜欢 【R每日一贴】R给条形图添加颜色? 如何让老板“粉”上你 “三新”团队如何克服成长的烦恼? | 线上分享 程序史上最重要神作《计算机程序设计艺术》第四卷B新章节预览发布 看不见的热攻击之攻击手机锁屏密码(二)