信息学基础研究分享 http://blog.sciencenet.cn/u/geneculture 语言理解&知识表达

博文

点评微软亚洲研究院对机器翻译最新突破

已有 1659 次阅读 2018-3-16 07:21 |个人分类:学术研究|系统分类:科研笔记|关键词:学者| 双语处理, 语言理解, 知识表达, 模式识别

       1.总体方面

       这里透露了其局限性或限制条件。这是对的,是负责的说法。因为自然语言的歧义性或多义性始终是一个巨大的挑战(无论对人或机)。-邹晓辉

         【这并不代表人类已经完全解决了机器翻译的问题,只能说明我们离终极目标又更近了一步。微软亚洲研究院副院长、自然语言计算组负责人周明表示,在WMT17测试集上的翻译结果达到人类水平很鼓舞人心,但仍有很多挑战需要我们解决,比如在实时的新闻报道上测试系统等。】

       2.四个突破及其具体做法

       突破之一

      如果仅从狭义的双语如中英文谈对偶,或是仅从数学看对偶,那么,一定会有分歧。但是,如果从广义双语检验对偶,那么,我们很可能就会惊奇地发现一片新天地(例如:可发现“联动函数”及其同时与逻辑、数学、语言或双语即翻译或解释之间的微妙关系)。-邹晓辉

     【对偶学习(Dual Learning):

       对偶学习的发现是由于现实中有意义、有实用价值的人工智能任务往往会成对出现,两个任务可以互相反馈,从而训练出更好的深度学习模型。例如,在翻译领域,我们关心从英文翻译到中文,也同样关心从中文翻译回英文;在语音领域,我们既关心语音识别的问题,也关心语音合成的问题;在图像领域,图像识别与图像生成也是成对出现。此外,在对话引擎、搜索引擎等场景中都有对偶任务。】

       突破之二

       实质上是增加了一个反复推敲暨多方比较择优录取的过程。-邹晓辉

     【推敲网络(Deliberation Networks):

        “推敲”二字可以认为是来源于人类阅读、写文章以及做其他任务时候的一种行为方式,即任务完成之后,并不当即终止,而是会反复推敲。微软亚洲研究院机器学习组将这个过程沿用到了机器学习中。推敲网络具有两段解码器,其中第一阶段解码器用于解码生成原始序列,第二阶段解码器通过推敲的过程打磨和润色原始语句。后者了解全局信息,在机器翻译中看,它可以基于第一阶段生成的语句,产生更好的翻译结果。】 

        突破之三

        这实际上就是一个反复比较的过程。其特点之一就是它巧用了机器学习的功能。-邹晓辉 

      【联合训练(Joint Training):

        这个方法可以认为是从源语言到目标语言翻译(Source to Target)的学习与从目标语言到源语言翻译(Target to Source)的学习的结合。中英翻译和英中翻译都使用初始并行数据来训练,在每次训练的迭代过程中,中英翻译系统将中文句子翻译成英文句子,从而获得新的句对,而该句对又可以反过来补充到英中翻译系统的数据集中。同理,这个过程也可以反向进行。这样双向融合不仅使得两个系统的训练数据集大大增加,而且准确率也大幅提高。】 

        突破之四

        在我看来,就是把约定俗成的做法通过双向互动的过程交给机器学习来做了。妙!-邹晓辉 

      【一致性规范(Agreement Regularization):

        翻译结果可以从左到右按顺序产生,也可以从右到左进行生成。该规范对从左到右和从右到左的翻译结果进行约束。如果这两个过程生成的翻译结果一样,一般而言比结果不一样的翻译更加可信。这个约束,应用于神经机器翻译训练过程中,以鼓励系统基于这两个相反的过程生成一致的翻译结果。】





https://m.sciencenet.cn/blog-94143-1104135.html

上一篇:知识海洋随时随地都可耗尽人的一生,出路就在智慧的融通融合
下一篇:跨学科、跨领域和跨行业的大讨论班(5)(6)(7)

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-23 19:31

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部