科学网

 找回密码
  注册

tag 标签: 神经机器翻译

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

[转载]融合篇章结构位置编码的神经机器翻译
Kara0807 2020-10-14 13:44
融合篇章结构位置编码的神经机器翻译 亢晓勉 1,2 , 宗成庆 1,2 1 中国科学院自动化研究所模式识别国家重点实验室,北京 100190 2 中国科学院大学,北京 100049 【摘 要】 现有的文档级神经机器翻译方法在翻译一个句子时大多只利用文档的上下文词汇信息,而忽视了跨句子的篇章语义单元之间的结构关系。针对此问题,提出了多种篇章结构位置编码策略,利用基于修辞结构理论的篇章树结构,对篇章树上位于不同篇章单元的单词之间的位置关系进行了表示。实验表明,通过位置编码的方式,在基于Transformer框架的神经机器翻译模型中有效地融合了源端的篇章结构信息,译文质量得到了显著提升。 【关键词】 神经机器翻译 ; 篇章结构 ; 位置编码 ; 篇章分析 ; 修辞结构理论 【引用格式】 亢晓勉,宗成庆. 融合篇章结构位置编码的神经机器翻译 . 智能科学与技术学报, 2020, 2(2): 144-152. KANG X M, ZONG C Q. Fusion of discourse structural position encoding for neural machine translation . Chinese Journal of Intelligent Science and Technology, 2020, 2(2): 144-152. 1.引言 近年来,随着人工智能技术在自然语言处理任务中的广泛应用 ,机器翻译(machine translation, MT)得到了快速发展。但是,无论是基于规则的翻译方法,还是统计机器翻译(statistical machine translation,SMT)方法和神经机器翻译(neural machine translation,NMT)方法,通常是以句子为单位进行翻译的。在实际场景中,常常需要翻译一个完整的段落或者文档,此时句子级的翻译系统只能孤立地翻译文档中的每个句子。但事实上,文档具有衔接性和连贯性,文档中的句子之间存在指代、省略、重复等衔接现象和语义的连贯关系。因此,在翻译时应当考虑文档上下文的影响,确保生成更加准确、连贯的译文。 尽管近年来研究人员不断提出文档级别的机器翻译方法,但很少有工作关注篇章语义单元之间的结构关系。特别是在NMT系统中,目前的文档级神经机器翻译(document-level neural machine translation,DocNMT)方法主要着力于网络结构的设计,以更有效地利用上下文句子。一部分研究者也开始针对文档中的衔接现象提出了相应的评价方法和模型。 但这些工作在利用上下文时大多直接使用注意力(attention)机制自动学习单词之间的关系,并未对篇章语言学理论中研究的篇章单元之间的结构化信息进行建模。针对这一问题,本文首次探索了在DocNMT系统中融合篇章结构信息。 文档的结构化表示早已引起篇章语言学者的关注。他们提出了主位推进理论、分段式语篇表示理论等篇章理论,对文档中语义单元之间的关系进行了形式化表示。其中,修辞结构理论(rhetorical structure theory,RST)得到了广泛研究和应用。RST认为,文档可以用树形结构来表示。树的叶节点被称为基本篇章单元(elementary discourse unit,EDU),是最小的篇章语义单位。非终端节点由 2 个或多个相邻的篇章单元向上合并构成。在合并时,语义上更加重要的单元被称为“核心(nucleus)”,修饰“核心”的其他单元则被称为“卫星(satellite)”。“核心-卫星”关系又被细化为转折、递进等多种修辞关系。在图1所示的例子中,文档包含 3 个句子( S 1 ~S 3 ),被切分为 4 个 EDU ( e 1 ~e 4 )。 图中的树结构中标注了3种修辞关系(证明、连接、阐述),箭头所指为“核心”单元。 RST风格的篇章自动分析器的构建任务一直是篇章分析的重要研究方向,RST结构也被成功应用于情感分析、自动文摘等自然处理任务中。 在机器翻译中,参考文献基于目标端RST结构设计了评价方法。 参考文献在SMT系统中针对复句的翻译提出了根据RST结构对EDU的翻译进行调序的方法。 但在 NMT 系统中,尚未有工作探索如何利用篇章的结构信息。 图1RST篇章结构树的例子 本文针对NMT中Transformer结构的特点,首次提出在文档翻译中采用位置编码的方式来融合基于RST的篇章结构信息。本文以段落为单位进行翻译。首先,笔者通过已有的篇章分析工具对源端待翻译的段落进行解析,得到对应的篇章树。之后,本文提出了5种简单而有效的策略,对每个单词在篇章树中所属的EDU范围、EDU之间的层次位置、“核心-卫星”关系等结构信息进行编码表示,通过位置编码的方式增强编码器对源语言单词的编码能力。本文在 DocNMT 模型上对提出的篇章结构位置编码策略进行了验证。在英译中和英译德任务的多个数据集上的实验结果表明,本文的方法可以有效地编码篇章中的结构信息,从而改善文档翻译的质量。在英译中任务上,翻译评价指标(bilingual evaluation understudy,BLEU)值获得了最高0.78个百分点的提升。 2. 研究背景和现状 2.1 文档级机器翻译 DocNMT 模型所利用的上下文既可以是源语言端的其他句子 , 也可以是目标语言端翻译过的历史句子 。 同时,根据上下文句子所在的范围,DocNMT 方法还可以被分为在线(online)方法和离线(offline)方法:前者仅利用当前待翻译句子之前的句子作为上下文,而后者则使用文档中除当前翻译句子之外的所有句子作为上下文。由于篇章树结构的构建需要全局的上下文,因此在本文中,设定待翻译句子的上下文为源语言端的所有其他句子。 已有 DocNMT 方法对上下文的使用方式主要包含2类:级联和层次化。参考文献将所有上下文句子级联成一个更长的单词序列,进而通过注意力机制进行编码。参考文献则先对每个上下文句子分别进行attention操作,生成各自的句子向量,再对句子向量进行 attention,生成最终的上下文语义表示。 无论设定何种上下文来源和使用方式,现有的DocNMT模型都没有利用篇章结构信息,且没有对篇章结构信息进行建模。 2.2 Transformer NMT是目前主流的机器翻译方法。它采用端到端的序列生成框架,包括编码器和解码器 2 个部分。在翻译时,NMT先通过编码器将源语言句子中的单词编码为语义表征向量,再由解码器根据源端的语义表征向量和已经生成的目标端历史序列,逐词地生成目标端的翻译结果。Vaswani等人于2017年提出了Transformer结构,在多个翻译任务上的性能都明显地超越了基于循环神经网络和卷积神经网络的NMT方法。本文提出的方法和基准模型是基于Transformer结构实现的。 Transformer结构通过多头自注意力(multi-head self-attention)机制直接捕捉句子中任意2个单词之间的关系。具体地,设词向量维度为 d,源语言句子为 。经过线性变换,可以得到3个不同的向量: 其中, 为线性变换矩阵。 则自注意力机制的输出H通过式(2)得到 : 其中, d k 表示K的维度。 通过Q与K的点积操作,自注意力机制可以建立任意2个单词之间的直接关联,更利于并行计算。 然而,点积造成了序列中位置信息的缺失。因此,为记录单词在句子序列中的位置 pos, Transformer 在编码和解码词向量时引入了重要的位置编码(position encoding,PE)向量。该向量由位置编码函数TransPE(·)得到,计算过程如下: 其中,d为向量的总维度,i为某一维度对应的索引。当 i 为奇数时, ;当 i 为偶数时, 。 原始的位置编码采用的是单词在句子中的绝对位置。在此基础上,参考文献提出了相对位置编码。参考文献采用基于依存句法结构的绝对位置编码和相对位置编码,进一步提升了翻译性能。受这些工作的启发,本文探索基于RST树结构的位置编码,从而有效地利用篇章分析得到的结构信息来帮助提升翻译质量。 3. 篇章结构位置编码 RST表示的篇章结构树具有以下特点。 • EDU 是树的叶节点,通常由小句或短语构成。EDU之间不存在交叉或覆盖,因此文档中的一个单词只能位于一个EDU中。 • 一个非终端节点由它的子节点依据修辞关系合并构成,它包含的文本不要求以句子为单位。 • 篇章树具有多层级的结构,不同EDU在树上的深度不同。 • 合并2个节点时,在语义上,“核心”比“卫星”更加重要。 针对上述RST篇章结构的特点,本文充分利用篇章树中的EDU边界、层级结构和“核心-卫星”关系等结构信息,在第3.1~3.3 节分别设计了5种位置编码策略:绝对EDU位置编码(Abs EDU-PE)、相对EDU位置编码(Rel EDU-PE)、绝对深度位置编码(Abs Depth-PE)、相对深度位置编码(Rel Depth PE)、路径位置编码(Path-PE)。图2 给出了这些编码的示例。需要注意的是,这些位置编码都是以EDU为单位的,因此同一个EDU中的单词拥有相同的篇章结构位置编码。在第3.4节中,笔者将这些位置编码与DocNMT系统进行融合。 图2篇章结构位置编码示例 3.1 EDU位置编码 根据单词所处 EDU 在文档中的位置,本文首先提出了 EDU 位置编码(EDU-PE)。它能够使模型在编码过程中更加清晰地区分由 EDU 分割的语义边界。本文考虑了绝对 EDU 位置编码(Abs EDU-PE)和相对EDU位置编码(Rel EDU-PE)2种策略。相对 EDU 位置编码是根据上下文单词所处EDU相对于当前编码单词所处EDU的位置进行编码的,当前EDU中的单词的位置编码为0,位于它前面的EDU编码为负值,位于它后面的EDU编码为正值。 3.2 深度位置编码 为了利用单词所处 EDU 在篇章树上的深度信息,本文提出了绝对深度位置编码和相对深度位置编码2种策略。 (1)EDU节点的绝对深度abs_depth的计算 步骤 1 计算各 EDU 节点的原始深度ori_depth。本文定义最上层EDU节点的原始深度为0,其他EDU节点的原始深度自顶向下逐层递增。在图2中, e 1 、 e 2 、 e 3 、 e 4 的原始深度分别为0、2、2、1。 步骤2 若2个EDU节点互为兄弟节点且构成“核心-卫星”关系,则对它们的深度进行修正(具有“多核心”关系的 EDU 的绝对深度和相对深度不修正)。虽然这2个EDU在篇章树上的原始深度相同,但核心EDU比卫星EDU更重要,因此核心EDU 的绝对深度abs_depth=ori_depth-0.5,卫星EDU的绝对深度abs_depth=ori_depth+0.5。例如图2中, e 2 、 e 3 的绝对深度分别被修正为2-0.5=1.5和2+0.5=2.5。 (2)EDU节点的相对深度rel_depth的计算 步骤1 计算各EDU节点的原始深度ori_depth。其计算过程与计算绝对深度的步骤1相同。 步骤 2 计算 EDU 的相对原始深度ori_depth rel 。当前EDU节点e的相对原始深度为固定值 0。其他 EDU 节点e′的相对原始深度为ori_depth rel =ori_depth(e′)-ori_depth(e)。在图2的例子中,若e 2 为当前 EDU,则 e 1 、 e 2 、 e 3 、 e 4 的相对原始深度分别为-2、0、0、-1。 步骤3 若2个EDU节点互为兄弟节点,并且构成“核心-卫星”关系,那么需要基于相对原始深度ori_depth rel 对它们进行深度修正。修正方式与计算绝对深度的步骤2相同,当前EDU节点的相对深度不做修正。因此, e 2 、 e 3 的相对深度分别为0和0+0.5=0.5。 3.3 路径位置编码 本节根据篇章树上EDU之间的路径和“核心-卫星”关系计算路径位置编码。首先,本文根据“核心-卫星”关系对篇章树上所有的边进行赋值。“核心”边的权重为常数 w N ( w N ≥0.5),“卫星”边的权重为 w S =1- w N 。其次,固定当前EDU节点e中单词的路径位置编码为0。对任意的其他EDU节点e',通过以下3个步骤计算它的路径位置编码。 步骤1 在树上寻找e与e′的共同父节点 n fathe r 。 步骤 2 分别得到e′到 n father 的路径Path(e'→ n father )和 e 到 n father 的路径Path(e→ n father )。找到位于Path(e→ n father )上的 n father 的子节点,记作 。 步骤3 节点e′相对于当前EDU节点e的路径位置编码PathPE(e')的计算式如下: 2的示例中,假设当前的EDU节点e= e 2 ,核心边权重 w N =0.8 。在计算节点e′= e 1 相对于e 2 的路径位置编码时,依据上述步骤可以得到 n father =n 1 4 , Path(e'→n father )=e 1 →n 14 , Path(e→n father )=e 2 →n 23 →n 24 →n 14 , =n 24 。因此,P(e,e′)中包含的边有3条: e 1 →n 14 (w N ) 、 e 2 →n 23 (w N ) 、 n 23 →n 24 (w N ) 。则e 1 相对于e 2 的路径位置编码表示为1/(1-log 0.8 × 3)≈0.77。 3.4 与机器翻译的融合 本文将上述方法得到的各种位置表示统一称为篇章结构位置(discourse structural position, DSP)。本文将篇章结构位置编码与Transformer结构下的文档翻译模型进行融合。本文在实验中对比了以下2种融合方式。 (1)加法方式 与原始Transformer中的单词绝对位置编码一样,本文将经过 TransPE(.)得到的篇章结构位置编码TransPE(DSP)直接与词向量相加。 (2)非线性方式 受参考文献的启发,本文尝试将篇章结构位置编码 TransPE(DSP)与原始的单词绝对位置编码 TransPE(pos)通过非线性函数进行融合,得到最终的位置编码,再与词向量相加,如式(5)所示: 其中,W和b是可学习的参数。多种篇章结构位置编码可以混合使用,此时非线性融合方式中的TransPE(DSP)为多种位置编码的级联。 4.实验设置 4.1 实验数据 本文的实验使用英译中、英译德的TED演讲数据和英译德 Europarl 数据。其中,TED 演讲数据来自IWSLT17评测,英译中和英译德的TED演讲数据分别包含1 906 和1 698篇演讲,平均每篇演讲包含121个句子。在2个语言对上均选取dev-2010作为开发集,tst-2013~2015作为测试集。考虑到TED数据集规模较小,本文也在大规模的Europarl数据上进行了实验。该数据由Maruf等人整理提供。本文中训练集、开发集、测试集的设置与参考文献一致。 在实验时,考虑到内存大小的限制,笔者对原始的文本进行段落划分,将一个段落视作一个篇章来验证本文的方法。本文采用与参考文献相同的设置,以每 16 个句子作为一个段落进行划分。划分后的数据规模的统计见表1。表中数据分别表示训练集、开发集和测试集的规模。 4.2 基准模型 本文在基于Transformer结构的DocNMT模型上进行实验。为了公平起见,本文选择在编码器端对上下文信息进行融合。由于篇章树的构建要求分析篇章中的所有句子,因此本文的翻译模型使用离线的上下文,即文档中除当前句子之外的所有其他句子。因此,本文在参考文献提出的 2 种使用离线上下文的文档翻译方法(FlatAtt、HierAtt)中加入篇章结构位置编码。本文将与以下3个基准模型进行比较。 • Base:标准句子级Transformer翻译模型。该模型使用参考文献中的“base”模型进行参数设置。 • FlatAtt:参考文献中的“Attention word”策略。即分别对每个上下文句子进行编码,再将编码后的所有上下文单词的状态向量进行拼接得到新的序列,计算当前单词与该序列中单词的attention。 • HierAtt:该模型分别计算当前单词与每个上下文句子中单词的 attention 以及整个句子的attention。本文采用参考文献中的“H-Attention sparse-soft”策略。 本文使用开源工具THUNMT复现了上述3个基准模型。所有模型均使用6层编码器和6层解码器,多头注意力机制的头数为 8,隐变量和前馈层的维度大小分别为512和2 048。在英译中TED任务中,英文和中文词表大小分别为25 K 和30 K。在英译德翻译任务中,源语言和目标语言共享同一个词表,在 TED 语料和 Europarl 语料上的词表规模分别为15 K和30 K。所有语料在翻译前都要通过双字节编码(byte pair encoding,BPE)处理切分为子词。由于本文提出的篇章结构位置编码得到的是词的位置表示,因此属于同一个单词的子词具有相同的篇章结构位置编码。 现有的 DocNMT 模型大多是通过两阶段法训练得到的:第一阶段训练一个句子级的翻译系统,在此基础上再在第二阶段训练文档级翻译的相关模块。本文只在DocNMT模型训练的第二阶段引入篇章结构位置编码。在训练时,本文以段落为单位随机打乱语料,但不改变段落内部的句子顺序。训练的最小批次设置为3 000个字符。本文的模型参数通过 Adam 方法进行更新,该方法中的参数β 1 =0.98,β 2 =0.98。 4.3 RST篇章分析 本文提出的方法需要提前解析被翻译的文档。RST 风格的篇章自动分析器的构建一直是篇章分析中的重要研究方向。RST风格的篇章分析主要包括2个步骤:EDU的切分和树结构的建立。目前基于神经网络的英文篇章分析器已经取得了不错的效果。由于缺少标注语料等问题,其他语言上的RST篇章分析的研究成果较少,因此本文以英文作为翻译的源语言来验证本文提出的方法。本文使用开源的英文RST篇章分析工具DPLP对英文段落进行解析得到树结构。不考虑修辞关系识别的结果,DPLP结构解析的核心性(nuclearity)F1值在公开的新闻领域测试集上可以达到71.13 %。由于训练该工具的RST语料是在新闻领域进行标注的,所以本文对DPLP在TED演讲数据上的表现做了简单分析。本文从英译德 TED语料中随机抽取50个段落,人工标注了它们的篇章结构树。在50个段落中使用DPLP进行自动解析的核心性F1值为58.3%。 可以看出,尽管DPLP在TED演讲数据上相比标准新闻领域测试集性能有明显下降,但仍然可以正确解析多数的篇章结构。因此,本文利用该篇章分析工具的结果在DocNMT中引入篇章结构信息。 5. 实验结果与分析 本文在英译中TED演讲数据、英译德TED演讲数据和英译德Europarl数据集上测试提出的篇章结构位置编码方法,用BLEU值评价翻译的译文质量。在解码时,束搜索的大小设为4。 5.1 路径位置编码中的权重 为了确定在路径位置编码计算(第3.3节)中最优的“核心”边权重w N ,本文在英译德TED开发集数据上进行调参。本文在HierAtt模型上使用非线性融合方式加入路径位置编码。不同“核心”边权重的BLEU值如图3所示。当w N 为0.8时,融合Path-PE的文档级翻译模型能生成BLEU值最大的译文。在后续实验中,w N 的取值为0.8。 图3不同“核心”边权重的BLEU值 5.2 篇章结构位置编码策略的比较 本文首先在英译德 TED 开发集数据上讨论了不同的篇章结构位置编码策略和融合方式对DocNMT 模型性能的影响。本节实验统一采用HierAtt模型。篇章结构位置编码策略的比较见表2。 表2中模型3~7使用第3.4节中的加法融合方式,在DocNMT模型中引入篇章结构位置编码;模型8~12使用非线性融合方式。从表2可以看出以下信息。 • 在文档级翻译模型HierAtt中增加篇章结构位置编码后可以提升BLEU值,其中,通过非线性的方式融合路径位置编码(模型12)带来的提升最大,提升了0.51%。 • 对比 2 种融合方式可以看出,在对深度位置编码和路径位置编码进行融合时,非线性融合方式的效果优于加法融合方式。这 2 种编码策略与RST树的层次结构相关。而对于EDU位置编码的使用来说,2种融合方式没有明显区别。 • 对比分别使用EDU信息(模型3~4、8~9)、深度信息(模型5~6、10~11)和路径信息(模型7、12)的编码策略可以看出,路径位置编码对模型性能的改善最为显著,深度位置编码(Depth-PE)次之,EDU位置编码(EDU-PE)带来的提升最小。 • 在加法融合方式中(模型 3 对比模型 4,模型 5 对比模型 6),绝对位置编码的翻译效果更好,而在非线性融合方式中(模型8 对比模型 9,模型10对比模型11),相对位置编码的翻译效果更好。但无论是绝对位置编码还是相对位置编码,同种融合方式下二者的差异并不显著。 基于上述分析,本文选择基于非线性融合方式的3种策略:相对EDU位置编码、相对深度位置编码和路径位置编码作为之后实验的篇章结构位置编码。 5.3 主要结果 本文分别在第4.1 节所述的英译中TED 演讲数据、英译德TED演讲数据和英译德Europarl测试集上进行测试。表3展示了在HierAtt模型上运用非线性融合方式加入篇章结构位置编码后的BLEU值。表3中,“+”表示在HierAtt模型中加入篇章结构位置编码,“*”表示进行显著性检验后相较于 HierAtt统计显著(显著性检验概率p0.5)。各测试集中BLEU值最高的结果用粗体标记。 与句子级的翻译模型(Base)相比,文档级翻译模型(HierAtt)可以借助全局的上下文提升翻译质量,在此基础上,加入本文提出的篇章结构位置编码可以进一步提升文档级翻译模型的性能。与HierAtt模型相比,本文的方法在英译中TED演讲数据、英译德 TED 演讲数据和英译德 Europarl 数据上的 BLEU 值分别取得了最高 0.78%、0.66%和0.52%的提升。 同时,根据表3的实验结果可以得出如下结论。 • 相较于仅包含序列化 EDU 切分信息的EDU位置编码,基于篇章树的层级结构和“核心-卫星”关系的深度位置编码和路径位置编码对提升翻译质量有更大的帮助。 • 同时使用多种编码策略的效果优于单独使用一种编码策略。不同的编码策略可以从不同角度更全面地捕捉篇章中位于不同 EDU 之间的单词的结构关联。 5.4 篇章结构位置编码对模型的影响 本节讨论篇章结构位置编码在不同的文档级翻译模型上的影响大小。本文分别在2种文档级翻译模型FlatAtt和HierAtt中同时加入相对EDU位置编码、相对深度位置编码和路径位置编码,不同的文档级翻译模型在英译中 TED 测试集上的结果见表4。可以看出,尽管使用层次化 attention 的HierAtt模型能够更好地利用上下文信息,但篇章结构位置编码对FlatAtt模型的提升更加显著。 6.结束语 篇章结构是语义的一种形式化表示,已经在篇章分析领域被研究多年。然而,对于文档级神经机器翻译而言,目前的方法大多只是从模型的角度出发去探索有效的网络结构,并未真正利用篇章分析的结论对模型进行指导。 本文首次尝试探索了修辞结构理论表示的篇章结构在基于 Transformer 的文档级神经机器翻译中的应用。本文提出了多种篇章结构位置编码策略,对RST篇章树中的EDU边界、深度、“核心-卫星”关系等结构信息进行了表示,并通过位置编码与文档级翻译模型进行融合,在一定程度上改善了文档级翻译模型的性能。 在未来工作中,笔者将进一步探索:如何在翻译模型中模拟对篇章结构的解析过程,减少篇章分析工具带来的误差传递;如何利用大规模单语文档数据自动地学习适合于翻译任务的篇章结构,缓解模型对篇章分析工具的依赖。 作者简介 About authors 亢晓勉(1991-),男,中国科学院自动化研究所模式识别国家重点实验室博士生,主要研究方向为机器翻译、篇章分析 。 宗成庆(1963-),男,博士,中国科学院自动化研究所模式识别国家重点实验室研究员、博士生导师,主要研究方向为机器翻译、自然语言处理和文本数据挖掘等。
个人分类: 智能科学与技术学报|2314 次阅读|0 个评论
MT 不是魔术,但是,有时几乎就是魔术一般神奇
liwei999 2018-2-11 08:52
校长: 因为缅因州法条文少了个逗号,牛奶公司吃官司付出500万美金: Maine law requires time-and-a-half pay for each hour worked after 40 hours, but it carved out exemptions for: The canning, processing, preserving, freezing, drying, marketing, storing, packing for shipment or distribution of: agricultural produce; meat and fish products; and perishable foods. What followed the last comma in the first sentence was the crux of the matter: packing for shipment or distribution of. The court ruled that it was not clear whether the law exempted the distribution of the three categories that followed, or if it exempted packing for the shipment or distribution of them. Had there been a comma after shipment, the meaning would have been clear. 原来我这些年学的都是假英文 不过法庭favor劳工,就已经甩天朝几万条街了。在那片国土,只有高端人口才可以随意耍流氓。。。 李: “ 缅因州法律规定,在40小时后,每小时的工作时间为1.5美元,但它却为:罐装、加工、保存、冷冻、干燥、销售、储存、包装运输或分发农业产品提供了豁免。肉类和鱼类产品;和易腐食品。在第一句话中最后一个逗号是问题的关键:“包装运输或分配。”法院裁定,不清楚该法律是否豁免了随后的三种类别的分配,或是否豁免了对其装运或分销的包装。如果在“装运”之后有一个逗号,意思就清楚了。 ” 这是有道翻译,比像我这样的英语专业生在时间压力下去翻译这段,要强多了。顺便向 有道 同人致敬一下,他们超越了名震天下的 谷歌翻译 。谢谢他们提供的免费服务,我经常用它,其实是愿意付费的。MT 连同互联网,与水和空气一样,成了不值钱的必需品。 “1.5 美元” 是一个巨大的错译,应该是一倍半加班费的意思,神经机器翻译的错译问题已经是一个被反复曝光的痛点,在追求顺畅(达雅)的同时,牺牲了精准(信)。 我是这么看机器翻译走向的: (1) 机器翻译一定会译错,所以认真使用前需要核对。 (2)核对所花时间 比一切靠人翻译 节省太多人工了。翻译员市场萎缩以后,大批译员会退出,少量留存的是那些知道善用机器的核对员,这个工作不会被取代:核对校订的需求永远存在。 (3) 机器翻译本身在进步,明天的错应该比今天的少。 (4)论顺畅 机器越来越赶上或超越人 因为机器是在海量数据里面找 norm,而一个个体,无论学了多少年的外语,都是有限的语言接触,偏离 norm 的可能远大于机器,因此更容易生硬,尤其是在时间压力下。我本人偏好顺畅,更甚于精准,因为翻译错误我一眼可以看出来做译后编辑,但顺畅我老感觉自己还有很多力不从心的时候,需要机器帮助。自己常觉得写不顺,但评判顺不顺还是容易很多。因此,翻译工作先交给机器,然后自己校订,无论纠错,还是找出个别不顺达的细节,都容易很多,因为苦活累活机器做了。 校长: @wei 有道翻译可以免费用么?amazing! 李: http://fanyi.youdao.com/ try it yourself 天下真有免费午餐的。 有道的傻瓜式袖珍翻译器 大约100多美元 可以买一台 周游世界的时候用。 校长: @wei 我靠!你没感受到同行竞争压力? 李: 感到压力的应该是讯飞。他们也出了个翻译器,好像很贵? 这个行业整体提升了,保持领先已经很难。 巨头谷歌 也不能。 我早跟MT说拜拜了,前几年还较劲,觉得统计MT鲁棒是鲁棒,意思也勉强可以出来,但出来的译文惨不忍睹,想着有空怼一怼统计。神经翻译出来后,基本熄灭了狂妄,顾左右不言他,反给它做宣传,吹喇叭了。(【 谷歌NMT,见证奇迹的时刻 】) 当然,任何技术都有短板(行话叫知识瓶颈),譬如进入一个没有人工翻译大数据可以学习的领域,神经系统就抓瞎了,譬如电商数据的机器翻译目前的可用度不到 30%(相比较:在新闻领域,机器翻译的可用度高过90%),就是说几乎完全不可用。 校长: 正确选择 典型的乱拳打死老师傅 李: AI 这次炒热其实是有群众基础的,不完全是媒体鼓噪和精英忽悠。一个是神经机器翻译,一个是语音识别(如 讯飞的自动速记和语音输入),还有一个是人脸和图像识别,这三块儿的进步,不是忽悠,而是现实。还有一个对话,从苹果的 Siri 开始,虽然还有磕磕绊绊,虽然绝大多数普罗还是拿它当玩具,落地应用的产品多不成熟,但 Siri 还是启蒙了大众和教育了市场。这些都是普罗百姓可以亲眼见证和切身体会的科技奇迹。这些个东西激发了草根的想象力。于是,AI 热在民间还是很时髦正面的形象。 留个证据图 以防哪天系统退化(虽然是小概率事件:但马斯克昨天说 科技并不自动进步 逆水行舟 不进则退 它举的是航天技术在 SpaceX 前停滞不前反而退化的例子) MT奇迹不得重复。先防着别人怀疑假造,说不可信: 校长: 本来就是不进则退。很多科幻片里面未来都是破破烂烂破铜烂铁。就是天上一堆飞船在shithole上面飞。我认为那更接近未来的发展方向。 李: 那个是科幻,对科幻,no comment 今天,领导在网上查看 IKEA 网页上的商品,问几个单词怎么讲,我说以后不用问我了,我给你的 iPhone 装了有道,比我强多了,还 handy,可她懒得查词典。我说,你不用查,拍个照就行了,打开 app 有个“拍照翻译”的按钮。wow: 挑错永远可以挑,能做到这么贴心、intuitive,乔布斯再世,也不过如此了。 Guo: @wei 真要给你泼泼冷水了。哈,也不能太不顾事实啊。“复习空气”,完全不搭啊。这可是连“流畅”也不及格的。打住吧! 李: 还有 39.9克。 原文是: Airy, soft seersucker duvet covers with a naturally crinkled texture. The beautiful cotton fabric breathes and feels cool against your skin, which is extra comfortable during warm summer nights. Size: Twin 这玩意儿我不查词典也翻译不了,特别是第一句。领导以为我是英语大拿,这辈子没少拿这些东西问我,我哪里记得住这些家庭主妇关心的“领域词汇”啊?每次我被问住了,形象分就损减一分,一辈子下来,在家里我这英语专家的光环已经消磨殆尽了。呵呵。 郭: 看看微信自带的翻译: 轻盈、柔软的泡泡纱被套,具有自然的皱褶质感。美丽的棉织品呼吸和感觉凉爽的皮肤,这是特别舒适,在温暖的夏季夜晚。 大小:双胞胎 李: 不错 不错。这就是我说的,这是整个行业的技术提升,不是哪一家可以专美的了。语音、图像和MT。 $39.99 翻译成 39.9克 原来是因为 OCR 识别成 39.9g 了 哈。实在说,9 跟 g 长得的确差不离儿,加上在数字后常见,也是事出有因。 可惜了前面那个 $ sign 的痕迹。 这个也好玩 请看: 这张截屏里 头两句很顺 最下一句莫名其妙:原因是我不小心按了 英语 的话筒 说的却是汉语 哈哈。这岂止是垃圾进垃圾出啊。但它一本正经给你匹配完全错位的语音 也不设个置信下限 一样翻译出莫名其妙貌似顺畅的句子来。 “英语按钮” 转写成 “英语的二牛”(为什么不是二妞呢),继而翻译成 English two cattle. 有道自己做的翻译器 却把自己的品牌名“有道”, 在英语读出来一个古怪的读音 哈。我说的是 “这个我得反映给有道”,成了“这个我的反应跟有道理”,考虑到我的口音,难为它了,倒也情有可原。 下面的实验是读一段英文新闻 翻译基本没问题。 接着到文学城找一篇中文新闻,读给它听: 不可思议地顺畅 精准,甚至那些百分比 那些数字 也能“听懂”我的口音。 有点吓倒了。老革命心脏也不都好。 最后是我阅读的新闻的网页截屏 有兴趣可以自己对照一下。 这一切 是在我这种普通话不标准 有口音干扰的信道中发生的。错误放大理论会说 这种翻译是完全不可能的,见证的不是奇迹,只能是AI魔术。 想起来谁说过的名言:“ NLP 不是魔术,但是,其结果有时几乎就是魔术一般神奇。 ” 【相关】 【开复老师说:AI 是最好的时代,也可能是最坏的时代】 【 谷歌NMT,见证奇迹的时刻 】 【 立委随笔:猫论,兼论AI福兮祸兮 】 有道的机器翻译 ( http://fanyi.youdao.com/) 谷歌翻译 https://translate.google.com/ 【语义计算:李白对话录系列】 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|4031 次阅读|0 个评论
神经机译:川普宣告,米国人民今天站起来了
热度 4 liwei999 2017-1-21 06:16
虽然有跨国抄袭嫌疑,川普宣告,人民当家作主,米国人民今天站起来了! 川普今天总统登基,发表就职演说, 谷歌神经翻译 如下,请听(作为一个老机译,给这篇机器翻译打分的话,我会给忠实度85分,顺畅度90分,可懂度95分,个人觉得已经超越人工现场翻译的平均水平): 神经机器翻译的现场录音 。 TRUMP:首席大法官罗伯茨,卡特总统,克林顿总统,布什总统,奥巴马总统,美国人和世界人民,谢谢。 我们,美国公民,现在加入了伟大的国家努力,重建我们的国家,恢复其对我们所有人民的承诺。 在一起,我们将决定美国和世界的路线许多,未来几年。我们将面临挑战,我们将面临艰难,但我们将完成这项工作。 每四年,我们将采取这些步骤,进行有秩序和和平的权力转移,我们感谢奥巴马总统和第一夫人米歇尔奥巴马在这一过渡期间的恩典援助。他们是壮观的。谢谢。 然而,今天的仪式具有非常特殊的意义,因为今天我们不仅仅是将权力从一个政府转移到另一个政府,或从一个政党转移到另一个政府,而是我们从华盛顿转移权力,并将其交还给你,人民。 长期以来,我们国家首都的一个小团体获得了政府的奖励,而人民承担了成本。华盛顿蓬勃发展,但人民没有分享其财富。政治家兴旺,但工作离开,工厂关闭。企业保护自己,但不是我们国家的公民。他们的胜利不是你的胜利。他们的胜利不是你的胜利。虽然他们在我们国家的首都庆祝,但没有什么可以庆祝在我们的土地上奋斗的家庭。 所有的变化从这里开始,现在,因为这一刻是你的时刻,它属于你。 它属于今天聚集在这里的每个人,每个人都在整个美国。这是你的一天。这是你的庆祝。而这个,美利坚合众国,是你的国家。 真正重要的不是哪个党控制我们的政府,而是我们的政府是否由人民控制。 2017年1月20日将被记住为人民成为这个国家的统治者的那一天。 我们国家被遗忘的男人和女人将不再被忘记。 每个人都在听你的。你来自成千上万的人成为历史运动的一部分,世界从未见过的那些喜欢。 在这个运动的中心是一个关键的信念,一个国家存在为其公民服务。美国人想要他们的孩子的伟大的学校,他们的家庭的安全的邻里,并为自己好的工作。这些是对义人和公义的公正和合理的要求。 但对于我们太多的公民,存在一个不同的现实:母亲和儿童陷入我们内部城市的贫困;生锈的工厂散落像墓碑横跨我们国家的景观;教育制度与现金齐齐,但使我们年轻美丽的学生失去了所有的知识;和犯罪,帮派和毒品偷走了太多的生命,抢夺了我们国家这么多未实现的潜力。 这美国大屠杀停在这里,现在停止。 我们是一个国家,他们的痛苦是我们的痛苦。他们的梦想是我们的梦想。他们的成功将是我们的成功。我们分享一颗心,一个家,一个光荣的命运。我今天所做的宣誓就是对所有美国人的忠诚宣誓。 几十年来,我们以牺牲美国工业为代价丰富了外国产业;补贴了其他国家的军队,同时允许我们的军队非常悲伤的消耗。我们捍卫了其他国家的边界 ,拒绝为自己辩护。 在海外花费了数万亿美元,美国的基础设施已经失修和腐烂。我们已经使其他国家富有,而我们国家的财富,实力和信心已经消失了地平线。 一个接一个地,工厂关闭了,离开了我们的岸边,甚至没有想到数百万和数百万留在美国工人。我们的中产阶级的财富已经从他们的家里被剥夺,然后再分配到世界各地。 但这是过去。现在,我们只看到未来。 我们今天聚集在这里,正在发布一项新法令,在每个城市,每个外国首都和每一个权力大厅上听到。从今天起,我们的土地将有一个新的愿景。从这一天开始,它将只有美国第一,美国第一。 每一项关于贸易,税收,移民,外交事务的决定都将使美国工人和美国家庭受益。我们必须保护我们的边界免受其他国家的蹂躏,使我们的产品,偷窃我们的公司和破坏我们的工作。 保护将导致巨大的繁荣和力量。我会为我的身体每一口气,为你而战,我永远不会让你失望。 美国将再次赢得胜利,赢得前所未有的胜利。 我们将带回我们的工作。 我们将带回我们的边界。 我们将会 Google Translated from: TRUMP: Chief Justice Roberts, President Carter, President Clinton, President Bush, President Obama, fellow Americans and people of the world, thank you. We, the citizens of America, are now joined in a great national effort to rebuild our country and restore its promise for all of our people. Together, we will determine the course of America and the world for many, many years to come. We will face challenges, we will confront hardships, but we will get the job done. Every four years, we gather on these steps to carry out the orderly and peaceful transfer of power, and we are grateful to President Obama and First Lady Michelle Obama for their gracious aid throughout this transition. They have been magnificent. Thank you. Today's ceremony, however, has very special meaning because today, we are not merely transferring power from one administration to another or from one party to another, but we are transferring power from Washington, D.C. and giving it back to you, the people. For too long, a small group in our nation's capital has reaped the rewards of government while the people have borne the cost. Washington flourished, but the people did not share in its wealth. Politicians prospered, but the jobs left and the factories closed. The establishment protected itself, but not the citizens of our country. Their victories have not been your victories. Their triumphs have not been your triumphs. And while they celebrated in our nation's capital, there was little to celebrate for struggling families all across our land. That all changes starting right here and right now because this moment is your moment, it belongs to you. It belongs to everyone gathered here today and everyone watching all across America. This is your day. This is your celebration. And this, the United States of America, is your country. What truly matters is not which party controls our government, but whether our government is controlled by the people. January 20th, 2017 will be remembered as the day the people became the rulers of this nation again. The forgotten men and women of our country will be forgotten no longer. Everyone is listening to you now. You came by the tens of millions to become part of a historic movement, the likes of which the world has never seen before. At the center of this movement is a crucial conviction, that a nation exists to serve its citizens. Americans want great schools for their children, safe neighborhoods for their families, and good jobs for themselves. These are just and reasonable demands of righteous people and a righteous public. But for too many of our citizens, a different reality exists: mothers and children trapped in poverty in our inner cities; rusted out factories scattered like tombstones across the landscape of our nation; an education system flush with cash, but which leaves our young and beautiful students deprived of all knowledge; and the crime and the gangs and the drugs that have stolen too many lives and robbed our country of so much unrealized potential. This American carnage stops right here and stops right now. We are one nation and their pain is our pain. Their dreams are our dreams. And their success will be our success. We share one heart, one home, and one glorious destiny. The oath of office I take today is an oath of allegiance to all Americans. For many decades, we've enriched foreign industry at the expense of American industry; subsidized the armies of other countries, while allowing for the very sad depletion of our military. We've defended other nations' borders while refusing to defend our own. And spent trillions and trillions of dollars overseas while America's infrastructure has fallen into disrepair and decay. We've made other countries rich, while the wealth, strength and confidence of our country has dissipated over the horizon. One by one, the factories shuttered and left our shores, with not even a thought about the millions and millions of American workers that were left behind. The wealth of our middle class has been ripped from their homes and then redistributed all across the world. But that is the past. And now, we are looking only to the future. We assembled here today are issuing a new decree to be heard in every city, in every foreign capital, and in every hall of power. From this day forward, a new vision will govern our land. From this day forward, it's going to be only America first, America first. Every decision on trade, on taxes, on immigration, on foreign affairs will be made to benefit American workers and American families. We must protect our borders from the ravages of other countries making our products, stealing our companies and destroying our jobs. Protection will lead to great prosperity and strength. I will fight for you with every breath in my body, and I will never ever let you down. America will start winning again, winning like never before. We will bring back our jobs. We will bring back our borders. We will ...... 【相关】 Newest GNMT: time to witness the miracle of Google Translate 【谷歌NMT,见证奇迹的时刻】 【 关于机器翻译 】 《朝华午拾》总目录 【置顶:立委NLP博文一览】 【 立委NLP频道 】
个人分类: 立委科普|2452 次阅读|4 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-20 07:23

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部