科学网

 找回密码
  注册
科学网 标签 机器翻译 相关日志

tag 标签: 机器翻译

相关日志

《语言形式的无中生有:从隐性到显性》
liwei999 2020-5-13 04:51
话说华裔语言学泰斗赵元任先生曾经有过一个游戏名作,通篇只用同一个音,讲了这么个故事,天下人无不叫绝。 《施氏食狮史》 石室诗士施氏,嗜狮,誓食十狮。氏时时适市视狮。十时,适十狮适市。是时,适施氏适市。氏视是十狮,恃矢势,使是十狮逝世。氏拾是十狮尸,适石室。石室湿,氏使侍拭石室。石室拭,氏始试食是十狮尸。食时,始识是十狮尸,实十石狮尸。试释是事。 这是比较浅白的文言文,读起来拗口,看懂这篇并不难。俏皮在通篇只有一个音节 shi,但对应了文言中不同的汉字。文言文汉字基本上就是一个独立语素(有意义的最小单位),属于孤立语,没有形态,虚字也极少用。文句主要就是靠实字概念之间的相谐(所谓“意合”)以及语序来表达内容,使人看得懂。 如果我们假设每个汉字对应一个确定的概念(多义汉字可以假设通过二字组或三字组来消歧),那么通过这些概念在西方语言中的词汇对应物及其组合成句的对比,我们就可以把孤立语与形态语之间的句法区别凸显出来。想来做一下这个练习会很有意思的,因为我们可以揭示语言的奥秘之一:无中生有。 这个对比练习最令人启发和好玩的地方,是做文言文与世界语(Esperanto)的对比,因为世界语实词的形态变化有两大特点:第一是形态词尾不可省略(起码词类词尾对于实词是必须存在的,不允许零形式);第二所有的形态变化是100%规则化的。这就会凸显形态这种词尾形式和小词这种形式怎么冒出来的。 咱们先建一部双语词典,让相同概念的实词一一对应: 石:ŝton / 室:ĉambr / 诗:poem / 士:ist / 施:Shi / 氏:S-ro / ,嗜:hobi / 狮:leon / ,誓:promes / 食:manĝ / 十:dek / 狮:leon / 。氏:S-ro / 时:temp / 时:temp / 适:ven / 市:merkat / 视:vid / 狮:leon / 。十:dek / 时:hor / ,适:ĝust / 十:dek / 狮:leon / 适:ven / 市:merkat / 。是:tiu / 时:temp /,适:ĝust / 施:Shi / 氏:S-ro / 适:ven / 市:merkat / 。氏:S-ro / 视:vid / 是:tiu / 十:dek / 狮:leon /,恃:fid / 矢:sag / 势:potencial /,使:kauz / 是:tiu / 十:dek / 狮:leon / 逝:forlas / 世:mond / 。氏:S-ro / 拾:kolekt / 是:tiu / 十:dek / 狮:leon / 尸:korp / ,适:ven / 石:ŝton / 室:ĉambr / 。石:ŝton / 室:ĉambr / 湿:malsek /,氏:S-ro / 使:kauz / 侍:servist / 拭:viŝ / 石:ŝton / 室:ĉambr / 。石:ŝton / 室:ĉambr / 拭:viŝ /,氏:S-ro / 始:ek / 试:prov / 食:manĝ / 是:tiu / 十:dek / 狮:leon / 尸:korp /。食:manĝ / 时:temp /,始:ek / 识:kon / 是:tiu / 十:dek / 狮:leon / 尸:korp /,实:fakt / 十:dek / 石:ŝton / 狮:leon / 尸:korp / 。试:prov / 释:klarig / 是:tiu / 事:afer /。 我们做语言对比的目的是考察完全不同类型和语系的语言之间,语言形式的不同是如何体现在组词造句的句法上,来帮助我们表达、理解和翻译的。因此,我们把多义字(词)的问题先放在一边,假定只有一个词义。但实际上不少字是有歧义的,即便在本篇中,也还有几个相同的字,意义不同(从而词类和用法也不同)。不过,这个问题可以用二字组(bigrams)来解决。本篇中需要用到的二字组有5条就够了: 施Shi / 氏S-ro --》S-ro Shi (倒装) 时temp / 时temp --》 tempo-al-tempo;de tempo al tempo 适ven / 市merkat --》 venas merkaton;venas al merkato 十dek / 时hor --》 dek-horon;je la dek horo 逝forlas 世/mond --》 forlasas mondon;forlasas la mondon Ŝtonoĉambre poemisto S-ro Shi, hobias leonojn, promesas manĝi dek leonojn. S-ro tempo-al-tempe venis merkaton vidi leonojn. Dek horon ĝuste dek leonoj venis merkaton. Tiu-tempe ĝuste S-ro Shi venis merkaton. S-ro vidis tiujn dek leonojn, fidis sagopotencialojn, kauzis tiujn dek leonojn forlasi mondon. S-ro kolektis tiujn dek leonokorpojn, venis ŝtonoĉambron. Ŝtonoĉambro malsekis, S-ro kauzis serviston viŝi ŝtonoĉambron. Ŝtonoĉambro viŝinte, S-ro ekprovis manĝi tiujn dek leonokorpojn. Manĝtempe, ekkonis tiuj dek leonokorpoj faktis dek ŝtonoleonajn korpojn. Provu klarigi tiun aferon. 实际上等价于: 石o室e 诗-士o 氏o 施/NNP,嗜as 狮ojn,誓as 食i 十/Num 狮ojn。氏o 时时e 适as 市o 视i狮ojn。十/Num 时-on,适-e 十/Num 狮oj 适as 市on。是/DT 时-e,适-e 氏o 施/NNP 适is 市on。氏o 视is 是/DT 十/Num 狮ojn,恃is 矢o势ojn,使is 是/DT 十/Num 狮ojn 逝i 世on。氏o 拾is 是/DT 十/Num 狮o尸ojn,适is 石o室on。石o室o 湿is,氏o 使is 侍on 拭i 石o室on。石o室on 拭inte,氏o 始-试is 食i 是/DT 十/Num 狮o尸ojn。食-时e,始-识is 是/DT 十/Num 狮o尸oj,实is 十/Num 石o狮ajn 尸ojn。试u 释i 是/DT 事on。 Ŝton-o-ĉambr-e poem-isto S-ro Shi, hobi-as leon-ojn, promes-as manĝ-i dek leon-ojn. S-ro temp-o-al-temp-e ven-as merkat-on vid-i leon-ojn. Dek hor-on ĝust-e dek leon-oj ven-is merkat-on. Tiu-temp-e ĝust-e S-ro Shi ven-is merkat-on. S-ro vid-is tiu-jn dek leon-ojn, fidis sag-o-potencial-ojn, kauz-is tiu-jn dek leon-ojn forlas-i mond-on. S-ro kolekt-is tiu-jn dek leon-o-korp-ojn, ven-is ŝton-o-ĉambr-on. Ŝton-o-ĉambr-o malsek-is, S-ro kauz-is servist-on viŝ-i ŝton-o-ĉambr-on. Ŝton-o-ĉambr-o viŝ-inte, S-ro ek-prov-is manĝ-i tiu-jn dek leon-o-korp-ojn. Manĝ-temp-e, ek-kon-is tiu-j dek leon-o-korp-oj fakt-is dek ŝton-o-leon-ajn korp-ojn. Prov-u klarig-i tiu-n afer-on. 世界语形态很简单: o 名词词尾,e 副词词尾,as 谓语现在时,ojn 名词-复数-宾格,i 不定式,on 名词-宾格,is 谓语过去时,inte 副词-主动-完成体,oj 名词-复数-主格,u 谓语命令式 那这些形态是怎么来的呢? 形态原文根本就没有,这是在翻译过程中“无中生有”的,否则就不符合世界语文法,也无法正确表达原文的结构内容。可以问:中文没有这些形态,不也是一样表达吗?凭什么知道它表达的,正好对应上面的形态呢?答案是,中文用的是隐性形式,而世界语的形态是显性形式。在我们用具体例句讲解隐性形式在文法上是如何工作的之前,我们再看看世界语的另外一种形式,所谓分析形式,是如何表达这一篇故事的。前面译文采用的语言形式是所谓综合语言的形态形式,世界语也可以更多依赖小词,采用所谓分析语言形式来表达,结果大致是这样的: En la ŝtonoĉambro, la poemisto S-ro Shi hobias leonojn, kaj promesas manĝi dek leonojn. S-ro de tempo al tempo venis al merkato por vidi leonojn. Je la dek horo, ĝuste dek leonoj venis al merkato. Je tiu tempo, ĝuste S-ro Shi venis al la merkato. S-ro vidis tiujn dek leonojn, fidis sagopotencialojn, kaj kauzis tiujn dek leonojn forlasi la mondon. S-ro kolektis tiujn dek leonokorpojn, venis al la ŝtono-ĉambro. La ŝtonoĉambro malsekis, kaj S-ro kauzis serviston viŝi la ŝtonoĉambron. Kiam la ŝtonoĉambro estis viŝinta, S-ro ekmanĝis tiujn dek leonokorpojn. Je la manĝtempo, li ekkonis ke tiuj dek leonokorpoj fakte estas dek ŝtonoleonaj korpoj. Provu klarigi tiun aferon. En la 石o室o 诗-士o 氏-o 施/NNP,嗜as 狮ojn,kaj 誓as 食i 十/Num 狮ojn。氏o 时时/de tempo al dempo 适is al 市o por 视i 狮ojn。Je 十/Num 时o,适-e 十/Num 狮oj 适is al 市o。Je 是/DT 时o,适e 氏o 施/NNP 适is al la 市o。氏o 视is 是/DT 十/Num 狮ojn,恃is 矢o势ojn,使is 是/DT 十/Num 狮ojn 逝i la 世on。氏o 拾is 是/DT 十/Num 狮o尸ojn,适is al la 石o室o。La 石o室o 湿is,kaj 氏o 使is 侍on 拭i la 石o室on。Kiam la 石o室o estis 拭inta,氏o 始-试is 食i 是/DT 十/Num 狮o尸ojn。Je la 食-时o,始-识is ke 是/DT 十/Num 狮o尸oj,实e estas 十/Num 石o狮aj 尸oj。试u 释i 是/DT 事on。 (En la) ŝtono-ĉambro poemisto S-ro Shi hobias leonojn, (kaj) promesas manĝi dek leonojn. S-ro (de) tempo (al) tempo venis (al) merkato (por) vidi leonojn. (Je la) dek horo, ĝuste dek leonoj venis (al) merkato. (Je) tiu tempo, ĝuste S-ro Shi venis (al la) merkato. S-ro vidis tiujn dek leonojn, fidis sago-potencialojn, (kaj) kauzis tiujn dek leonojn forlasi (la) mondon. S-ro kolektis tiujn dek leono-korpojn, venis (al la) ŝtono-ĉambro. (La) ŝtono-ĉambro malsekis, (kaj) S-ro kauzis serviston viŝi ŝtono-ĉambron. (Kiam la) ŝtono-ĉambro (estis) viŝinta, S-ro ek-manĝis tiujn dek leono-korpojn. (Je la) manĝ-tempo, (li) ek-konis (ke) tiuj dek leono-korpoj fakte (estis) dek ŝtono-leono-korpoj. Provu klarigi tiun aferon. 其中用到的世界语小词是:en (in),la(the),kaj(and),de(from/of),al(to),por(for,in order to),je(at/in/about),dek(10),S-ro(Mr/Sir),tiuj(these), estas (is/am/are), estis(was/were) 我们以第一句为例:“石室诗士施氏,嗜狮,誓食十狮。” 相当于: (En la) 石-o-室-o 诗-o-士-o 施/Shi 氏/S-ro,嗜-as 狮-ojn, (kaj) 誓-as 食-i 十/Num 狮-ojn. 好玩吧,概念不变,里面多出了很多文法形式和小词。原文没有,为什么要加?怎么加?为什么加了才是对的? 前面说过,文言是孤立语,缺乏显性形式手段,它的文法关系是隐藏在词内部的“隐性形式”,通过揭示这些隐性形式,我们可以知道是什么语法关系,到了目标语,又该用什么显性语言形式。 自动句法解析例示如下,第一张是所谓短语结构句法树(PS tree),第二张是分析更加深入的依存关系结构图(DG graph): “石/室/诗/士/施/氏” 这头6个字都是名词 N,虽然没有 -o 这样的形式。怎么知道的,这是词所对应的词义概念决定的。在我们头脑里面是有词典记忆的,如果建立词典的话,N 这样的词类特征就在词典里面了。可见所谓隐性形式,就是词典里面的藏在词背后的东西。词类是一种,更多的词的子类也是隐性形式,也是查词典可以得到的。 下一个问题是,6个名词串在一起,怎么知道它们之间的关系,又怎么知道它们在句子中的角色,从而知道世界语该如何合法组织它们呢? 第一条规则是,单字名词与单字名词在一起,经常是先组织成合成词。(这叫词法双音化倾向,当然有例外,但很多时候是这样。)于是,我们把6个字变成三个合成词::石室 / 诗士 / 施氏。 到了世界语,N 与 N 怎么联系为合成词呢,通常加 -o- 连。如果后面的N是后缀,或者前面的N是前缀,则不用加 o,而 -ist(者/士)正是后缀。最后两个字有一个小规则,就是:百家姓(这是隐性形式,查词典可得)+ “氏” 组合成人的专有名词,这种组合到了世界语正好要倒过来: X+氏 --》 S-ro X 为什么两种语言表达人名与称呼的词序不同(词序本身也是语言显性形式)?没有道理,就是两个语言在这方面习惯不同。把它当成语言之间的转换规则记住就好了。 这样一来,这6个字的词法(组合成词)都有了表现的形式: 石-o-室-? 诗-士-? 氏/S-ro 施/Shi 前面两个合成词后面的问号表示世界语还需要确定用什么形态(或小词)来把合成词之间的关系,或合成词在句子中的角色搞清楚。通常名词组合的合成词默认就是 -o,但有例外,这个例外也是隐性形式决定的。 这样讲下去太累了,虽然也不知道如何才能既简单也能讲清楚语言的奥秘。所有在这里讲的过程,都可以在电脑上实现。也就是说,这里的讲的隐性形式最后转换成世界语的合法的形态和小词形式,都是一个完全透明可以一步步机械实现的过程。句法为基础的“经典式”机器翻译当年就是这么做的。(最新的机器翻译不是这样做的,是用所谓神经网络算法,纯粹从大量的平行翻译语料死记硬背模仿出来的,这话先放下。) 好,运用了专有名词组合的小规则以后,我们就有了: 石-o-室-? 诗-士-? 施氏/S-ro Shi 第一个合成词与第二个合成词可以有三种结合方式:一种是第一个修饰第二个(做定语),于是第一个用形容词词尾 -a,第二个用 -o,这是最常见的默认的“定中式”名词组合: (1)石-o-室-a 诗-士-o 施氏/S-ro Shi 另一种结合方式是, 遇到 “地点名词/时间名词”(这是名词的子类,也是词典里面可以记录的隐性形式)在句首的话,我们可以认为它是状语,而不是前面说的默认的定语。状语在世界语有两个形式:一个是用副词词尾 -e表示,一个是用介词 je(或 en ),于是我们有了第二种和第三种译法: (2)石-o-室-e 诗-士-o 施氏/S-ro Shi (3)en 石-o-室-o 诗-士-o 施氏/S-ro Shi 把上面三种译法替换成实词对等物,于是我们有了这个片段的世界语: (1a)ŝton-o-ĉambr-a poemist-o S-ro Shi (2a) ŝton-o-ĉambr-e poemist-o S-ro Shi (3a)En ŝton-o-ĉambr-o poem-ist-o S-ro Shi 如果用分析形式(3a),最好适当加上冠词: (3b):En la ŝton-o-ĉambr-o la poem-ist-o S-ro Shi 冠词怎么加就不细说了,总之有些微妙,好在是可加可不加的。 这句后面还有几个字:“......, 嗜狮,誓食十狮”。 查了词典,我们知道它们各自的词类: 嗜V 狮N ,誓V 食V 十Num 狮N,名词外,也出现动词 V,数词 Num 了。动词后面跟名词,通常就是宾语,要用 -on 或 -ojn;数词(除了1)后面跟名词必须要用复数形式 -ojn。动词本身默认是现在时态 -as(讲故事情节的时候,最好改用过去时态-is)。两个动词连用的时候,后一个动词通常变成不定式 -i(严格地说这是由前一个动词的子类决定的)。于是我们就有了: 嗜-as 狮-ojn ,誓-as 食-i 十Num 狮-ojn 把实词换成世界语的等价概念,于是我们就“无中生有地”生成了合法的世界语翻译: (1) ŝtonoĉambra poemisto S-ro Shi,hobias lionon, promesas manghi dek leonojn. (2)ŝtonoĉambre poemisto S-ro Shi,hobias lionon, promesas manghi dek leonojn. (3)En ŝtonoĉambro poemisto S-ro Shi,hobias lionon, promesas manghi dek leonojn. 后面的句子都可以如法炮制。就是说,词典里面记录的词概念的词类、子类特征越丰富,我们就有了隐性形式的充足依据,拿它作为条件,根据上下文实词的组合,就可以指明世界语需要添加什么形态和小词,就可以用这些貌似无中生有的语言形式,表达隐藏在文言中的句法关系和语义逻辑,从而实现形式不同,但内容一样。 最后说一下,到底是中文文言这样的隐性形式好,还是用形态和小词把关系都挑明了好?当然是后者更胜一筹。小葱拌豆腐,一清二白呀。当然你也可以说,对于中文为母语者,也没觉得利用隐性形式,通过头脑里面看不见的词典记忆,组词造句是个负担。的确如此。但是对于其他语言来学中文的人,这不就要人命吗(语言天才例外)。对于机器分析和理解,也难得多。做一套世界语的电脑解析系统,一个星期妥妥的,做一个文言的解析系统,几年也不一定能做好呢。复杂度天壤之别。 好了,这次分享比开始想象的长多了。希望对于感兴趣的同好们,能有个启发。也在讲故事的过程中了解一下传统机器翻译的背后原理。也顺便普及一下世界语的文法概貌。 【相关】 《 语言形式漫谈 》 世界语论文钩沉:世界语的语言学特点(2/3) Lingvistikaj Trajtoj De La Internacia Lingvo Esperanto 《 立委:一小时学会世界语语法 》 硕士论文:世界语到汉语和英语的自动翻译试验 立委硕士论文全文(世界语版) 《朝华午拾:shijie-师弟轶事(3)——疯狂世界语》 灵感有如神授,巧夺岂止天工 立委世界语论文(1986):《国际语到汉语和英语的自动翻译》 立委(1988)《世界科技:世界语到汉语和英语的自动翻译试验》 【语义计算:李白对话录系列】 中文处理 Parsing 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|2943 次阅读|0 个评论
《学外语的紧箍咒,兼谈世界语的前途》
liwei999 2020-5-2 10:20
【立委按】最近受邀加入了一个世界语者的群,有老朋友,也有新同志。谈到一些有关世界语的前途问题。很多老世界语者奋斗一辈子,做梦都想替代英语的实际“世界”语地位,抱怨联合国、欧盟都有眼不识“吾语”之优越性。但英语的地位却似乎越来越稳固。胳膊拧不过大腿,哪怕学习世界语的效率数倍于学习英语。但很少人会想到,英语的霸主地位不会长久。不是别的语言以任何优势取胜取代它,而是机器翻译进步的大势所趋。在这样的形势展望下,世界语作为二外首选的前途,却是光明的。 在科技领域,当年我们津津乐道的是,世界语可以作为比较理想的多语机器翻译的媒介语。可现在基本上没人用世界语做媒介语来做机器翻译探索了。因为没这个需要了,最新的机器翻译都是神经网络系统,是从平行语料中自动学习/模仿出来的,质量接近人译水平。以前多语言要媒介语是因为以前的系统是专家一行行代码编制调试出来,每一次增加一个语言,要做很多辛苦的词典工作,语法规则,还有转换和生成,很辛苦的调试,有了媒介语可以大大减少工作量。如今,即便 A 语言与 B 语言没有足够大的翻译样本(平行语料)可供机器模仿,现在的技术也不必借助世界语做媒介语。可以借助其他的热门语言做媒介,譬如英语。A 与 B 语料不够,但 A 与 英语, B 与 英语,语料应该是足够大的,那么机器就可以借助这两种语料来学习,等于是拿英语做媒介语了。为什么不用世界语?因为世界语与 A 语言,B 语言 之间的翻译数据,远远没有英语大。现在的机器胃口大,数据越多,学出来质量越好。古人云,取法乎上仅得其中。好像是说,机器永远赶不上人的水平。其实不尽然。在大数据的学习过程中,最终可以做到,取法乎中,可得中上。取法乎上仅得其中,说的是徒弟跟师傅学,是个体学个体,你自然超不过这个上限。如果你的学习对象是超大的数据,尽管数据的平均水平不高,参差不齐,里面还藏着不少错误。这都没关系,大数据有一种自然筛选的过程,会把噪音沉底。最终机器比一般人翻译得好,是自然的结果,特别是在时间限制条件下。机器很难比顶级翻译人员比,也难以比一个一名之立旬月踯躅的慢工磨细活的死磕的人,但是超过一般人的水平是没有问题的。所谓一般人就是那些学了好多年外语,通过了5级还是6级的人。这样一来,机器翻译的技术进步基本上解决了国际交流的问题,而且只会越来越好。 因此,世界语如果是以充当国际交流工具作为生存基础,是难以维系长久的。柴门霍夫当年创造、发布和宣传世界语,充当国际交流工具可是作为一个主要依据提出的。但时代不同了,作为人必须去学习才能使用的工具,如何与自动翻译比呢?翻译中死记和模仿的成分很大,很多说法以前都见过,双语平行(翻译)语料里面有存,机器有几乎无限的记忆能力,当然是机器强。我现在从来不自己翻译任何东西,都是让机器翻译了再稍作调整。如果是新闻和日常的文字,基本不需要加工就很顺畅了。国际旅游者利用翻译机周游世界的,也越来越多了。到世界旅游,带个随身翻译机,或者手机下个程序,日常问题就解决了。问路啊、找厕所啊,都不是问题。以前是说,你学了世界语就走遍天下。柴门霍夫的意思是说,实在不行随身带一部词典,就是遇到不懂世界语的,凭借词典,人家也不难搞懂你的意思。这样的场景当年是可能有用场的,总比互相完全没办法沟通强,但是有了翻译机,这个场景就完全没有意义了。当然到世界各地世界语俱乐部找“同志”,搞联谊,那是另一回事。那不是世界语的功能性主导,而是世界语的文化性和社会性作为纽带。 看看英语的不规则动词表,再看看法语、俄语词法里面那些大小规则里面的种种例外,就可以体会到自然语言对于不规则的东西,是如何容忍的。基本上就是这样一个局面:自然语言里面的不规则恰好达到了一个想学它做外语的人的死记硬背的极限。再多就学不会语言了。可是一旦学了它,它就绑架了你,使得你必须不中断地使用它练习它,稍微一松懈,你就把学到的外语还给老师了。这就是学外语的紧箍咒。世界语还是从根基上改变了这种局面。 关于世界语到底是不是简单易学,不同的人往往感受和看法不一,也说点自己的切身体会。我觉得一切都在比较之中。毛委员说过:没有比较,就没有鉴别。记得老电影《南征北战》里面,国军长官说过:“不是我军无能,而是共军太狡猾了”。可以说,不是世界语容易,而是其他外语太难了。 对于国人,如果学会一门欧洲语言,再学世界语,的确更容易体会其简单容易。如果除了母语,只学世界语,那就很难有这种体会。如果是欧洲人,世界语做第二外语,那的确不难,毕竟世界语根本上是欧洲语言的简化规范版。但对于非印欧语系为母语的人,不会觉得容易。 我英语专业的,二外是法语,三外是俄语,到接触世界语的时候,这应该算是四外了。当时有晕眩的感觉,天哪,还有这么容易的语言,学了四五天就可以写信,学了一两个月,就可以写论文,心里一点都不怵。记得第一封世界语信是写给(河南还是枣庄?)一位世界语朋友(当地的一个世界语活跃分子),收到他的回信,以及附在信里面的绿星等纪念品,开心死了。几十年下来,二外法语现在带着词典还能勉强读一点,但绝对写不出合法的句子了。三外俄语完全还给老师了。只有世界语多年没用,感觉还可以随时捡回来。这样看来,世界语的确是其他外语没法比的。没跟英语比较,是因为一直在英语世界里。真要比较,我觉得我的世界语水平大体可以与我的英文水平,打个平手。口语不如英语,那玩意儿需要有环境和机会实际操练。但书面语可能还强过写英文。我从小学开始学英文字母,中学一直跟着广播英语,到后来本科英文受专业培训,再到后半辈子一直在这个语言世界里面,那是多少时间和精力的投入啊。相比之下,世界语连学英语的零头功夫都没有。 我在想,现在大家随时可用翻译机,国际交流场合的功能性需求基本可以满足,这一方面不再需要世界语了。在未来的世界,英语作为实际上的“世界语”的地位也必然会因为翻译机的不断改进和普及而动摇。最后的情况很可能是,学习“外”语只是人类的好奇心驱使。这时候,世界语作为好奇心和求知欲驱使的外语首选,是最合适的。 试想一下这样一个世界,我们不再需要学习任何其他语言,英语也是天书。这时候我想以最少的时间,了解唧唧呱呱讲各种外语的人到底有什么新奇的东西。世界语作为印欧语言的集大成者,应该是最合适的学习对象和窗口,会给人带来新奇。我觉得这个价值是恒久的,只要世界语可以活下去,活到英语从钦定二外以及事实上被全世界学习的地位走下来的时候。其实不知道多少人浪费了多少时间学英语,但英语的地位从科技发展的趋势看,不可能是永远稳固的。总会到一个临界点,人类社会说,除了少数人外,去它的,大中小学里面全部废弃二外作为必修课,把精力转移到学习其他知识上来。然后,二外成为选修。这时候,竞争选修课,世界语的优势是压倒性的。 老哥学了一辈子英语,一辈子没学会。年轻时候学 Follow Me, New Concept 好几年,还是记不住。现在大概只认识几个单词,听说读写啥都没会,可一辈子投入的时间总量却不少。他常跟我说:我大概是太缺少语言天赋了。也许他的确没有多少语言天赋。但更根本的还是语言太难学了,本质上是一个死记硬背的东西。对于很多像我哥哥这样的人,回头来看,他们对于外语学习所投入的时间精力与所得,完全不成比例,是极大的资源和人生的浪费。这种浪费在全世界不断重复着。英语一天不走下神坛,这种浪费一天不会停止。但是英语必然下台,这是可以确认的。这个过程也许需要50-100年,我觉得。 世界语已经活了100多年了,再活 100 年,就可以赶上自由竞争二外选修的好时光了。换句话说,世界语的前途,恐怕并不在于我们当年想象的用它取代英语作为全世界公认的国际辅助语。功能性上取代英语的不大可能是世界语,而是机器翻译的普及和推广。目前实际上已经存在随时可及的网上机器翻译(各大厂如谷歌、百度、微软,还有比他们更强的后起之秀如有道、搜狗和腾讯等),所有的手机里都随时可用机器翻译的apps。翻译质量虽然参差不齐,但总体可读可懂,新闻、日常用语已经可达人译水平。质量提升还在持续。到了一支钢笔里面也有个机器翻译芯片的年代,社会不会容忍英语学习所花费的代价。最终的发展趋势是,世界语的前途,会超过英语和其他所有自然语言,成为人们选修外语的最多选择。在一个排除了功能性考量的选择里,世界语的胜出是可以预见的。 最终的情形很可能是:相当一些人决定不学任何外语,其余的人决定选修外语。选修外语的人中,有对拉丁语、阿拉伯语、中文、英文、希腊语等感兴趣,这些死的活的自然语言虽然很难,但总会有少数人有浓厚的研究兴趣。但更多的人选择了世界语,并且延续和发展了世界范围内的世界语联络网,作为联谊和文化交融的实践。 未来的人类交流没有实质性阻碍,语言的统一就不再成为目标。世界大同也不以语言统一作为前提。倒是有可能是反过来,世界先大同了,然后某个阶段,人类决定还是把语言也统一算了。到那时候,倒是不妨选择世界语。那应该是不知道是多少年以后的事儿了,难以打算。老实说 世界大同和世界末日,哪个先来还很难说呢。看核武器、看气候变化、看瘟疫,看人类的短视和作,每一个灭绝人类的可能性都依然存在。 世界大同或世界末日的命数先放下,可以预见的是,在不太久远的未来,英语终将走下神坛,世界语作为外语选修有流行的优势和希望。 【相关】 世界语论文钩沉:世界语的语言学特点(2/3) 世界语论文钩沉:世界语的语言学特点(1/3) Lingvistikaj Trajtoj De La Internacia Lingvo Esperanto 《 立委:一小时学会世界语语法 》 《朝华午拾:我的世界语国》 《朝华午拾 – 世界语之恋》 《朝华午拾:朋友遍天下》 《朝华午拾 – 欧洲之行》 《朝华午拾:与白衣天使擦肩而过》 硕士论文:世界语到汉语和英语的自动翻译试验 立委硕士论文全文(世界语版) 《朝华午拾:shijie-师弟轶事(3)——疯狂世界语》 灵感有如神授,巧夺岂止天工 立委世界语文章(1987):《中国报道:通天塔必将建成》 立委世界语论文(1986):《国际语到汉语和英语的自动翻译》 立委(1988)《世界科技:世界语到汉语和英语的自动翻译试验》 DLT项目背景介绍 《李白詹120:乔老爷老矣》 【关于机器翻译】 【语义计算:李白对话录系列】 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委随笔|2937 次阅读|0 个评论
融智学导论 Smart System Studied(爱思唯尔的直播平台已经有回访了)
geneculture 2020-4-20 16:42
https://live.vhall.com/868771229 融智学导论-及其示例讲解-邹晓辉_1587371263.pptx 链接: https://pan.baidu.com/s/1IKPS4gvjIABlTueJw3ndbg 提取码: mcg4 复制这段内容后打开百度网盘手机App,操作更方便哦 https://www.bilibili.com/video/BV13f4y1S7Mr/
个人分类: 高教管:特色与质量|962 次阅读|1 个评论
[转载]中科院自动化所宗成庆:机器翻译的梦想与现实
Kara0807 2019-3-24 19:22
文章 | 宗成庆 来源 | 光明日报 【导读】近年来,机器翻译等语言智能技术迅猛发展,并开始在舆论中对人工外语服务形成冲击。一时间,语言智能技术落地、机器翻译替代人工、外语教育存废、外语教学改革等,成为社会热议的话题。自动化所宗成庆研究员讲述了他对机器翻译的一些理解。 如何突破语言障碍,让机器完成不同语言之间的自动翻译,最终实现任意时间、任意地点、任意语言之间的无障碍自由通信,是人类长期以来的梦想。 近年来,随着计算机性能的提高,云计算、大数据和机器学习等相关技术迅速发展,人工智能再度崛起,机器翻译重新成为人们关注的焦点。一时间,机器翻译系统如雨后春笋般涌现,各种报道随之呈井喷式爆发, “机器翻译将取代人类”的说法也时有耳闻。然而,机器翻译的真实水平如何,梦想与现实的距离到底有多远? 从低迷到兴盛 机器翻译概念于 1947年被提出,随后成为人工智能研究的核心问题。在70多年的发展历程中,机器翻译研究经历了几个不同的历史阶段: 从概念提出到 1954年美国乔治敦大学(GeorgetownUniversity)在IBM公司的帮助下实现第一个机器翻译演示系统,可以认为是机器翻译的初创时期。 1966年,美国国家科学院语言自动处理咨询委员会(AutomaticLanguageProcessingAdvisoryCommittee,ALPAC)发布题为《语言与机器》的报告,宣称“目前给机器翻译研究以大力支持没有太多的理由”,“机器翻译遇到了难以克服的语义障碍”,从而导致机器翻译研究在世界范围内走向低迷。 20世纪70年代中后期至80年代前期,部分机器翻译系统在特定领域得到初步应用(如加拿大蒙特利尔大学研制的天气预报翻译系统TAUM-METEO)。欧洲共同体实施的欧洲翻译体系(EuropeanTranslationSystem,EUROTRA)计划和日本对第五代计算机的研究都对机器翻译研究给予了支持,机器翻译研究开始复苏。 20世纪80年代末期,IBM公司实现了基于噪声信道模型的统计机器翻译系统,并在美国国防部高级研究计划署(ARPA)组织的评测中取得了较好成绩,推动了机器翻译技术的快速发展。尤其进入2000年之后,GIZA++、Pharaoh、Moses等一批开源工具相继发布,2006年谷歌翻译正式上线运行,2011年百度翻译上线,各大公司陆续推出了自己的翻译系统,整个机器翻译领域呈现出蓬勃发展、遍地开花的大好局面。 2013年基于神经网络模型的机器翻译(简称“神经机器翻译”)方法被提出,机器译文的质量得到大幅提升,并且很多开源工具被相继公布,机器翻译技术研究和系统推广应用均出现前所未有的盛况。统计机器翻译和神经机器翻译的基本原理都是基于已有的大规模句子级双语对照语料进行模型训练,建立最优的翻译模型,最终实现从一种语言到另一种语言的翻译。通常情况下,用于训练模型的语料规模越大,模型性能表现就越好。 被夸大的技术 机器翻译技术的进步和系统性能的提升在为人们日常生活和工作带来更多便利的同时,也为该技术的产业化发展带来了更多商机。这种空前局面不仅让人们看到了梦想成真的希望,也点燃了部分人心中按捺不住的欲望。从传统媒体到新媒体,对机器翻译技术夸大宣传的声音不绝于耳,但一个不可否认的事实却是,目前的机器翻译技术尚不成熟,无论是文本翻译,还是口语翻译,机器翻译的质量远没有达到令人满意的水平。 当前所有的商用文本机器翻译系统普遍存在的问题: 一是错翻、漏翻和重复翻译比比皆是,尤其对成语、缩略语、专业术语和人名、地名、组织机构名称等的翻译更是招数无几。 二是难以实现篇章范围内的指代消解,常常张冠李戴,例如,前面说的是美国与伊朗之间的事情,后面翻译 “美伊两国”时却译成了美国与伊拉克。 三是缺乏足够的在线优化能力,无法从译员修改译文的过程中自动学习和更新翻译知识,即使译员对系统给出的某个错误译文反复修改,系统依然照错不误。 四是对口语而言,说话人的语气、重音、语调,甚至肢体语言无法得到充分利用,尤其当说话人的口音较重、用词过于生僻、话语主题超出先验知识范围时,译文的质量无法保障。 高端翻译不可取代 我们并不否认机器翻译技术的进步,正如前文所述,机器译文的质量已有显著改善。在日常口语对话中,对于资源较为充分的语言(如英汉、日汉等),在说话场景不是非常复杂、口音基本标准、语速基本正常、使用词汇和句型不是非常生僻的情况下,口语翻译的性能基本可满足正常交流的需要。专业领域的文本机器翻译在训练语料较为充分时,译文准确率可达到 80%以上。而对于资源匮乏的语言之间的翻译(如波斯语或达利语等与汉语之间的翻译),译文质量还十分有限。 毋庸置疑,机器翻译可能替代那些任务重复性较大、翻译难度较低的低端翻译人员,如天气预报查询、旅馆预订服务、交通信息咨询等翻译,但不可能取代高端翻译(如重要文献、伟人著作、文学名著等翻译)人员,更不可能消除翻译职业。 “信、达、雅”是翻译的终极目标,我们可以预期,未来的机器翻译系统能够辅助高端翻译人员提高翻译效率,但要实现无须人工干预的高质量全自动翻译恐怕还是一个愿望。 不得不说的是,任何负责任的科学家和企业界都有责任和义务把技术或产品的真实水平和性能告知公众,而不是一味地宣扬,甚至为了利益而故弄玄虚。实事求是是一种态度,也是一种品格。
个人分类: 德先生|2948 次阅读|0 个评论
2019春节,见证奇迹的时刻
liwei999 2019-2-7 00:50
2019年春节期间的奇迹。其实,说的不是刘谦换壶的时刻,那个奇迹已经成为全国人民的笑话了。 我还给央视拟了个严正声明: 中央大国,万邦来朝;堂堂央视,亿众瞩目。如所周知,魔术皆伪。然央视之伪,亦有格有调,断非所传之无品。央视之伪,拜夹层高新科技所赐,佐以不可测之隐身神术。所传之影碟,乃小人PS所得,央视保留告诉之权利。特此公告,全民周知。 也不是我家猫咪,叫卡卡的。她要写论文的奇迹,大概还需要时日才能实现。春节期间,老朽著书立说的时刻,她也从来不闲着: 代劳也好 省得我费力气啦。《阿猫论自然语言》,可能比人论得深刻 这年头啥事都说不准。我家小卡的爪子在键盘上 随机按下自然语言的句子 概率有多大?肯定不是零吧,不是零的概率 放在宇宙尺度下 等于乘上无穷大,这个比宇宙从无生物演化为有生物 进而出现人这种吃饱了还会忧虑的物种 应该是同一个量级的神迹。可惜这个奇迹,为人是见证不了的,大概只有造人的上帝才有见证的可能。 奇迹发生在昨晚。 昨天晚上 打开网络细细把川普那么长的国情咨文看了。可以点个赞 除了文采飞扬 内容丰富外,他那么大岁数做一年一度最重要的长篇施政演说 居然手上没拿稿子 一点都不磕巴 抑扬顿挫 始终保持演讲的节奏感。就连当年周总理国庆演讲四个现代化愿景 也还是拿着稿子半念半讲的呀。不知道美国用了什么高科技给总统演讲电子提词?反正现场镜头没看到啥机关。一边听 一边欣赏国会分裂的听众的众生态 一边没忘了测试口语机器翻译 打开有道词典app 点击口语翻译 把手机对着电脑视屏现场 等于是同声传译实验。 这是见证奇迹的时刻。 手机截屏 同声传译的片段。效果不错吧。当然 川普吐词清晰 也有功劳。虽然现场有噪音 欢呼声 掌声 偶尔的嘘声。 奇迹在于其稀有。随时随地可现的“神经MT”奇迹,人们似乎麻木了。可是,我是机器翻译出身,在年轻时的梦想全面实现的时代,仍然不敢相信它是真的。因此,不断在测试,在考验,在见证。 【相关】 【 谷歌NMT,见证奇迹的时刻 】
个人分类: 立委科普|2438 次阅读|0 个评论
在机器翻译唾手可得的时代,还要不要学外语?
热度 1 liwei999 2019-2-3 19:25
李:今天快讯,白宫就中美贸易谈判发表声明 Statement of the United States Regarding China Talks For the last two days, high-ranking officials from the United States and China have engaged in intense and productive negotiations over the economic relationship between our two countries. The United States appreciates the preparation, diligence, and professionalism shown throughout these meetings by Vice Premier Liu He and his team. The talks covered a wide range of issues, including: (1) the ways in which United States companies are pressured to transfer technology to Chinese companies; (2) the need for stronger protection and enforcement of intellectual property rights in China; (3) the numerous tariff and non-tariff barriers faced by United States companies in China; (4) the harm resulting from China’s cyber-theft of United States commercial property; (5) how market-distorting forces, including subsidies and state-owned enterprises, can lead to excess capacity; (6) the need to remove market barriers and tariffs that limit United States sales of manufactured goods, services, and agriculture to China; and (7) the role of currencies in the United States–China trading relationship. The two sides also discussed the need to reduce the enormous and growing trade deficit that the United States has with China. The purchase of United States products by China from our farmers, ranchers, manufacturers, and businesses is a critical part of the negotiations. The two sides showed a helpful willingness to engage on all major issues, and the negotiating sessions featured productive and technical discussions on how to resolve our differences. The United States is particularly focused on reaching meaningful commitments on structural issues and deficit reduction. Both parties have agreed that any resolution will be fully enforceable. While progress has been made, much work remains to be done. President Donald J. Trump has reiterated that the 90-day process agreed to in Buenos Aires represents a hard deadline, and that United States tariffs will increase unless the United States and China reach a satisfactory outcome by March 1, 2019. The United States looks forward to further talks with China on these vital topics. 搜狗机器翻译如下: 过去两天,美国和中国的高级官员就我们两国的经济关系进行了紧张而富有成效的谈判。美国赞赏刘副总理和他的团队在这些会议中表现出的准备、勤奋和专业精神。 会谈涉及广泛的问题,包括: ( 1 )美国公司向中国公司转让技术的压力;( 2 )加强中国知识产权保护和执法的必要性;( 3 )美国公司在中国面临的众多关税和非关税壁垒;( 4 )中国网络盗窃美国商业财产造成的危害;( 5 )市场扭曲力量,包括补贴和国有企业,如何导致产能过剩;( 6 )需要消除限制美国向中国销售制成品、服务和农业的市场壁垒和关税;( 7 )货币在美中贸易关系中的作用。双方还讨论了减少美国对中国巨大且日益增长的贸易逆差的必要性。中国从我们的农民、牧场主、制造商和企业购买美国产品是谈判的关键部分。 双方表示愿意参与所有重大问题的讨论,谈判会议就如何解决我们的分歧进行了富有成效的技术性讨论。美国特别注重就结构问题和减少赤字达成有意义的承诺。双方同意,任何决议都将完全可以执行。 虽然取得了进展,但仍有许多工作要做。唐纳德·特朗普总统重申,在布宜诺斯艾利斯商定的90天进程是一个艰难的最后期限,除非美国和中国在2019年3月1日前取得令人满意的结果,否则美国关税将会增加。美国期待着与中国就这些重要议题展开进一步会谈。 阿:@wei 文字相当棒 马:@wei 没看你说明之前,没有觉得是机器翻译的。 李:一字未改,就是搜狗MT。新闻类、IT类、科普类、日常会话类翻译都已经不是障碍了,机译已经达到人译水平,比多数人强。关键是随时随地 立等可取。所以那些写不了通顺英文的人,也不必费时间学英文了。你可以用随便写出来的中文,翻译过去,会成为一篇相当通顺的英文。不信试试搜狗MT或有道MT。译文往往比原文更通顺。从神经机器翻译的原理和目前水平看,译文总是通顺的,基本不受原文顺不顺的影响。原文只要把意思大体表达出来就好了。稍加修改,这比自己用英文拽要简单多了。 其实,可以专门针对不同文体训练机器写应用文的套路。这个服务保不准比不同语言之间的翻译会更火,因为写文章、报告等是每个人的任务,特别是在时间和老板压力下。现在,改错字、零星的文法错误已经有非常好的软件了,譬如我每天使用的 Grammarly,但还没见谁有意识地整篇文章,用神经自我翻译的方式,帮助作文差的人,瞬时提高顺畅度。这个产品定位的主意可是NLP应用的一个金点子啊,先放在这里。不太远的未来,肯定会有人这么做,这么吆喝(市场化)的。没道理不火。 最近试了试讯飞口语翻译机,日常口语语音传译也已经不是问题了。我有意用非标准的普通话,蹩脚的英文。结果都不错。 阿:@wei 怪不得现在大学英文系都萧条了。 李:AI 各应用领域要是都达到 MT 的水平,我就同意奇点到了,然后就相信马斯克、霍金之流的耸人听闻,呵呵。胜利大逃亡,跟马斯克到火星去避难。 严:看了@wei 引用的机器翻译的文章,加上这些年飞速进展,让我更纠结了。在美国高中的儿子告诉我他不想学外语,但我太太觉得一定要学的,因为绝大多数大学入学都有外语要求。不学外语的话大学选择就会大大缩小。但儿子说得也对,学三年还是比不过机器翻译,不如用这时间学点别的,比如离散数学之类。我真拿不定主意。 瑞:现在医院里护士都用手机上的APP翻译软件跟病人用各种语言交流。虽然翻译未必精确,但足够表达主要意思 迈:@严 如果学外语用数学做代价,可能是定位误差。人应该是多面手,学外语发展另一块脑力,或许可以增加认识能力,学其他科目的成效大大提升,也未可知。 严:@迈 有道理。但通常间接效益超过直接效益,需要特殊条件。 毛:如果机器翻译芯片可以植入人体,那就真的可以不学外语。 阿:@严 学语言不仅仅是学习机械的语言 看上文《 【人文科大】语言赋予思维的变革性力量 》 李:说老实话,绝大多数国人学外语 尤其是相当数量学得很苦 很受罪折磨的人,的确是劳民伤财 何苦来哉。如果把学一门外语当作一个业余兴趣,学了可以开开眼界 了解原来思想可以有不同的表达手段。但学一门 浅尝辄止就好 除非是想专门研究语言。 瑞:马云学数学是对自己的折磨,学英语却是享受 阿:至少对语言的结构有更多了解 不学西语 就不知道什么过去式 进行时 虚拟语气等等 中文好像不教这个。课堂上学的基本没用。 李:当年学第二外语法语 第三外语俄语 回想起来 真是遭罪。现在也几乎全还给老师了。好在做了语言学家 虽然具体语言的能力是久不用就忘了 但语言学职业上还是受益。但绝对不主张 不鼓励非语言学家去学二外三外。有那时间 干什么不好。其实学英语也很遭罪,不过是遭罪一辈子了,麻木了而已。 阿:对有些人来说 语言就是一种爱好 一种游戏。你去跟打游戏的人说 你玩别的多好 他不会理睬。 李:唯一不遭罪 真正感到乐趣的是学世界语。那真是神奇的东西 学起来非常过瘾。学完了 也终于没有还回去 听说是退化了一些 阅读和写作没影响。 自然语言作为外语 基本上就是把人当机器折磨。无数鸡零狗碎的习惯用法需要死记 需要反复练习。可人脑毕竟不是硬盘啊 哪里经得起这种折磨。属于低级的强体力劳动 劳动对象是头脑记忆和条件反射。不值。 世界语不同 死记的部分被压缩到最小 逻辑和规律一统天下 学进去感觉进入了思维表达的自由世界。如果学外语只是为了开阔眼界 了解母语以外的表达方式 可以推荐世界语。 以前老觉得世界语因为没什么用 会逐渐式微。现在看来 有了机器翻译 有用无用已经不是主要标准了。剩下的就是语言的兴趣、特色和投入产出了。保不准100年后 它将成为唯一的“二外”供人娱乐 满足好奇心。 《师弟轶事——疯狂世界语》 这是当年学世界语的投入,师姐的夸张描述。大概与玩游戏的人入迷类似。 Nuva:学会一门外语,等于大脑多开发了一块地方,语言间链接更多。 梁:多学一门外语,等于在你的黑屋子里多开一道窗户,也让思维更加多元。会外语,才有可能接纳,至少不排斥,来自不同文化的东西。还有,学外语,得老年痴呆的可能性也减小,大脑开发的越多,得老年痴呆的可能越小,cognative reserve 比较大。 李:都是站着说话不腰疼。啥事都有个性价比、投入产出比。学外语需要投入多少时间精力,与它带来的好处对比,简直就是黑洞。而且学了以后,如果不经常使用,一多半都会吐回去。如果回报是可以看外文原文资料、出国旅游可以与老外简单会话,问路点菜上个厕所啥的,这个回报在有机器翻译的现代社会,已经不值一提了。其他的回报还有啥可以度量的? 有一种回报是,因为人与人对于外语的吸收能力差别很大,在全民学外语的环境下,语言能力强的人会有特别的优越感。女孩子一般比男孩子学外语更快,更溜,所以学外语是妇女能顶大半边天的难得机会。这些也算是特别场景下的回报。但这种优越感是建立在其他人学外语的挫折感的基础之上。如果有挫折感的人 突然悟出来现代社会有电脑,没必要进入外语这个赛道了。这个好处也就不复存在了。 总之,外语与钢琴类似。孩子愿意学就让他学。不愿意学不必勉强他学。不是学了没好处,而是投入太大,受益太小,一般来说不值。目前的教育制度还是滞后于时代,规定人人学外语。等再过20年,也许教育制度会改成不是必修。 毛:完全同意。 王:急功近利未必能学好。 严:@wei 很受鼓舞!给儿子推荐世界语!估计只有网上资源,又要跟counselor协商了。高中里只有法语、西班牙语、日语。
个人分类: 立委随笔|4213 次阅读|1 个评论
双语文本知识库质量决定机器翻译质量
geneculture 2018-11-22 11:17
机器学习,尤其是双语对照文本的机器学习为新一代的机器翻译提供了大前提,于是算法即批处理软件的核心技术方法就成了小前提,结论则可在人机交互平台即实际应用环境里面来获得人机互助合作的评估(这是我们可看到的近期未来)。-邹晓辉 附录: 【当向神经机器翻译系统输入新的待译原文时,系统每次先读取一个原文单词,然后开始输出一个译文单词,再读取下一个原文单词,并输出下一个译文单词,直到整个原文句子全部读取完成。通过这样的方式,神经机器翻译系统可以处理整句话,而统计机器翻译的N元模型则无法如此处理。与统计机器翻译系统相比,神经机器翻译系统可以更好地处理单词的内部结构和单词的形成规律、能更好地选择所用词汇、能更好地解决词序问题(包括词语之间不连续的依存关系),只不过训练神经机器翻译系统需要花费更长时间,耗费更多计算资源。 对于大公司来说,时间和计算资源都不是问题。2016年9月底,谷歌公司宣布谷歌翻译移动端和网页端的中英机器翻译服务全部由谷歌神经机器翻译系统提供支持。即便如此,神经机器翻译还是存在很多问题,比如:漏词、错译(尤其是生僻字词)、忽略上下文语境孤立翻译某句话等。】 阅读原汁原味的原文: https://www.ciol.org.uk/translator-and-machine-dorothy-kenny
个人分类: 双语信息处理|1441 次阅读|0 个评论
蝴蝶模型+谷歌翻译=较好的双语译文
geneculture 2018-10-21 11:51
蝴蝶模型 + 谷歌翻译 = 较好的双语译文 http://translate.google.cn/ 用邹晓辉方式可轻松获得比较好的双语译文! 以上是人机互动的结果。以下再进一步,即: 把蝴蝶模型做成人机协作软件,嵌套相应的双语乃至多语本体知识库和神经网络机器翻译模型,就是一个畅销的机器辅助理解、解释和翻译及读写听说软件助理!邹晓辉
个人分类: 双语信息处理|2586 次阅读|1 个评论
基于语境的翻译: 1.切分(分词)2.标注(词条)3.匹配(机译)
geneculture 2018-9-5 09:34
基于语境的翻译: 1.切分(即:分词); 2.标注(选:词条); 3.匹配(即:机译)。 三步到位,十分精准。 附录1: 最近发现谷歌翻译具有学习能力(例如:我以往输入谷歌翻译系统的“中美塞尔研究中心”它总会把“中美”和“塞尔”两个二字组翻译错,这次它却出奇地精准!)。 看似简单,其实不简单。因为,它精准地排除了两个二字组合在中英转换过程中词条选用的时候可能遭遇的歧义。 附录2: \0 \0
个人分类: 学术研究|1594 次阅读|1 个评论
双语平行语料与深度神经网络及其匹配算法之间的相互关系
geneculture 2018-4-29 12:49
4月27号(前天)冯志伟教授应邀在北大理科一号楼1303学术交流大讨论班上的报告系统回顾了机器翻译的历程,其中以上三幅ppt截图(最后一幅是邹晓辉昨天与林建祥教授林老远程回顾的时候用彩色线条和三个红苹果🍎做了标注说明的,由此不仅可见双语平行语料与深度神经网络及其匹配算法之间的相互关系,而且还可以知道我们正在做的国家自然科学基金项目与它们之间的相互关系) 2018-4-27上午的报告(冯志伟与邹晓辉) www.webmeeting.com.cn:8800/pub_recording_view_ecard.php?id=76 下午的报告(马蔼乃与邹晓辉) www.webmeeting.com.cn:8800/pub_recording_view_ecard.php?id=77 第二天即28号林建祥与邹晓辉的对话 www.webmeeting.com.cn:8800/pub_recording_view_ecard.php?id=78
个人分类: 学术研究|2069 次阅读|0 个评论
【从博鳌机器同传“一带一路”的翻译笑话说起】
热度 2 liwei999 2018-4-12 03:09
这是网上这两天广泛热议和流传的AI笑话( 博鳌AI同传遭热议 ): 昨天还在想,这“一带一路”的翻译笑话是怎么回事儿呢?这类高频新术语、成语是机器的大拿,不就是一个词典记忆嘛。 今天看新智元的采访( 博鳌AI同传遭热议!腾讯翻译君负责人李学朝、讯飞胡郁有话说 ),原来,这次的笑话不是出在成语上,而是出在成语的“泛化”能力上。“成语泛化”的捕捉和翻译,这一点目前还是短板。 对于中译英,“一带一路”的翻译完全没有问题,因为这是近年来习大大新时代新政的最流行的新术语,家喻户晓,没有人去泛化它。机器翻译自然不会错,主流怎么翻译,机器就会怎么翻译,不会更好,也绝不会更差。 可是这个中国的术语到了英语世界,并不是所有受众都记得住准确的说法了。结果,“标准” 的流行译法 “one belt one road”,被有些老外记错了,成了“one road one belt” or the road and belt 等。这也是可以理解的,老外没有政治学习时间也不没有时事政治考核,能记得一个大概就不错了。 虽然说法不同了,次序有变,但两个关健词 road 和 belt 都在,这种成语“泛化”对于人译不构成挑战,因为老外的记忆偏差和“泛化”的路数,与译员的心理认知是一致的,所以人工传译遇到这类绝不会有问题。可是,以大数据驱动的机器翻译这次傻了,真地就神经了,这些泛化的变式大多是口语中的稀疏数据,无法回译成汉语的“一带一路”,笑话就出来了。 提高MT的“成语泛化”能力,是当今的一个痛点,但并不是完全无迹可寻。将来也会成为一个突破点的。只是目前一般系统和研究还顾不上去对付它。以前我提过一个成语泛化的典型案例应该具有启示作用的:“1234应犹在,只是56改”。 早期机器翻译广为流传的类似笑话也是拿成语说事(The spirit is willing, but the flesh is weak,心有余而力不足 据传被翻译成了“威士忌没有问题,但肉却腐烂了”),因为一般人认为成语的理解最难,因此也必然是机器的挑战。这是完全外行的思路。成语的本质是记忆,凡记忆电脑是大拿,人脑是豆腐。 NLP 最早的实践是机器翻译,在电脑的神秘光环下,被认为是 模拟或挑战 人类智能活动的机器翻译自然成为媒体报道的热点。其中有这么一个广为流传的机器翻译笑话,为媒体误导之最: 说的是有记者测试机器翻译系统,想到用这么一个出自圣经的成语: The spirit is willing, but the flesh is weak (心有余而力不足) 翻译成俄语后再翻译回英语就是: The whiskey is alright, but the meat is rotten(威士忌没有问题,但肉却腐烂了) 这大概是媒体上流传最广的笑话了。很多年来,这个经典笑话不断被添油加醋地重复着,成为NLP的标准笑柄。 然而,自然语言技术中没有比成语更加简单的问题了。成语是NLP难点的误解全然是外行人的臆测,这种臆测由于两个因素使得很多不求甚解的人轻信了。其一是NLP系统的成语词典不够全面的时候造成的类似上述的“笑话”,似乎暴露了机器的愚蠢,殊不知这样的“错误”是系统最容易 debug 的:补全词典即可。因为成语 by definition 是可列举的(listable),补全成语的办法可以用人工,也可以从语料库中自动习得,无论何种方式,都是 tractable 的任务。语言学告诉我们,成语的特点在于其不具有语义的可分解性(no/little semantic compositianlity),必须作为整体来记忆(存贮),这就决定了它的非开放性(可列举)。其二是对于机器“理解”(实际是一种“人工智能”)的误解,以为人理解有困难的部分也必然是机器理解的难点,殊不知两种“理解”根本就不是一回事。很多成语背后有历史故事,需要历史知识才可以真正理解其含义,而机器是没有背景知识的,由此便断言,成语是NLP的瓶颈。 事实是,对于 NLP,可以说,识别了就是理解了,而识别可枚举的表达法不过是记忆而已,说到底是存储量的问题。可是确实有人天真到以为由冷冰冰的无机材料制作的“电脑”真地具有人脑那样的自主理解 能力/机制。 from NLP 历史上最大的媒体误导:成语难倒了电脑 关于新时代“一带一路”的合适译法,我曾经从语言学构词法角度也论过: “一带一路”, 官方翻译是: one belt one road。 不得其解,昨天才搞明白是中国倡导 由中国带头 沿着古丝绸之路 开发新的经济贸易开发区 一方面帮助消化过剩的产能 一方面带动区域经济 实现共赢 让区域内国家分享中国经济高速发展的火车头效益 从而树立中国崛起的和平领军形象。 感觉还有更多也许更好的选项 反正是成语 反正光字面形式 谁也搞不清真意 总是需要伴随进一步解释 不如就译成: 一带一路 ===》 one Z one P (pronounced as:one zee one “pee”) 怎么样,这个翻译简直堪比经典翻译 long time no see (好久不见)和 “people mountain people sea” (人山人海)了。认真说,Zone 比 Belt 好得多。 One zone one path. One zone one road. New zone old road. New Silk Road Zone. 感觉都不如 one Z one P 顺口。 from 【语言学随笔:从缩略语看汉字的优越性】 【相关】 博鳌AI同传遭热议!腾讯翻译君负责人李学朝、讯飞胡郁有话说 NLP 历史上最大的媒体误导:成语难倒了电脑 【 立委随笔:成语从来不是问题 】 【语言学随笔:从缩略语看汉字的优越性】 【语义计算:李白对话录系列】 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|2439 次阅读|2 个评论
【尼沙龙笔记:宁顺不信,神经机器翻译的成就和短板】
liwei999 2018-2-13 02:50
大赞了神经机器翻译的革命性进步 以后,提到两个短板 其一是不忠:无中生有或化有为无 以假乱真 指鹿为马 胆大包天。其二是依赖领域数据 没有数据的领域 立马傻眼。 李: 我用有道app里面的口译功能测试了一下字正腔圆的做节目的人,【文昭談古論今】, 一边在 youTube 上看他的视频,一边把有道打开做现场口译,几乎完美无缺。 毛: 同声传译,以后是不需要的了。 李: 识别我的口音还是有误:识别我的英文比中文似乎更好一些。上面的那位是自媒体里面的很受欢迎的一位,文科背景,出口成章,比播音员说话还清晰。 语音识别的两个明显错误:neural network 错成了 neutral network,text 成了 tax(税),大概是我的英语发音的确不够好。但总体而言,句子蛮长,一口气说一大段,它也一样即时翻译(通过wifi接云端,立等可取)。 哈,text 与 taxi(出租车)也打起架来: 从这些人类不会犯的错误看,神经 MT 的巨大成功,与语音转写的巨大成功,完全是一个道理,都是在真正的海量数据中模仿,而没有任何“理解”。不合逻辑 不合事理的句子 会以一种蛮“顺耳”的方式呈现出来。 尽管如此,我们当年还是没想到,在没有解析和理解的前提下,这条路能走这么远。很久以来,我们的信念是,没有理解,无从翻译。鹦鹉学舌,可以学几句零碎的片段,但绝不可能把如此复杂的自然语言,学得如此栩栩如生。但事实上,“鹦鹉学舌”方式,在强大的数据和运算能力支持下,的的确确可以做到在很大的范围几乎可以以假乱真。 短板也是显然的,没有数据的话,再强大的运算也培训不出一只鹦鹉来。譬如,电商场景的机器翻译,由于缺乏汉英对照的大数据,就寸步难行。 下面是我说中文,让有道口译为英文的试验: “二次大战”先转错为“20大战”,继而又错译为 “20th centuray”。这个错误很值得评论,说明了神经翻译为什么求得了“顺畅”牺牲了“忠实”。我说的是“大约是在二次大战以后”,虽然转写就错了一个字,成为“大约是在20大战以后”,翻译却错得离谱:这不是原来意义上的错误放大(error propagation),而是目前神经翻译“乱译”趋向的一个表现,by design:这种乱译的确在很大程度上克服了上一代统计机器翻译“不顺畅”的致命缺点。 “乱译”(或者“顺畅”)的根子在,目前的机器翻译里面有专门针对目标语的语言模型在,不仅仅是双语对照模型。目标语的模型里面“beginning of 20th century”一定是足够的常见,被记住了,所以尽管原句是“20大战以后”,它也一样无视(“大战”居然摇身一变,成了 century,是为指鹿为马,“以后”弄成了其反面 beginning,这简直是颠倒黑白),如果是前一代统计翻译(statistical MT),或者前前一代的规则翻译(rule-based MT),这种错误绝不会出现,应该是译成 “20 wars later”或 “after 20th war”之类。可是 目标语训练数据中根本就没有这个 “20 war” 这样的提法,与其忠实而别扭,不如化有为无或无中生有,甚至指鹿(20 war)为马(20th century),以求“顺畅”。这是目前机器翻译的短板,已经被很多人察觉和批判,研究界也在研究对策。 也就是说,为了“顺畅”,目前的系统可以无视原文中的一些材料。同样为了“顺畅”,译文也可以无中生有加一些材料。这对不懂原文的人可能非常误导:批评者说,找翻译本来就是因为不懂原文,结果你翻译出来,听上去那么顺畅,让我不得不信,可其实你暗度陈仓,居然敢于胡编乱造,这也太搞了吧。 这种批评当然言之成理,信达雅,信是基础,信求不得,达雅何用?无信,达雅反而更加迷惑人,不如不译。你无中生有了一个地方,让我怀疑你整篇都不可信了。这种想当然的胡编乱造真是害死人。 不过,其实了解历史和经历过机器翻译不同阶段的人,会有不同的角度。实际是,前两代机器翻译的译文大都惨不忍睹,在可读性和顺畅上没有根本的解决途径(点滴的积累式进步还是有的),虽然意思也能勉强传达(就是说不会在“信”上胆敢无中生有或化有为无)。这个问题是如此严重,以至于影响了很多人使用机器翻译的意愿,除非是不得已,因为看机器译文实在是太别扭,太难受了。 毛: 能把谎说圆,这不正是逼近了人的智能吗? 李: @毛德操 问题是,鹦鹉学舌,哪里有什么“把谎说圆”。机器不会说谎,正如机器不会说真;同理,潜艇不会游泳。无中生有是真的,但“胡编乱造”不过是个比喻说法。机器没有歹心,正如机器没有良心。因为机器根本就没有心。有的不过是记忆和计算而已。硬要把计算说成智能,硬要把比喻当成真相,那也没辙。乔姆斯基的态度是,不理睬。还好,当年创造的是“人工智能”这个词,脱不开“人工”、“人为”、“模仿”的涵义。如果先驱们当年达特茅斯开会,不小心起个名字是“机器智能”,那可就糟透了。 Nick: @wei 英国最早的说法就是machine intelligence。大概到七十年代才开始被美国带成人工了。 李: 达特茅斯会上呢? 马: 达特茅斯会上,还有一个词是复杂信息处理,不过最后还是AI占了上风。 李: 先驱们蛮“接地气”啊。其实,“复杂信息处理”很中肯,符合术语命名的严肃性。AI 还是太过“性感”了。 机器翻译更惨,很长时间是 “自动翻译”、“机器翻译” 混用,后来基本统一为机器翻译,因为自动翻译有多种用法 什么全自动翻译 半自动翻译等等。当然 较真的话,自动翻译比机器翻译还不堪。其实应该叫做随大流翻译,或者叫做 NLU-free translation,简称无智翻译,no kidding。 Nick: 自动/机器 定理证明。mt就不太好说artificial translation,中文更不能说 人工翻译。artificial本来就有点 瞎编 的意思。 李: 其实还真就是 artificial,本来就是仿造啊。译成汉语是仿人翻译。没有人的翻译样本,大量的样本,当今的MT根本就不可能。 马: AI翻译 李: 人工智能其实应该翻译为人造智能。人造翻译(或仿人翻译)与人工翻译可大不相同。但取法乎上仅得其中的古训不大灵了,古训忽略了量的概念。被取法者足够大量的时候 所得不止于中。AI 代替中庸 势在必行。取法乎众 可得中上,这是事实。但最好的机器翻译不如最好的人工翻译,这也是事实。因为后者有智能 有理解。而前者虽然号称神经了,其实连“人造的理解”(譬如 NLU)都没有。 现如今人工智能好比一个性感女郎,沾点边的都往上面贴。今天跟一位老人工智能学者谈,他说,其实人工智能本性上就是一个悲催的学科,它是一个中继站,有点像博士后流动站。怎么讲?人工智能的本性就是暂时存放那些机理还没弄清楚的东西,一旦机理清楚了,就“非人工智能化”了(硬赖着不走,拉大旗作虎皮搞宣传的,是另一回事儿),独立出去成为一个专门的学科了。飞机上天了,潜艇下水了,曾几何时,这看上去是多么人工智能啊。现在还有做飞机潜艇的人称自己是搞人工智能的吗?他们属于空气动力学,流体动力学,与AI没有一毛钱的关系。同理,自动驾驶现如今还打着AI的招牌,其实已经与AI没啥关系了。飞机早就自动驾驶了,没人说是人工智能,到了汽车就突然智能起来?说不过去啊。总之,人工智能不是一个能 hold 住很多在它旗下的科学,它会送走一批批 misfts,这是好事儿,这是科学的进步。真正属于人工智能的学问,其实是一个很小的圈圈,就好比真正属于人类智能的部分也是很小的圈圈,二者都比我们直感上认为的范围,要小很多很多。我问,什么才是真正的恒定的AI呢?老友笑道,还是回到前辈们的原始定义吧,其中主要一项叫做“general problem solver”(西蒙 1959)。 马: 是这么回事。11年写的一篇博客: 人工智能,一个永远没有结果的科学_马少平_新浪博客。 李: 好文。马老师科普起来也这么厉害啊 堪比白居易写诗 老妪能解。有说服力 而且生动。 “11年写的一篇博客”。走火入魔 第一眼看这句 我无意识把自己变成了神经网络 网络里面是这样编码的:“ 11 years ago 写了一篇博客 ”。宁顺不信。我的大数据训练我首先排除了 2011 的选项 然后无中生有加了个 ago 以求顺畅。摩登时代,忠实值几个钱?忽悠才是摇钱树。 马: 用时11年,😄 洪: 人工智能是江湖,八仙过海都威武。武侠人物不绝出,很多虚晃都诈唬。 李: 回头说宁顺不信。两相比较,平心而论,对于多数人多数场合 还是顺畅的权重似乎更大。只是需要记住三点:(1)认真使用前,需要人工核对:机器译文只是提供一个快速浏览,了解个大概的选项,虽然总体的忠实比例其实不差,但任何一个点都可能错得离谱;(2)翻译工作者如果不学会利用机器翻译,与机器合作提高效率(要善于做核对和后编辑),很可能不久会淘汰:实际上翻译的工作市场已经急剧萎缩中,有道本身提供的人工翻译已经快速便宜到不行,可见能够生存下来的少数人工翻译一定是学会人机合作的工作模式的。(3)AI 还在飞速发展中,让我们拭目以待,看今后的系统能不能在信达雅三者之间做更好的平衡。可以想象的一个可能是,将来的系统至少可以让用户在“忠实”和“顺畅”中做权重的选择:根据偏好的不同,系统应该可以做不同的翻译:偏重忠实但生硬一点的选项(就是鲁迅曾经践行过的“硬译”),或者偏重顺畅却可能局部不忠实的选项。 【相关】 【校长对话录:向有道机器翻译同仁致敬】 人工智能,一个永远没有结果的科学_马少平_新浪博客 【 谷歌NMT,见证奇迹的时刻 】 有道的机器翻译 ( http://fanyi.youdao.com/) 【语义计算:李白对话录系列】 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|4217 次阅读|0 个评论
【生涯花絮:1989年的老照片】
热度 1 liwei999 2017-6-26 14:36
1989 年荷兰 董老师、立委访问 BSO 机器翻译组,组长 Witkam 请客并合影 董振东老师翻出来一张老照片,让我想起往事。说话快30年了。1989,我不过是刚入行两年的初生牛犊, 而董老师已经完成了中国第一个实用MT【译星】产品的研发,风华正茂。 “出道之初的上世纪80年代,我为一家荷兰的多语机器翻译BSO项目,参照英文依存文法,设计过一个【 中文依存文法 】(Li, W. 1989. “A Dependency Syntax of Contemporary Chinese”, BSO/DLT Research Report, the Netherlands),概括了几乎所有的重要句型,纸上谈兵地画过无数的中文依存关系句法树。那应该是中文依存关系形式化研究的真正开拓期,如此说来 yours truly 也可以算是中文处理研究的化石级元老了。现在回看当年的图画,对照最近在机器上实现的依存句法分析器(dependency parser),一脉相承,感慨万千。年轻时就有绿色的梦,那么喜欢树,欣赏树,着迷画树,好像在画天堂美景一样 体验着绿之美 ,梦想某一天亲手栽培这颗语言学之树,为信息技术创造奇迹。如今终于看到了实现的曙光,天时地利人和,研发的辛苦与享受已然合一,这是何等美妙的体验。” 摘自《 中文之心,如在吾庐 》 “1989年夏天,我和导师刘倬去德国慕尼黑应参加第二次国际机器翻译最高级会议。此前,我跟荷兰BSO(Buro voor Systeemontwikkeling BV)公司的机器翻译研究组一直有联络,应约为他们的以世界语作为媒介语的 多语机器翻译系统 DLT ,编写了一部现代汉语依从关系的形式句法。他们听说我们要来欧洲,就邀请我和我的导师,还有中国机器翻译界知名人物董老师,会后顺道访问他们的实验室一周,做学术交流,共同讨论汉语句法里的一些疑难问题。这次活动,他们称作 Chinese Week. “我们是应慕尼黑机器翻译峰会的召集人,西门子公司的S先生特邀,提交论文,介绍我们的JFY英汉系统。这是我第一次出国,一切陌生而新鲜。大会在大酒店的拱圆形讲演大厅举行,气派豪华。我的导师是俄语出身,所以派我上台宣讲论文。初生牛犊不怯场,我报告完后,回答了两个问题下场,正赶上中场休息时间。大概东方面孔的报告人很少,慕尼黑电台的记者现场采访了我,询问我的观感,还好没有涉及64的问题(当时64刚过,风声很紧,我们办到一半的出国手续,又重新审查一遍,险些泡汤)。 “游览阿姆斯特丹后,我们按计划去Utrecht的BSO公司访问一周。DLT 项目研究组十几个人,一半是语言学家,一半是工程师,看得出来,这是个气氛融洽的团队。德国世界语者 Klaus Schubert 博士是系统枢纽“依存关系句法”(dependency grammar)的设计人,在项目第二阶段继 Witkam 成为项目组长。71届大会后招进来的美国世界语者 Dan Maxwell 博士,负责东方语言的句法项目的承包、质询和验收,是我的直接领导(十年河东,十年河西,后来我成为他的 boss,这是后话,见《 朝华午拾:水牛风云 》)。Dan一看就是老实人,照顾我们客人殷勤有加。我看到他早上骑自行车来上班,笑着跟他说:“我在北京上班跟你一样”。 “研究组的骨干还有国际世界语协会的财务总监,知名英国籍世界语者 Victor Sadler 博士,我在71届国际世界语大会上跟他认识。作为高级研究员,他刚刚完成一项研究,利用 parsed (自动语法分析)过的双语对照的语料库(BKB, or Bilingual Knowledge Base)的统计信息,匹配大小各异的翻译单位(translation unit)进行自动翻译,这一项原创性研究比后来流行的同类研究早了5-10年。显然,大家都看好这一新的进展,作为重点向我们推介。整个访问的中心主题,仍然是解答他们关于汉语句法方面一些疑难问题。他们当时正在接洽欧洲和日本的可能的投资人,预备下一步大规模的商业开发,汉语作为不同语系的重要语言,其可行性研究对于寻找投资意义重大。 “期间,Victor以世界语朋友身份,请我到他家吃晚饭。他住在离公司不远的一栋公寓里,太太来开门,先跟丈夫轻吻,然后招呼我进来。太太也是世界语者,忘了哪国人了,总之是个典型的世界语之家,家庭用语是世界语。Victor告诉我,太太实际上会一些英语,但是用英语对她不公平啊。太太很和善,跟我说,他们俩非常平等,她做饭,Victor洗碗。我说,这跟我家的分工一样,我最爱洗碗这种简单劳动。她笑着说,“Victor, vi havas helpanton hodiau (你今天有帮手了)”。饭后Victor洗碗,并没有让我插手,我站在旁边陪他聊天,一边看他倒进大把的洗涤液,满是泡沫把餐具拿出来,用干布擦干。我告诉他们,这跟我的做法不同,我们总是怀疑化学制品有毒或副作用,最后必须用清水涮净才好。太太不解地问:“洗涤液如果有毒,厂家怎么能生产呢?” 这倒把我问住了。Victor夫妇和蔼可亲,我感觉在老朋友家一样,饭后一边吃甜点和水果,一边闲聊,尽兴而归。” 摘自 《 朝华午拾:欧洲之行 》 30多年前,我在社科院硕士报考专业上填写了“ 机器翻译 ”四个大字,内心充满了敬畏和神秘感。刚入行的时候做的是外汉机器翻译,一直不大敢碰汉外,原因是汉语语法不好形式化,感觉太难了。 把酒话桑麻,再泡一壶茶,白头老机译,闲坐说研发,说一点儿机器翻译的掌故吧。曾几何时,机器翻译处于手工业研发时期,每个语言对(language pair)要手工开发两套系统,A 到 B 一套,B 到 A 一套,语言对一多就有一个类似系统数组合爆炸的问题。于是,怎样实现多套语言之间的相互翻译成为机器翻译领域的经典话题之一。各种探索和方案都有提出,主要有两类:一类是所谓基于媒介语的设计思想;另一类是合一文法(unification grammar,又叫 constraint-based grammar)支持的方案。第一种方案很动听,因为如果有一种比较中性可以表达意义的媒介语,那么每个语言只要编制两套针对媒介语的互译系统,就可以实现通过媒介语而成的任意语言对的翻译。这幅图画是如此美妙,为老一辈机器翻译宣传家门所津津乐道。由此而来又引发了媒介语设计和选择的种种争论和探索,有主张全新设计一套基于逻辑的形式语言(日本曾经联合亚洲其他国家实施过这个方案),有主张利用或者改造世界语(Esperanto,立委出道当年也曾著文鼓吹过世界语作为媒介语,荷兰一家公司BSO也曾尝试过),还有研究者坚持认为只有采用自然语言(譬如英语,或者简化版英语)做媒介语才现实可行。第二类合一文法的研究在理论上也很诱人,它的兴起伴随着新型计算机语言 Prolog 问世:合一运算是 Prolog 语言的内置特性。所谓合一文法,就是排除蕴含在传统计算文法(computational grammar)里面的语言分析和生成的过程性,在合一文法的旗下出现过一系列以后缀G(gammar)命名的形式化系统方案(formalisms),如 GPSG,HPSG(立委的博士课题就是在HPSG这个框架下做的机器翻译实验)等。因为语言规则不再具有单向性,那么分析文法和生成文法就可以是同一套语法,由这套文法支持的系统是做分析还是做生成,是在文法资源被调用的时候才得以确定。理论上,A 语言翻译为 B 语言,与 B 语言翻译为 A 语言,在语言资源上归一以后,开发系统的工程就节省了一半,对于多语互译的效率虽然不如媒介语方案高,省工一半也还是非常诱人的。长话短说,这两类方案都是传统的基于规则的系统,虽然都做过相当程度的研究探索,但最终由于局限于手工规则系统难以 scale up 而没成大气候,最终修成正果的还是后起的统计型机器翻译(statistical MT)。多语翻译的问题因此转化为海量双语对照语库的资源问题。同一个架构和算法,原则上只需要同一个双语对照语库对互译的两个方向训练两次即可生成两套机译系统,近几年也有对于缺乏对照翻译数据的语言对,通过语料更丰富的语言作为媒介语绕个弯的做法。 机器翻译 (MT)是自然语言处理(NLP)领域历史最悠久的应用方向,从上个世纪50年代初发轫,承载了中外几代不知道多少人的青春和梦想,也包括青年时代的立委。如今,梦想化为现实,嵌入式机器翻译在互联网无孔不入,已经成为普罗大众手中招之即来挥之即去的便捷工具,每时每刻在默默服务着千百万互联网用户。女儿学汉语用它,学西班牙语用它,去日本动漫网页也用它,用到对它熟视无睹,把机器翻译视为理所当然。只在翻译错得离谱的时候才意识到它的存在,不时报以嘲讽:真笨。可机器翻译呢,谦谦君子,玉树临风,虚怀若谷,任劳任怨。对于已经天然成为女儿这代人生活一部分的机器翻译,我满腹机器翻译的历史和掌故,却不知如何给她诉说。耳濡目染,她从我断续的话语中似乎隐隐觉得机器翻译对于她父亲的一生具有特别的意义,可是我还是无法象对同辈人那样娓娓道来,如数家珍,传达出我内心深处的机器翻译所蕴含的那份厚重和神圣。不仅仅是一般意义上的代沟,是技术的跨越式发展造成了两代人迥然不同的视角,让人欣慰更感慨。 摘自 《机器翻译万岁》 “学自然语言的人如果入行做的就是规则机器翻译,那是上天的赐福。新一辈这种人没有了,所以很多入行多年的人,看到的语言世界,还是一线天。如果你在没有平台支持下被逼着去做规则机器翻译,你有福了。你必须从头开始做词典、做 tokenization,做 POS,做短语,做 SVO 句法,你还要做双语结构转换、WSD 词义消歧,最后还有目标语的生成,包括形态生成、调序,修辞上的一些 final touches。总之,从语言分析到语言生成,方方面面你必须全部做到。如果没有平台 没有专用语言 像我们做硕士论文那样用 general purpose language (COBOL,ALGOL,BASIC,甚至汇编)做,那就是在太上老君八卦炉里炼,没得不炼成火眼金睛。现在的 CL 硕士博士呢,动不动就下载一个软件包,瞅准一个子任务 譬如切词,譬如 sentiment,譬如WSD,哪怕是做 MT, 也不用涉及那么多的层次和模块。 “索性把怀旧进行到底 《 朝华午拾:一夜成为万元户 》: 这是我为这个DLT项目所做的 Chinese Dependency Grammar 的故事。这篇汉语形式文法的原始版本有链接可以下载:Li, W. 1989. “ A Dependency Syntax of Contemporary Chinese ”, BSO/DLT Research Report, the Netherlands. 我的工作应该是中国做依存关系最早最完整的作品了。所谓 【 美梦成真 】 就是这么个来历,跨越近 30 年,纸上谈兵的 syntax 终于化为现实的 deep parser。刚才一边吃晚饭,一边琢磨这段MT外传,觉得还是有几点可以总结的,笔记如下。 (1) 荷兰这个多语 MT 计划本来是规则系统起家,用世界语作为媒介语,用的是依存关系文法的框架,实现的机制是 ATN (Augmented Transition Network),技术领头是德国语言学家舒伯特。 (2) 可是做着做着,剑桥出身的 Victor 博士想出了统计的路线,定义了一个在句法分析基础上、根据统计和记忆决定的可大可小的 Translation Unit (有点像我们用的“句素”的概念),做了实验验证了这条路线的创新,把整个项目在收尾阶段翻了个个儿。而这时候(1989年),其他的MT研究虽然也有 IBM 等开始的统计 MT,但没有一个达到这样的深度。 (3)事实上,直到今天,回顾这个科研创新可以看出,根据 parsed 以后的双语数据库的平行对比,从统计去找 Translation Units,比起后来多数缺乏结构、本质上是 ngram 记忆的 SMT,还是远高出一筹。(当然现如今的深度学习对MT的革命性推进,虽然仍然没有利用显式的语言结构,但真正海量数据的深度学习似乎有效弥补了结构的不足,不像此前的 SMT 那样捉襟见肘。) (4)在 SMT 中加入 parsing 并不是每个人都有这个条件,DLT 赶巧是先做 parser 做了四五年,有了这个基础。现在和今后的方向从宏观上来看是,SMT和NMT 可以重温类似 BKB 双语parsed平行语料库的尝试,走带入结构的道路。深度神经是一种训练的算法,与语言的结构深度没有必然联系。事实上 迄今为止 对于 text NLP 的深度神经的尝试,除了专门做中间件 parsing 的 research 如 SyntaxtNet 外,对于 NLP 应用方面的任务,基本上还是在语言浅层端对端进行。” 摘自 《 河东河西 》 【相关】 【 立委科普:机器翻译 】 【 立委随笔:机器翻译万岁 】 【谷歌NMT,见证奇迹的时刻】 《 朝华午拾:欧洲之行 》 《 朝华午拾:一夜成为万元户 》 【 美梦成真 】 Li, W. 1989. “ A Dependency Syntax of Contemporary Chinese ”, BSO/DLT Research Report, the Netherlands. DLT项目背景介绍 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委其人|4416 次阅读|0 个评论
【语义计算:从神经机器翻译谈起】
热度 6 liwei999 2016-12-17 06:07
我: 机器翻译所蕴含的厚重和神圣,在新一代是不可理解的 刚入行的时候做的是外汉机器翻译,一直不大敢碰汉外,原因是汉语语法不好形式 化,感觉太难了,当时想,这辈子怕都没指望了。 现如今,汉语语法还真没有见到多少大规模形式化能实用的,按照以前的路子,那汉外机器翻译必然寸步难行,因为汉语分析是前提,然后才是转换和生成。 可谁能想到,机器学习越来越牛,人工翻译的双语资料作为人类活动的副产品,几乎“天然地”源源不断而来,这就成就了深度神经机器翻译。什么分析,什么生成,统统绕过去,端对端直接施行转换。Google Translate 因此可以在同一个模型架构下,支持几十种语言的互译。这简直就是神迹。可却是技术的事实。尤其不可思议的是,以前认为最难的的汉外翻译,反而进步最大(至少汉英是如此)。 译文再不济,也给你个大概齐,不仅立等可取,而且还完全免费。比你学两年外语,带上词典死磕还一头雾水要强多少。除了天堂,天下哪里有这样的美事? 机器翻译(MT)是自然语言处理(NLP)领域历史最悠久的应用方向,从上 个世纪50年代初发轫,承载了中外几代不知道多少人的青春和梦想,也包括青年时代的立委。如今,梦想化为现实,嵌入式机器翻译在互联网无孔不入,已经成为普罗大众手中招之即来挥之即去的便捷工具,每时每刻在默默服务着千百万互联网用户。女儿学汉语用它,学西班牙语用它,去日本动漫网页也用它,用到对它熟视无睹,把机器翻译视为理所当然。只在翻译错得离谱的时候才意识到它的存在,不时报以嘲讽:真笨。可机器翻译呢,谦谦君子,玉树临风,虚怀若谷,无怨无悔。对于已经天然成为女儿这代人生活一部分的机器翻译,我满腹机器翻译的历史和掌故,却不知如何给她诉说。耳濡目染,她从我断续的话语中似乎隐隐觉得机器翻译对于她父亲的一生具有特别的意义,可是我还是无法象对同辈人那样娓娓道来,如数家珍,传达出我内心深处的机器翻译所蕴含的那份厚重和神圣。不仅仅是代沟,是技术的跨越式发展造成了两代人迥然不同的视角,令人感慨。 from 【 机器翻译万岁 】 刘: @wei 深有同感。科学技术的发展真是出人意料,做梦也想不到机器翻译能到现在这个程度。我一个刚入门不久的学生跑NMT,轻松超过Moses十几个点,仅几年前,这还是天方夜谭,要是超出Moses五个点绝对可以发最高等级的论文、拿博士学位了。 而且现在用现有的深度学习工具编NMT程序,代码量跟SMT相比都很小,不像写一个SMT程序,要花大量时间处理小的细节。深度学习的工具本身太强大了。同一套工具,稍加修改,既可以做机器翻译,也可以做语言识别、图像识别。 深度学习并没有解决所有问题,但为我们解决一些难题提供了全新的框架,带来了新的希望,潜力还远远没有挖掘完,这给我们这些搞研究的也带来了巨大的机会 我: 很羡慕ing @刘 那天与讯飞的院长谈这事儿,他也是超级兴奋,说以前以为大约四五年会有全方位的大突破,神经在大系统大应用上全面开花。现在他确信只要2-3年就可以了,到时候很多事情会超出我们的想象。他是这样描述的,非常由衷。感觉是作为一线领航者,他看到一种排山倒海的科学潜力正在转化为技术力量,面对巨大机会忍不住激动。这很感染人。这种心态我可以体会。 biao: @wei  所以,哥儿几个在这死磕语法似乎很难看到什么时候是出头之日。 科大讯飞的确有过人之处。起码它的语音输入可以让你节约大量时间。 前几天有人在这里抱怨说输入码字太累。实际上现在语音输入完全可以帮助你非常轻松的输入,而且效果很好。 上面这两段话完全是讯飞语音输入的。一个字没有改,十几秒钟搞定,非常轻松。 刘: 我不敢预测哪些问题能解决哪些不能,但总体的进步是可预期的 我: 说语法没有出头之日 是小看了咱语言学家 等到dl打败我的 parser 再说不迟。 事实是 迄今 全世界最牛的 dl syntaxnet 仍然是我手下败将 。 另一个事实是 迄今没有sentiment系统在 open domain social media 这个几乎最难的 space,能赶上我们。Not even close :the margin is almost 20 percentage points apart 所以我跟讯飞院长说 你我是同一类人。不过你在舞台中央 我在野。但是论信心和对nlp的展望 心态和世界观惊人的一致。要不咱们互补、合作、合流,要不咱们就来个友谊赛,我就不自量力一哈。反正论年龄 我输得起 你们输不起 =) (我输了 就钓鱼去 乐见ai一统天下于dl if they truly deliver as well as nmt did 可是 nmt 有data 而大多数 nlp 没有那么多clean labeled data 啊) biao: 语法分析最大的问题是不灵活。鲜活的语言千变万化。一句话稍微变个说法,语法分析就抓狂了。 我: 根本不是这回事 你的理解有误 白: 死守固定语序才这样 但语法分析死守固定语序已经是老黄历了 你变个说法给伟哥试试 他会告诉你一个robust的句法分析器能做到什么 从“计算”角度说,黑盒子容纳结构的能力是最本质的。从“语言”角度说,结构应该长什么样,比其他的事情更值得关注。 两栖人 biao: 先分析一个名句: ”其为人也孝悌而好犯上者鲜矣。” 我: 如果变个说法 语法就抓狂 要这劳什子干嘛。语法的目的不就是为了对付变体吗 白: 大战风车,其乐无穷 我: 你弄句文言做啥?这个 sublanguage 里面没钱,开发他有卵用。 “卵” 属于 P 系列:是现代汉语口语的脏字否定限定词,== fucking no,社会媒体口语的这个 sublanguage 我们倒是对付了,不妨试试。 biao: 你的机器怎么知道它是文言文,半文言文,还是白话文?他们都是中文。 我: 不在一个频道 算了 biao: “工欲善其事,必先利其器”。这是文言文还是白话文?大量的成语是文言文还是白话文?金庸的小说是文言文还是白话文?四大名著,是文言文还是白话文?鲁迅的文章是文言文还是白话文? 这些都是在现实生活中大量遇到的语言素材。绕是绕不开的。 白: 高频小体量,适合死记硬背。文言文句法上并不比白话文更难处理,某种程度上还容易。文言文没有白话文里那种NP、VP串烧。有词类活用,但有规律可循。 我: 文言文长句 相对少。排比 平行用法普遍 也是形式痕迹。还有些非常固定的文言句式 用到特定的文言虚字 可以借力。等退休以后 玩玩文言文应该是一个不错 time killer。文言词汇量大大减小,字基本就是词,但每个字的用法 包括活用或引申用法 就多一些。 白: 关键看WSD一选出错率会不会增大? 我: 有不小比例的wsd,等价于pos,pos搞定 就搞定:老吾老。及物动词的“老”是一个活用义项,词典可以绑架为“尊崇”、“孝顺”之列,与作为形容词的“老(old)”的本义,以及作为名词的“老(the old,senior,parents)”都不同。 文言处理也少了切词错误的干扰 基本没可切之词。字驱动的路子,有很多字典工作可做 白: 有些歧义是简化字造成,之前古籍并无。比如后,简化之前就有这个字,就是皇后的意思。以后的后,之前是“後”。做pos也好wsd也好,要考虑文本的基准。 我: 所谓更多的活用,可以在字典假想如果处于某种活用,它义项是什么,然后绑架,倒也便利。另外,现代汉语对虚词的省略 似乎大于文言中虚字的省略,这也是文言处理的便利,虚字的频繁使用,给确定句子成分的边界创造了条件。 weidong: 娱乐一下:陈亢问于伯鱼曰子亦有异闻乎对曰未也尝独立鲤趋而过庭曰学诗乎对曰未也不学诗无以言鲤退而学诗他日又独立鲤趋而过庭曰学礼乎对曰未也不学礼无以立鲤退而学礼闻斯二者陈亢退而喜曰问一得三闻诗闻礼又闻君子之远其子也 标点断句先 我: 试了一下我的 parser,满篇都是 Next ;=) weidong: 没有引号连话到哪儿结束都猜半天 我: 索性也试试前面要求的测试 其为人Next 也孝悌,而好犯上者 Next 鲜矣。 哈 以前学美国之音英语900句,都说有900句,英语的基本句型就搞定了。这些年,我都 unit tested 近两万句了。是不是差不多该搞定了?最近翻阅以前内部论坛的帖子,有这么一贴,好玩: 池子里说说无妨,万一明年中文核弹爆了,你们可以作证立委就是钱学森。 作者: 立委 (*) 日期: 2012/04/18 23:13:13 不说的话,将来被代笔,说中文核弹不是我的作品 ,找个旁证都找不到。 换句话说,各路身怀绝技的侠客剑法可能不同,但有个共识:就是我们面临技术核弹大爆炸的前夕。至于AI泡沫,那是商业上的炒作,技术的发展与成熟只是给了它一个炒作的话题而已。 【相关】 【语义计算:没有语言学的计算语言学,NLP的亚健康现状】 中文处理 Parsing 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|6147 次阅读|7 个评论
机器翻译(machine translation)尚未成熟
zuojun 2016-11-1 04:38
一次晚宴上,一位老同事说:10年后,机器翻译应该成熟了。我,不想争论。(Let others have the last say.) 机器(计算机)可以做到人做不到的事,包括下棋。但是,这种机器是人制造的。除非有人觉得机器翻译太重要了,否则,我相信10年后的机器依然不如人翻译得好。 原文: Human impacts on the carbon cycle are well known, yielding anticipated global changes in the Earth’s climate. Likewise, human impacts on the availability of nitrogen, largely to improve agricultural yield, leave their mark on greater levels of water pollution in rivers and coastal waters. Nitrogen that escapes from agricultural fields, largely as ammonia, affects airquality, especially fine particulate matter, in regions downwind of agricultural. Other gaseous losses of nitrogen yield acidic rain and depletion of stratospheric ozone. Machine does this: 人类的影响的碳循环是众所周知的 , 产生预期的全球性变化的地球的气候。 同样 , 人类的影响可用性的氮气 , 主要是为了提高农业产量 , 将会在更高一级的水污染的河流和沿海水域。 氮气 , 逸出的农业领域 , 主要是氨气、会影响空气质量 , 尤其是细颗粒物 , 在顺风的农业。 其他气体损失的氮的产生酸性雨中和平流层臭氧的损耗。 https://www.freetranslation.com/en/translate-english-chinese Mine: 人类对(地球系统)碳循环的影响是众所周知的;这种影响产生了预期中的全球 气候 变化。 我们同样知道,人类为了提高农产量 , 对可用氮的影响加剧了河流和沿海水域的(水)污染。 从农田逸出的氮(主要是氨气)会影响(农田的)下风地区的空气质量 , 尤其是空气中细颗粒物的浓度。 (与人类活动有关的)其他气态形式的氮释放,产生了酸雨,或损耗了平流层中的臭氧。
个人分类: Scientific Translation|2857 次阅读|1 个评论
【关于NLP应用】
liwei999 2016-7-2 08:04
【 立委科普:问答系统的前生今世 】 《新智元笔记:知识图谱和问答系统:开题(1)》 《新智元笔记:知识图谱和问答系统:how-question QA(2)》 【立委科普:NLP应用的平台之叹】 【Bots 的愿景】 【泥沙龙笔记:NLP 市场落地,主餐还是副食?】 《泥沙龙笔记:怎样满足用户的信息需求》 《新智元笔记:微软小冰,人工智能聊天伙伴(1)》 《新智元笔记:微软小冰,可能的商业模式(2)》 《新智元笔记:微软小冰,两分钟定律(3)》 新智元笔记:微软小冰,QA 和AI,历史与展望(4) 泥沙龙笔记:把酒话桑麻,聊聊 NLP 工业研发的掌故 泥沙龙笔记:创新,失败,再创新,再失败,直至看上去没失败 泥沙龙笔记:parsing 是引擎的核武器,再论NLP与搜索 【立委科普:从产业角度说说NLP这个行当】 【 社会媒体(围脖啦)火了,信息泛滥成灾,技术跟上了么? 】 【 2011 信息产业的两大关键词:社交媒体和云计算 】 【 再说苹果爱疯的贴身小蜜 死日(Siri) 】 【 从新版iPhone发布,看苹果和微软技术转化能力的天壤之别 】 【 非常折服苹果的技术转化能力,但就自然语言技术本身来说 ... 】 【 科研笔记:big data NLP, how big is big? 】 【 与机器人对话 】 【立委科普:机器翻译】 立委硕士论文【附录一:EChA 试验结果】 《机器翻译词义辨识对策》 【立委随笔:机器翻译万岁】 【河东河西,谁敢说SMT最终一定打得过规则MT?】 【 关于 NLP 以及杂谈 】 【 关于NLP体系和设计哲学 】 【 关于NLP方法论以及两条路线之争 】 【 关于 parsing 】 【关于中文NLP】 【关于信息抽取】 【关于舆情挖掘】 【关于大数 据挖掘】 【关于NLP应用】 【关于人工智能】 【关于我与NLP】 【关于NLP掌故】 《朝华午拾》总目录 【关于立委NLP的《关于系列》】 【置顶:立委NLP博文一览(定期更新版)】 【 立委NLP频道 】
个人分类: 立委科普|6169 次阅读|0 个评论
冯志伟老师以及机器翻译历史的一些事儿
热度 1 liwei999 2016-6-28 06:50
有群友问,冯志伟老师还好吗?联想到一些MT的历史,随笔记下。 冯老师的微博还很热闹啊( 冯志伟文化博客的微博_微博 ),他四处讲学 著作等身 看照片神采奕奕的样子。学问的高峰虽已过,游离于主流非主流一线之外 但老当益壮 勤于笔耕 教书育人 传播科学。 中国机器翻译(MT)历史上 有冯老师的一页 他凭着多语言的天赋 在法国时期实现了一个一对多(汉语到欧洲语言)的机器翻译。我的硕士论文也是一对多(世界语到英语和汉语),比起冯老师,就算玩具了,但做一对多MT的人很少很少。说的是当年。后来 SMT 盛行了,终于能 scale up 到多对多,尽管仍然是一个语言对一个语言对做的 而我们当年做的一对多 源语分析模块是共享的。 关于冯老师 也有些故事。我的学长乔毅(硕士做的是法汉机器翻译,二刘老师文革后招收的MT首届研究生之一,其他的学员还包括冯老师、李卫东、黄秀铭等)告诉我,冯老师在这拨人中很特别,因为他处于两代之间,地位特殊。他实际上在文革前就介入MT的研究项目了,与二刘老师早有合作。由于文革的十年蹉跎,文革后二刘老师用招收研究生的方式让他归队,因此他实际上是以半同事、半学员的身份回来的。从资历上,二刘老师对他来说更像兄长和同事,而不是传统意义的导师。乔毅说,我们见两位刘老师,都毕恭毕敬称刘老师或刘先生,只有冯志伟例外,他称刘老师为老刘。 冯老师是个蛮豪爽的人,给人亲近感。记得89年香山会议上山,他气喘吁吁,跟我说,由于运动,他路上花了四五个小时才到,我问刘老师呢,他说,刘老师不同,他是圣人。冯老师最津津乐道的成就之一就是,他是第一个(或第一个之一)提出要用多标记做MT的。因为传统的MT都是在词类(POS)和词的基础上做,但POS 太大,词(直接量)太小,很难细线条成hierarchical 的规则系统以提高质量。因此 当一个词带有多标记(譬如 ontology 的标记 如 Human、Food 之类)参与规则条件 自然是打开了一扇大门。不过这一点我觉得是针对西方主流MT系统的算法而言。中国的MT,二刘老师从60年代就开始使用“句子场”的数据结构,这个句子场里面的每一栏实质上就是一个词的多标记。 刘涌泉刘倬老师给我们上课,他们的说法是,MT 50 年代初期由美国率先,苏联紧随,中国自从 57 年从苏联取经就是第三个开展 MT 的国家了。到了 60 年代,中国 MT 的研究处于世界先进水平。主要的原因是,美国和苏联的研究重点都是英俄或其他欧洲语言之间的MT,而中国一开始就不得不面对两个完全不相干的语系之间的MT(俄汉、英汉)。这个特殊性迫使我们不得不把 MT 推向深入。 MT 后来的历史巧合是,到了 1966 年,美国遭遇了由【 黑皮书 】带来的 MT 寒冬,中国没有黑皮书,但有红卫兵,也同时遭遇了文革带来的科研寒冬。MT 的复苏是在文革后,西方差不多同时也复苏了。世事巧合,莫过于此。参见: ALPAC 黑皮书 1/9:前言 , MT 杀手皮尔斯 (翻译节选) 。 QUOTE 【立委按】此前的博文摘要编译过皮尔斯论,这次重发的是对原文逐字逐句的完整翻译。皮尔斯是当年美国高科技官僚的代表人物,他是以MT(Machine Translation,机器翻译)杀手的面目记载在领域历史里。1966年,他主持撰写的那篇世界著名(或臭名昭著)的 ALPAC 黑皮书,把热火朝天的机器翻译研究,一下子打入冷宫。丘吉教授认为,皮尔斯给自然语言处理泼冷水,促成对自然语言和人工智能很多项目的资助冻结,是有其洞察力和远见的。不管我们心内对他多么不自在,必须看到他的反对意见至今没有过时,仍值得我们认真反思。 【置顶:立委NLP博文一览(定期更新版)】 《朝华午拾》总目录
个人分类: 立委科普|6229 次阅读|2 个评论
【河东河西,谁敢说SMT最终一定打得过规则MT?】
liwei999 2016-6-18 22:49
Xi: @wei , 评论一下李明教授的机器翻译。我纳闷这年头这么多人跨界来和你抢食啊? 我: 评论啥,我对MT无感了,都。 我现在是,胸怀知识图谱,放眼世界大同。早翻过MT那一页了。 不过话说回来,学自然语言的人如果入行做的就是规则机器翻译,那是上天的赐福。新一辈这种人没有了,所以很多入行多年的人,看到的语言世界,还是井底的一线天。 如果你在没有平台支持下被逼着去做机器翻译,你有福了。你必须从头开始做词典、做 tokenization,做 POS,做短语,做 SVO 句法,你还要做双语结构转换、WSD 词义消歧,最后还有目标语的生成,包括形态生成、调序,修辞上的一些 final touches。 总之 方方面面 你必须全部做到 如果没有平台 没有专用语言 像我们做硕士论文那样用 general purpose language (COBOL,ALGOL,BASIC,甚至汇编)做,那就是在太上老君八卦炉里炼 没得不炼成火眼金睛 后去做 NLP 任何一个方面和应用 都洞若观火 不会被淹没。 现在的 CL 硕士博士呢 动不动就下载一个软件包,瞅准一个子任务 譬如切词,譬如 sentiment,譬如WSD,哪怕是做 MT, 也不用涉及那么多的层次和模块。 老老年文:【 立委科普:机器翻译 】 但并没完全失效。还有这篇:【 立委随笔:机器翻译万岁 】。 SMT 不用涉及那么多层次 是因为迄今的 SMT 基本是在浅层打转 从来就没有做到深层,论深度和结构 远远不及我们 30 年前做的 规则MT。 马: 但是比规则的系统实用啊 我: 河东河西啊。 如今董老师的系统等也打磨经年了,很难说谁更实用。论精度 则绝对是后者强,甩出一条街去。 smt 的先驱应该是 ibm ,从加拿大议会英法双语语料开始的。 Guo: Translation memory 算什么? 我: 说起这个概念,我还有掌故呢。以前记过,差不多也成了 MT 野史或外传了,见《 朝华午拾:欧洲之行 》,Victor 称作为 translation unit (TU)。他们的所谓的 Chinese Week,当时董老师也去了,我和刘老师也去了。傅爱萍大姐派人领我们参观了红灯区以后,并没有随着我们去参加这个活动。这个活动的设立与我当年为他们做的“汉语依存文法”的工作密切相关。 QUOTE 研究组的骨干还有国际世界语协会的财务总监,知名英国籍世界语者 Victor Sadler 博士,我在71届国际世界语大会上跟他认识。作为高级研究员,他刚刚完成一项研究,利用 parsed (自动语法分析)过的双语对照的语料库(BKB, or Bilingual Knowledge Base)的统计信息,匹配大小各异的翻译单位(translation unit)进行自动翻译,这一项原创性研究比后来流行的同类研究早了5-10年。显然,大家都看好这一新的进展,作为重点向我们推介。整个访问的中心主题,仍然是解答他们关于汉语句法方面一些疑难问题。他们当时正在接洽欧洲和日本的可能的投资人,预备下一步大规模的商业开发,汉语作为不同语系的重要语言,其可行性研究对于寻找投资意义重大。 索性把怀旧进行到底 《 朝华午拾:一夜成为万元户 》: 这是我为这个DLT项目所做的 Chinese Dependency Grammar 的故事。这篇汉语形式文法的原始版本有链接可以下载:Li, W. 1989. “ A Dependency Syntax of Contemporary Chinese ”, BSO/DLT Research Report, the Netherlands. 我的工作应该是中国做依存关系最早最完整的作品了。所谓 【 美梦成真 】 就是这么个来历,跨越近 30 年,纸上谈兵的 syntax 终于化为现实的 deep parser。 刚才一边吃晚饭,一边琢磨这段MT外传,觉得还是有几点可以总结的,笔记如下,各位指正。 (1) 荷兰这个多语 MT 计划本来是规则系统起家,用世界语作为媒介语,用的是依存关系文法的框架,实现的机制是 ATN (Augmented Transition Network),技术领头是德国语言学家舒伯特。 (2) 可是做着做着,剑桥出身的 Victor 博士想出了统计的路线,定义了一个在句法分析基础上、根据统计和记忆决定的可大可小的 Translation Unit (有点像我们用的“句素”的概念),做了实验验证了这条路线的创新,把整个项目在收尾阶段翻了个个儿。而这时候(1989年),其他的MT研究虽然也有 IBM 等开始的统计 MT,但没有一个达到这样的深度。 (3)事实上,直到今天,回顾这个科研创新可以看出,根据 parsed 以后的双语数据库的平行对比,从统计去找 Translation Units,比起后来多数缺乏结构、本质上是 ngram 记忆的 SMT,还是远高出一筹。 (4)在 SMT 中加入 parsing 并不是每个人都有这个条件,DLT 赶巧是先做 parser 做了四五年,有了这个基础。现在和今后的方向从宏观上来看是,SMT 应该重温类似 BKB 双语parsed平行语料库的尝试,走带入结构的道路,才有希望克服现在显而易见的结构瓶颈,譬如定语从句翻译的错误。 mei: 语言学家做MT注重语言的结构,深的浅的。我是ai出生,注重“知识“,互相通融的,但侧重点有区别。 Guo: 一谈到统计和规则,总不免让人想起,库恩的科学革命的结构。根本说来,统计和规则,对于什么是nlp,是有完全不同的定义的。站在统计的角度,古埃及文的解读,作者和鹰品的辨识,错别字的检查和矫正,文章可读性的分类,还有很多很多这样的,都是历史悠久的成功故事。说历史悠久,是因为他们早于乔姆斯基太多年了。但是从规则的角度看,这些大概都不属于nlp。 我: 规则也并非一定要是句法的规则,任何 patterns 包括 ngrams 都可以是规则。学习派用的是 ngram 的分布统计,规则派不是靠量化这些 ngrams 的统计数据,而是把“gram”定义为从线性序列到句法单位的一个动态 unit,用结构化的深度弥补统计性的不足。 Guo: 其实对于mt,统计这一派也更多的是从”机助”翻译甚至阅读来看问题。不管大佬们怎么吹牛,统计这一派从来不以理解人模仿人为目标。他们是非常工程性,实用主义的。 我: 当 gram 被定义为我导师刘倬老师所阐述过的“句素”以后,产生了两个飞跃: 第一是距离从线性走向平面,甚至远距离现象也可以被这种 “ngram” 抓住了: 这类例证我此前显示过很多。第二是 gram 本身从直接量 (literal) 提升为一个具有不同抽象度的 features 的语言学单位总和,连ontolgy亦可带入。这两个飞跃使得应对自然语言错综复杂的规则,变得切实可行。 smt 我们迄今看到的流行成熟的系统,譬如大投入造就的百度和谷歌MT,其缺乏结构和parsing支持的缺点是如此显然,结构瓶颈随处可见。可反过来看董老师在群里显示出来的传统规则+知识 的系统,结构的优势不言而喻。 也许从 scale up,从对付鸡零狗碎的成语性的 ngrams,董老师这类系统目前还无法匹敌百度谷歌 smt,但是假如以董老师系统为核心,给以同等的资源投入和维护,我觉得百度系统无法打得过规则 MT。当然 最佳的办法是二者的某种结合,取长补短。我想说的是,如果硬要硬碰硬的话,在同等投入的基础上,谁敢拍胸脯说主流 smt 一定会胜过规则 mt 呢? 现在是不平等比较,根本不是 apple to apple 较量。历史把 规则mt 推下了主流舞台,但是 smt 的人无论多么傲慢 也还是应该看得见自己的短板和规则mt的亮点。 Guo: 统计这一派,其实有很多人试图引入结构,但鲜有能够有效减少perplexity的。核心的争论,就是问题到底出在哪儿?一种观点是,结构,并不承载太多的附加信息。另一种就是,我们还没有发现更好的更有效的数学模型。这就是为什么,好些人对深度神经就像打了鸡血。 我: heterogeneous features 引入后的 evidence overlapping 以及 perplexity 等,是研究课题,不过说结构不承载太多附加信息等价于说 ngram 线性的 model 无需改变,这个 model 在20多年中已经被推向了极致,没有多少油水了。白老师说话,model 不对,语言长得啥样框架上就没留下空间,再多的数据,再deep的学习,也是必然遭遇瓶颈的。 的确在某些粗线条任务中 譬如 document classification,一袋子词的ngram模型已经足以满足应用的需要,精度已经够高,结构即便加入也改进余地不大了:这不是我们需要讨论的。我们关注的都是那些显然遭遇瓶颈的任务,包括 MT、包括 IE、包括 Sentiment Analysis,这些任务,显然统计的路线在没有结构助力下,深入不下去。 到目前为止 纵然有一些带入结构的尝试,但很可能是浅尝辄止,还不到结论的时候。 深度神经是一种训练的算法,与语言的结构深度没有必然联系。事实上 迄今为止 对于 text NLP 的深度神经的尝试,除了专门做中间件 parsing 的 research 如 SyntaxtNet 外,对于 NLP 应用方面的任务,基本上还是在语言浅层进行。带入结构的深度神经用于 text NLP, 到底有几家在做?如果没做 或还没做出结果来 那么所谓 Deep Text 就是有意无意的误导(见 【 遭遇脸书的 Deep Text 】 )。 杨: 我理解:深度学习主要是可能在语意理解领域 可能会有所改变 我: 譬如? 哪些任务是深度神经擅长、文法工程短板的语义理解呢? 凡是条分缕析的细线条任务,想不出来深度学习可做,文法工程不可做的,无论语义如何落地。 杨: 比如文字到图像的映射搜索呢?我不懂,瞎说的。当然 这个目前远远不成熟 只是猜想 我: 这个还真是没想到,因为其中一端是 text (captions?),可另一端是 image,对于学习,无论神经的深浅,这个任务只要有大量的 data (带有 captions 的 图片集),就是一个很自然的学习的任务。而对于规则,这种形式化的语义落地(映射到图像)在图像那边如何处理并integrate 到规则系统中来对接,似乎没有显然而见的自然接口。 杨: 不过 图像这块就不够成熟 要做这个且早呢。 我: 好。短板不怕,只要心里有数就好。早就知道规则的“经典”短板了: 【 手工规则系统的软肋在文章分类 】 。 QUOTE 人脑(规则)可能顾不上这么多细微的证据及其权重,但是人脑往往可以根据不同状况抓住几条主线,然后在其中调控,达到解决问题。在 deep parsing 这个 NLP 的关键/核心领域,规则系统的优势更加明显 。 再有就是搜索。关键词检索的鲁棒、对付长尾 query 的能力,是规则系统难以匹敌的。 但是如果把关键词搜索作为 backoff,那么加入结构的精准智能搜索(我们叫 SVO search)就顺理成章了。 【相关】 【 立委科普:机器翻译 】 【 立委随笔:机器翻译万岁 】 《 朝华午拾:欧洲之行 》 《 朝华午拾:一夜成为万元户 》 【 美梦成真 】 【 手工规则系统的软肋在文章分类 】 【 遭遇脸书的 Deep Text 】 Li, W. 1989. “ A Dependency Syntax of Contemporary Chinese ”, BSO/DLT Research Report, the Netherlands. 【置顶:立委科学网博客NLP博文一览(定期更新版)】 《朝华午拾》总目录
个人分类: 立委科普|4272 次阅读|0 个评论
【把酒话桑麻,MT 产品落地史话】
热度 1 liwei999 2016-6-14 10:28
本来是要对比NLP(自然语言处理)落地的几个方面的, 一不留神追踪到了MT(机器翻译)的早期历史以及最初的落地。 意识流效应,还是思路别断,接着讲吧。“资深” 的坏处就是所见所闻太多,容易思维发散收不住,但收得太早太快, 口传历史也就绝种了,不利于后学。 昨天说 NLP 的前多半历史就是 MT的历史,就是这样。只有到近20多年,才发展出了信息抽取、 知识图谱、舆情挖掘、问答系统、自动文摘、智能助理等, 此前的自然语言研究一切围绕 MT,甚至 NLP 成为独立领域和术语之前,所有的践行者( practitioners) 都是 MTers (AI 人工智能符号派早期的玩具系统, 在逻辑推理之外用到一点自然语言理解NLU技术, 但那是另一条线和另一班人,是两个不同的传统和传承,不在 MT-NLP 的主线上)。 30年前我入行的时候,MT 还基本是象牙塔里研究人员的玩具, 但是已处于面临应用落地的前夕。在国外,Systran 已经产品化。早期的故事是其设计者卖了个大价钱,人就从 community 蒸发了,后来发现他隐居到澳大利亚,买了个庄园优哉游哉了。 这大概是靠前IT时代的“IT技术”发迹的先驱了,所以后来 Facebook 的共同创始人发横财为逃税躲到新加坡花天酒地, 微软共同创始人买个足球队啥的,其实都是有榜样在前的。 当时在国内大家隐隐感觉这玩意儿可以应用, 但是这些议论和呼吁多在口头上, 日常研发仍大多囿于研究界老牛慢车的惯性,十年磨一剑, 闭门造车,各自为政。这时候,出现了一个奇迹, 那就是董老师的实用型MT系统【科研一号】。 这个群的小一辈如果不知道这段历史的,都应该起立, 给董老师鞠躬致敬!董老师是我一辈子特别景仰的前辈, 不仅是他的NLP学问,MT功底,他的HowNet, 更在于他的敏锐和见识。 话说当年董老师从黑龙江调到了军事科学院,继续 MT 的研发,表面上看与其他几个团队无异。当时的团队有我们语言所、 科学院计算所、广东黄老师、哈尔滨,好像还有西安、上海交大, 全国大约有不到一打的大小团队在做(传统的)规则MT, 大家一年见个面,开一次油印论文的全国会议切磋,座谈会一般。 1986年常州会议是我第一次跟导师参加这样的机器翻译全国会议 。董老师的惊艳之处在于, 他第一个走出实验室而且有自己的具体步骤, 就是大规模的开放测试。 当时多数团队还是在几百个句子的封闭集里面绕不出来, 只见树木不见森林。磨啊磨,总觉得这里不对那里不对, 不弄顺拿不出手。董老师第一个测试“大数据集”( 当然没办法与现在的大数据比,当时的大数据也就是万这个级别吧) ,然后从大测试的高度看系统应该如何改进才能最快达到可用。 这么一来,董老师心里就比较有数了, 原来不管这个系统还有多少缺陷,但数据大了就发现, 现象是不均匀的,值得下力的地方是频繁出现的有限的现象, 把这些现象磨圆,就是钢用在刀刃上,然后系统开放就不怕了。 于是,军科院开了个鉴定会,请来国内MT专家, 系统开放给专家随机测试。第一次看到了 MT 从封闭真正走向开放,大家的震惊可想而知。 圈子里叫了多年的走出实验室,这一下眼见为实了。 后来的产品落地的故事细节我不了解( 董老师有空自己给讲一讲最好了, 作为NLP应用的pioneer的心路历程),但大体脉路是, 军科院虽然名气大待遇好,当时对董老师及其技术也非常推崇, 但毕竟不是做产品的环境。于是董老师出山,加入中软, 把在军科院研制的“科研一号”MT 落地为中国第一个MT软件产品“译星”(TranStar), 这是中国 NLP 历史的重要里程碑。 其实董老师不是当时唯一NLP落地的。 与董老师前后脚的还有一位老先生,当然不像 TranStar 那样名震江湖。这一位没闹出啥响声来,算是野史了,如果不讲, 也就湮没了。这一位老先生叫刘孝叔, 不知道董老师是不是还记得他。我与他当年有过一些私交, 了解这个故事的前前后后。 刘孝叔老先生是一个电子硬件工程师,喜欢用汇编编点程序。 几乎完全不懂语言学,业余爱好只有这么一项,就是MT, 不是一般的爱好,而是一辈子的痴迷。他业余做 MT 夜以继日,非常起劲,做了很多年,但大多游离在主流之外( 当时的“主流” 就是董老师还有我的导师刘倬刘涌泉先生这些中国NLP/ MT的开山人物)。相比之下,老先生看起来多少有些“民科” 的味道,所以他不大能卷入“我们主流”的圈子来, 虽然我知道他为此做过相当的努力。 Anyway,他就一个老工程师,会编程,外语不错, 但不懂语言学,他就从查词典开始,慢慢在程序里面写了一些规则, 结果就做出了一个特别短小精悍的 MT 系统来,最大的特点是速度和鲁棒,垃圾进垃圾出。 大概是当年最紧凑快速的系统了,每个字节的存贮都精打细算, 整个流程也不深,他一切凭着感觉走做系统, 并没有啥宏观的语言学路线,自己创造了一个 test-driven 的路子,就是计算翻译出来的译文要经过几次编辑操作(增、删、 调位)才可读,然后一切努力就在减少这个编辑劳动量, 以此作为系统的 benchmarking,鞭策自己前进。 在董老师产品化的前后脚, 他到处联系看哪家愿意代售他的MT系统。与多数实验室系统不同, 他是工程师,从一开始就是朝着开放运用的角度做。 结果是有一家小的软件公司门面愿意代售,算是也落地为产品了, 也确实卖了一些,但没法与董老师的比。 到我与他有交往的时候, 他还住在东四附近一个非常狭窄的小屋子与老伴一起。 转不开身的屋子里面一台电脑,每天做 MT。老人非常和蔼可亲,爱琢磨。 记得当时他最头疼的是介词的翻译,问我有啥招儿。 我当年钻研过介词,跟他说介词要分而治之(见 《机器翻译词义辨识对策》 )。介词介词, 是介于两词之间,前一词是其父节点动词、形容词或名词, 后一词是介宾 NP。动词形容词名词的 subcat 里面可以吃掉一批介词,翻译就随那些词的 patterns 走就很地道,譬如 translate NP1 into NP2, 随着 translate pattern,translate into 就翻译成“翻译成”。 剩下的介词主要看后面的名词种类来决定如何翻译, 所以名词必须分细类,譬如 down the street 翻译成“沿着街道”。这两边都没照顾到的, 那就给一个默认的宽泛译法,譬如 in 翻译成“在...里”。他虽然不懂什么是 subcat,但对我的建议特别兴奋,说这下子好了,可是“ 我的数据结构根本就没有空间去存放这些子类信息呢”。 后来他改变了捉襟见肘的数据结构,过两个月再见面时候, 高兴得手舞足蹈像个老小孩似地说, 介词的翻译质量果然大幅度提高。 回到NLP产品落地这个话题。 我问他上架后卖得怎么样?他说卖不动,有些零星的买卖, 他自己实际受益甚微,但一直放在柜台上,有当无吧。 这边译星卖得怎样,细节不知道,但是当时动静很大, 我一个小老乡在四通还倒腾过几套译星的买卖,跟我说, 是有市场的,但也不是很容易就找到批量的客户, 都是一户一户地推销出去的。 回头看中国NLP或MT历史上的这第一波产品落地, 比较清楚的是,这个不是技术的问题,而是商业模式的问题。 当时的技术和质量虽然无法与现在比, 可当时也没有免费的百度翻译或谷歌翻译可以利用啊, 而专职翻译的需求是一直存在的。MT 质量再不济,至少省了很多手工查词典的时间,如果人机配合得好, 可以节省人工翻译的成本。从这个角度看,市场肯定是存在的。 但是这种市场不成规模。因此这台产品落地的戏也就唱不大。 说到这里,可以谈谈同时期台湾同胞的MT落地努力。 台湾MT的先驱人物之一是苏教授,老NLPers大概都记得他, 当年很活跃的,他与董老师也交往甚密。 这位仁兄最津津乐道的是他几乎是唯一得到了清华大学教授职务但自 己主动辞职去创业的。把无数人羡慕的金饭碗扔在一边, 不仅仅是他的创业理想和寻求自由的精神, 还因为据说他有一个做生意的哥哥愿意资助他创业。 于是他就开了一家翻译公司。 话说苏教授开办翻译公司的事儿, 也是与董老师产品化TranStar同时期的事件, 印象还略早一点儿。苏教授比董老师晚半辈的样子, 不过也已经小有名气,风生水起的样子。 当时刚刚开放台湾同胞入境,苏是第一批来访的台胞学者。 记得他天安门转了一圈后,来语言所拜见我导师刘倬先生, 一口一个老前辈,毕恭毕敬。董老师跟我说过,不能做封闭系统, 老在一个小数据里面绕;你看人家苏克毅, 系统做出来就开办了公司,招来一批译后编辑, 被培训去与机器合作。接来一个翻译任务,先让机器跑一遍, 然后让人工编辑加工。这不就产品落地,把生意做起来了吗。 这是早期NLP落地的一个有意义的尝试。不过苏教授毕竟是书生, 他把自己的公司当成一个科研与工业结合的机构去经营。 到北京访问语言所的时候,正是 Prolog 和 unification grammars 热门的时候,苏教授一口一个 GPSG,CFG,把我们给绕晕了,后来他自己说还请过 HPSG 的人到过他的公司指导。潮流他跟得蛮紧。其实这些个 Gs 都不是接地气的技术,他就是不甘心只做生意,要显得高大上一些。 教授经商,十有九伤。我后来听说,他其实一直没法赚钱, 更不用说做大了。 MT 真正落地的转机是电子词典的兴起,而不是 MT 作为一个单独的软件去卖。这个故事说起来很有意思, 其中也有刘孝叔老先生的传奇。前面提到, 不务正业的老先生一直被“主流”不自觉地漠视, 在国内当年的主流聚会或交流中他挤不进来。 我与他的交往说起来有些 by accident,在与他成为“忘年交”之前, 早就听说过这位老“民科”。说有这么一位痴迷MT的人, 自己在家瞎鼓捣MT很多年,到处展示自己的系统, 多次想到语言所来交流,总之大多是负面的传闻。 但这引起了我的好奇心。老先生愿意接近我,现在看来, 也是把我当成主流里面的后生,接近主流大牛不成, 接近一个后生也不错。第一次怎么接头的,我忘记了, 总之是我们相互都很愿意了解对方, 我对他的系统到底与我们做的有啥不同,也充满好奇。老人家非常 nice,典型的老知识分子,我很喜欢。 后来我就成了他家的常客。 当时他用英语在国外发表了几篇他的MT系统的文章。现在看来, 他的系统没大前途,但是有短小紧凑的特点, 这在当年是一个很大的长处。到了长沙会议,大概是1988年吧, 那次开会老先生倒是带着中文论文来了,算是侪入国内主流的边缘, 还与我的导师刘倬老师有不少互动。刘倬老师很严肃的人, 又是领域一面大旗,本来是不容易亲近的。 我很惊讶这次主流和民科在一起相互都很客气和融洽。 我觉得刘倬老师一来是看老先生岁数大, 二来多少为他锲而不舍的精神所触动,对他态度很客气, 虽然谈不上有多少学术上的交流。 我与老先生此前交往就多,所以长沙经常一起上街逛和闲聊, 当时他整天琢磨的就是怎样联系电子词典公司。 那时电子词典刚上市不久,全国英语热也持续发酵, 为该产品的火热预示了前景。 长沙大街上,我陪同他去过一些门店, 询问电子词典的销售以及如何联络电子词典厂商寻求合作的事儿。 老先生是第一批想要把 MT 嫁接到这个产品去的人,他商业嗅觉蛮敏锐,可惜还是人微言轻,他的努力没有成功。 他的系统短小紧凑的特点可以弥补他的质量和深度的不足, 本应是第一批进入电子词典的最佳候选。 我看过他的MT展示,也比较过我们语言所的系统,他的是 instant,我们当时是 45 秒一个句子,没法与他比速度。 结果, 这个NLP落地历史的故事演化为中国NLP历史上的第二个里程碑 ,就是陈肇雄与香港一家电子词典快译通 签订技术转让合同的一幕。其时我人已去国,流浪路上还是注意到当时媒体的沸沸扬扬,这是一个高技术落地的大事件, 也成就了陈肇雄。报纸还专文 feature story,称陈肇雄是机器翻译的明日之星。描述他签合同的那个场面,栩栩如生,大笔一挥, 有点惊天地泣鬼神的味道。 回头看这个历史,说句实话,在当时的硬件条件下,MT 跑到电子词典去,因为不是主餐,而是副食,其实哪家的都差不多。 是孝叔老先生的系统进去,还是陈肇雄的进去,差别不大,而系统的紧凑快速则绝对是电子词典的福音。作为副食,MT的要害不是技术和质量问题, 因为当时用电子词典的人并不依仗那个 feature,那个句子翻译的 feature 更像是一个花哨,可以增加 marketing 的说辞,电子词典不仅仅是词典,而是人工智能的词典了( 当年人工智能还没臭,与新近AI热一样为媒体所乐道)。这就好比 Siri, Siri 闹出那么大动静,绝大多数人在绝大多数的时候,也就是拿 Siri 当个玩具。但这个玩具对 苹果的 marketing 有很大助益,就好比如今的Google Home 之类,都是这样的例子。是副食,不是主餐。 老先生不应该算是民科,但长期被当成疑似民科,打不进圈子来。 他欠缺专业功底,真地不懂语言学,subcat 之类他从没听说过。但是 MT 是一个应用的东西,不是科学 per se,因此作为工程师的他,凭着自己对语言翻译的感性认识, 也是可以做出一个 working system,而且特别地速度快、存贮小,紧凑到无语。 他最先想到却没能第一个打进电子词典的市场是一个遗憾。他的唯一机会是电子词典, 而且有利于他落地的那个时间窗口也不大,因为他用汇编 hard-code 的MT系统的最大特点是紧凑和开销小,应该是最容易 integrated 到电子词典去,这个好处只有电子词典初期最合适, 后来硬件的自然提升,时间优势就不在他那儿了。 那时候如果哪家电子词典最先与他合作, 估计就会搅糊了陈肇雄后来的好戏。 刘老先生的系统后劲不足,随着硬件条件的跃升,是竞争不过主流的。 但是长沙会议的时候电子词典刚出来,他满世界找合作,结果未果, 是运气不佳,不是他的技术不硬。他跟我说,这硬件的发展总是超出他的需求。 说刚开始做MT的时候可惨了,但也还是可做,螺蛳壳里做道场。 说,到了必须加大或加速的时候,硬件就已经提升到 more than he needed and expected,说这话的时候他的笑特别天真, 真地就是孩子一样。老先生虽然有热情有眼光有嗅觉,但没有影响力,词典厂家有眼无珠,否则市场本来可以早两三年推出带句子翻译功能的电子词典。 这段历史的启示是,MT 技术作为主餐去卖,虽然有市场,但规模和用户有限,戏唱不大。救了 MT 的是作为副食进入的电子词典。最后救了 MT 的当然是搜索巨头,作为免费服务,为客户粘性贡献力量。 道理就在,作为主食去单挑,落地为产品,那是硬碰硬, 免不了客户横挑鼻子竖挑眼, 除非对于少量的急切需要此类工具的人,对于大众, 任何的不完善都是抱怨和发泄的对象和理由,市场很难做大。 然而作为副食,或作为免费搭配,客户的视角就不同了, 不吃白不吃,不用白不用,当然对不完美就可以容忍了。换句话说, 你NLP落地为主食(譬如我们现在做的情报产品), 客户的本性就是看到你的缺点,因为他花银子了啊。 当你搭配为副食(一个 feature)或免费服务,客户看到的是优点, 因为这是客户以前没想到的新的feature,或新的服务。 他可以选择不用,不玩,一切还是原样。但他一旦用了, 任何得益都归于高技术创新。 高技术说到底就是半瓶水。你落地得好,客户看到的是里面的水。 你落地得不好,客户看到的是空气,什么破烂玩意儿。 当年对于电子词典的刚需是显然的。这个市场很大,竞争很激烈, 因此厂商需要不断升级。而 MT 就被当做升级的一个主要的 feature ,顺理成章,它成就了 marketing 求大求高求时髦的要求。 本来 查词典就是 MT 中的一个低端的模块, 单词或短语的翻译本来也只是句子翻译的一种简单形式。 MT 的真正难点和深度都是在句子的分析和调整上。可是落地的时候, 乾坤大反转,词典成为主食,句子翻译成为门面,这是市场决定的。 说到底,一个底层模块养活一个复杂系统,这就是市场, 这就是生活。 我们语言所也走过这个历程。一开始是跟着“译星”模式跑,要做“ 新一代”(专家词典)翻译软件的产品落地。 于是刘老师牵头与中关村的高立公司合作, 从清华大学招来一批学生, 在中关村一个地下室开始了产品落地的研发,我是其中的主力, 负责培训机器词典和规则的编写调试。后来董老师也加入了( 不知道是刘老师还是高立把董老师拉进来的), 我也有幸与董老师有了一段日常的接触并亲聆教诲。 1991 年出国前在中关村高立公司与刘倬导师(下左2)和董振东前辈 (下右1) 及高立同仁合影留念 from http://blog.sciencenet.cn/ blog-362400-673109.html 这一段落地的实践是出了产品,也卖了,据说也赚了一些钱, 当然市场还是没做起来。 高立不亏,因为有了高技术, 带来了一些优惠政策,反正投入也不太大,后期还是小有所赚。 据说 公司最后的主食产品却是一个类似条形码的扫描器, 部署到各大超市。在我们与它合作技术开发前, 公司跟早期的其他中关村公司一样,就是靠攒机器卖钱, 从南边进货部件,组装成电脑卖。 我离开语言所以后, 刘老师和傅大姐也借着电子词典热把MT落地了一次。 那是陈肇雄快 译通里程碑事件之后, 有一家快译通的对手叫VTech与我们语言所的合作。 MT 进电子词典只是作为副食,其实质量不是关键,主要是不能没有这个 feature,而且这个 feature 的来头必须有说法, 至少当年的语言所还是一个可以拿得出去炫耀的光环。 怎么验收呢, 我当时很好奇,后来听大姐说,商人有商人的办法,说,这样吧, 你把《英语900句》都翻译好了,就算质量验收了。 一个封闭的集 合,但是的确是一个有代表性的集合,而且标准相对客观。 于是傅大姐就出差到南方两个月,专门调试这 900 句,落笔成交。 MT 的最后落地,也不是主食,而是作为搜索巨头的噱头产品, 慢慢转化为有实用价值的服务,但一直不改免费服务的本质。MT 这才真正地站住脚了。 有意思的是,作为免费服务,客户虽然也没理由抱怨太多, 但是日积月累,新一代人被训练成了用它作为习惯了, 这就隐含着客户粘性,于是MT成为搜索离不开的一个技术了。由于竞争的存在,也还必须不断加强。最后的结果是, 老牌的机器翻译公司 Systran 走向末路。作为主食的MT几乎宣告退出产品落地的舞台, 虽然不排除有些专业性很强的特别领域的机器翻译的专项软件还会长 期存在下去。 搜索巨头MT的兴起和Systran的末路当然也可以从商业模式 、主食副食以外的技术路线上来看,简单说, 那就是统计对规则的胜利,是主流对前主流的胜利。 但这个胜利还不能算干净彻底,因为很显然的,主流MT遭遇瓶颈, 前主流有返潮或合流的迹象。这个董老师比我有发言权。 归结到一句话,离开句法和结构的MT必然遭遇瓶颈。 目前缺乏结构支持的主流MT产品或服务, 必须要走与结构相结合的道路, 无论这个结构来自于规则派还是统计派。 把酒话桑麻的最后一个插曲是,当年看奥运会的新闻, 偶然遇到一则百岁老人做奥运志愿翻译的新闻, 一看原来是刘孝叔他老人家。奥运那年他整100岁, 照片上看还精神抖擞的样子。 老人家一辈子清贫,一辈子不务正业,一辈子痴迷MT, 心态特别好,所以高寿。 总结说就是,MT 作为 NLP 最悠久的应用,历史上看作为主食的产品落地一直没有做大过, 而作为副食(产品的 一个 feature 或免费服务)不仅在市场站住了,而且是市场离不开的东西了。 因此,如果历史是未来的镜子, 那么NLP作为主食的情报挖掘卖钱的行当也会有市场, 但也做不大。真正能做大的是,把 NLP 落地为副食,一个竞争和marketing不可缺少的、 逐渐转化为越来越大使用价值的副食。这样来看,NLP 做得再好,也还是当配角的料, 而且这个配角会比当主角要鲁棒强大得多。 不知道通过这个回顾反省可以不可以得出如下结论: B2C 企业消化和发挥 NLP 的舞台要比 B2B 的舞台大很多,因为后者是硬碰硬的主食,而前者是副食。 作为副食,NLP 可以玩出很多花样,制造很多 noise or buzz,而且客户看到的是水,而不是空气。 也有助于技术人的自我陶醉、欣赏、自大和圆满。 【相关】 【泥沙龙笔记:NLP 市场落地,主餐还是副食?】 泥沙龙笔记:把酒话桑麻,聊聊 NLP 工业研发的掌故 【 IT风云掌故:金点子起家的 AskJeeves 】 泥沙龙笔记:创新,失败,再创新,再失败,直至看上去没失败 【立委科普:从产业角度说说NLP这个行当】 【 从新版iPhone发布,看苹果和微软技术转化能力的天壤之别 】 【立委随笔:文傻和理呆的世纪悲剧(romance tragedy)】 《朝华午拾:创业之路》 【朝华午拾:安娜离职记】 《朝华午拾:今天是个好日子》 【朝华午拾:那天是个好日子】 【置顶:立委科学网博客NLP博文一览(定期更新版)】 《朝华午拾》总目录
个人分类: 立委科普|5994 次阅读|1 个评论
从图灵词屋到塞尔字屋:持续了大半个世纪的形式化论题
geneculture 2015-12-28 01:27
持续了大半个世纪的形式化论题:塞尔假设改用的中文字屋与图灵测试所用的英文词屋之间的内在逻辑关系。其中,蕴涵了双重形式化途径, 可采用它的 中文 大字符形式化途径至今为止并未超越 已流行的 英美小字符形式化途径。这个看似仅限于取值的形式化操作,却止步于置信的概念化和社会化进程之中。这个从(图灵)词屋到(塞尔)字屋持续了大半个世纪的自然语言理解的形式化论题,仅仅仅仅因为字与词之间看似(失之)毫厘实则(谬之)千里的歧义而迟迟未获实质性突破。 附录: Twenty-one years in the chinese room John R. Searle In John M. Preston Michael A. Bishop (eds.), Views Into the Chinese Room: New Essays on Searle and Artificial Intelligence. Oxford University Press (2002) http://philpapers.org/rec/SEATYI A chinese room that understands Herbert A. Simon Stuart A. Eisenstadt In John M. Preston Michael A. Bishop (eds.), Views Into the Chinese Room: New Essays on Searle and Artificial Intelligence. Oxford University Press (2003) http://philpapers.org/rec/SIMACR John Searle's chinese room argument John McCarthy Abstract:John Searle begins his ``Consciousness, Explanatory Inversion and Cognitive Science'' with ``Ten years ago in this journal I published an article criticising what I call Strong AI, the view that for a system to have mental states it is sufficient for the system to implement the right sort of program with right inputs and outputs. Strong AI is rather easy to refute and the basic argument can be summarized in one sentence: {it a system, me for example, could implement a program for understanding Chinese, for example, without understanding any Chinese at all.} This idea, when developed, became known as the Chinese Room Argument.'' The Chinese Room Argument can be refuted in one sentence. http://philpapers.org/rec/MCCJSC
个人分类: 双语信息处理|672 次阅读|0 个评论
世纪末对机器翻译50年奋斗历程的回顾(几篇文章)
geneculture 2015-5-28 11:16
机器翻译研究的现状和发展趋势 http://icl.pku.edu.cn/icl_tr/collected_papers/chinese/collection-3/15-bbzw.htm 中国机器翻译的世纪回顾 http://my.oschina.net/apdplat/blog/419511 MT Summit VII (大翻译时代的机器翻译 ——MT in the great translation era ) http://ccl.pku.edu.cn/doubtfire/NLP/Machine_Translation/Overview/Retrospect%20and%20prospect%20in%20computer-based%20translation.htm 大翻译时代的机器翻译:回顾与展望 http://www.oktranslation.com/tech/info13096.html Retrospect and prospect in computer-based translation http://mt-archive.info/MTS-1999-Hutchins.pdf 谷歌学术 http://scholar.google.com/
个人分类: 双语信息处理|3 次阅读|0 个评论
《语义三巨人》
热度 3 liwei999 2014-8-10 13:33
《科研笔记:自然语言处理领域中的语义路线及其代表人物》 如所周知,统计型自然语言处理(Statistical NLP)作为主流盛行了20多年,此前盛行的是以语法分析为基础的规则系统。即便如此,为了模拟人的语言理解过程以及力求语言处理的更高质量,追求以知识系统为支持的语义路线的尝试,从来没有停止过。本篇笔记拟对此做一个简要回顾和比较,并记录自己的心得和不同意见。 就NLP的机器翻译应用而言,在相当长的时期内,统计型机器翻译由于其数据多开发快,善于在浅层模拟人工翻译(特别是成语和习惯用法的翻译)会一直是主流。即便是机器翻译的规则系统,也还是语法为主的路子比语义和知识为主的路子更加切实可行。这不排除在未来,当统计机器翻译和语法为基础的规则机器翻译的改进余地越来越小的时候,人们会重新探索知识路线以求突破。 坚持语义和知识为基础的语言处理路线,是一条繁难艰辛的道路。我感觉,语义是个大泥坑,我等凡夫俗子一旦陷进去大多出不来,而能够驾驭它的人均非等闲人物。 Dr. Douglas Lenat Prof. Charles J. Fillmore Prof. Dong Zhen Dong 语义三巨人 在计算语义界,有三位长期坚持超领域语义的顶天立地的大学者(如果要算第四位,也许应该包括英国的人工智能大师Wilks教授,他早年做过基于语义模板的纯语义机器翻译实验。再往前追溯,人工智能领域早期也有不少先驱者,不过都是在极为狭窄的领域尝试一些玩具知识系统)。这 三位学者前辈 是,坚持常识推理的 cyc 的 Lenat 教授,格语法( Case Grammar )和框网( FrameNet )的开创者 Fillmore 教授和《 知网(HowNet) 》的发明人中国机器翻译前辈董振东教授。他们对自己思想和信念的坚持、执着、反潮流和勇于实践,令人景仰。 这些智者的成果都有某种超时代的特征,其意义需要时间去消化或重新认识。可以预见,将来某个时候,当机器翻译和自然语言理解的应用项目穷尽了浅层可用的低枝果实之后,知识系统将会被进一步发掘、利用和欣赏。但目前多数项目还没有到山穷水尽的时候,急功近利是绝大多数项目和产品的固有特征,而且多数主事者也往往缺乏远见。绝大多数语言处理业者遇到语义和知识都是绕着走。 三位语义巨人中探索知识最深入和纯粹的是 Lenat 教授,他带领团队手工开发的 cyc 知识系统,试图从常识的形式化入手,利用常识推理帮助解决语言理解等人工智能 核心 问题。可惜这套庞大的系统太过复杂和逻辑,在实际应用上有点像大炮打蚊子,使不上劲。 Fillmore 教授是享誉世界的语义学家,他的格语法理论影响了一代自然语言学者,包括中国和日本自然语言处理领域的领军人物董振东教授和长尾真教授。事实上,董教授语义思想的核心概念“逻辑语义”就来源于 Fillmore 的深层格 (Deep Case)。然而,Fillmore 本人的语义发展与董教授的创新发展走上了语义颗粒度不同的两条道路,前者的成果为 FrameNet,后者的结晶是《知网(HowNet)》。 可以从构建NLP应用系统的角度来看 FrameNet 和 HowNet 的不同语义层次,即,从分析器(parser)和应用(applications,包括机器翻译,信息抽取等)的分工合作的关系来看。 语言的分析无论多深入,都不是应用,只是(理论上)缩短了到达应用的距离。就以机器翻译的应用为例,翻译转换可以发生在浅层(极端的例子是所谓词对词翻译系统)、在关键成分不到四个(主谓宾补)和附加成分不到一打(主要的定状语子类)的句法层、在《知网》的90个逻辑语义的层面或者在 FrameNet 的成百上千的 frames 的层面。多数统计型机器翻译都是在浅层进行,通过海量双语训练集,记忆住千千万万大大小小的翻译单位(个体转换规则)。这条路子可行是因为机器擅长记忆。手工编制的翻译系统就很难在浅层进行,因为浅层转换的千变万化超出了人工编制和调控的可能。但是,翻译系统应该深入分析到哪一步实施转换比较合适,是大可讨论的。 我个人觉得,FrameNet 过细(成千上万的 Frames 组成一个 hierarchy,即便只取上层的常用的 Frames, 也有几百个),不仅很难达到,而且实用上没有太多的好处。FrameNet 的提出,是格语法框架的自然延伸、扩展和细化,语义理论上有其位置和意义。但是在实用上,FrameNet 的地位很尴尬,他既不像句法层 argument structure 那样简洁和好把握,也不可能达到语用层的信息抽取模板(IE Template)那样可以直接支持应用(因为信息抽取是依赖领域的,而 FrameNet 原则上是不依赖领域的,或者最多是在语言学与领域之间起某种中介桥梁的作用)。这样一来,从实用角度,与其分析到 FrameNet (这个太繁难了) 再行翻译转换或信息抽取,不如直接从 argument structure 进行(这个靠谱多了,very tractable),虽然理论上前者的转换或抽取应该更加简单直接一些,但是由于 FrameNet 分析工作难度太大,终归得不偿失。换句话说,FrameNet 从使用角度看,语义做得过了(over-done),用起来不方便,没有多少实际利益。 退一步回到句法为基础的 argument structure 如何呢? Argument structure 立足于句法结构,主要论元最多不超过三个(up to 3 arguments):逻辑主语,逻辑宾语,逻辑补语,加上谓词 governor,构成一个四元组,非常简洁,与各语言的词典句型信息 subcat 相呼应,易于掌握和实现。再加上10来个带有逻辑语义分类的状语(时间、地点、条件、让步、结果等)和定语(颜色,材料,来源等)。这样的中间表达作为语言分析(parsing)的目标,作为应用的基础,已经可以应对绝大多数应用场合。Argument structure 中的逻辑宾语和逻辑主语有其独特的概括能力,对于利用句法关系的语义限制排歧多义词和做知识挖掘具有特别的价值。 HowNet 不满足于此,它的体系是对句法为主的 argument structure 进一步细化,譬如逻辑宾语细化到 “patient”、“content”、“target”、“PatientProduct”、“ContentProduct”和“possession” 等子类。最终达到具有90多个逻辑语义角色的相对纯粹的语义表达。HowNet 就是这样一个概念知识体系,逻辑语义是连接这些概念的主要工具。 从主谓宾定状补这样简练的句法关系,深入到逻辑语义的角色,再进一步把逻辑语义细化,常常的表现就是信息表达的浓缩和冗余。HowNet 这样精细的逻辑语义,不仅反映了一个依存概念到主导概念的逻辑结构关系,而且反映了主导概念的子类信息(hence 冗余了)。例如,对于宾语的细化 “patient”、“content”、“target”、“PatientProduct”、“ContentProduct”,“possession” 等,显然是蕴涵了主导概念(谓词)的子类信息,而这些子类信息本来是已经附着在谓词上的。譬如作为 possession 的宾语,其谓词只能是 have、possess、own 这个小子类。信息表达的冗余意味着即便没有深入到细化的逻辑语义,系统并没有本质上的损伤,因为如果需要的话,细化信息依然可以通过句法关系节点的限制条件即时得到查询。 对于逻辑主语逻辑宾语等进一步细化的必要和利弊,我个人觉得是可以讨论的。首先是任何细化都是有开发和处理的代价的。更重要的是,其必要性究竟如何?从追求纯粹语义和逻辑、追求纯净的独立于具体自然语言的元语言表达的角度,我们总可以找到证据,证明细化是必要的。但是,在应用现场,我们也可能发现,对于绝大多数应用,细化并无必要。就拿机器翻译来说,同一语系之间的结构转换在逻辑主语宾语的 argument structure 的对应上有明显的一致性。即便是不同语系,这种对应也是主流,而不对应的可以作为例外,由词驱动(word-driven)的个性转换来应对。以上讨论,有很多例证,写得匆忙,暂时不例举了。 【相关】 【立委科普:机器翻译】 Notes on Bulding and Using Lexical Semantic Knowledge Bases 围脖:一个人对抗一个世界,理性主义大师Lenat 教授 .. 《泥沙龙笔记:再谈 cyc》 2015-12-22 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|13432 次阅读|3 个评论
给早期论文存个档:《机器翻译词义辨识对策》
热度 1 liwei999 2014-6-23 19:25
【立委按:这是刚出道时在导师刘倬先生指导下写的一篇机器翻译论文,举了很多第一手经验的实例,谈的是机器翻译中最棘手和繁琐的一词多译的难题及其专家词典的解决方案。就是现在看来,也可能有一些启发作用。当年写论文,也不懂西方规矩,既不做文献调查,文末列参考文献只列了自家的一篇,而且引用也不规范(没列明哪条具体观点出自什么文献)。倒不是唯我独尊,实在是不懂学术规范。不过那时候国内也没那些规矩,尤其是社会科学类的国内导师包括名家也大都不甚严谨,杂志编辑也不觉得异样。现在看来是够可笑的了,但历史就是如此。记得当年也有读严谨引用的论文,那多半是拿洋博士回国的人所为,不成气候。不过,这一篇论文是纯粹的经验总结,“专家词典”的自动翻译设计思想也是导师思想的核心(此前国外有人工智能学者 Small 做过类似专家词典的小规模尝试,这是我们写另一篇论文时查阅到的),都是干货,引用他人不全的缺点对文章的价值影响不大。】 我和导师的早期论文:《李维 刘倬:机器翻译词义辨识对策》【中文信息学报】第四卷第一期,1990年 Approach to Lexical Ambiguities in Machine Translation Authors: Wei Li, Zhuo Liu In Journal of Chinese Information Processing. Vol. 4, No. 1. pp. 1-13. Beijing 1990. 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|4624 次阅读|3 个评论
[转载]机器翻译的前世今生 来源: 光明网-《光明日报》 美国南加州大学
geneculture 2014-6-10 03:18
机器翻译的前世今生 来源: 光明网-《光明日报》 美国 南加州大学 的科学家们最近提出一种全新的机器翻译方法——解码外语。科学家认为这种翻译方法今后甚至可以破译“海豚音”或“外星人语言”。 机器翻译,简称“ 机译 ”,是利用计算机实现从一种自然语言 ( 源语言 ) 文本到另一种或多种自然语言 ( 目标语言 ) 文本的翻译;而用以翻译的软件叫做机译系统。 机译 涉及语言学、计算机科学、认知科学、数学等多个学科,是一门前沿 交叉学科 。这一 充满挑战 的研究领域, 被列为 21 世纪世界十大科技难题的第一位 。 最新成果 http://www.tac-online.org.cn/ch/tran/2011-09/28/content_4531176.htm 附录 : http://www.mt-archive.info/Weaver-1949.pdf 机器翻译的鼻祖当年的备忘录 http://baike.baidu.com/view/2221316.htm 雷·库兹韦尔 ( Kurzweil )目前担任 谷歌的技术总监 。在人工智能、机器人、深度学习等领域,他被视为一个奇才。微软创始人 盖茨 曾经 称他 是“我知道在预测人工智能上最厉害的人”。他目前拥有19个荣誉博士学位。 雷·库兹韦尔 (Ray Kurzweil),美国 发明家,预言家 。他曾发明了盲人阅读机、音乐合成器和语音识别系统。为此他获得许多奖项:狄克森奖、卡耐基梅隆科学奖。1988年,麻省理工学院提名他为“当年杰出发明家“。他曾获9项名誉博士学位,2次总统荣誉奖。 库兹韦尔也是一名成功的 企业家 ,他用他的发明创办了自己的企业,开发出多项造福人类的高科技产品。 库兹韦尔是 多部畅销书的作者 。他1990年出版的《智能机器的时代》成功地预言了电脑将在1998年战胜棋王,该书获得了 美国出版协会“最优秀的计算机科学著作”奖 。其它 如《灵魂机器的时代》 ,更是 对 宇宙的过去及 计算机和人类世界将来进行了深刻的描述 。
个人分类: 双语信息处理|1143 次阅读|0 个评论
书面汉语遵循的棋理(摘要)作者:邹晓辉Geneculture
geneculture 2014-6-10 02:58
书面汉语遵循的棋理 作者 :邹晓辉Geneculture 摘要 本文 旨在 以书面汉语为例论述其遵循的棋理。本研究的 特征 在于:首先,基于对称矩阵建构一个数字和文字之间具有映射关系的双字棋盘,进而,明确地规定计算机系统和自然人用户分别只关注各自熟悉的数字系统和文字系统,最终,我们可从双字棋盘遵循的棋理明白序位关系唯一守恒公理和从人机双语交互界面理解同义并列对应转换法则。其 结果 是:书面汉语直接遵循的棋理被发现。其 意义 是:与之等价的其它书面语言,包括:算术语言、程序语言和书面英语等各种外语,都可通过三类双语的相互转换而间接地遵循该棋理。 三类双语 特指:算术和语文两类狭义双语及其结合构成的广义双语乃至它们以专用术语和通用俗语的方式构成的另类双语。 关键词 :自然语言理解;知识系统工程; 双语信息处理; 机器翻译软件
个人分类: 双语信息处理|1107 次阅读|0 个评论
一个前所未有的问题_邹晓辉Geneculture_新浪博客.htm
geneculture 2014-6-8 09:09
融智实践所述的三类双语信息处理技艺涉及的 自然语言理解 人类知识表达 软件模式识别 是从三个角度 看同一个事情。 因此,仅从自然语言理解看, 就涉及 一个前所未有的问题: 语用学所研究的人理解一个句子、一个词组以及一个单词乃至一个汉字都不是单凭语法和语义以及词汇和字典所能解决的问题, 还要运用大量的相关知识,包括日常生活通用的知识和各个领域专用的知识,这些知识无法全部都贮存在计算机和人的大脑里, 因此,这就提出了一个前所未有的问题,即: 如何才能做到 人机协同一道来 集 人类知识信息处理与计算机数据信息处理之 大成? 相关背景知识请见以下附录! 附录1:自然语言理解 http://baike.sogou.com/v51401303.htm 附录2:知识工程(包含:知识获取、知识表达和知识重用) http://baike.sogou.com/v1717039.htm 附录3:模式识别 http://baike.sogou.com/v107882.htm http://blog.sina.com.cn/s/articlelist_1696169363_0_1.html http://blog.sina.com.cn/s/blog_65197d930101fang.html
个人分类: 双语信息处理|1275 次阅读|0 个评论
ALPAC 黑皮书 7/9: 附录9-10
liwei999 2013-10-6 16:43
Appendix 9 Cost Estimates of Various Types of Translation Before attempting to determine the costs of various types of translation, it might be instructive to see what the costs would be for an operation that made no use of translations, that is, a system that utilized subject specialists who were also skilled in a second language. Let us assume that we have an agency that employs 100 analysts and let us further assume the following: 1. that 50 of the analysts are competent in Russian in their subject field, 2. that each analyst earns $12,000 per year, 3. that each analyst reads 1,000 words of Russian per day in his work, 4. that each analyst works 220 days per year, and 5. that, therefore, the agency consumes a total of 11,000,000 Russian words a year. Since the major effort in past work on machine translation (MT) has been to develop a program to translate Russian into English, let us now restrict our discussion to the 50 analysts who are proficient in Russian. Salaries for these 50 would amount to $600,000 per year. Other costs such as Social Security, annual and sick leave, and retirement could be calculated at approximately 33 1/3 percent of their gross salaries. Thus the cost for these analysts would be approximately $800,000 per year. Obviously, no duplication checks would be necessary to determine whether a translation of any given work was already in existence. The Committee has no figures on the cost of maintaining facilities necessary for the making of checks to prevent the duplication of translation. If these costs could be determined and if they proved to be substantial, it might be the case that it would be more economical not to make duplication checks of documents less than some specific number of pages in length. In any event, the duplication checks would be superfluous for an agency employing persons proficient in a foreign language. MAJOR COSTS OF ITEMS OF AN AGENCY UTILIZING 50 ANALYSTS PROFICIENT IN RUSSIAN 50 Analysts at $12,000 per annum $600,000 Direct cost overhead at 33 1/3 percent of the above 200,000 Duplication checks 0 Total $800,000 Figured at 220 working days per analyst the total volume of words of Russian read would amount to 11,000,000 or about $75 for each 1,000 words read. Time lag after receipt of document none Total Cost of Translation 0 MONOLINGUALS If the 50 analysts could not read Russian and had to rely on translation, a number of possibilities exist for providing them with English translation. The agency could 1. employ in-house translators in the conventional method, 2. employ translation using the dictation (or sight) method of translation, 3. employ contract translators, 4. utilize the services of JPRS, 5. provide the analysts with unedited “raw” (MT) output, 6. provide the analysts with postedited MT, or 7. use a system of machine-aided translation. Throughout the subsequent discussion, the Committee has relied heavily on the cost figures developed by Arthur D. Little, Inc., and contained in An Evaluation of Machine-Aided Translation Activities at FTD . References to this study are indicated below by (ADL) followed by the appropriate page number. IN-HOUSE TRANSLATORS At the Foreign Technology Division, the in-house translators work at a rate of about 240 Russian words per hour (ADL, p. 29), yielding a daily output of approximately 2,000 words. Thus one translator can produce enough to keep two analysts in translations. Since ADL estimates (ADL, p. 21) that the cost for in-house translation is $22.97 per 1,000 Russian words, the cost for 11,000,000 Russian words would be $252,670. We assume that direct costs were included in this figure ($5.60 per hr) for translator time. Other costs that must be included in this type of operation are those of space, equipment, recomposition, and proofreading and review. MAJOR COSTS FOR IN-HOUSE HUMAN TRANSLATION 25 Translators' salaries and direct cost overhead $252,670 Recomposition ($14.15 per 1,000 words, ADL, p. 21) 155,650 Proofreading and review ($2.97 per 1,000 words, ADL, p. 21) 32,670 Duplication checks ? Total $432,990 IN-HOUSE TRANSLATION EMPLOYING DICTATION The Committee's study described in Appendix 14 revealed that the average typing speed of the translator was only 18 words a minute and that typing took approximately 25 percent of the total time needed to produce the translation. It would seem then to be advantageous to use the translator for translating and to use trained typists to do the typing. One agency (see Appendix 1, page 35) found that on suitable texts (those with few graphics to be inserted), the daily output of the translator was doubled. A typist trained in the use of dictating equipment can type about 8,000 words of English per day. To convert this to the number of Russian words one must employ a factor of 1.35 English words per Russian word. Thus the 8,000 English words would represent 6,000 words of original Russian text. If the over-all output of the translator were to be increased by as little as 25 percent, his output would amount to 2,500 words per day. At this rate of output, only 20 translators would be needed instead of 25, and about eight typists would be needed to keep up with the output of the translators. Although some savings are realized from this type of system, owing to the fact that typists are paid at about half the rate of translators, such savings are offset to some extent by the additional space and equipment required. It seems likely, however, that the use of this system would result in a more attractive product, the copy having been prepared by well-trained typists. Furthermore, an estimated increase of only 25 percent, upon which we have based our computations, may be unduly conservative. If this is so– and the Committee would like to see studies made to determine more accurately the actual advantages of various systems–the dictation method would be even more attractive. CONTRACT TRANSLATION Since contract translation costs vary widely, we will once more base our computations on data in the Arthur D. Little, Inc., report. The ADL team found that the cost per 1,000 Russian words was $24.57 for the translation process, $5.40 for insertion of graphics, and $2.97 for proofreading and review, or a total of $32.94 (ADL, p. 21). The Committee has been told by a reliable and knowledgeable individual connected with the translation at FTD that the proofreading and review procedure was unnecessary since the translations produced by the contractor were of excellent quality. Trusting this individual's judgment, but at the same time being aware that the ADL report is a careful study of what practices were in force (regardless of their necessity or degree of efficiency) at FTD, the Committee conjectured that $1.50 per 1,000 Russian words, rather than $2.97, might be a reasonable cost for the proofreading and review procedure; therefore, our computation differs from the ADL study. It is a fact that contractors have a lower overhead than in-house translators, and it is hoped that the significance of this item will not be overlooked by the reader. An annual production of 11,000,000 Russian words by contract would cost the using agency $270,270 for translation 59,400 for graphics 16,500 for proofreading and review $346,170 Total Since the average document to be translated is about 8,000 (Russian) words in length (ADL, p. A-8), our hypothetical agency would have to handle and control only six or seven documents a day, and few or no additional personnel would be needed for this task. Thus the $346,170 estimated above would approximate the total cost. THE JOINT PUBLICATIONS RESEARCH SERVICE (JPRS) The JPRS (Appendix 3) utilizes subject matter specialists who work at home on a part-time, contract basis. Thus, JPRS is able to handle a large quantity of translations in many languages in many fields at low rates. Because it does handle a large quantity of translations, JPRS is able to charge the same price for all translations regardless of subject matter or language. The current price is $16 per 1,000 words of English. Applying the factor of 1.35 English words for each Russian word, one can see that 11,000,000 Russian words are the equivalent of 14,850,000 English words and that, therefore, the JPRS charge for such translation would amount to $237,600. Once again, as with any contract translation, the number of additional personnel would be minimal, and the cost above would be close to the true cost. UNEDITED MACHINE TRANSLATION (MT) The development of an MT program capable of producing translations of such a quality that they would be useful to the reader without requiring the intervention of a translator anywhere in the process has long been the goal of researchers in MT. As far as the Committee can determine, two attempts have been made to give analysts “raw” or unedited machine output. Neither proved to be satisfactory. The FTD experience is stated with admirable succinctness: “This marks a considerable change in attitude toward MT's which, in their earlier unedited form, were generally regarded as unsatisfactory” (ADL, p. F-5). We have worked out a simple equation that shows how many dollars may be saved by using the unedited machine output. Let CH = cost of human translation (dollars/1000 words), CM = cost of MT (dollars/1000 words), W = loaded salary of user of the translation (dollars/hr), TH = reading time for human translation (hr/1000 words), TM = reading time for MT (hr/1000 words), N = number of people who read the translation, S = saving by MT (dollars/1000 words). Then S = CH − CM − WN (TM − TH). Presumably the saving would be greatest if the reader merely read machine print-out, referring to the untranslated original for figures and equations. Here the cost of machine output could best be compared, not with the cost of JPRS translations, but with the cost of dictated and uncorrected human translations, either voice on tape, or a typewritten transcription of the tape. As we have pointed out in Appendix 1, such translation can be carried out several times as fast as “full translation.” Unfortunately, we do not know what the costs are for translations that are dictated but not typed. It would seem likely, however, that savings would be substantial, since there would be no costs (a) for typist-transcriptionists or (b) for recomposition. Whether the savings involved would be offset by increased difficulty of use by the analyst is not known. Although the analyst would not be presented with a written translation, he would at least be assured of having all the words translated, unlike the raw MT output. Most translations are apparently read by more than one reader. According to one agency, the preparation of 175 copies of a translation for distribution is standard for documents that appeared originally in the open literature and this distribution accounts for about 90 percent of the documents translated. For the remaining 10 percent (the classified documents) only one copy is prepared, but the requester has the privilege of making as many copies as he deems fit. Even more astonishing is the estimate of the Arthur D. Little, Inc., team that “about 615 members of the Air Force R D community (40,000 members) would be expected to have a common interest in the average translated document” (ADL, p. F-9). It was shown by John B. Carroll, in the study that he did for the Committee (see Appendix 10), that the average reader tested took twice as long to read raw MT as he did to read a human translation. The ADL team found that the average reading rate of those tested was 200 words per minute for well-written English (ADL, p. D-6) or 0.08 hr per 1,000 words. From these two studies we determined the reading rate for raw MT to be 100 words per minute or 0.16 hr per 1,000 words. Raw MT should be compared, as has been mentioned, with an equally inelegant product. But the Committee has no idea of the cost of a comparable product or the time required to read (or listen to) it, and these factors are crucial in the calculation of savings according to our equation. Prudence demands that we compare raw MT with a product about which we have more certain knowledge concerning cost and reading rates even though such translations are of higher quality. For the purposes of comparison, we have chosen the JPRS for the simple reasons that (1) it is relatively inexpensive and (2) the costs are known and stable. Applying our equation, we have CH = $21.60 (the JPRS cost per 1,000 Russian words, the conversion factor of 1.35 being applied to $16.00, the cost per 1,000 English words), CM = $7.63 , W = $10.00 , TH = 0.08, TM = 0.16. Utilizing the figures above, but varying N (the number of readers), we arrive at the savings made by the use of raw output. If the number of readers is 1: S = $21.60 − 7.63 − , S = $21.60 − 7.63 − 0.80, S = $13.17. If the number of readers is 10: S = $5.97. If the number of readers is 15: S = $1.97. If the number of readers is 17: S = $0.37. If the number of readers is 18: S = −$0.43. If the number of readers is 20: S = −$2.03. If the number of readers is 80: S = −$40.13. If the number of readers is 175: S = −$127.03. If the number of readers is 615: S = −$478.13. Obviously, the break-even point occurs between 17 and 18 readers. But we have seen that, in one agency at least, about 90 percent of the translations are distributed to 175 readers, whereas only 10 percent are prepared for a single reader. By simple computation it can be determined that whereas the use of JPRS for all translation would result in a loss of $14,487, the use of MT for all translation would result in a loss of $1,257,597. It might be argued that MT is still economical when used to provide translations that are user-limited; but, since relatively few translations seem to be destined for use by less than 18 readers, the volume would probably be too small to warrant the maintenance of an elaborate computer facility with its attendant personnel. To the Committee, machine output (such as that shown on pages 20-23) seems very unattractive. We believe that the only valid argument for its use would be a compelling economic argument. If it can be shown that the use of unedited machine output, taking proper account of increased reading time on the part of the readers, would result in worthwhile savings over efficient human translation of the most nearly comparable kind, then there is a cogent reason for using unedited MT. But, unless such a worthwhile saving can be convincingly demonstrated, we regard the use of unedited machine output as regressive and unkind to readers. In considering the cost of producing unedited machine output we must use the real current cost. It is nice to think that savings may be made someday by using automatic character recognition, but actual savings should be demonstrated conclusively before machine output is inflicted on users in any operational manner. POSTEDITED MACHINE TRANSLATION (MT) To provide 11,000,000 words of postedited Russian-to-English MT per year would cost $397,980 . This estimate should be regarded as a very low one, since the ADL team did not include overhead costs (ADL, p. 3). ADL figures (ADL, p. E-5) that for 100,000 words per day, 44 individuals would be required; for input typing, 14; for machine operation, 1.6; for output typing, 1.4; and for postediting, 28. Since we are assuming a 50,000-word-per-day consumption, we will halve this estimate, giving a total of 22 personnel. The point the Committee would like to make in this connection is that since 22 personnel would be required, 14 of whom (the posteditors) have to be proficient in Russian, one might as well hire a few more translators and have the translations done by humans. Another, perhaps better, alternative would be to take part of the money spent on MT and use it either (1) to raise salaries in order to hire bilingual analysts–thus avoiding translation altogether–or, (2) to use the money to teach the analysts Russian. MACHINE-AIDED TRANSLATION (M-AT) We will call M-AT any system of human translation that utilizes the computer to assist the translator and that was designed originally for such a purpose. A system such as that at the FTD might properly be called human-aided machine translation, since the postediting process was added after it became apparent that raw output was unsatisfactory and since humans are employed essentially to make up for the deficiencies of the computer output. Specific costs for the two types of M-AT systems in operation (see Appendix 12 and Appendix 13) are not known to the Committee, but from the given figures that show the proportion of translator time saved, it is possible to make some rough estimates. Both the Federal Armed Forces Translation Agency and the European Coal and Steel Community indicate that a saving of about 50 percent of the translator's time could be expected by the use of a machine-aided system. Since translators' salaries constitute the largest item in the budget for a human-translation facility, such savings would probably be substantial. Input typing costs would not be as great as those at FTD, where the entire document to be translated is keypunched, since only the individual words or sentences with which the translator desires help are keypunched. Furthermore, the programming involved is relatively simple and small, and inexpensive computers are adequate. The relatively modest increases in staff, equipment, and money necessary for the production of translator aids are likely to be offset by the increase in quality of the product. It is possible, therefore, that the savings of an M-AT system might approach 50 percent of the cost of translator salaries in a conventional human-translation system. If this estimate is sound, then the cost for an M-AT system to produce 11,000,000 words of Russian-to-English translation would be $314,655 ($126,335 for salaries, $155,650 for recomposition, $32,670 for proofreading and review). SUMMARY Throughout our discussion of costs, we have been conscious of the fact that we were not in possession of all the necessary data. We present the following estimates with diffidence and would welcome any studies that would more precisely determine actual translation costs and quality, whether they affirm or deny the validity of our estimate. ESTIMATES OF COSTS AND QUALITY FOR VARIOUS TYPES OF TRANSLATION Type Quality Cost for 11,000,000 Russian Words In-house (conventional translation) Good $ 440,000 In-house (dictation) Good 440,000 − Contract Fair to good 350,000 JPRS Fair 240,000 Raw MT Unsatisfactory 80,000 + Postedited MT Fair 400,000 M-A T Excellent 310,000 Analysts proficient in Russian - 0 CONCLUSION Since no one can be proficient in all languages, there will always be a need for translation. Yet, publication is not evenly distributed among the some 4,000 languages of the world, and this is especially so in the areas of science and technology. Russian-to-English translation constitutes a large part of the total translation done in the United States, and there are no signs that this situation is likely to change radically in the foreseeable future. This being the case, the present policy of using monolingual analysts and providing them with translations year after year seems lacking in foresight, particularly since the time required for a scientist to learn a foreign language well enough to read an article in his own field of specialization is not very long, and since the facilities are available to train him. In our hypothetical agency, the costs of providing fair and good translations were from 30 to 55 percent greater than the estimated costs of a facility using analysts proficient in Russian. To allow heavy users of Soviet literature to continue to rely on translations seems unwise. Appendix 10 An Experiment in Evaluating the Quality of Translations This experiment* was designed to lay the foundations for a standard procedure for measuring the quality of scientific translations, whether human or mechanical. There have been other experiments on this problem , but their methods for evaluating translations have been too laborious, too subject to arbitrariness in standards, or too lacking in reliability and/or validity to become generally accepted. The measurement procedure developed here gives promise of being amenable to refinement to the point where it will meet the requirements of relative simplicity and feasibility, fixed standards of evaluation, and high validity and reliability. A detailed report of this experiment will be submitted for publication elsewhere; the present brief report will serve to indicate the general nature of the measurement procedure and some of the chief results. THE MEASUREMENT PROCEDURE It was reasoned that the two major characteristics of a translation are (a) its intelligibility, and (b) its fidelity to the sense of the original text. Conceptually, these characteristics are independent; that is, a translation could be highly intelligible and yet lacking in fidelity or accuracy. Conversely, a translation could be highly accurate and yet lacking in intelligibility; this would be likely to occur, however, only in cases where the original had low intelligibility. Essentially, the method for evaluating translations employed in this experiment involved obtaining subjective ratings for these two characteristics– intelligibility and fidelity–of sentences selected randomly from a translation and interspersed in random order among other sentences from the same translation and also among sentences selected at random from other translations of varying quality. When a translation sentence was being rated for intelligibility, it was rated without reference to the original. “Fidelity” was measured indirectly: the rater was asked to gather whatever meaning he could from the translation sentence and then evaluate the original sentence for its “informativeness” in relation to what he had understood from the translation sentence. Thus, a rating of the original sentence as “highly informative” relative to the translation sentence would imply that the latter was lacking in fidelity. All ratings were made by persons who were specially selected and trained for this purpose. There were two sets of raters. The first set of raters (called here “monolinguals” for convenience) consisted of 18 native speakers of English who had no knowledge of the language of the original (Russian, in this case). They were all Harvard undergraduates with high tested verbal intelligence and with good backgrounds in science. In rating “informativeness” these raters were provided with carefully prepared English translations of the original sentences, so that in effect they were comparing two sentences in English–one the sentence from the translation being evaluated, and the other the carefully prepared translation of the original. The second set of raters (“bilinguals”) consisted of 18 native speakers of English who had a high degree of competence in the comprehension of scientific Russian. Their ratings of the intelligibility of the translation sentences may well have been influenced by their knowledge of the vocabulary and syntax of Russian; at any rate, no attempt was made to prevent them from using such knowledge. To rate “informativeness,” they made a direct comparison between the translation sentence (in English) and the original version. All ratings were made on nine-point scales that had been established by the writer prior to the experiment by an adaptation of a psychometric technique known as the method of equal-appearing intervals. Thus, points on these scales could be assumed to be equally spaced in terms of subjectively observed differences. In the case of the intelligibility scale, each of the nine points on the scale had a verbal description (see Table 4). The same was true of the “informativeness” scale except that verbal descriptions were omitted for a few of the points (see Table 5). In this way each degree on the scales could be characterized in a meaningful way. For example, point 9 on the intelligibility scale was described as follows: “Perfectly clear and intelligible. Reads like ordinary text; has no stylistic infelicities.” Point 5 (the midpoint of the scale): “The general idea is intelligible only after considerable study, but after this study one is fairly confident that he understands. Poor word choice, grotesque syntactic arrangement, untranslated words, and similar phenomena are present, but constitute mainly ‘noise' through which the main idea is still perceptible. TABLE 4. Scale of Intelligibility 9–Perfectly clear and intelligible. Reads like ordinary text; has no stylistic infelicities. 8–Perfectly or almost clear and intelligible, but contains minor grammatical or stylistic infelicities, and/or midly unusual word usage that could, nevertheless, be easily “corrected.” 7–Generally clear and intelligible, but style and word choice and/or syntactical arrangement are somewhat poorer than in category 8. 6–The general idea is almost immediately intelligible, but full comprehension is distinctly interfered with by poor style, poor word choice, alternative expressions, untranslated words, and incorrect grammatical arrangements. Postediting could leave this in nearly acceptable form. 5–The general idea is intelligible only after considerable study, but after this study one is fairly confident that he understands. Poor word choice, grotesque syntactic arrangement, untranslated words, and similar phenomena are present, but constitute mainly “noise” through which the main idea is still perceptible. 4–Masquerades as an intelligible sentence, but actually it is more unintelligible than intelligible. Nevertheless, the idea can still be vaguely apprehended. Word choice, syntactic arrangement, and/or alternative expressions are generally bizarre, and there may be critical words untranslated. 3–Generally unintelligible; it tends to read like nonsense but, with a considerable amount of reflection and study, one can at least hypothesize the idea intended by the sentence. 2–Almost hopelessly unintelligible even after reflection and study. Nevertheless, it does not seem completely nonsensical. 1–Hopelessly unintelligible. It appears that no amount of study and reflection would reveal the thought of the sentence. PREPARATION OF TEST MATERIALS AND COLLECTION OF DATA The measurement procedure was tested by applying it to six varied English translations–three human and three mechanical–TABLE 5. Scale of Informativeness (This pertains to how informative the original version is perceived to be after the translation has been seen mad studied. If the translation already conveys a great deal of information, it may be that the original can be said to be low in informativeness relative to the translation being evaluated. But if the translation conveys only a certain amount of information, it may be that the original conveys a great deal more, in which case the original is high in informativeness relative to the translation being evaluated.) 9–Extremely informative. Makes “all the difference in the world” in comprehending the meaning intended. (A rating of 9 should always be assigned when the original completely changes or reverses the meaning conveyed by the translation.) 8–Very informative. Contributes a great deal to the clarification of the meaning intended. By correcting sentence structure, words, and phrases, it makes a great change in the reader's impression of the meaning intended, although not so much as to change or reverse the meaning completely. 7–(Between 6 and 8.) 6–Clearly informative. Adds considerable information about the sentence structure and individual words, putting the reader “on the right track” as to the meaning intended. 5–(Between 4 and 6.) 4–In contrast to 3, adds a certain amount of information about the sentence structure and syntactical relationships; it may also correct minor misapprehensions about the general meaning of the sentence or the meaning of individual words. 3–By correcting one or two possibly critical meanings, chiefly on the word level, it gives a slightly different “twist” to the meaning conveyed by the translation. It adds no new information about sentence structure, however. 2–No really new meaning is added by the original, either at the word level or the grammatical level, but the reader is somewhat more confident that he apprehends the meaning intended. 1–Not informative at all; no new meaning is added, nor is the reader's confidence in his understanding increased or enhanced. 0–The original contains, if anything, less information than the translation. The translator has added certain meanings, apparently to make the passage more understandable. of a Russian work entitled Mashina i Mysl' (Machine and Thought), by Z. Rovenskii, A. Uemov, and E. Uemova (Moscow, 1960). These translations were of five passages varying considerably in type of content. (All the passages selected for this experiment, with the original Russian versions, have now been published by the Office of Technical Services, U.S. Department of Commerce, Technical Translation TT 65-60307.) The materials associated with one of these passages were used for pilot studies and rater practice sessions; the experiment proper used the remaining four passages. In preparing materials for the rating task, 36 sentences were selected at random from each of the four passages under study. Since six different translations were being evaluated, six different sets of materials were prepared (in two forms, one for the monolinguals and one for the bilinguals) in such a way that each set contained a different translation of a given sentence. In this way no rater evaluated more than one translation of a given sentence. Each set of materials was given to three monolinguals and to three bilinguals; thus, there were 18 monolinguals and 18 bilinguals. Each rater had 144 sentences to evaluate first for intelligibility and then for the informativeness of the original (or the standard translation of it) after the translation had been seen. The raters required three 90-min sessions to complete this task, dealing with 48 sentences in each session. The raters were not informed as to the source of the translations they were rating, although they were told that some had been made by machine. Before undertaking this task, the raters attended a 1-hr session in which they were given instruction in the rating procedures and required to work through a 30-sentence practice set. During the rendering of ratings for intelligibility, the raters held stopwatches on themselves to record the number of seconds it took them to read and rate each sentence. RESULTS The results of the experiment can be considered under two headings: (a) the average scores of the various translations, and (b) the variation in the scores as a function of differences in sentences, passages, and raters. Table 6 gives the over-all mean ratings and time scores for the six translations, arranged in order of general excellence according to our data. Consider first the mean ratings for intelligibility by the monolinguals. Translation 1, a published human translation that had presumably been carefully done, received the highest mean rating, 8.30, on the scale established in Table 4. But 8.30 is still appreciably different from the maximum possible mean rating of 9.00, and it is evident that not even this “careful” human translation was as good as one might have expected. Furthermore, the mean rating of Translation 1 is not significantly different from that of Translation 4 (8.21), a “quick” human translation made by rapid dictation procedures. The mean ratings of Translations 1 and 4 do, however, differ significantly from the mean rating (7.36) of Translation 2, another “quick” human translation. It may be concluded that the measurement procedure studied here is sensitive enough to differentiate among human translations. A similar remark may be made about the sensitivity of this procedure to differences in the intelligibility of machine translations. Translations 7 and 5 were shown to be significantly more intelligible, on the average, than Translation 9. Of most current interest, however, are the results having to do with the comparison of the human and the machine translations. Machine translations 7, 5, and 9 received mean ratings, respectively, of 5.72, 5.50, and 4.73. A scale value of 5 refers to a translation in which “the general idea is intelligible only after considerable study, but after this study one is fairly confident that he understands . . .” All these machine translations are significantly less intelligible, on the average, than any of the three human translations. As machine translations improve, it should be possible to scale them by the present rating procedure to determine how nearly they approach human translations in intelligibility. The monolinguals' mean ratings on “informativeness” (reflecting the lack of fidelity of the translations) show an almost perfect inverse relationship to the mean ratings on intelligibility, and they differentiate the various translations in the same way and to the same extent. This result means that in practice, when ratings are averaged over sentences, passages, and raters, “intelligibility” and “fidelity” are very highly correlated. The detailed results of this study show that only in the case of a few particular sentences do the mean ratings of intelligibility and informativeness convey different information. Furthermore, the mean reading times per sentence show almost precisely the same pattern of results as the ratings. In fact, the mean reading times are linearly related to the mean ratings, a result that supports the conclusion that the points on the rating scales are evenly spaced. The results from the ratings by bilinguals contribute nothing more to the differentiation of the translations than is obtainable with the monolinguals' ratings. Bilinguals' intelligibility ratings of the translations are slightly (and significantly) higher, on the average, than those of the monolinguals, and correspondingly, their informativeness ratings are slightly lower. Yet, they took significantly longer to read and rate the sentences. Apparently their knowledge of Russian caused them to work harder on trying to understand the translations. One is inclined to give more credence to the results from the monolinguals because monolinguals are more representative of potential users of translations and are not influenced by knowledge of the source language. It is also to be noted that the data from the monolinguals differentiate the translations to a somewhat greater extent than do the data from the bilinguals. The results concerning the differences in ratings due to differences in sentences, passages, and raters can now be considered. (The detailed tables of these results are omitted here to save space.) The more important results may be summarized as follows: 1. The results do not differ significantly from passage to passage; that is, on the average the various passages from a given translation receive highly similar ratings. For intelligibility ratings, however, there is a small but significant interaction between translation and passage, indicating that translations are to some extent differentially effective for different types of content. (This interaction effect is present both for human and for machine translations.) 2. There is a marked variation among the sentences. In fact, as may be seen from Figure 1, there is some overlap between sentences from human translations and from mechanical translations; or, in other words, there are some sentences translated by machine that have higher ratings than some other sentences translated by human translators, even though, on the average, the humantranslated sentences are better than the machine- translated ones. These results imply that in order to obtain reliable mean ratings for translations, a fairly large sample of sentences must be rated. 3. Variation among raters is relatively small, but it is large enough to suggest that ratings should always be obtained from several raters–say at least three or four. CONCLUSION This experiment has established the fact that highly reliable assessments can be made of the quality of human and machine translations. In the case of the six particular translations investigated in the study, all the human translations were clearly superior to the machine translations; further, some human translations were significantly superior to other human translations, and some machine translations were significantly superior to other machine translations. On the whole, the machine translations were found to fall about at the midpoint of a scale ranging from the best possible to the poorest possible translation. What is still needed, however, is a system whereby any translation can be easily and reliably assessed. The present experiment has determined the necessary parameters of such a system. FIGURE 1. Frequency distribution of monolinguals' mean intelligibility ratings of the 144 sentences in each of six translations. Translations 1, 4, and 2 are human translations; Translations 7, 5, and 9 are machine translations. 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|3116 次阅读|0 个评论
ALPAC 黑皮书 5/9: 结论
liwei999 2013-10-6 16:08
自动语言处理和计算语言学 在过去的10年里,政府已经使用了,通过各种机构,约2000万美元用于 机器翻译及其密切相关的科目(见附件16 ) 。这已经超过了政府 1年 翻译费用 以上。其他资金已分配到信息检索,图书馆自动化,编程指令。 虽然分时操作的机械制造和编程技术,已经部分得到来自政府的支持,计算机行业也已经使用它自己的资源用于机器开发,自动语言处理相关的支出在计算机硬件进展中起着明显的次要角色。工业界也一直负责投入计算机对新闻字距和连字符调整及其相关排版方面的重要技术(见附录17 ) ,或许是因为这方面的市场较易确定。 相对于 计算机硬件方面的较 小 影响 ,机器翻译,及其由此催生的 计算语言学工作 ,对 计算机软件(编程技术和系统) 做出了显著贡献 。这些贡献在 附录18中有相当详细的 讨论。 到目前为止,机器翻译最重要的结果在于其对语言学的影响,附录19中有更多细节的描述。 计算语言学的问世有望在自然语言的研究工作中引起一场革命。十年前,大多数语言学家认为,句法主要涉及调整词序、形态、功能词(如介词和连词) ,以及语调或标点符号。他们还认为,在普通环境下,多数以英语为母语的人说出的句子语法没有歧义。今天,他们知道,这两个信念相互不协。这个认识是计算机对普通的句子自动分析(parsing)的直接结果,他们使用的是迄今能设计的合理文法,利用程序让给定文法下的所有歧义完全暴露。 如今仍有理论语言学家对实证和计算都不感兴趣,也有应用语言学家对十年来的理论进展无动于衷,对计算机也很木纳。但是,比以往任何时候都有更多的语言学家尝试把微妙的语言理论与更丰富的数据相结合,他们中几乎所有人,无论在哪个国家,都渴望计算机的支持。前一代人需要一辈子来做的一些语言工作(譬如建立对照语库、词汇表、肤浅的文法),如今借助计算机几个星期即可完成。在对于作为人类交流工具的自然语言的理解方面,人类的确迈出了万里长征的第一步。 语言学的革命不完全是机器翻译和自动分析工作的结果,但没有这些尝试,语言学革命不可能如此广泛或重大。 我们看到计算机为语言学家预备了一系列新的挑战、见地和机会。我们相信,这些挑战可与粒子物理面临的挑战、问题和见地类比。毫无疑问,语言在所有现象中的重要性是首屈一指的。而且计算语言学所需要的工具成本,比起需要数十亿伏加速器的粒子物理小太多了。 新的语言学提出了一个有吸引力而且极其重要的挑战。 我们完全有理由相信,面对这一挑战,最终将导致在许多领域的重要贡献。一个更深的语言知识可以帮助: 更有效地教外语。 教语言的本质更有效。 更有效地使用自然语言下指令和通信。 帮助我们构造为特殊用途(例如,飞行员控制塔通讯语言)的人工语言。 使我们能够在语言的使用以及人的沟通和思想方面做有意义的心理实验。除非我们知道语言是什么,我们不知道我们必须解释什么。 用机器辅助翻译和信息检索。 然而,语言学的状态是这样的,本身具有价值的优秀研究是必不可少的,如果 语言学 最终要做出这些贡献。 这样的研究必须 使用 电脑。我们必须研究以找出有关语言奥妙的数据是压倒性的,无论在数量还是复杂性上。电脑承诺帮助我们控制 巨大的数据量 问题,并在一定程度上对付数据的复杂性问题。 但是,我们尚不具有明确而容易使用的电脑处理语言数据的好方法。 因此,下列重要的研究,是需要做的,应予以支持:(1) 计算机处理语言的方法的 基本开发研究,譬如帮助语言科学家发现并说明他的概括的工具,并作为工具帮助检查对数据的概括 建议; (2)发展研究的方法,让语言的科学家用电脑来陈述他们的详细复杂的各种理论(例如,语法和意义理论),使他们生产的理论可以被检查细节。 改善翻译的道路 我们已经注意到,我们已经具有一般科学文献的机器辅助翻译,但是我们并不具有真正有用的机器翻译。此外,机器翻译也不具备直接的或可预见的前景。 我们已经指出,机器翻译的重要贡献主要在促进语言学以及计算机编程方面的进展。我们注意到,翻译本身虽然非常重要,但对翻译需求的满足只要一个不大但有能力的活动组织即可。当然,我们发现,翻译质量的改善还是有具备吸引力的机会,我们呼吁加强针对翻译改善方面的工作。我们也注意到为了保证翻译质量,成本会有显著变化。 因此,取得客观的对准确性和质量的评价非常重要。实际有用的测试,如附录10中所描述的努力,是最重要的。 机器辅助可能是人工翻译或机助翻译的一个重要的支持。美国空军外国技术部( FTD )的数字显示,生产成本(最终翻译的组装和再生产)是非常高的。看来,翻译期刊延误是由于生产,而不是翻译。编辑和生产采用机械化手段可能是可取的(见附件17 ) 。这方面研究和开发的主要成本最好可以由其他比翻译更大的领域来承担。 机器辅助翻译可能是朝着更好、更快、更便宜的翻译发展的一个重要途径。机器辅助翻译最需要的是良好的工程。什么对人最有帮助,是特殊词汇表,文中部分或全部词的词典查找,还是一个粗略的翻译,如由FTD产出的那样 ?延误往往由于许多步骤需要排队等候所致,怎样才能避免这些延误?如何削减生产成本? 自动字符识别经常被认为对机器辅助翻译很重要。 FTD的数字表明,自动字符识别可能对作业成本略有降低。自动字符识别的工作由下列几种活动资助(例如,信息检索,邮局),这些活动领域通过成功的字符识别将比机器辅助翻译要节省更多成本。因此, 只要能节省 钱就 应采用 字符识别。但这方面研发不需要机器翻译来资助。 最后,对改善翻译究竟应该花多少钱来研究和开发?对一个相对较小规模而且满意度的很好的翻译产业上花费大笔钱,是不合理的。 委员会无法判断改善翻译究竟应该需要在研究和开发上年度总投入多少为宜。然而,钱应该花在脚踏实地、重要而相对短期见效的目标上。 建议 委员会建议在两个不同的领域投入。 首先是作为语言学一部分的计算语言学研究,如自动文法分析、句子生成、结构、语义、统计以及定量的语言问题,包括带有机器辅助或不带机助的实验。应当支持作为科学来研究语言学,这种研究不应根据其在实际翻译的任何直接或可预见的贡献来判断。重要的是要找有能力的人来审批研究方案,评判人应该有能力审定现代语言学的工作,并根据方案的科学价值进行评估。 第二个方面是改善翻译。应该得到资助的工作包括 实用的翻译评价方法; 加快人类翻译过程的种种手段; 评估翻译的质量和成本的各种来源; 调查的翻译的利用率,防止生产无人使用的翻译; 考察翻译全过程的延误,以及消除延误的方法,无论是杂志翻译还是个别项目的翻译; 评价各种各样的机器辅助翻译的相对速度和成本; 现有机械化编辑和翻译生产过程的改造; 翻译全过程; 以及 生产足够的翻译工作参考资料,包括现在主要存在于机器翻译自动字典查找中的词汇表。 所有这些研究的目 应当是增加翻译速度, 降低翻译成本,并达到 指定 的可接受的质量。 ~~~~~~~~~~~~~~~~~~~~~~~~~ Automatic Language Processing and Computational Linguistics Over the past 10 years the government has spent, through various agencies, some $20 million on machine translation and closely related subjects (see Appendix 16). This is more than the government cost of translation for 1 year. Other moneys have been allocated to information retrieval, library automation, and programmed instruction. Although techniques of machine construction and programming for time-shared operation have been developed with partial support from the government, the computer industry has spent its own resources in machine development, and expenditures in connection with automatic language processing have played a distinctly minor role in advances in computer hardware. Industry has also been responsible for the development of important techniques of computer justification and hyphenation of newsprint and related matters of composition (see Appendix 17), perhaps because the market was easy to determine. As opposed to its small effect on computer hardware, work toward machine translation, together with the computational linguistic work that has grown out of it, has contributed significantly to computer software (programming techniques and systems). These contributions are discussed in considerable detail in Appendix 18. By far the most important outcome of work toward machine translation has been its effect on linguistics, which is described in more detail in Appendix 19. The advent of computational linguistics promises to work a revolution in the study of natural languages. A decade ago, most linguists believed that syntax had to do with word order, inflection, function words (e.g., prepositions and conjunctions), and intonation or punctuation. They also believed that most sentences uttered by native speakers in ordinary contexts were syntactically unambiguous. Today, they know that these two beliefs are mutually inconsistent. Their knowledge is the immediate result of computer parsing of ordinary sentences, using reasonable grammars as hitherto conceived and programs that expose all ambiguities under a fixed grammar. Today there are linguistic theoreticians who take no interest in empirical studies or in computation. There are also empirical linguists who are not excited by the theoretical advances of the decade – or by computers. But more linguists than ever before are attempting to bring subtler theories into confrontation with richer bodies of data, and virtually all of them, in every country, are eager for computational support. The life's work of a generation ago (a concordance, a glossary, a superficial grammar) is the first small step of today, accomplished in a few weeks (next year, in a few days), the first of 10,000 steps toward an understanding of natural language as the vehicle of human communication. The revolution in linguistics has not been solely a result of attempts at machine translation and parsing, but it is unlikely that the revolution would have been extensive or significant without these attempts. We see that the computer has opened up to linguists a host of challenges, partial insights, and potentialities. We believe these can be aptly compared with the challenges, problems, and insights of particle physics. Certainly, language is second to no phenomenon in importance. And the tools of computational linguistics are considerably less costly than the multibillion-volt accelerators of particle physics. The new linguistics presents an attractive as well as an extremely important challenge. There is every reason to believe that facing up to this challenge will ultimately lead to important contributions in many fields. A deeper knowledge of language could help 1. to teach foreign languages more effectively; 2. to teach about the nature of language more effectively; 3. to use natural language more effectively in instruction and communication; 4. to enable us to engineer artificial languages for special purposes (e.g., pilot-to-control tower languages); 5. to enable us to make meaningful psychological experiments in language use and in human communication and thought (unless we know what language is we do not know what we must explain); and 6. to use machines as aids in translation and in information retrieval. However, the state of linguistics is such that excellent research, which has value in itself, is essential if linguistics is ultimately to make such contributions. Such research must make use of computers. The data we must examine in order to find out about language is overwhelming both in quantity and in complexity. Computers give promise of helping us control the problems relating to the tremendous volume of data, and to a lesser extent the problems of data complexity. But, we do not yet have good, easily used, commonly known methods for having computers deal with language data. Therefore, among the important kinds of research that need to be done and should be supported are (1) basic developmental research in computer methods for handling language, as tools for the linguistic scientist to use as a help to discover and state his generalizations, and as tools to help check proposed generalizations against data; and (2) developmental research in methods to allow linguistic scientists to use computers to state in detail the complex kinds of theories (for example, grammars and theories of meaning) they produce, so that the theories can be checked in detail. Avenues to Improvement of Translation We have already noted that, while we have machine-aided translation of general scientific text, we do not have useful machine translation. Further, there is no immediate or predictable prospect of useful machine translation. We have noted that the important contributions of machine translation have been primarily to linguistics and secondarily to computer programming. We have noted that while translation itself is vital, needs for translation are being met by a small though capable activity. We find, however, that there are attractive opportunities for improvement in translation, and we urge work aimed at such improvement. We have noted the importance of quality in translations. We have noted that cost varies markedly with asserted quality. It is important, therefore, to achieve some objective evaluation of accuracy and quality. Work toward practical useful tests, such as that described in Appendix 10, is of the greatest importance. Machine aids may be an important adjunct to human or machine-aided translation. USAF Foreign Technology Division (FTD) figures show that production costs (assembly and reproduction of the final translations) are very high. It appears that delays in translated journals are attributable to production rather than to translation. Adoption of mechanized means of editing and production might be desirable (see Appendix 17). Here the main cost of research and development can best be borne by other, larger fields than translation. Machine-aided translation may be an important avenue toward better, quicker, and cheaper translation. What machine-aided translation needs most is good engineering. What will help the human being most–special glossaries, dictionary look-up of some or all words in the text, or a rough translation such as that produced by FTD? How can the delays due to queues at many tandem steps be avoided? How can production costs be cut? Automatic character recognition is often mentioned as important to machine-aided translation. FTD figures indicate that automatic character recognition could slightly decrease the cost of the operation. Automatic character recognition work is being supported heavily in connection with several kinds of activity (information retrieval, post office, for example) where the financial savings through successful character recognition would be much greater than in machine-aided translation. Hence, character recognition should be adopted when and if it will save money, but research and development need not be supported in connection with machine translation. Finally, how much should be spent on research and development toward improving translation? It would be unreasonable to spend extravagantly on a relatively small business that is doing the job satisfactorily. The Committee cannot judge what the total annual expenditure for research and development toward improving translation should be. However, it should be spent hardheadedly toward important, realistic, and relatively short- range goals. Recommendations The Committee recommends expenditures in two distinct areas. The first is computational linguistics as a part of linguistics– studies of parsing, sentence generation, structure, semantics, statistics, and quantitative linguistic matters, including experiments in translation, with machine aids or without. Linguistics should be supported as science, and should not be judged by any immediate or foreseeable contribution to practical translation. It is important that proposals be evaluated by people who are competent to judge modern linguistic work, and who evaluate proposals on the basis of their scientific worth. The second area is improvement of translation. Work should be supported on such matters as 1. practical methods for evaluation of translations; 2. means for speeding up the human translation process; 3. evaluation of quality and cost of various sources of translations; 4. investigation of the utilization of translations, to guard against production of translations that are never read; 5. study of delays in the over-all translation process, and means for eliminating them, both in journals and in individual items; 6. evaluation of the relative speed and cost of various sorts of machine- aided translation; 7. adaptation of existing mechanized editing and production processes in translation; 8. the over-all translation process; and 9. production of adequate reference works for the translator, including the adaptation of glossaries that now exist primarily for automatic dictionary look-up in machine translation. All such studies should be aimed at increasing the speed and decreasing the cost of translations and at specifying degrees of acceptable quality. About this PDF file: This new digital representation of the original work has been recomposed from XML files created from the original paper book, not from the original typesetting files. Page breaks are true to the original; line lengths, word breaks, heading styles, and other typesetting-specific formatting, however, cannot be retained, and some typographic errors may have been accidentally inserted. Please use the print version of this publication as the authoritative version for attribution. 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|3248 次阅读|0 个评论
ALPAC 黑皮书 3/9: 机器翻译
热度 1 liwei999 2013-10-6 15:20
机器翻译的现状 “机器翻译”,大概是指由算法从机器可读的源文本* 转换到有用的目标语文本,不用任何人类翻译或后编辑。在这个意义上,一直就没有一般科学文献的机器翻译,可见将来也不会有。 一直没有一般科学文献机器翻译的结论基于以下支持的事实。经过8年的工作,乔治敦大学MT项目试图产生有用的输出在1962年,他们仍不得不求助于后期编辑。后期编辑使得翻译费时稍长,而且比传统的人力翻译更加昂贵。美国空军外国技术部( FTD )的“机械翻译”设施一边输出翻译,一边后期编辑输出。 Gilbert博士航空公司Itek公司告诉王Itek已从计划委员会,建立了“机器翻译”的服务,但它会提供翻译后期编辑。博士J.C.R.的利克莱德IBM和保罗·加尔文博士邦克雷默表示,他们不会向他们的公司建议这样一个服务。 看科学文献未经编辑的机器译文是可以猜懂大部分的,但它有时误导,有时是错误的( 后期编辑的机器译文在一个较小的程度上,也有此弊) ,使阅读缓慢而痛苦。 †(见附录10 。 ) 最近的一项研究由美国学院的研究 作为其主要目标与俄语相同的文件时,可以读取他们已经翻译成英文了FTD的机器翻译( MT )系统的精度和速度比较(一对一 ,另一组只是因为它出来的计算机) ,当他们被翻译成英文,由翻译人员在常规的方式。 在物理学中,测试表明,原料MT输出10 %的读者不太准确,慢了21% ,并且有一个理解水平低于29%时,比起用手工翻译。当他用后期编辑的输出 ,他准确度少了3 % ,慢了11% ,并且理解水平低于13%,比起用手工翻译。 在地球科学,当他用原料MT输出,他16%不准确,慢了21% ,并且有一个理解水平低25% 。当他用后编辑输出,他是5%不准确,慢了11% ,并有一个理解水平低于23% ,比起用手工翻译。 主观上,有很多的麻烦似乎趴在非自然结构和不自然的词序,个别字一个字或多个翻译,留给读者的选择,但奇怪的翻译是麻烦的。 (在机器翻译中的常见错误类型的分类见附录11 )。 下文是典型的近期( 1964年11月以来)输出四种不同的机器翻译系统。每个样品给出了第一个和最后(除了翻译4号)从中间的俄罗斯空间生物学的文章段落和段落。 *机器可读的文本是简单的文本,可以用来作为一个输入到计算机。它包括打孔卡片,打孔纸带,磁带,并通过键盘操作,一般准备从印刷文本。 †优秀机输出的简单或选定的文本在多次实验中已经实现,这是没有任何实际和理论意义有限。 Bunker-Ramo Corporation No. 1 Biological experiments, conducted on various/different cosmic aircraft, astrophysical researches of the cosmic space and flights of Soviet and American astronauts with the sufficient/rather persuasiveness showed/ indicated/pointed, that momentary/transitory/short orbital flights of lower/below than radiation belts/regions/flanges of earth/land/soil in the absence of the raised/increased/ hightened sun/sunny/solar activity with respect to radiation are/appear/arrive/ report safe/not dangerous/secure. Received/obtained by astronauts of the dosage of the radiation at the expense of the primary cosmic emission/radiation and emissions/radiations of the external/outer radiation belt/region/flange are so/ such a small, that can not render/show/give the harmful influence/action/effect on/in/at/to the organism of man. Mammals (dog, mouse/mice, rat, guinea pigs), fly/flies of the drosophilae, vegetable/vegetational objects/items/objectives. Seeds of higher/superior/ supreme plants/vegetables (wheat, peas, onion/bow, the pine tree, beans, radish, carrot etc), microspore of the tradescantia/spiderwort, the culture of the alga/seeweed chlorella on/in/at/to tissue, cellular, sub-cellular, and molecular levels (Gyurdzhian, 1962A. Antipov et al., 1962) were used in these experiments. In experiments on/in/at/to mammals the special/particular/ peculiar attention/consideration/ was given to the research/analysis/ investigation of the state/condition/position of the system of the blood/ hemogenesis formation, the determination/definition/ decision of intermediate products of the exehange of nucleic acids (desoxycytidine and di)epolo$itel* substances), the study/investigation of the state/ condition/position of the natural immunity, the determination/definition/ decision of the maintenance/ content of serotonin in the blood. Moreover, the control for/during/per/beyond the condition/state pigmentation of hair for/ at/by/from black mice (the line/ strain CSUB57 BL) was conducted. Physiological shifts/improvements were studied also/as well on/in/at/to seeds of higher/superior/supreme plants, vegetables microorganisms, cells of various different tissues/cloth in the culture etc. Thus, the consideration/investigation certain/some from/of principal/ basic radiobiological problems shows/indicates/points/displays, that in the given region/area still/yet/more/back/some more very many/very much unsolved questions. This is clear/plain, since cosmic radiobiology is very the young section/division of young science--the cosmic biology. However there is/there are/is/eat basis to hope, that by common/general/total efforts of scientific various/different professions of different/various countries of the world/peace radiobiological researches in the cosmic space will be sucessfully continued/ carried on and were expanded/broadened. Computer Concepts, Inc. No. 2 The biological experiments that were carried out on different cosmic flying apparatus, ASTROFIZICESKIE the research of cosmic PROSTRANSTVA and the flights of Soviet and American KOSMONAVTOV with sufficient UBEDITEL6NOST6H showed, that the short-time orbital flights below of the radiational belts of earth in the absence that was raised by the SOLNECNO1 one of activity in a radiational attitude are BEZOPASNYMI. Dose of radiati on at the expense of primary cosmic radiation and the radiation of an exterior radiational belt the obtained by KOSMONAVTAMI are so little, that aren't able to render a harmful influence to the organism of a man. Mammals (dogs, meeth, rats, sea SVINKI) were utilized in these experiments. The flies of drosophila, vegetable objects, semena of higher plants (wheat, GOROX, LUK, a pine tree, BOBY, REDIS, a carrot and others), MIKROSPORY of TRADESKANQII the culture of an alga chlorella in different nourishing mediums, the numerous biological and QITOLOGICESKIE ones objects on the TKANEVOM, cellular, subcellular and molecular levels (Ghrdjian, 1962 and Antipov from Soavt 1962) and in experiences to mammals particular attention was being allotted to the research of the condition of the system of KROVOTVORENI4, to the definition of the intermediate products of the exchange of nucleic acids DEZOKSIQITIDINA and DIWEPOLOJITEL6NYX substances), to the study of the condition of natural IMMUNITETA, to the definition of the content of SEROTONINA in KROVI. Besides, control after the condition of PIGMENTAQII of VOLOS at CERNYX meeth (the line of C(57) of Y) was being carried out. Physiological SDVIGI were being studied also on SEMENAX of higher plants, microorganisms, the cells of different tissues in culture and T. of D. Thus, the examination of some from fundamental RADIOBIOLOGICESKIX problems shows, that in this a field still very much NEREWENNYX questions. This is clear, since cosmic RADIOBIOLOGI4 is very young RAZDELOM young science efforts of the scientific different specialties of the different countries of the world successful PRODOLJENY will be expanded there are. FTD, USAF No. 3 Biological experiments, conducted on different space aircraft/vehicles, astrophysical space research and flights of Soviet and American astronauts with/ from sufficient convincingness showed that short-term orbital flights lower than radiation belts of earth in the absence of heightened solar activity in radiation ratio are safe. Obtained by astronauts of dose of radiation at the expense of primary cosmic radiation and radiation of external radiation belt are so small that cannot render harmful influence on organism of person. In these ESKPERIMENTAKH were used mamals (dog, mice, rat, guinea pig), fly of Drosophilae, vegetable objects, seeds of highest plants (wheat, pea, onion/bow, pine, beans, radish, carrot and others), microspore of tradescantia, culture of alga chlorella on different nutrient media, numerous biological and TSITOLOGICHCHESKIE objects on tissue, cellular, sub-cellular and molecular levels (Gyurozhian 1962A, Anti-Pov with/from Soavt, 1962). In experiments on mammals special attention was allotted investigation of state of system of sanguification, determination of intermediate products of exchange of nucleic acids (deoxycytidine and Dischepositive substances), study of state of natural immunity, determination of contents gray-fineness in blood. Furthermore, was conducted counterol for/after state of pigmentation of hairs for black mice (line bl). Physiologic shifts were studied also on seeds of highest plants, microorganisms, cages of different fabrics in culture etc. Thus, consideration of certain from basic radiobiological problems shows that in given region still very many unsolved questions. This and intelligibly, since space radiobiology is very young division of young science--space biology. However is base to trust that jointly scientists of different specialties of various countries of world/peace radiobiological investigations in outer space will be successfully continued and expanded. EURATOM, Ispra, Italy No. 4 Biological experiments, which were conducted on different cosmic LETATEL6NYX APPARATI, the astrophysical investigations of cosmic space and the flights of Soviet and also American KOSMONAVTOV with the sufficient convincingness showed, that the short-term orbital flights of below radiation belts of ground upon the absence of the increased solar activity in radiation relation are safe. Obtained by KOSMONAVTAMI of dose of radiation at the expense of initial cosmic radiation and the radiations of external radiation belt are so small, that cannot have harmful action on the organism of man. In these experiments there were used mammals (dogs, mice, KRYSY, the maritime piglets), MUXI DROZOFILY, vegetable objects. The seeds of higher plants (wheat, the pea, LUK, pine, beans, REDIS, MORKOV6 etc.) MIKROSPORY TRADESKANQII, the culture of alga of chlorella on the different feed environments, numerous biological and QITOLOGICESKIE objects on TKANEVOM, cellular, SUBKLETOCNOM and molecular levels (Ghrdjian, 1962 and Antipov with Soavt 1962). In experiments on mammals special attention was devoted to the investigation of state of system of KROVOTVORENI4, the determination of intermediate products the exchange of nucleinic acids (DEZOKSIQITIDINA and DIWEPOLOJITEL6NYX substances), the study of the state of natural IMMUNITETA The determination of content of SEROTONINA in blood. Besides this, there was conducted the check for the state or PIGMENTAQII the hair at black mice (the line C(57) Y) the Physiological) shifts were studied also on the seeds of higher plants, microorganisms, the cells of the different tissues in culture and T D. 读者会发现拿上面这些样本来比较10年前的简单或挑选的文本译文结果(乔治敦IBM实验,1954年1月7日)很有启发性,较早的样本比后来者更易读。 The quality of crude oil is determined by calory content. The quality of saltpeter is determined by chemical methods. TNT is produced from coal. They obtain dynamite from nitroglycerine. Ammonite is obtained from saltpeter. Gasoline is prepared by chemical methods from crude oil. They prepare ammonite. Gasoline is produced by chemical methods from crude oil. The price of crude oil is determined by the market. Calory content determines the quality of crude oil. TNT is prepared from coal. 数字电子计算机的迅速发展表明,机器翻译是可能的。这个想法学者和管理者的想象。实际的目标很简单:从机器可读国外技术性文本有用的英文文本,准确,可读性强,并最终由美国科学家撰写的文字没有区别。简单或选定的文本,如上面给出的那些早期的机器翻译,均作为一般科学文本的“机器翻译”看似鼓励已劝阻均匀。但是,朝机器翻译的工作已经产生了许多宝贵的语言知识和洞察力,否则我们不会达到。 当然,没有人能够保证,我们不会突然或至少迅速达到机器翻译,但我们觉得这是不太可能的。胜利者 H. YNGVE麻省理工学院电子研究实验室,在回答委员会主席约翰·皮尔斯的请求,表达了他的意见如下: 我同意你的看法,不后期编辑的机器翻译目前没有用处,后编辑过所有的过程是缓慢的,并可能是不合算的。 至于到完全自动翻译的可能性,我相信,我们总有一天会达到的地步,这将是可行的,经济的。然而,有相当多的所需的基本知识,我们根本就没有在此刻,它很快就可以得到这方面的知识是谁也说不准。然而,我将继续致力于试图获得一些这方面的知识。全自动翻译是否将永远是经济问题,必须等待,直到我们看到,无论是在所有可能的。我觉得,如果可能的话,那么它将会由于计算机技术的快速发展,在未来经济。 在他的论文“机械翻译研究的启示” , YNGVE博士指出: 机械翻译工作已经拿出了反对语义屏障。 。 。我们已经走过了面对面的实现,我们将有足够的机械翻译机器时可以“理解”什么是翻译,这将是一个非常困难的任务确实。 。 。 “理解”正是我的意思。 。 。我们中的一些推进面露难色。 该委员会确实认为,这是明智的做法,是按正向面露难色,以科学的名义,但这样做的动机不能理智的任何可预见的改进在实际的翻译。也许,我们的态度可能是不同的,如果出现了一些迫切需要的机器翻译,但我们没有发现。 ~~~~~~~~~~~~~~~~~~~~ The Present State of Machine Translation “Machine Translation” presumably means going by algorithm from machine-readable source text* to useful target text, without recourse to human translation or editing. In this context, there has been no machine translation of general scientific text, and none is in immediate prospect. The contention that there has been no machine translation of general scientific text is supported by the fact that when, after 8 years of work, the Georgetown University MT project tried to produce useful output in 1962, they had to resort to postediting. The postedited translation took slightly longer to do and was more expensive than conventional human translation. The “mechanical translation” facility of the USAF Foreign Technology Division (FTD) postedits the machine output when it produces translations. Dr. Gilbert King of Itek Corporation told the Committee that Itek plans to establish a “machine translation” service, but that it will provide postedited translations. Dr. J.C.R. Licklider of IBM and Dr. Paul Garvin of Bunker-Ramo said they would not advise their companies to establish such a service. Unedited machine output from scientific text is decipherable for the most part, but it is sometimes misleading and sometimes wrong (as is postedited output to a lesser extent), and it makes slow and painful reading.† (See Appendix 10.) A recent study by the American Institutes for Research had as its principal objective comparison of the accuracy and speed with which the same Russian documents can be read when they have been translated into English by the FTD machine translation (MT) system (one set postedited, the other set just as it came out of the computer) and when they had been translated into English by a human translator in the conventional manner. In physics, tests showed that the reader of raw MT output was 10 percent less accurate, 21 percent slower, and had a comprehension level 29 percent lower than when he used human translation. When he used postedited output, he was 3 percent less accurate, 11 percent slower, and had a comprehension level 13 percent lower than when he used human translation. In the earth sciences, when he used raw MT output, he was 16 percent less accurate, 21 percent slower, and had a 25 percent lower comprehension level than when he used human translations. When he used postedited output, he was 5 percent less accurate, 11 percent slower, and had a comprehension level 23 percent lower than when he read human translations. Subjectively, a lot of the trouble seems to lie in unnatural constructions and unnatural word order, though strange translations of individual words or multiple translations of one word, with the choice left to the reader, are bothersome. (For a classification of the types of errors common in machine translation see Appendix 11.) The paragraphs below are typical of the recent (since November 1964) output of four different MT systems. Each sample gives the first and last (except for translation No. 4) paragraphs and a paragraph from the middle of a Russian article on space biology. *Machine-readable text is simply text that can be used as an input to a computer. It includes punched cards, punched paper tape, and magnetic tape, and is ordinarily prepared from printed text by a keyboard operator. †Excellent machine output of simple or selected text has been attained in several experiments; this is of no practical and limited theoretical significance. Bunker-Ramo Corporation No. 1 Biological experiments, conducted on various/different cosmic aircraft, astrophysical researches of the cosmic space and flights of Soviet and American astronauts with the sufficient/rather persuasiveness showed/ indicated/pointed, that momentary/transitory/short orbital flights of lower/below than radiation belts/regions/flanges of earth/land/soil in the absence of the raised/increased/ hightened sun/sunny/solar activity with respect to radiation are/appear/arrive/ report safe/not dangerous/secure. Received/obtained by astronauts of the dosage of the radiation at the expense of the primary cosmic emission/radiation and emissions/radiations of the external/outer radiation belt/region/flange are so/ such a small, that can not render/show/give the harmful influence/action/effect on/in/at/to the organism of man. Mammals (dog, mouse/mice, rat, guinea pigs), fly/flies of the drosophilae, vegetable/vegetational objects/items/objectives. Seeds of higher/superior/ supreme plants/vegetables (wheat, peas, onion/bow, the pine tree, beans, radish, carrot etc), microspore of the tradescantia/spiderwort, the culture of the alga/seeweed chlorella on/in/at/to tissue, cellular, sub-cellular, and molecular levels (Gyurdzhian, 1962A. Antipov et al., 1962) were used in these experiments. In experiments on/in/at/to mammals the special/particular/ peculiar attention/consideration/ was given to the research/analysis/ investigation of the state/condition/position of the system of the blood/ hemogenesis formation, the determination/definition/ decision of intermediate products of the exehange of nucleic acids (desoxycytidine and di)epolo$itel* substances), the study/investigation of the state/ condition/position of the natural immunity, the determination/definition/ decision of the maintenance/ content of serotonin in the blood. Moreover, the control for/during/per/beyond the condition/state pigmentation of hair for/ at/by/from black mice (the line/ strain CSUB57 BL) was conducted. Physiological shifts/improvements were studied also/as well on/in/at/to seeds of higher/superior/supreme plants, vegetables microorganisms, cells of various different tissues/cloth in the culture etc. Thus, the consideration/investigation certain/some from/of principal/ basic radiobiological problems shows/indicates/points/displays, that in the given region/area still/yet/more/back/some more very many/very much unsolved questions. This is clear/plain, since cosmic radiobiology is very the young section/division of young science--the cosmic biology. However there is/there are/is/eat basis to hope, that by common/general/total efforts of scientific various/different professions of different/various countries of the world/peace radiobiological researches in the cosmic space will be sucessfully continued/ carried on and were expanded/broadened. Computer Concepts, Inc. No. 2 The biological experiments that were carried out on different cosmic flying apparatus, ASTROFIZICESKIE the research of cosmic PROSTRANSTVA and the flights of Soviet and American KOSMONAVTOV with sufficient UBEDITEL6NOST6H showed, that the short-time orbital flights below of the radiational belts of earth in the absence that was raised by the SOLNECNO1 one of activity in a radiational attitude are BEZOPASNYMI. Dose of radiati on at the expense of primary cosmic radiation and the radiation of an exterior radiational belt the obtained by KOSMONAVTAMI are so little, that aren't able to render a harmful influence to the organism of a man. Mammals (dogs, meeth, rats, sea SVINKI) were utilized in these experiments. The flies of drosophila, vegetable objects, semena of higher plants (wheat, GOROX, LUK, a pine tree, BOBY, REDIS, a carrot and others), MIKROSPORY of TRADESKANQII the culture of an alga chlorella in different nourishing mediums, the numerous biological and QITOLOGICESKIE ones objects on the TKANEVOM, cellular, subcellular and molecular levels (Ghrdjian, 1962 and Antipov from Soavt 1962) and in experiences to mammals particular attention was being allotted to the research of the condition of the system of KROVOTVORENI4, to the definition of the intermediate products of the exchange of nucleic acids DEZOKSIQITIDINA and DIWEPOLOJITEL6NYX substances), to the study of the condition of natural IMMUNITETA, to the definition of the content of SEROTONINA in KROVI. Besides, control after the condition of PIGMENTAQII of VOLOS at CERNYX meeth (the line of C(57) of Y) was being carried out. Physiological SDVIGI were being studied also on SEMENAX of higher plants, microorganisms, the cells of different tissues in culture and T. of D. Thus, the examination of some from fundamental RADIOBIOLOGICESKIX problems shows, that in this a field still very much NEREWENNYX questions. This is clear, since cosmic RADIOBIOLOGI4 is very young RAZDELOM young science efforts of the scientific different specialties of the different countries of the world successful PRODOLJENY will be expanded there are. FTD, USAF No. 3 Biological experiments, conducted on different space aircraft/vehicles, astrophysical space research and flights of Soviet and American astronauts with/ from sufficient convincingness showed that short-term orbital flights lower than radiation belts of earth in the absence of heightened solar activity in radiation ratio are safe. Obtained by astronauts of dose of radiation at the expense of primary cosmic radiation and radiation of external radiation belt are so small that cannot render harmful influence on organism of person. In these ESKPERIMENTAKH were used mamals (dog, mice, rat, guinea pig), fly of Drosophilae, vegetable objects, seeds of highest plants (wheat, pea, onion/bow, pine, beans, radish, carrot and others), microspore of tradescantia, culture of alga chlorella on different nutrient media, numerous biological and TSITOLOGICHCHESKIE objects on tissue, cellular, sub-cellular and molecular levels (Gyurozhian 1962A, Anti-Pov with/from Soavt, 1962). In experiments on mammals special attention was allotted investigation of state of system of sanguification, determination of intermediate products of exchange of nucleic acids (deoxycytidine and Dischepositive substances), study of state of natural immunity, determination of contents gray-fineness in blood. Furthermore, was conducted counterol for/after state of pigmentation of hairs for black mice (line bl). Physiologic shifts were studied also on seeds of highest plants, microorganisms, cages of different fabrics in culture etc. Thus, consideration of certain from basic radiobiological problems shows that in given region still very many unsolved questions. This and intelligibly, since space radiobiology is very young division of young science--space biology. However is base to trust that jointly scientists of different specialties of various countries of world/peace radiobiological investigations in outer space will be successfully continued and expanded. EURATOM, Ispra, Italy No. 4 Biological experiments, which were conducted on different cosmic LETATEL6NYX APPARATI, the astrophysical investigations of cosmic space and the flights of Soviet and also American KOSMONAVTOV with the sufficient convincingness showed, that the short-term orbital flights of below radiation belts of ground upon the absence of the increased solar activity in radiation relation are safe. Obtained by KOSMONAVTAMI of dose of radiation at the expense of initial cosmic radiation and the radiations of external radiation belt are so small, that cannot have harmful action on the organism of man. In these experiments there were used mammals (dogs, mice, KRYSY, the maritime piglets), MUXI DROZOFILY, vegetable objects. The seeds of higher plants (wheat, the pea, LUK, pine, beans, REDIS, MORKOV6 etc.) MIKROSPORY TRADESKANQII, the culture of alga of chlorella on the different feed environments, numerous biological and QITOLOGICESKIE objects on TKANEVOM, cellular, SUBKLETOCNOM and molecular levels (Ghrdjian, 1962 and Antipov with Soavt 1962). In experiments on mammals special attention was devoted to the investigation of state of system of KROVOTVORENI4, the determination of intermediate products the exchange of nucleinic acids (DEZOKSIQITIDINA and DIWEPOLOJITEL6NYX substances), the study of the state of natural IMMUNITETA The determination of content of SEROTONINA in blood. Besides this, there was conducted the check for the state or PIGMENTAQII the hair at black mice (the line C(57) Y) the Physiological) shifts were studied also on the seeds of higher plants, microorganisms, the cells of the different tissues in culture and T D. The reader will find it instructive to compare the samples above with the results obtained on simple, or selected, text 10 years earlier (the Georgetown IBM Experiment, January 7, 1954) in that the earlier samples are more readable than the later ones. The quality of crude oil is determined by calory content. The quality of saltpeter is determined by chemical methods. TNT is produced from coal. They obtain dynamite from nitroglycerine. Ammonite is obtained from saltpeter. Gasoline is prepared by chemical methods from crude oil. They prepare ammonite. Gasoline is produced by chemical methods from crude oil. The price of crude oil is determined by the market. Calory content determines the quality of crude oil. TNT is prepared from coal. The development of the electronic digital computer quickly suggested that machine translation might be possible. The idea captured the imagination of scholars and administrators. The practical goal was simple: to go from machine-readable foreign technical text to useful English text, accurate, readable, and ultimately indistinguishable from text written by an American scientist. Early machine translations of simple or selected text, such as those given above, were as deceptively encouraging as “machine translations” of general scientific text have been uniformly discouraging. However, work toward machine translation has produced much valuable linguistic knowledge and insight that we would not otherwise have attained. No one can guarantee, of course, that we will not suddenly or at least quickly attain machine translation, but we feel that this is very unlikely. Victor H. Yngve of the MIT Research Laboratory of Electronics, in answer to a request from Committee Chairman John R. Pierce, expressed his views as follows: I concur with your view of machine translation, that at present it serves no useful purpose without postediting, and that with postediting the over-all process is slow and probably uneconomical. As to the possibility of fully automatic translation, I am convinced that we will some day reach the point where this will be feasible and economical. However, there is considerable basic knowledge required that we simply don't have at the moment, and it is anybody's guess how soon this knowledge can be obtained. However, I am dedicated to trying to obtain some of this knowledge. The question as to whether fully automatic translation will ever be economical must wait until we see whether it is possible at all. I feel that if it is possible, then it will be economical in the future because of the rapid advances in computer technology. In his paper, “Implications of Mechanical Translation Research” , Dr. Yngve notes: Work in mechanical translation has come up against a semantic barrier. . . We have come face to face with the realization that we will only have adequate mechanical translation when the machine can “understand” what it is translating and this will be a very difficult task indeed . . . “understand” is just what I mean . . . some of us are pressing forward undaunted. The Committee indeed believes that it is wise to press forward undaunted, in the name of science, but that the motive for doing so cannot sensibly be any foreseeable improvement in practical translation. Perhaps our attitude might be different if there were some pressing need for machine translation, but we find none. 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|4247 次阅读|2 个评论
ALPAC 黑皮书 2/9: 人工翻译
liwei999 2013-10-5 15:30
人工翻译 为了了解根本性质和翻译的困难,或现有资源和翻译问题,必须要知道一些关于人类的翻译和翻译人员。因此,早在其研究过程中,委员会听取一些翻译专家。这些专家们似乎同意翻译的三个必要条件,按重要性顺序是(1)良好的目标语言知识,(2)理解主题, (3)足够的源语言知识。 因此,虽然一些译者的母语不是英语也能把外文翻译成不错的英语,一般来说译者的母语最好是英语。此外,好翻译可以由一些拥有普遍科学知识的人担任,但最好的技术翻译一般是技术领域专家。似乎也很清楚,有限的源语言能力是可以的,当译者是题材的专家的时候。 有人对翻译委员会强调需要良好的词典和参考书。这对需要一个长期的工作特别重要,当翻译分给多人,在这种情况下,适当的字典或技术术语词汇表是必不可少的,才能保持翻译的一致性。 翻译使用各种助力,包括听写机和打字机,但他们并不总是适合产生可以出版的最后版本。最终副本,加上插图和公式,通常是由中心服务部门完成。尽管联合出版物研究服务( JPRS ),或类似机构提供了主要服务,翻译费用更大的一部分通常还是翻译的人工。 实验表明,迅速口述的翻译几乎与“全译本”一样好,而仅需约四分之一的时间(见附件1) 。 ~~~~~~~~~~~~~ Human Translation In order to have an appreciation either of the underlying nature and difficulties of translation or of the present resources and problems of translation, it is necessary to know something about human translation and human translators. Thus, early in the course of its study the Committee heard from a number of experts in translation. These experts seem to agree that the three requisites in a translator, in order of importance, are (1) good knowledge of the target language, (2) comprehension of the subject matter, and, (3) adequate knowledge of the source language. Therefore, while good translations into English are made by some translators whose native tongue is not English, in general, translators whose native tongue is English are preferable. Furthermore, while good translations are made by some translators who have a general appreciation of scientific knowledge, the best technical translations are generally made by experts in the technical field covered. It also seems clear that a restricted competence in the source language is adequate when the translator is expert in the subject matter. It was emphasized by several persons who made presentations to the Committee that translators need good dictionaries and reference books. This need is especially important when a long work is split up for translation, for in such cases adequate dictionaries or glossaries are essential if technical terms are to be translated consistently. Translators use a variety of aids, including dictating machines and typewriters, but they do not always produce a final copy suitable for reproduction. The final copy, with figures and equations inserted, is usually produced by the central service. Despite the substantial services performed by the Joint Publications Research Service (JPRS) or by similar agencies, the greater part of the cost of translation usually goes to the translator. One experiment that has come to the attention of the Committee indicates that a rapidly dictated translation is almost as good as a “full translation” and takes only about one fourth the time (see Appendix 1). ×××××××××××××××××××××××× 译者从业类型 In addition, he has available to him better reference facilities than his free-lance counterparts. 译者就业的两种主要类型是编内翻译和合同翻译。每种类型都具有其特定的优点和缺点,对于需要翻译的个人或机构也是如此。 编内翻译 好处是全职工作,并享有所有休假和退休福利,与组织内其他全职员工同。此外,他有更好的参考资料,比起自由翻译工。 编内翻译对雇主而言,优势主要是以下几点: 1。在需要的时候,随时可以给译者现货或口头翻译。 2。译者和请求者之间的互利合作有更大的可能性。 3。翻译员可以在需要的时候,提供快捷服务。 4 。分类信息的安全性易于维护。 编内翻译对雇主来说,其缺点是: 1。计算开销和福利,比使用自由翻译一般较昂贵。 2。调度中的问题可能会不时出现,任务有时过多,有时不足。 3。既然编内翻译不可能是一个了解各个领域的专家,很难在机构内得到一直都好的技术翻译。 合同翻译 译者作为一名自由职业者的合同安排,其优点是: 1。如果他能处理一些更少见,因此支付更高的语言中比较广泛的题材,他可能获得大大超过了他作为一个编内翻译的收入。 2。他有相当多的自由决定何时工作和做多少工作。 对翻译的买方,合同安排的优点是: 1。在许多领域,他可以得到技术上胜任的翻译。 2。他从来不需要 支付 没非翻译的时间。 3。他有一个低得多的人头开销。 对买方,合同安排的缺点是: 1。译者不在机构内,即时咨询困难。 2。机密文件的安全性更难以维持。 ~~~~~~~~~~~~ Types of Translator Employment The two main types of translator employment are in-house and contract. Each type has particular advantages and disadvantages for the translator and for the individual or organization requiring the translation. IN-HOUSE The advantages to the in-house translator are that he is employed full time and enjoys all the benefits (leave and retirement, for example) that are offered to other full-time employees in the organization. In addition, he has available to him better reference facilities than his free-lance counterparts. The advantages to the employer of an in-house translator are chiefly the following: 1. The translator can give spot or oral translations when needed. 2. There is greater possibility for mutually beneficial collaboration between the translator and the requester. 3. The translator can provide fast service when needed. 4. The security of classified information is easily maintained. The disadvantages to the employer of the in-house translator are: 1. The arrangement (counting overhead and fringe benefits) is generally more expensive than using free-lance translators. 2. Problems in scheduling may arise from time to time, with the translator having either too much or too little to do. 3. Since it is impossible for the in-house translator to be an expert in all fields, it is difficult to get consistently good technical translations done in-house. CONTRACT The advantages of a free-lance contract arrangement for the translator are: 1. If he can handle a relatively wide range of subject matter in some of the more uncommon and therefore higher-paying languages, he may earn considerably more than he would as an in-house translator. 2. He has considerably more freedom in deciding when and how much he will work. The advantages of the contract arrangement to the buyer of translations are: 1. He can obtain technically competent translations in many fields of subject matter. 2. He never pays for time not spent in translating. 3. He has a much lower overhead. The disadvantages of the contract arrangement to the buyer are: 1. The translator is not on the premises for immediate consultation. 2. Security of classified documents is more difficult to maintain. ×××××××××××××××××××××××× 英语作为科学发表的语言 很容易高估翻译的需要,如果仅仅着眼于在世界各地出版的科学文献的数量的迅速增加。美国处于一个特别幸运的位置,因为英语为 科学的 主要语言。一项在【 物理文摘】 列出3000文摘 以及 在Referativny Zhurnal上列出350物理文摘 的 调查 给出以下结果: 物理文摘 语言 物理文摘 Referativny Zhurnal 英语 76% 63% 俄语 14% 24% 法语 4% 3% 德语 4% 2% 其他 2% 8% 虽然英语语言的论文与非英语的论文之比不同的学科领域有所不同,通常以英语为母语的科学家较少需要读一门外语,或需要翻译,比起任何其他母语的科学家。 ~~~~~~~~~~~~~ English as the Language of Science It is easy to overestimate the need for translation if one simply looks at the rapidly increasing volume of scientific literature being published throughout the world. The United States is in a particularly fortunate position because English is the predominant language of science. A survey of 3,000 abstracts listed in Physics Abstracts and 350 physics abstracts listed in Referativny Zhurnal gave the following results: Language of Paper Abstracted Physics Abstracts Referativny Zhurnal English 76 percent 63 percent Russian 14 percent 24 percernt French 4 percent 3 percent German 4 percent 2 percent Other 2 percent 8 percent Although the ratio of English-language articles to non-English articles varies with the subject field, it is generally true that the English-speaking scientist has less need to read in a foreign language or to have translations made than does a scientist of any other native tongue. ××××××××××××××××××××××××××××× 科学家学习俄语所需的时间 委员会认为,在某些情况下,可能更简单更经济的办法是让严重依赖俄语翻译的人学会直接阅读俄语文献。 JG Tolpin ,在题为 “俄语技术出版物调查:简要教程” 中指出,科学家在8至16个两小时课程单元中可以学会在俄语出版物中识别感兴趣的文章。有时候,他们可以从方程式,表格,图形和图示中提取他们所需要的资料。在其他许多情况下,只要部分口头翻译感兴趣的一点材料就足够满足需要了。公认的事实是,对于技术人员,为了利用本专业的外语期刊,只需要一点点的外语知识就可以了。* 事实上,多家知名研究†表明,200个小时或更少,科学家能够获得 在他的领域的 足够的俄语阅读能力。美国科学家和工程师有这样的知识为数越来越多。 教授政府人员阅读俄语科学读物的能力已经存在,但到目前为止,这项服务仍然未被充分使用。国防语言学院,西海岸分部(原陆军语言学校) ,已开发了两个课程的教学和用于此目的的特殊课本。一个课程运行6周,另一个需要10周。委员会获悉,国防语言学院欢迎学生入学。 10周的课程信息见附录2。 * 应给予更多重视的是, 即使是最好的翻译也 是没有用的 ,如果 一个人不能充分了解专业内容,并把它放在国内和国外其他工作的背景下。 †R. D.伯克合格,发展科技俄语合格翻译的 一些独特问题 ,P-1698,兰德公司(1959年5月12日)。 W. N.洛克,【化学教育期刊】27,426(1950)。 M·菲利普斯,科技中的外语障碍,Aslib,伦敦,英国(1962年),15页。 ~~~~~~~~~~~~~~ Time Required for Scientists to Learn Russian The Committee believes that in some cases it might be simpler and more economical for heavy users of Russian translations to learn to read the documents in the original language. An article by J. G. Tolpin, titled, “Surveying Russian Technical Publications: A Brief Course” , indicates that in eight to sixteen 2-hr class periods scientists can learn to identify articles of interest in Russian publications. Sometimes they can extract what they need from equations, tables, graphs, and figures. In many other cases, a partial oral translation of the material of interest is all that is needed. These are illustrations of the generally acknowledged fact that the technically competent reader needs only a little knowledge of a foreign language in order to make use of foreign journals in his field.* Indeed, several well-known studies † indicate that in 200 hr or less a scientist can acquire an adequate reading knowledge of Russian for material in his field. An increasing fraction of American scientists and engineers have such a knowledge. The capability for teaching government personnel to read Russian scientific text already exists, but so far this service has remained largely unused. The Defense Language Institute, West Coast Branch (formerly the Army Language School), has developed two courses of instruction and special texts for this purpose. One course runs 6 weeks, the other 10. The Committee has been informed that the Defense Language Institute would welcome the enrollment of students. Information concerning the 10-week course is presented in Appendix 2. *A corollary that should be given more emphasis is that even the best translation is of no use to a man who cannot fully understand the subject matter and place it in the context of other work here and abroad. †R. D. Burke, Some Unique Problems in the Development of Qualified Translators of Scientific Russian, P-1698, The RAND Corp. (May 12, 1959). W. N. Locke, J. Chem. Educ. 27, 426 (1950). M. Phillips, The Foreign Language Barrier in Science and Technology, Aslib, London, England (1962), p. 15. ×××××××××××××××××××××××××××× 美国政府机关里的翻译 应该强调的是没有一个统一的政府官方翻译系统。事实上,不同的政府机构采用各种不同的方法来填补他们的翻译需求。使用的方法包括合同翻译,编内翻译,联合出版物研究服务社的服务(附录3),以及这些方法的组合。 一些机构使用PL480的配套资金,以增强其在国内获得的翻译(附录4)。其他机构,主要是美国空军,利用 赖特 - 帕特森空军基地 外国技术部 后编辑过的机器输出(附录5)。 此外,美国国家科学基金会,虽然不是主要的翻译生产者,支持着30种期刊的全文翻译(附录6,表1)。 ~~~~~~~~~~~~~~~~~~ Translation in the United States Government It should be emphasized that there is no single official government translation system. Indeed there is considerable variety in the methods used by the various government agencies for filling their translation needs. The methods used include contract only, in-house translation, the services of the Joint Publications Research Service (Appendix 3), and a combination of these methods. Certain agencies are using PL 480 counterpart funds to augment their domestically obtained translations (Appendix 4). Others, principally the U.S. Air Force, utilize the postedited machine output of the Foreign Technology Division, Wright-Patterson Air Force Base (Appendix 5). In addition, the National Science Foundation, while not a primary producer of translations, is supporting the cover-to-cover translation of 30 journals (Appendix 6, Table 1). ××××××××××××××××××××××××××××× 政府译员的数量 政府内部翻译的确切数目是无法确定的,虽然它的数量本来可以从公务员分类“译员”中简单确定。 有时为了改善经济状况,翻译必须首先争取确保一个更负盛名的职业称号。这样的方式为晋升打开大门,尽管其翻译职责可能保持不变。 更复杂的是,其他职业类别的双语人士经常被要求为他们的同事或上司做粗糙或口头的翻译。这种情况当然 不是 美国政府机构特有的。 虽然实际上分类为“译员“的人的数量有不确定性, 我们从公务员服务委员会获得的1962年10月的数字如下: 翻译和办事员在美国雇用的翻译 262 翻译和办事员译者采用全球 453 (译员数量在各部门,在每个机构和CSC工资的表, 1964年, CSC资格标准,见附件7 )。 从由CSC提供的数据,我们已经得知 联邦翻译(店员翻译不包括在内) 平均年薪在美国约6850美元 。 当政府科学家( 9 000美元的年薪中位数比较,这个数字与1962年,美国科学统筹,科学和技术人员国家注册的报告, NSF 64-16 ,美国国家科学基金会,华盛顿特区, 1964年) ,很明显,有技术培训背景的双语人士将获得更多的优势,比作为在各自领域的技术翻译工作的科学家和技术人员。 尽管事实上,政府科学家的平均,平均工资为政府翻译不高,似乎是一个非常低的流动率政府翻译。事实上,供给超过需求。虽然没有现在手头上在美国就业服务网(华盛顿特区)单个请求一个全职翻译,渴望工作的人在其卷约500翻译(兼职或全职)。 (翻译和他们的语言的可用性,见附录8)。 ~~~~~~~~~~~~~~~~~ Number of Government Translators The exact number of government in-house translators is impossible to determine, although it is a simple matter to determine the number of persons in the Civil Service classification, “Translator.” It sometimes happens that the translator who decides to better his economic situation must first contrive to secure a more prestigious occupational title. Thus the way is open for advancement, even though the bulk of his duties might remain the same. The picture is further obscured by the fact that bilingual persons in other job categories are often called upon to produce rough or oral translations for their colleagues or superiors. This situation is not, of course, peculiar to agencies of the U.S. Government. Keeping in mind the indefiniteness of the number of persons actually classified under “Translator,” we give the figures obtained from the Civil Service Commission for October 1962: Translators and clerk-translators employed in the United States 262 Translators and clerk-translators employed worldwide 453 (For the number of translators in each division and grade, in each agency, and for the CSC salary schedule for 1964, and CSC qualification standards, see Appendix 7.) From the data supplied by the CSC, we have figured the average yearly salary of the federal translator (clerk-translator not included) employed in the United States to be approximately $6,850. When one compares this figure with the median annual salary of government scientists ($9,000. American Science Manpower, 1962, A Report of the National Register of Scientific and Technical Personnel, NSF 64-16, National Science Foundation, Washington, D. C., 1964), it is apparent that technically trained bilingual persons would derive more advantages from working as scientists and technologists in their subject specialties than from serving as technical translators in their respective fields. Despite the fact that the average pay for government translators is not as high as the average for government scientists, there seems to be a very low rate of turnover among government translators. Indeed, the facts are that the supply exceeds the demand. Although there is not now on hand at the U.S. Employment Service (Washington, D. C.) a single request for a full-time translator, there are approximately 500 translators on its rolls who desire work (part time or full time). (For the availability of translators and their languages, see Appendix 8.) ××××××××××××××××××××××× 翻译花费金额 考虑到安全的翻译使用的各种方法,并不奇怪,联邦机构已支付了许多不同的翻译价格 - 由$ 9至每千字66元不等的价格。 (不是完全闻所未闻的,翻译买方支付翻译格外好工作比他实际做的更多的话)。 在第一次会议上,委员会决定,这将是非常有用的相当可靠估计的金额,政府花费的翻译。委员会所收集的构成虽然这些数字只是一个估计值 - 一个粗略的估计 - 我们觉得这是到这个时候政府的翻译支出的最佳估计数。 花费金额由政府机构所做的翻译: 百万美元 JPRS 财政年度1964 1.3 商业机构 财政年度1964 3.6 (估价H. R.专责委员会) PL 480 财政年度1965 1.5 NSF国内 财政年份1965 1.1 内务 财政年度1963 5.3 FTD MT 3月1 - 10月2 1964 0.27 总计 13.07 政府翻译的大部分事业在政府支持研究和开发中是一个非常小的活动领域,很显然,从以上数字看。 伯纳德·比尔曼,美国翻译协会在纽约的翻译机构的所有者和董事估计,在美国做商业翻译的机构每年约有7.5百万美元的商业价值。加入由政府花费1300万美元,这个数字的总和约2000万美元。对此应加非政府内部翻译花费的金额2百万美元。因此花在翻译上的钱的数额估计将提高到约2200万元。 ~~~~~~~~~~~~~~~~~~~ Amount Spent for Translation Considering the various methods used to secure translations, it is not surprising that federal agencies have paid many different prices for translation – prices ranging from $9 to $66 per 1,000 words. (It is not altogether unheard of for a translation purchaser to pay a translator who does exceptionally good work for more words than he actually translates.) At its first meeting, the Committee decided that it would be useful to have a fairly reliable estimate of the amount of money the government was spending for translation. Although the figures collected by the Committee constitute only an estimate – and a rough estimate, at that – we feel that it is the best estimate of the government's translation expenditures made up to this time. Amounts spent by government agencies for translations done by: $ Millions JPRS Fiscal Year 1964 1.3 Commercial Agencies Fiscal Year 1964 3.6 (Est. by H. R. Select Committee) PL 480 Fiscal Year 1965 1.5 NSF Domestic Fiscal Year 1965 1.1 In-House Fiscal Year 1963 5.3 FTD MT 1 March - 2 October 1964 0.27 Total 13.07 It is clear from the above figures that translation in the government is a very small field of activity when compared with most undertakings in which the government supports research and development. Bernard Bierman, a New York translation agency owner and a director of the American Translators Association has estimated that the commercial translation agencies in the United States do about $7.5 million worth of business each year. When this figure is added to the $13 million spent by the government, the sum is about $20 million. To this should be added perhaps $2 million for the amount spent for nongovernment in-house translators. Thus the estimate of the amount of money spent on translation would be raised to approximately $22 million. ××××××××××××××××××××××××××××××××××××× 是否短缺翻译或译员? 在过去,有人表示,有翻译或译员短缺的需要尚未得到满足。对于其他语言翻译成英语,委员会认为,事实并非如此。这一结论是基于以下数据: 1。翻译供应大大超过需求。美国就业服务,提供的翻译工作价格低至6元1000字(或更低) ,与翻译交谈都确认了委员会的结论。 2。联合出版物研究服务的容量可以增加一倍的输出(办公室的工作人员只要一个非常小的增加) ,如果需要。 JPRS拥有4000名合同译员,平均一个月只有大约300人被利用。 JPRS选择一个重要的语言作为一个例子,中文翻译可以处理多达两个半倍于目前的需求,这没有困难。 3。美国国家科学基金会的公开支持计划将慎重考虑,通过适当的专业社会,任何外国的杂志,这样的社会提名的翻译支持。 30期刊被翻译盖覆盖在1964年财政年度(见附录6表1 ) 。一个翻译有一个流通的只有200份。这是接近的,以提供个性化的服务。在12年的美国国家科学基金会的支持,已经成为自收自支的19个翻译期刊(见附录6 ,表2 ) 。 委员会拒绝任何翻译短缺的说法,如果这种短缺是根据这样的事实,对PL 480翻译的需求超出其能力5倍以上。这种说法被拒绝的理由是,几乎任何免费商品的需求都是无法满足的。 四十五个(主要是政府)的信息设施,以响应政府研究专责委员会,第88届国会(众议院)发出一份问卷,表明其设施的工作已经有限,缺乏翻译。这45家工厂再次询问他们的设备是否已限制缺乏翻译语言自动处理咨询委员会,如果是这样,这是否是由于缺乏翻译者缺乏合格的译员缺乏授权的位置。委员会共收到25篇。有些人说,他们的设施有没有翻译功能。一位代表说,它已不仅限于译者缺乏,这种情况是由于缺乏授权的位置。六表示,他们并不仅限于缺乏翻译。九设施的回答显然是肯定的,他们已经翻译缺乏的限制,七表示,这是由于缺乏授权的位置。剩下的两个,只有一个,非政府研究中心,说是由于其缺乏缺乏合格的译员。其他人简单地回答说,他们没有足够的服务请求来证明永久职位。 调查结果证实了委员会的信念,不存在短缺的翻译,虽然有可能有一个短缺的翻译授权职位。那么,这是一个财政问题,机构和公务员制度委员会的问题,而不是一个支持机械翻译研究的研究和开发办公室的问题。 委员会得出结论,所有的苏联文献,任何明显的需求是被翻译 ,而且,虽然不容易评估需求或开放或封闭的情报材料覆盖,委员会认为这是决定性的,但遇到了一个单一的情报组织,要求更多的钱用于人类翻译。委员会听取了使用翻译分析师有限,也就是说,即使有更多的材料被翻译,分析师不会利用它。因此,具有讽刺意味的是,一些机构建议花更多的钱,做 “机器翻译”。委员会感到困惑的是,没有理由花费大量的金钱在一个小而已经经济不景气的行业,这个行业只有全职及部分时间劳动力总数不到5000 。 ~~~~~~~~~~~~~~~~~~~~~~ Is There a Shortage of Translators or Translation? In the past, it has been said that there is an unfulfilled need for translation or a shortage of translators. With respect to translators of other languages into English, the Committee finds that this is not so. This conclusion is based on the following data: 1. The supply of translators greatly exceeds the demand. The rolls of the U.S. Employment Service, the availability of translators to work at rates as low as $6 per 1,000 words (or lower), and conversations with translators confirm the Committee's conclusion. 2. The Joint Publications Research Service has the capacity to double its output immediately (with a very small increase in office staff) if called upon. The JPRS has 4,000 translators under contract, and in the average month it utilizes the services of only some 300 of them. To choose one important language as an example, the JPRS could with no difficulty handle up to two and a half times the present demand for Chinese translation. 3. The National Science Foundation's Publication Support Program will carefully consider, through a proper professional society, the support of the translation of any foreign journal that such a society nominates. Thirty journals were being translated cover to cover in Fiscal Year 1964 (see Appendix 6, Table 1). One translation has a circulation of only 200 copies. This comes close to providing individual service. In 12 years of NSF support, 19 translated journals have become self-supporting (see Appendix 6, Table 2). The Committee rejects any argument, based on the fact that the demand for the PL 480 translations is five times greater than the program can satisfy, that there is a shortage of translation. Such an argument is rejected on the grounds that the demand for almost any free commodity is insatiable. Forty-five (mostly government) information facilities, in response to a questionnaire issued by the Select Committee on Government Research (House of Representatives, 88th Congress), indicated that the work of their facilities had been limited by a lack of translators. These 45 facilities were again asked by the Automatic Language Processing Advisory Committee whether their facility had been limited by a lack of translators, and if so whether this lack was attributable to a lack of authorized positions for translators or to a lack of qualified translators. The Committee received 25 replies. Some said that their facilities had no translation function. One said that it had not been limited by a lack of translators and that this situation was attributable to a lack of authorized positions. Six indicated that they were not limited by a lack of translators. Of the nine facilities that answered clearly in the affirmative that they had been limited by a lack of translators, seven indicated that this was attributable to a lack of authorized positions. Of the two remaining, only one, the nongovernment research center, said its lack was attributable to a lack of qualified translators. The others simply replied by saying that they did not have sufficient requests for services to justify permanent positions. The results of the survey confirm the Committee's belief that there is no shortage of translators, although there may be a shortage of authorized positions for translators. This, then, is a fiscal problem for the agencies and the Civil Service Commission, and not a problem for research and development offices supporting research in mechanical translation. The Committee concludes that all the Soviet literature for which there is any obvious demand is being translated , and, although it is less easy to evaluate the needs or coverage of open or closed material for intelligence, the Committee regards it as decisive that it has not encountered a single intelligence organization that is demanding more money for human translation. The Committee has heard statements that the use of translation is analyst-limited; that is, even if more material were translated, analysts would not be available to utilize it. Thus, it is ironic that several agencies propose to spend more money for “machine translation.” The Committee is puzzled by a rationale for spending substantial sums of money on the mechanization of a small and already economically depressed industry with a full-time and part-time labor force of less than 5,000. ×××××××××××××××××××××××××××××××××××××××× 关于可能的超额翻译 虽然委员会没有关注任何缺乏的翻译,它确实有一个翻译可能超过有些担心。翻译的材料,其中有没有一定的前瞻性读者不仅造成浪费,但它堵塞翻译和信息流的渠道。应限于日常翻译期刊或书籍,放心合理的有偿流转和额外的翻译应仅针对具体要求。支持这一立场,我们引述国防部的一个研究组织,研究委员会收到的一封信: 我们已经发现,提供翻译服务,一般不包括我们的技术领域,我们需要为我们的研究的深度。因此,我们不断地把额外的期刊文章和诸如苏联专利翻译请求。我们的问题一直无法获得快速反应,这些特殊的要求,正是这个因素,阻碍我们的工作,而不是限制。如果我们有一个建议,如你做出的一项调查显示,这将是一个更好的平衡之间应建立常规翻译和翻译的特殊的用户请求。我们发现,许多文章被翻译在我们地区不值得的努力,它的出现让我们可以放弃一些日常翻译,以便使更多的特殊要求的快速反应提供翻译服务。 盖盖翻译中,除了许多有价值的信息,这是可能的,许多平庸的研究报告,美国科学家可能已发慈悲放过。 ,在1962年进行的一项有趣的研究,研究的价值包含在苏联医学/公共卫生服务翻译程序 。评估采用的方法是平行的社论裁判的苏联对口美国期刊的文章。翻译的文章的复印件被发送到对口首席美国期刊编辑分配给他们的裁判。初步结果如下。 谢切诺夫生理杂志苏联取自两个问题总数的36篇文章,31 %的人判断是可以接受的,发表在美国生理学杂志或应用生理学杂志。 共41篇文章,从生物物理两个问题(苏联) ,23 %的人判断是可以接受的生物物理学杂志“发表。此外,裁判员表示,另外八条应该是可以接受的,以适当的美国杂志。 取自肿瘤的问题,这两个问题的论文25篇,有76%被认为是可以接受的癌症。裁判表示,另外两篇文章已经接受的一次,但“现在不会被认为是新的,足以值得出版。 ” 进一步的证据是可以找到的翻译可能超过在美国化学家,由Herner及本公司( 1962年6月4日)的美国化学学会的一份报告中的极品苏联翻译: 另一方面,最大的论点,即受访者目前提供给他们的翻译是不是与他们的品质,但在其发行的时间滞后。盖盖翻译过程中,尤其是当涉及翻译是一个比较缓慢的一个。鉴于医学编辑发现,人们可能会怀疑是否平庸或伪劣论文的比例相对较高,不拖延一小部分的外观优势和显着的论文。 也许更揭露真相,除了明确表示不使用苏联翻译的原因是接收苏联的科学信息的首选媒体方面的调查问卷中的问题的答案。三种方法级别比所有其他人。这些国家是:俄罗斯的出版物,定期的英语评论苏联在特定领域的发展,个别文章和翻译的英语摘要。这三种方法当然不是相互排斥的,而是互补的。有趣的是,一些人宁愿盖盖翻译的形式得到他们的苏联信息的受访者数量只有一半的人更需要得到他们的翻译。 。 。 。唯一的东西,可能会做圆了苏联的覆盖面,目前在化学是,第一,确保取水或编辑认为是值得的,苏联的论文,给出了详细的抽象,因为他们很可能不现成的英语第二获得廉价的拷贝引用苏联的论文,可能通过化学文摘社提供手段;和第三选定可用的翻译要求建立一个机制,可能再次通过化学文摘服务。所有这三个领域的改善可能会要求由政府补贴。然而,这将可能意味着小得多的支出比将需要盖盖翻译支持的扩展程序。它也可能会产生更大的回报。 这是委员会的信念,总的技术文献,不值得翻译,它是徒劳的尝试猜测什么人可以在一段时间内要翻译。应该强调的是速度,质量和经济上的要求提供这样的翻译。 如联合出版研究服务,其中收费用户翻译服务翻译不使用少,有利于比如美空军系统司令部的外国技术部,这在一定区域内提供免费的翻译服务。 ~~~~~~~~~~~~~~~~~~~~~~~~ Regarding a Possible Excess of Translation While the Committee is not concerned with any lack of translation, it does have some concern about a possible excess of translation. Translation of material for which there is no definite prospective reader is not only wasteful, but it clogs the channels of translation and information flow. Routine translation should be confined to journals or books with reasonably assured paid circulation and additional translations should be made only in response to specific requests. In support of this position we quote from a letter received by the Committee from a research organization of the Department of Defense: We have found that the available translation services generally do not cover our technical areas to the depth that we require for our studies. As a result, we are continually putting in requests for translations of additional journal articles and such things as Soviet patents. Our problem has been the inability to obtain quick reaction to these special requests and it is this factor that has hampered rather than limited our work. If we had one recommendation to make to a survey such as yours, it would be that a better balance should be established between what is routinely translated and the special translation requests of users. We have found that many articles are being translated in our area that do not warrant the effort and it appears to us that some of the routine translations could be abandoned in order to make more translation services available for quick reaction to special requests. It is possible that the cover-to-cover translations contain, in addition to much valuable information, many uninspired research reports that the U.S. scientist could have been mercifully spared. An interesting study, conducted in 1962, investigated the value of the articles contained in the Soviet journals translated in the National Library of Medicine/Public Health Service translation program . The method of evaluation used was parallel editorial refereeing of the Soviet articles by counterpart American journals. Copies of the translated articles were sent to the editors in chief of counterpart American journals for distribution to their referees. The preliminary results were as follows. Of the total of 36 articles taken from two issues of the Sechenov Physiological Journal of the USSR, 31 percent were judged acceptable for publication in the American Journal of Physiology or the Journal of Applied Physiology. Of the total of 41 articles taken from two issues of Biophysics (USSR), 23 percent were judged acceptable for publication in the Biophysical Journal. In addition the referees indicated that another eight articles should be acceptable to the appropriate American journal. Of the 25 papers taken from two issues of Problems of Oncology, 76 percent were considered acceptable to Cancer. The referees indicated that another two articles would have been acceptable at one time but “would not now be considered new enough to merit publication.” Further evidence of a possible excess of translation is to be found in The Need for Soviet Translations Among American Chemists, a report to the American Chemical Society by Herner and Company (June 4, 1962): On the other hand, the biggest argument that the respondents had with the translations presently available to them was not with their quality but with time lags in their issuance. The translation process–particularly when cover-to-cover translations are involved–is a relatively slow one. In view of the finding of the medical editors, one might well wonder whether a relatively high proportion of mediocre or inferior papers are not delaying the appearance of a small proportion of superior and significant papers. Perhaps even more revealing than the specifically stated reasons for nonuse of Soviet translations are the answers to the question in the questionnaire in regard to preferred media for receiving Soviet scientific information. Three methods outranked all others. These were: English-language abstracts of Russian publications, regular English-language reviews of Soviet developments in specific fields, and translations of individual articles as needed. These three methods are of course not mutually exclusive but complementary. Interestingly, the number of respondents who preferred to get their Soviet information in the form of cover-to-cover translations was only half the number who preferred to get their translations as needed. . . . The only things that might be done to round out the Soviet coverage that is presently available in chemistry is, first, to make sure that Soviet papers that are worthwhile in the opinion of the abstractors or editors are given detailed abstracting because they are likely not to be readily available in English; second to provide means of obtaining cheap copies of cited Soviet papers, possibly through the Chemical Abstracts Service; and third to develop a mechanism for making selected translations available on request, again possibly through the Chemical Abstracts Service. All three areas of improvement would probably require subsidization by the Government. However, it would probably mean a far smaller expenditure than would be required to support an expanded program of cover-to-cover translations. It would also probably produce a far greater return. It is the Committee's belief that the total technical literature does not merit translation, and it is futile to try to guess what someone may at some time want translated. The emphasis should be on speed, quality, and economy in supplying such translations as are requested. A service such as the Joint Publications Research Service, which charges the user for a translation, is less conducive to translation without use than is a service such as the U.S. Air Force Systems Command's Foreign Technology Division, which supplies translations free within certain areas. ××××××××××××××××××××××××××× 翻译的关键问题 有没有在翻译领域的紧急情况。问题不在于满足一些不存在需要通过不存在的机器翻译。然而,有几个关键问题的翻译。这是质量,速度和成本。 质量 委员会强烈认为,翻译的质量,必须有足够的请求者的需求。一个完美无瑕的生产和抛光翻译为用户有限的读者是浪费时间和金钱。另一方面,当一个档案质量要求生产劣质的翻译更浪费资源。它似乎很清楚的是,在许多情况下,充足,高质量的翻译不提供委员会。 尽管有足够的质量是至关重要的,政府有没有可靠的方法来衡量翻译的质量。鉴于此,该委员会的一名成员已经成立了一个实验质量的评价。这项工作是简要介绍附录10 。一种可靠的方法来衡量质量的重视,在确定正确的翻译费用。成本和质量之间的关系是远远精确。关于这种相关性,我们报价从演示文稿,向委员会提出, 1964年, 9月30日,美国翻译协会会长博士库尔特Gingold : 没有绝对的成本和质量之间的关系。有一些优秀的翻译谁收取适度的利率,而一些不称职的管理至少暂时收取高得多的价格。存在这样的相关性可能是更好的,在高端比在低,换句话说,是一种廉价的翻译几乎总是以某种方式的缺陷,而昂贵的翻译并不总是质量优越。和大,然而,一个得到支付。 速度 合理的速度和及时的翻译是必不可少的。委员会相信,在这方面有很大的改进余地。 2,258名科学家,响应关于翻译的苏联杂志的问卷中,有1,407评论出版的滞后时间; 24.5%的影响,滞后时间应减少(美国翻译的苏联科学期刊的使用,用户编写的研究报告的意见雪城大学的美国国家科学基金会和交换从联邦科学和技术信息研究所,报告号: TT -65- 64026 ) 。 AN / GSQ -16( XW- 2 )自动语言翻译美国空军外国技术部( FTD )为109天(44天为高优先级项目)对于一般的文件处理的延迟时间(收据) 。此外,在FTD ,外部承包商的文件翻译的平均处理时间通常为65天加1.3天,每1000字的俄语翻译。 最快速的翻译服务习惯的基础上提供定期的价格已经到了委员会的关注的是,联合出版研究服务( JPRS ),的,保证50页, 15天, 30天100页。 滞后时间(从收到)出版翻译期刊,由美国国家科学基金会支持的范围从15到26周。平均来说,这种滞后的一半时间花费在翻译和编辑(附录6 ,表3) 。 因此,我们看到,许多延误“翻译”在翻译的过程中,本身不会说谎,但而在编辑和制作花费的时间,有时在避免延误。 FTD的机器辅助翻译,延误生产和后期编辑,队列中的许多操作都必须在串联在这个特殊的形式,机器辅助翻译造成的延误。 应该提到的是高优先级的项目分割成段长文本就可以了额外的快速翻译服务,或支付额外的费用可能从基准利率的25 %至50 % ,甚至更高不等,取决于特定的的情况。 成本 成本是很重要的,因为在许多情况下,它是唯一的措施,政府能够明智地使用在决定如何将其翻译是必须要做的。正如我们所看到的,变化很大,由$ 9至每千字66元。机可能不适用于某些形式的翻译,如非常高品质的外交翻译与文学翻译。但科学材料可以做或没有机器辅助翻译。至于质量和速度,可以实现额外的成本,更好的质量和更高的速度,如果长文本分割成段。因此,一个特定的结果是成本的标准,政府应适用于决定翻译手段。 (见附录9各种类型的翻译的成本的估算。 ) ~~~~~~~~~~~~~~~~ The Crucial Problems of Translation There is no emergency in the field of translation. The problem is not to meet some nonexistent need through nonexistent machine translation. There are, however, several crucial problems of translation. These are quality, speed, and cost. QUALITY The Committee believes strongly that the quality of translation must be adequate to the needs of the requester. The production of a flawless and polished translation for a user-limited readership is wasteful of both time and money. On the other hand, production of an inferior translation when one of archival quality is called for is even more wasteful of resources. It seems clear to the Committee that, in many cases, translations of adequate quality are not being provided. Despite the fact that adequate quality is essential, the government has no reliable way to measure the quality of translation. In view of this, one member of the Committee has set up an experiment in the evaluation of quality. This work is described briefly in Appendix 10. A reliable way to measure quality would be of great importance in determining proper cost of translation. The correlation between cost and quality is far from precise. Concerning this correlation, we quote from the presentation made to the Committee on September 30, 1964, by Dr. Kurt Gingold, President of the American Translators Association: There is no absolute correlation between cost and quality. There are some excellent translators who charge moderate rates, while some incompetents manage–at least temporarily–to charge much higher prices. Such correlation as exists is probably better at the low than at the high end; in other words, a cheap translation is almost always defective in some way, while an expensive translation is not always of superior quality. By and large, however, one gets what one pays for. SPEED Reasonable speed and promptness are essential in translation. The Committee is convinced that in this regard there is considerable room for improvement. Of 2,258 scientists responding to a questionnaire concerning translated Soviet journals, 1,407 commented on lag time of publication; 24.5 percent of the comments were to the effect that lag time should be reduced (American Use of Translated Soviet Scientific Journals, a user study prepared by the Syracuse University Research Institute for the National Science Foundation and available from the Clearinghouse for Federal Scientific and Technical Information, Report No. TT-65-64026). The lag time (from receipt) for the average document processed by the AN/ GSQ-16 (XW-2) Automatic Language Translator of the USAF Foreign Technology Division (FTD) is 109 days (44 days for high-priority items). Also at FTD, the average processing time for documents translated by outside contractors was usually 65 days plus 1.3 days for each 1,000 words of Russian translated. The most rapid translation service offered on a customary basis at regular prices that has come to the attention of the Committee is that of the Joint Publications Research Service (JPRS), which guarantees 50 pages in 15 days, 100 pages in 30 days. The lag time (from receipt) in publication of the translated journals supported by NSF ranges from 15 to 26 weeks. On the average, half of this lag is accounted for by time spent in translation and editing (Appendix 6, Table 3). Thus, we see that many of the delays in “translation” do not lie in the process of translation itself, but rather in time spent in editing and production, and sometimes in avoidable delays. In the FTD machine-aided translation, the delays are in production and postediting, together with the delays caused by queues in the many operations that must be done in tandem in this particular form of machine-aided translation. It should be mentioned that for high-priority items extra fast translation service can be had by splitting long texts into segments, or by paying an additional fee that may range from 25 to 50 percent of the base rate or even higher, depending on the particular circumstances. COST Cost is important because in many cases it is the only measure the government can sensibly use in deciding how its translation is to be done. As we have seen, it varies considerably–from $9 to $66 per 1,000 words. Machines are probably inappropriate for some forms of translations, such as very high-quality diplomatic translation and literary translation. But translations of scientific material can be done with or without machine aids. As to quality and speed, at extra cost, better quality and higher speed can be attained if long texts are split into segments. Thus, cost for a particular result is the criterion that the government should apply in deciding on means of translation. (See Appendix 9 for estimates of the costs of various types of translation.) 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|4155 次阅读|0 个评论
ALPAC 黑皮书 1/9:前言
liwei999 2013-10-5 13:35
【立委按】 ALPAC 黑皮书 是自然语言处理和机器翻译领域极其重要的历史文献,原文在: http://books.nap.edu/html/alpac_lm/ARC000005.pdf 。如此重要的文献本来以为一定有若干中文译本,居然遍搜而不得。我要是有时间,就给它译了,可现在实在没空。算了,至少先凑合弄个机器翻译版吧(略加最低限度的后编辑)。本来是要枪毙机器翻译的,正好让机器翻译serve它,也算小小的报应。把重要历史文献完整挖掘出来,也算功德一枚。Google Translate,给点力!要是不努力,没准哪天我就弃明投暗,找千百度去,伊人在灯火阑珊处已然守候多时了。 ALPAC 黑皮书 1/n(机器翻译版) ~~~~~~~~~~~~~~~~~~~~~~~~~ 弗雷德里克塞茨院长博士 美国国家科学院 2101华盛顿宪法大道,D. C.20418 1965年8月20日 亲爱的博士塞茨: 在1964年4月你形成了一个自动语言处理咨询委员会,应利兰·霍沃斯博士,美国国家科学基金会主任的请求,以便告知国防部,中央情报局和美国国家科学基金会一般机械外语翻译领域的研究和发展状况。我们很快发现你是正确的,确实有很多强烈,但往往相互冲突的意见,关于机器翻译的承诺和现在应采取的最有成效的步骤是什么。 为了达到合理的结论,并提供合理的建议,我们觉得有必要咨询在各种各样领域的专家(他们的名字被列在附录20 ) 。我们已调查翻译的需求,考量翻译的评价,并比较了机器和人类的翻译和其他语言处理功能。 我们发现,我们所听到的都让我们得出同样的结论。我们谨此提交的报告阐明了我们共同的意见和建议。我们相信,这些可以形成有用的改变,旨在增加理解一个极其重要的现象:语言,并发展旨在改善人类翻译而适当使用的机器辅助。 我们很抱歉,由于有其他义务,查尔斯F.霍凯特,原委员会的成员之一,有必要在我们报告写作前就辞职了。然而,他对我们的工作作出了宝贵的贡献,这是我们要感谢的。 你真诚的, J. R.皮尔斯,董事长 语言自动处理咨询委员会 Dr. Frederick Seitz, President National Academy of Sciences 2101 Constitution Avenue Washington, D.C. 20418 Dear Dr. Seitz: In April of 1964 you formed an Automatic Language Processing Advisory Committee at the request of Dr. Leland Haworth, Director of the National Science Foundation, to advise the Department of Defense, the Central Intelligence Agency, and the National Science Foundation on research and development in the general field of mechanical translation of foreign languages. We quickly found that you were correct in stating that there are many strongly held but often conflicting opinions about the promise of machine translation and about what the most fruitful steps are that should be taken now. In order to reach reasonable conclusions and to offer sensible advice we have found it necessary to learn from experts in a wide variety of fields (their names are listed in Appendix 20). We have informed ourselves concerning the needs for translation, considered the evaluation of translations, and compared the capabilities of machines and human beings in translation and in other language processing functions. We found that what we heard led us all to the same conclusions, and the report which we are submitting herewith states our common views and recommendations. We believe that these can form the basis for useful changes in the support of research aimed at an increased understanding of a vitally important phenomenon–language, and development aimed at improved human translation, with an appropriate use of machine aids. We are sorry that other obligations made it necessary for Charles F. Hockett, one of the original members of the Committee, to resign before the writing of our report. He nonetheless made valuable contributions to our work, which we wish to acknowledge. Sincerely yours, J. R. Pierce, Chairman Automatic Language Processing Advisory Committee ×××××××××××××××××××××××××××××××××××× 弗雷德里克塞茨院长博士 美国国家科学院 2101华盛顿宪法大道,D. C.20418 1966年7月27日 亲爱的博士塞茨: 科学与公共政策委员会于3月13日对 国家研究理事会 语言自动处理咨询委员会的报告,进行了审查后,要求董事长,约翰·皮尔斯,准备一份简短的声明,说明计算语言学的资助需求,这不同于自动语言翻译的需求。这一要求源于担心孤独阅读该委员会的报告,可能会导致终止计算语言学研究的支持,以及所建议的减少对在相对短期的 翻译 目标的资助。 皮尔斯博士的建议,部分内容如下: 计算机为语言学家打开了一系列挑战、部分见地和潜力。我们相信,这些挑战可与粒子物理面临的挑战、问题和见地类比。毫无疑问,语言在所有现象中的重要性是首屈一指的。计算语言学所需要的工具成本,比起需要数十亿伏加速器的粒子物理小多了。 新的语言学提出一个有吸引力的,以及一个极其重要的挑战。 我们完全有理由相信,面对这一挑战,最终将导致在许多领域的重要贡献。一个更深的语言知识可以帮助: 1。更有效地教外语。 2。教语言的本质更有效。 3。更有效地使用自然语言下指令和通信。 4。帮助我们构造为特殊用途(例如,飞行员控制塔通讯语言)的人工语言。 5。使我们能够在语言的使用以及人的沟通和思想方面做有意义的心理实验。除非我们知道语言是什么,我们不知道我们必须解释什么。 6。用机器辅助翻译和信息检索。 然而,语言学的状态是这样的,本身具有价值的优秀研究是必不可少的,如果 语言学 最终要做出这些贡献。 这样的研究必须 使用 电脑。我们必须研究以找出有关语言奥妙的数据是压倒性的,无论在数量还是复杂性上。电脑承诺帮助我们控制 巨大的数据量 问题,并在较小程度上对付数据的复杂性问题。但我们尚未有很好的,很容易使用,普及了的方法让计算机处理语言数据。 因此,下列重要的研究,是需要做的,应予以支持:(1) 计算机处理语言的方法的 基本开发研究,譬如帮助语言科学家发现并说明他的概括的工具,并作为工具帮助检查对数据的概括 建议; (2)发展研究的方法,让语言的科学家用电脑来陈述他们的详细复杂的各种理论(例如,语法和意义理论),使他们生产的理论可以被检查细节。 对计算语言学研究最合理的支持来自美国国家科学基金会。需要多大的支持?有些工作必须做在一个相当大的规模上,因为小规模的实验和语言的微缩模型已经证明在过去有严重的偏差,一个真正的问题,只有在一定规模以上的语法、字典、可用语料库的状态下才可把握。 我们估计, 一个机构 60 或 70万一年 可以支持 一个相当 规模的 工作 。我们相信,这种规模的工作有理由在四个或五个中心进行。因此,每年250至300万美元,似乎是合理的研究开支。这个数字不包括在眼前的实际应用中的一种或另一种的工作。这个建议,我明白皮尔斯博士的委员会也认可,还送出了给科学与公共政策委员会的成员征求意见。虽然 科学与公共政策 委员会没有考虑所建议的计算语言学项目与其他国家科学基金会计划的竞争,但我们相信,皮尔斯博士的声明应提请给 美国国家科学基金会 注意,以便把信息咨询委员会的报告放在适当的角度来看。 此致,哈维·布鲁克斯, 科学与公共政策委员会主席 ~~~~~~~~~~~~~~~~~~ Dr. Frederick Seitz, President National Academy of Sciences 2101 Constitution Avenue Washington, D. C. 20418 July 27, 1966 Dear Dr. Seitz: In connection with the report of the Automatic Language Processing Advisory Committee, National Research Council, which was reviewed by the Committee on Science and Public Policy on March 13, John R. Pierce, the chairman, was asked to prepare a brief statement of the support needs for computational linguistics, as distinct from automatic language translation. This request was prompted by a fear that the committee report, read in isolation, might result in termination of research support for computational linguistics as well as in the recommended reduction of support aimed at relatively short-term goals in translation. Dr. Pierce's recommendation states in part as follows: The computer has opened up to linguists a host of challenges, partial insights, and potentialities. We believe these can be aptly compared with the challenges, problems, and insights of particle physics. Certainly, language is second to no phenomenon in importance. And the tools of computational linguistics are considerably less costly than the multibillion-volt accelerators of particle physics. The new linguistics presents an attractive as well as an extremely important challenge. There is every reason to believe that facing up to this challenge will ultimately lead to important contributions in many fields. A deeper knowledge of language could help: 1. To teach foreign languages more effectively. 2. To teach about the nature of language more effectively. 3. To use natural language more effectively in instruction and communication. 4. To enable us to engineer artificial languages for special purposes (e.g., pilot-to-control-tower languages). 5. To enable us to make meaningful psychological experiments in language use and in human communication and thought. Unless we know what language is we don't know what we must explain. 6. To use machines as aids in translation and in information retrieval. However, the state of linguistics is such that excellent research that has value in itself is essential if linguistics is ultimately to make such contributions. Such research must make use of computers. The data we must examine in order to find out about language is overwhelming both in quantity and in complexity. Computers give promise of helping us control the problems relating to the tremendous volume of data, and to a lesser extent the problems of data complexity. But we do not yet have good, easily used, commonly known methods for having computers deal with language data. Therefore, among the important kinds of research that need to be done and should be supported are (1) basic developmental research in computer methods for handling language, as tools to help the linguistic scientist discover and state his generalizations, and as tools to help check proposed generalizations against data; and (2) developmental research in methods to allow linguistic scientists to use computers to state in detail the complex kinds of theories (for example, grammars and theories of meaning) they produce, so that the theories can be checked in detail. The most reasonable government source of support for research in computational linguistics is the National Science Foundation. How much support is needed? Some of the work must be done on a rather large scale, since small-scale experiments and work with miniature models of language have proved seriously deceptive in the past, and one can come to grips with real problems only above a certain scale of grammar size, dictionary size, and available corpus. We estimate that work on a reasonably large scale can be supported in one institution for 600 o r 700 thousand a year. We believe that work on this scale would be justified at four or five centers. Thus, an annual expenditure of 2.5 t o 3 million seems reasonable for research. This figure is not intended to include support of work aimed at immediate practical applications of one sort or another. This recommendation, which I understand has the endorsement of Dr. Pierce's committee, was also sent out for comment to the membership of the Committee on Science and Public Policy. While the Committee on Science and Public Policy has not considered the recommended program in computational linguistics in competition with other National Science Foundation programs, we do believe that Dr. Pierce's statement should be brought to the attention of the National Science Foundation as information necessary to put the report of the Advisory Committee in proper perspective. Sincerely yours, Harvey Brooks, Chairman Committee on Science and Public Policy Dr. Frederick Seitz, President National Academy of Sciences 2101 Constitution Avenue Washington, D. C. 20418 ××××××××××××××××××××××××××××××××××××××××× 前言 国防部,美国国家科学基金会和美国中央情报局支持的项目,外国语言的自动处理大约十年; 这些主要是机械翻译。为了提供一个协调的联邦计划,在这方面的研究和开发,这三个机构成立了联合自动语言处理集团( JALPG ) 。 早期JALPG就确认需要一个咨询委员会,可以提供所要求的技术援助以及促进计算语言学、机械翻译,以及其他相关领域的 独立观测 。 1963年10月美国国家科学基金会主任,利兰·霍沃斯,作为这三个机构的代表要求美国国家科学院建立这样一个委员会。 委员会就这样建立了,并在1964年4月,利用 三个机构 提供的 基金, 国家研究理事会 国家科学院 自动语言处理 咨询委员会在约翰·皮尔斯主席 主持下 ,举行了第一次会议。 委员会决定,支持自动语言处理研究的理由有两个基础: (1)智力挑战领域的研究,与支持机构的使命相关;(2)研究和开发具有明确的前景:促成早期成本 降低 ,或大幅提高性能,或满足实际的需要。 委员会明白支持自动语言处理的工作的很大的动机一直是在上述(2)所代表的实用目的。根据这一目标,该委员会调查了整个翻译问题。本报告介绍了该委员会的调查结果和建议。 ~~~~~~~~~~~~~~~~~~~ Preface The Department of Defense, the National Science Foundation, and the Central Intelligence Agency have supported projects in the automatic processing of foreign languages for about a decade; these have been primarily projects in mechanical translation. In order to provide for a coordinated federal program of research and development in this area, these three agencies established the Joint Automatic Language Processing Group (JALPG). Early in its existence JALPG recognized its need for an advisory committee that could provide directed technical assistance as well as contribute independent observations in computational linguistics, mechanical translation, and other related fields. In October 1963 the Director of the National Science Foundation, Leland J. Haworth, requested on behalf of the three agencies that the National Academy of Sciences establish such a committee. This was done, and in April 1964, with funds made available by the three agencies, the Automatic Language Processing Advisory Committee of the National Academy of Sciences–National Research Council, under the chairmanship of John R. Pierce, held its first meeting. The Committee determined that support for research in automatic language processing could be justified on one of two bases: (1) research in an intellectually challenging field that is broadly relevant to the mission of the supporting agency and (2) research and development with a clear promise of effecting early cost reductions, or substantially improving performance, or meeting an operational need. It is clear to the Committee that the motivation for support of much of the work in automatic language processing has been the practical aim represented in (2) above. In the light of that objective, the Committee studied the whole translation problem. This report presents the findings and recommendations of the Committee. ×××××××××××××××××××××××××××× 目录 人类翻译1 类型译者就业2 英语作为语言的科学4 所需的时间,科学家学习俄语5 在美国政府的翻译 6 政府转换数 7 花费金额为翻译 9 是否有短缺翻译或翻译吗? 11 就可能超出翻译 13 翻译的关键问题 16 机器翻译的现状 19 机器辅助翻译在曼海姆和卢森堡 25 自动语言处理和计算语言学 29 改善翻译大道 32 建议 34 附录 1。视译与全译实验 35 2。国防语言学院课程科学俄罗斯 37 3。联合出版物研究服务 39 4 。公法 翻译 41 5 。机器翻译的外国技术部,美国 空军系统司令部 43 6 。期刊翻译支持由美国国家科学基金会 45 7。公务员制度委员会的数据联邦翻译 50 8。需求和可翻译 54 9。翻译不同类型的成本估算 57 10。质量评价的实验翻译 67 11。 机器翻译中 常见错误类型 76 12。机器辅助翻译联邦武装部队翻译 重刑局,德国曼海姆 79 13。机器辅助翻译的欧洲煤钢COM- 群落,卢森堡 87 14。机器翻译的翻译对战后期编辑 91 15。评估的科学编辑和联合出版物研究服务副外国技术部翻译 102 16。政府支持的机器翻译研究 107 17。电脑出版 113 18。编程语言和语言学的关系 118 19。机器翻译及语言学系 121 20。委员会构成 124 ~~~~~~~~~~~~~~~~~~~ Contents Human Translation 1 Types of Translator Employment 2 English as the Language of Science 4 Time Required for Scientists to Learn Russian 5 Translation in the United States Government 6 Number of Government Translators 7 Amount Spent for Translation 9 Is There a Shortage of Translators or Translation ? 11 Regarding a Possible Excess of Translation 13 The Crucial Problems of Translation 16 The Present State of Machine Translation 19 Machine-Aided Translation at Mannheim and Luxembourg 25 Automatic Language Processing and Computational Linguistics 29 Avenues to Improvement of Translation 32 Recommendations 34 APPENDIXES 1. Experiments in Sight Translation and Full Translation 35 2. Defense Language Institute Course in Scientific Russian 37 3. The Joint Publications Research Service 39 4. Public Law 480 Translations 41 5. Machine Translations at the Foreign Technology Division, U.S. 43 Air Force Systems Command 6. Journals Translated with Support by the National Science Founda- 45 tion 7. Civil Service Commission Data on Federal Translators 50 8. Demand for and Availability of Translators 54 9. Cost Estimates of Various Types of Translation 57 10. An Experiment in Evaluating the Quality of Translations 67 11. Types of Errors Common in Machine Translation 76 12. Machine-Aided Translation at the Federal Armed Forces Transla- 79 tion Agency, Mannheim, Germany 13. Machine-Aided Translation at the European Coal and Steel Com- 87 munity, Luxembourg 14. Translation Versus Postediting of Machine Translation 91 15. Evaluation by Science Editors and Joint Publications Research Ser- vice and Foreign Technology Division Translations 102 16. Government Support of Machine-Translation Research 107 17. Computerized Publishing 113 18. Relation Between Programming Languages and Linguistics 118 19. Machine Translation and Linguistics 121 20. Persons Who Appeared Before the Committee 124 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|5566 次阅读|0 个评论
MT 杀手皮尔斯 (翻译节选)
热度 1 liwei999 2013-10-5 07:57
节选译自: K. Church 2011. A Pendulum SwungToo Far . Linguistics issues in Language Technology, Volume 6, Issue 5. 【立委按】此前的博文摘要编译过 皮尔斯论 ,这次重发的是对原文逐字逐句的完整翻译。皮尔斯是 当年 美国高科技官僚的代表人物,他是以MT(Machine Translation,机器翻译)杀手的面目记载在领域历史里。1966年,他主持撰写的那篇世界著名(或臭名昭著)的 ALPAC 黑皮书,把热火朝天的机器翻译研究,一下子打入冷宫。丘吉教授认为,皮尔斯给自然语言处理泼冷水,促成对自然语言和人工智能很多项目的资助 冻结 ,是有其洞察力和远见的。不管我们心内对他多么不自在,必须看到他的反对意见至今没有过时,仍值得我们认真反思。 3.4 皮尔斯的反对意见 比起敏斯基和乔姆斯基,皮尔斯在当代教科书上较少提到。但皮尔斯是对本领域有深远影响的 ALPAC委员会主席以及著名的批评通讯“语音识别向何处去”的作者。真不明白现代教科书怎么可能冷待皮尔斯,无论从终结资助还是从作品引用率看,皮尔斯对领域的冲击力是如此之大。原因也许在于,比起敏斯基和乔姆斯基,皮尔斯的批评更难明述。很多学者试图回应他的批评,但几乎没有任何回应能像他原有的批评那样有力和可读。 皮尔斯一生成果累累,其中之一是他开发了脉码调制 PCM(Pulse Code Modulation),一种与当今 WAVE文档格式紧密相关的语音编码方法,这类格式的声音存贮文件在PC电脑上非常流行。(WAVE 如今已经与术语raw digitalaudio,即“无损数字式音档”成为同义词了,见 http://www.codeguru.com/cpp/g-m/multimedia/audio/article.php/c8935/ .)此外,皮尔斯曾在真空管研究上成就卓著,但也是他很快导致了真空管的消亡,因为他带领团队发明了晶体管取其而代之。皮尔斯的研究工作也涵盖卫星领域,后来他作为贝尔实验室的研究副总,在把卫星研究转化成商业应用上发挥了关键作用,成功开发 Telstar1,第一款商用卫星电子通讯产品。 总之,皮尔斯是一位具有非凡成就的顶级技术主管。与他争辩的另一方根本无法与他相提并论,其中包括一些没有希望获得终身教职的初级教授。这是一场不对等不公平的论战。但即便如此,也没有理由忽视他对领域的贡献,哪怕这些贡献给我们带来诸多不便。 他的 ALPAC报告与“语音识别往何处去”都是非常值得研读的文献。网上很容易找到ALPAC原文( http://books.nap.edu/html/alpac_lm/ARC000005.pdf ),但ALPAC报告比关于语音识别的这篇通讯要长得多。如果读者时间有限,建议先从“语音识别往何处去”着手,因为这篇通讯言简意赅,观点明晰。短短两页的通讯基本上论及两条批评意见: 系统评测:皮尔斯反对用演示(demo)来评测系统,也反对如今仍流行的种种系统测试方法。“即使给出了统计数据,语音识别的成功度还是很难测量。总体而言 ... 当 ... 对于 ... 系统可以达到 95% 准确率。在 ... 情况下,质量会急遽下降。很难鉴定这样的语音识别系统能不能成为实际可行的经济上合算的应用产品。” 模式匹配:皮尔斯反对当今研究仍流行的模式匹配技术(如机器学习和语音识别),斥之为巧妙的欺骗( artful deception ),“比起科学更容易投机取巧而快速成功”。 模式识别批判 皮尔斯以魏岑鲍姆( Weizenbaum)开发的伊莉莎(ELIZA)程序作为他“巧妙的欺骗”的注解。该程序模拟咨询大夫与患者人机对话。伊莉莎或许可以通过图灵测试(Turing Test),但它显然没有任何“智能”。伊莉莎批评从此成为对那些看上去比真实能力要强的智能程序的标准批判。维基百科对“ 伊莉莎效应 ”定义如下: http://joshgreenberg.name/post/153115039/wikipedia-eliza-effect 。 “计算机科学中所谓伊莉莎效应,指的是人有一种趋向,在下意识中以为电脑行为与人脑行为相似。其实只是以简单的语言模式识别为基础的巧妙运用。从具体形式上看,伊莉莎效应指的是,‘人们阅读由计算机把词串成的符号序列,往往读出了这些符号并不具备的意义’。更一般地,伊莉莎效应描述这样一种情形,仅仅依据系统的输出,用户就把计算机系统理解为具有‘其控制(输出)软件完全不可能取得的内在素质和能力’,或者,‘以为(输出)反映了实际上不存在的更大的因果关系’。无论在特定还是一般的意义上,伊莉莎效应著名的一点是,甚至在系统的用户已经知道系统产生的输出是预定不变的,也不影响伊莉莎效应的出现。从心理学观点来看,伊莉莎效应源于一种微妙的认知失调,一方面,用户意识到程序编制的局限性,另一方面,他们对程序的输出结果依然盲信。伊莉莎效应的发现是人工智能的一个重要发展,说明利用社交工程,而不是显式编程,也可以通过图灵测试。” 魏岑鲍姆自己在意识到他的伊莉莎程序让公众如此信服后,反而成为人工智能的强烈反对者。以下是从他的书中标题为“难以理解的程序”一章摘录的( Weizenbaum 1976,第231-232页): “这两个程序 MACSYMA和DENDRAL与其他多数人工智能程序完全不同,它们牢牢建立在深厚的理论之上。...计算机当然还有其他许多重要的成功应用。例如,计算机可以操控整个石油精炼厂的流程,可以导航飞船,以及监测并在很大程度上操控飞船内的环境,以便宇航员履行任务。这些程序立足于数学控制论和牢固确立的物理理论。这种理论基础扎实的程序享有极其重要的优势,一旦程序走偏,监测人员可以发现它们的表现不符合理论的要求,从而可以用理论帮助诊断失败的原因。 “但是,大多数现有的程序 ...是没有什么理论基础的。 ...它们多是机会主义的 ...只要在多数预见场景显得‘可行’即可。 ...我自己的程序ELISA正是这种类型。伍诺格拉德的语言理解系统也是,...纽厄尔和西蒙的GPS 也在此列。”(见GPShttp://en.wikipedia.org/wiki/General_Problem_Solver) 魏岑鲍姆接着说,程序理应易于理解,并建立在坚实的理论基础之上,这种观点皮尔斯应该也会同意。 皮尔斯 “巧妙的欺骗”的评论批评了很多领域用演示证明系统的常规做法,这些领域包括人工智能、语音识别以及所有用到模式匹配的地方(也包括现代机器学习的大部)。(Pierce1969, 第1050页) “前述讨论适用于模式匹配的各个领域,具体领域的论证作为练习留给读者”。 模式识别自有其优缺点。优点是,模式识别可以巧妙应对许多科学难题,在实际应用中取得进步。但是这一优势也同时是其缺点。短期的取巧分散了领域的精力,无法顾及真正有意义的长远目标。 很多工程任务与语音合成一样有两类研究:一类是务实的工程路线(例如,衔接合成加磁带拼接),另一类是雄心勃勃的科学计划(如模拟人类发音机关的合成)。务实的方法在一般情况下更有可能在短期内产生更好的结果,但学界应趋向于激励更有前途的科学路线。对于开放的重大科学问题,不要投机取巧,直接研究它们会更有机会取得进展。话虽这么说,如果你在工业界领导一个语音合成产品,为了在预算内按时开发一个质量不错的产品,采用任何工程手段和技巧都是题中应有之义。 回应 针对“语音识别向何处去”曾有很多回应,但是多数回应都没能有效应对上面提到的两条主要批评: 1. 现今发表所需要的这类评测方法究竟有何意义? 2. 与科学相比,模式匹配的意义何在? 罗和威尔盆( Roe andWilpon 1993)论述道,在提出“语音识别向何处去”以后的25年中,领域的发展已经把所谓“无谓”的努力演变为商用的现实。文章开头介绍了隐式马尔可夫模型(HMMs)类的流行方法,这些方法基于皮尔斯所反对的模式匹配技术。接着提到当今常用的评测方法。评测旨在展示模式匹配技术的有效性,然而评测带来的结论正如皮尔斯归纳的那样:“难以琢磨”(Roeand Wilpon 1993, 第58页)。 “在实验室条件下,语言识别器对于声音的模式匹配相当准确。然而,在‘真实世界’的条件下,错误率会高出很多”。 ALPAC 黑皮书 相当长的 ALPAC黑皮书提出了很多反面意见,其中许多批评令人尴尬,也很难回应。结论篇首先提到一些好消息(Pierce et al.1966, 第30页): “如今仍有理论语言学家对实证和计算都不感兴趣,也有应用语言学家对十年来的理论进展无动于衷,对计算机也很木纳。但是,比以往任何时候都有更多的语言学家尝试把微妙的语言理论与更丰富的数据相结合,他们中几乎所有人,无论在哪个国家,都渴望计算机的支持。前一代人需要一辈子来做的一些语言工作(譬如建立对照语库、词汇表、肤浅的文法),如今借助计算机几个星期即可完成。在对于作为人类交流工具的自然语言的理解方面,人类的确迈出了万里长征的第一步。” 但好消息随后紧接着就是不那么好的消息( Pierceet al. 1966, 第30页): “但是,我们尚不具有明确而容易使用的电脑处理语言数据的好方法。” 作为回应,斯蒂德曼( Steedman 2008)比较我们的领域和物理,指出并没有类似ALPAC的黑皮书去困扰物理:“没人去告诉周围的物理学家该做什么。”斯蒂德曼表明我们的领域会处于更好的状态,如果我们更有纪律,并避免在公共场合晾晒脏衣服。 我们其实没必要羡慕物理领域的状态,以此排斥 ALPAC。这种回应不仅针对性弱,而且事实上,物理学根本就不处于一个学界令人羡慕的位置。曾经有一段时间,物理学确实处于相对良好的状态,但那是很久以前。物理学的冬天已经延续太久,以至于许多天才不得不转行另谋生计了。前物理学家促成了许多领域的进步,包括我们领域也感兴趣的几个方向,譬如机器翻译和机器学习等。至于脏衣服,物理学同样表现不佳(关于物理学的批评意见,请参见 http://www.thetroublewithphysics.com )。 甚至连 ALPAC黑皮书也指出,计算语言学比物理有许多优势(Pierce et al. 1966, 第30页): “我们看到计算机为语言学家预备了一系列新的挑战、见地和机会。我们相信,这些挑战可与粒子物理面临的挑战、问题和见地类比。毫无疑问,语言在所有现象中的重要性是首屈一指的。而且计算语言学所需要的工具成本,比起需要数十亿伏加速器的粒子物理小太多了。” 哈钦斯( 1996, http://www.hutchinsweb.me.uk/ALPAC-1996.pdf)在ALPAC报告30周年时在《机器翻译国际新闻》著文“ALPAC:(臭名)昭著的报告”,总结道: “ ALPAC对机器翻译持怀疑态度是有一定道理的:当时的机译质量无疑非常糟糕,确实没有正当理由得到那么多的资助。黑皮书也正确地指出要加强半自动的机助翻译,并强调需要加强更多的计算语言学的基础研究。然而,可以诟病的是...” 哈钦斯继而批评黑皮书太过美国中心,而机器翻译问题本应从更广阔的全球语境中来考察。既然基调如此严肃,他的美国中心的批评就显得很单薄。如果从美国角度来看,机器翻译技术质量不好,费用昂贵,难道换一个角度就会对他人比较合适? 事实上, ALPAC报告之所以在领域的历史上显得臭名昭著,是因为它直接导致了资助寒冬,尤其是在美国方面。然而,报告(第34页)实际上建议在两个不同方向上加强资助: 1 对于语言学和计算语言学的长期的基础学术研究,以及 2 对于实用的短期应用以便提高翻译现场的质量 第一类基础研究方案必须建立在同行评议的基础上,凸显其科学价值,而第二类应用程序应该着重于实用的指标:速度,成本和质量方面的评估。 皮尔斯的这两个建议表现了皮尔斯其人的两个方面,使皮尔斯与乔姆斯基和香农立场有异。一方面,皮尔斯是基础科学的坚定支持者。皮尔斯反对任何扭曲科学,以科学的名义兜售其他东西(例如,应用程序)的企图,以及以误导性演示和盲目的指标(如我们今天所热衷那些例行的评估)指引科学的发展。另一方面,皮尔斯也有实用的一面,他在语音编码,真空管,晶体管和通信卫星等领域所取得的非凡成就即是明证。他是应用工作强有力的支持者,但所用的规则与基础研究完全不同,例如强调从商用案例出发。应用工作要按应用工作来评估(根据商用的标准),而科学必须被评估为科学(基于科学共同体的同行评审)。 如果皮尔斯今天还活着,他会深深地被学界的现状所困扰。太多的投资投入了模式匹配技术和数值评估的方式上,干扰了他认定的作为核心科学问题的学术发展。 从积极的方面看,皮尔斯的应用一面应该会对谷歌的商业成功留下深刻印象,尤其是在搜索方面。尽管如此,谷歌的边缘业务如语音识别和机器翻译是否可以称作成功,从他的角度应该还有疑问。虽然我们有理由对这些领域保持希望,像皮尔斯这样的怀疑论者会觉得,比起过去的几十年研发的巨额投资,机器翻译和语音识别的应用成就仍然不能令人满意。作为一个合理的投资回报,现在的语音识别和机器翻译应该产生一个杀手级应用的东西( killer app),使得几乎每个人每天都离不开它,就像当年AT&T的电话,或者像微软视窗或谷歌搜索一样。谷歌的搜索业务已经实现了这个理想,也许有一天他们的语音和翻译的边缘业务也最终可能达到这一目标。 皮尔斯今天能给我们提供什么?迄今为止,该领域已经做得很好,采摘了不少低垂的水果。在有很多简单采摘的好时光里,我们自然应该充分利用机会多加采摘。但是,如果这些机会逐渐枯竭,我们应该更好地遵循皮尔斯的教诲。也许我们到了认真面对核心科学挑战的时候,而不是把精力投入继续寻找越来越少的容易采摘的果实。 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|7406 次阅读|1 个评论
利用链接分析方法发现更多高可信度的双语网页
热度 2 timy 2013-8-13 19:54
双语网页资源在多语言信息处理(特别是机器翻译和跨语言信息检索)中,是一项极其宝贵的资源。在机器翻译领域,现在各种投入使用的系统拼模型的同时,也在拼其掌握的资源。当前学术界对双语资源获取的研究中,一个代表性的方法是根据URL的组成,利用启发式规则从双语站点上自动发现双语网页资源(暂且称该方法为基于URL模式的方法),该方法需要事先制定一些启发式规则。我们(Kit Ng, 2007; Zhang, Yao Kit, 2013)试图通过机器自动发现一些规则,来降低基于URL模式的方法对外部先验知识的依懒性。 (Kit Ng, 2007)主要工作是自动发现双语URL模式、然后根据这些模式发现双语网页资源。(Zhang, Yao Kit, 2013)进一步对双语URL模式的可信度进行度量、并依据链接关系发现更多高可信度的双语网页资源,我们的实验表明,该方法大概可以找到20%额外的真实双语网页。 该工作的有趣之处在于: (1)区分URL模式的全局可信度(依据所有种子站点计算得到的URL模式可信度)和局部可信度(依据当前站点计算得到的URL模式可信度),这样可以召回一些局部可信度低、但全局可信度高的双语网页; (2)利用学习到的高可信度的双语URL模式,寻找一些原本没有链接关系的双语网页(我们称之为Deep Bilingual Webpages); (3)利用链接关系,以双语种子站点为基础、发现更多的种子站点之外的高可信度双语站点,然后进一步发现更多的高可信度双语网页。 相关工作介绍,请参见如下论文: 2. Chengzhi Zhang, Xuchen Yao and Chunyu Kit. Finding More Bilingual Web Pages with High Credibility via Link Analysis . In: Proceedings of the 6th Workshop on Building and Using Comparable Corpora (BUCC2013) . August 8, 2013, Sofia, Bulgaria. 1. Chunyu Kit and Jessica Y. H. Ng. An intelligent Web agentto mine bilingual parallel pages via automatic discovery of URL pairing patterns . In Proceedings of the2007IEEE/WIC/ACM International Conferences on Web Intelligence and Intelligent Agent Technology - Workshops: Workshopon Agents and Data Mining Interaction (ADMI-07),Silicon Valley,California, November 2-5, 2007, Silicon Valley,California. 当然基于URL模式的方法也有其不可避免的弱点。除基于URL模式的方法之外,另外一种方法则直接计算候选双语网页之间的结构或内容相似度,通常该过程要耗费大量的计算资源或时间(比如抓到尽量多的源语言和目标语言网页,然后进行跨语言相似度计算)。个人认为,目前关于这个工作的进一步工作还有很多,比如怎么不需要人为地给出种子站点或者尽量给较少的站点,结合半监督学习发现更多高可信度的种子站点可能是个不错的想法。 关于(Zhang, Yao Kit, 2013)中使用到源代码(Pupsniffer)与数据集(种子站点、采集的双语网页以及测评结果等)可以见Pupsniffer的测评网站: http://mega.lt.cityu.edu.hk/~czhang22/pupsniffer-eval/
个人分类: 同行交流|9430 次阅读|4 个评论
第八届哈工大-微软亚洲研究院语言技术暑期学校总结
热度 1 leileiya 2013-8-7 12:14
2013 年 7 月 24 到 26 日,参加了为期三天的 在哈尔滨工业大学威海校区 举办的 由中国中文信息学会主办、微软亚洲研究院赞助的第八届语言技术暑期学校 。听取了 多位自然语言处理领域的国际知名专家 授课 ,他们是微软亚洲研究院 Jun'ichi Tsujii 教授、爱丁堡大学 Philipp Koehn 教授、英国 Exeter 大学 Richard Everson 教授、剑桥大学 Diarmuid ó Séaghdha 博士、英国阿伯丁大学 Chenghua Lin 博士,讲座内容包括机器学习、句法分析、语义分析、统计机器翻译和情感分析等。 第一天早上进行开幕式, Philipp Koehn 教授代表各位专家致辞简要阐明了人类与机器交流所需的自然语言处理技术给人类社会带来和即将带来的现实应用 。 微软亚洲研究院的吴枫博士和刘康平博士为到场各位师生展示了微软公司近年来在人机交互技术方面所取得的重要成果,包括 speech translation 、 kinect 、 hair modeling 等技术。 紧接着 Philipp Koehn 教授 讲授了统计机器翻译相关内容,讲到机器翻译共有三个层次,分别为词汇转换、句型转换、语义转换。统计机器翻译就是对众多的已翻译平行语料进行统计分析建立翻译模型来指导新的需要翻译的语料,通过概率值的计算最终从众多的翻译结果中找到最好的翻译结果,也就是概率值最大的。翻译中存在的问题包括从词语的角度讲存在着一词多义的问题,我们需要利用上下文找到此语境下的最佳翻译,从短语的角度讲如何准确的翻译一些惯用搭配,从句子的角度讲存在多种句子结构重组的问题,从语义的角度讲如何准确的翻译出一些指代词。由于每一个句子每一个词语的翻译可以有多种,我们需要从中找出最好的翻译,我们根据语料中每个词语短语的使用频率,建立翻译路径找出最好的翻译组合。最后 Philipp Koehn 教授 讲授了如何将机器翻译与人工翻译结合,使得机器翻译能够最大化的帮助人进行翻译。下午 Jun'ichi Tsujii 教授 进行了句法分析相关内容介绍,我们需要实现快速深入准确的分析句子,对不同的句子类型我们需要清晰的辨别出主语宾语以及它们之间的谓语动词,利用隐马尔科夫模型进行词语标注和预测,利用树形结构表示每个句子,通过对句子进行详细的标注与分析可以解决许多的检索问题。 第二天上午是学生研讨会, 有来自北京师范大学、沈阳航空航天大学等 的学生进行了口头报告。北师大的三位同学报告了机器翻译相关研究,第一位同学研究专利翻译的相关内容,重点研究名词 + 动词结构的识别问题,利用 HNC 理论;第二位同学研究专利翻译中长句子的识别问题,通过建立一些规则识别出长句子中的连词、动词等;第三位同学主要讲解了机器翻译中人类和机器进行交互相关问题。最后一位同学主要研究中心词的提取问题,利用经典的 齐普夫( Zipf )定律 。下午 Koehn 教授做了 “ 如何做研究和撰写学术文章 ” 的讲座 。 Koehn 教授 讲到做研究的过程 have an idea → define the problem → define an evaluation → preliminary studies → implement a baseline → implement you method → evaluate analyze refine 。接着对学术文章的各个部分的注意事项就行了详细的介绍,具体包括 abstract 、 introduction 、 related work 、 description of the problem 、 description of your method 、 experimental setup 、 results 、 analysis 部分。 第三天上午 Richard Everson 教授 讲授了机器学习的基本内容,主要包括逻辑回归问题、分类问题、非监督学习,如何从大量的头像图片中识别出某一个人、信息检索的结果如何排序、预测受伤者是否可以得救、自动对大量药物进行类型分类等都是机器学习可以解决的问题。机器学习可以分为监督学习和非监督学习,监督学习包括分类和回归,非监督学习包括聚类、 PCA 、 ICA 、 LDA 等。逻辑回归是在已知大量对象的特征输入和输出的情况下,预测新对象的输出结果,利用实际值和预测值之间的差值是否最小进行预测结果评估,分类同样是在在已知大量对象的特征输入和输出的情况下,不同的是输出的是对象类别而不是具体的值,在基于大量对象的学习的基础上根据新对象的输入属性值判定其类别。分类方法中最简单的一种方法就是最近邻分类器,根据对象近距离对象中每种类型的频率判断该对象的类型。然后介绍了神经网络算法,重点讲解了隐含层个数的选择,如果过多就会过拟合,过少就会欠拟合。接着进一步讲授了对于对象有多个属性时如何进行降维处理和对非线性模型的处理,结合具体的在图像处理和语音分离中的应用。最后介绍了三种进行机器学习研究的开源软件,分别是 weka 、 python 中的 scikit-learn 包、 matlab 中的 netlab 包。最后 Richard Everson 教授 指出我们在做研究的过程中如何快速的实现我们的想法是最为重要的,不需要花很多的时间在具体细节的实现上,使用这些开源包,可以使我们的研究事半功倍。下午 Chenghua Lin 博士 给我们讲解了情感分析和意见挖掘相关内容介绍。用户对某一对象意见的表达方式可以分三种,一种是直接表达,一种是隐含表达,一种是使用反讽语气表达。情感分析有三个层级,词语层、句子层、文档层,有两种传统的情感分类技术,分别是基于词典的方法和基于语料的方法。基于词典的方法就是利用情感词典对文本进行直接匹配,基于语料的方法就是对训练语料进行特征提取,利用朴素贝叶斯、支持向量积、最大熵等算法进行模型学习将学好的模型应用到测试集上,结果显示 SVM 算法的表现最好。接着 Chenghua Lin 博士 讲解了最新的利用主题模型技术 (LDA) 进行情感分类,以及 LDA 模型的扩展 JST 模型和 reverse-JST 模型的应用。最后一部分讲解了在某些领域训练数据不足的情况下,可以使用其他领域的数据进行迁移学习的比较研究。 各位专家除了介绍了各自研究领域的基本理论和方法,还以大量生动的例子和研究结果介绍了本领域内最新研究进展 ,受益匪浅。 ​
5761 次阅读|2 个评论
执着于自然语言处理、机器翻译、大数据挖掘的 李维
readnet 2013-5-14 16:18
李维的博客 【科普随笔:NLP主流的傲慢与偏见】 热度 1 2013-5-9 17:33 上篇博文 【科普随笔:NLP的宗教战争?兼论深度学习】 匆匆写就发出以后,没想到在新浪微博上一夜间有好几万点击,而平时我在新浪转发的博文最多也不到几千点击。想来一是题目比较花哨(宗教,深层学习,都是容易引起热议的 buzz words),难逃标题党嫌疑;二来内容也容易引起这个领域的争论、不屑或共鸣。 需要说明一 ...个人分类: 立委科普 | 348 次阅读 | 1 个评论 分享 【科普笔记:没有语言结构可以解析语义么?(之二)】 热度 1 2013-5-8 00:54 就这个问题,以前写过 【研发笔记:没有语言结构可以解析语义么?浅论 LSA】 ,介绍的是很流行的 LSA 统计算法,它利用自然语言篇章中的一袋子关键词(bag of words)之间的 lexical coherence,绕过语法结构分析,模拟语义,往往也显得很智能的样子 。 无独有偶,绕过语言结构解析语义在传统的知识系统中早有 ...个人分类: 立委科普 | 333 次阅读 | 1 个评论 分享 【科普随笔:NLP的宗教战争?兼论深度学习】 热度 6 2013-5-7 23:18 有回顾NLP(Natural Language Processing)历史的大牛介绍统计模型(通过所谓机器学习 machine learning)取代传统知识系统(又称规则系统 rule-based system)成为学界主流的掌故,说20多年前好像经历了一场惊心动魄的宗教战争。其实我倒觉得更像49年解放军打过长江去,传统NLP的知识系统就跟国民党一样兵败如山倒,大好 ...个人分类: 立委科普 | 2930 次阅读 | 6 个评论 分享 【腾讯微信在移动社交媒体中的异军突起】 2013-4-15 18:09 Abstract: The Tencent WeChat app is revolutionary in social networking at the mobile platform. Not just Chinese counterparts of mobile Facebook, or Skype, or Facetime, or Voicemail, it is all of these but much more. Its explosive growth with hundred millions of users in such a sh ...个人分类: 立委科普 | 494 次阅读 | 没有评论 分享 台北演讲幻灯片上网(2/2) 2013-4-6 06:58 Chinesemorphology syntax 字组词与词组句( or 短语): 1. 界限不清晰 2. 规则类似 3. compounding: small syntax, a BIG partof Chinese structures 4 . pipeline steps with adaptivedevelopment and patches can handle modula ...个人分类: 立委科普 | 355 次阅读 | 没有评论 分享 台北演讲幻灯片上网(1/2) 热度 2 2013-4-6 06:42 Towards robust large-scale Chineseparsing Wei Li March 29, 2013 Institute of Information Science Academia Sinica Chinese Parsing Background: Four Layer System Architecture I: DesignPhilosophy Indexingsystem (backend engi ...个人分类: 立委科普 | 698 次阅读 | 2 个评论 分享 北京演讲幻灯片上网(3/3) 2013-4-5 05:36 民调 自动 化:实时监测 Obama won the debate, see our evidence 奥巴马赢了昨晚辩论吗?舆情自动检测告诉你。 技 术改变世界,甚至总统 对奥巴马真正具有挑战性的议题有二:一是他在第一任总统期间的经济表现( 6:55pm );二是批判他对中国不够强硬 (7:30pm) 。 人气曲线反映了 ...个人分类: 立委科普 | 602 次阅读 | 没有评论 分享 北京演讲幻灯片上网(2/3) 热度 1 2013-4-5 05:22 I:System Architecture for Core Engine II:Parsing-based Information Extraction III:Text Mining IV:App-level 【立委科普:NLP 联络图】 Course-grained vs. fine-grained sentiment extraction ...个人分类: 立委科普 | 390 次阅读 | 1 个评论 分享 北京演讲幻灯片上网(1/3) 热度 7 2013-4-5 04:43 应同行朋友的要求,幻灯片做最后修正后上网图示如下(并提供博文相关链接!) 【朝华午拾集锦:立委流浪图】 【『科学』预测:A-股 看好】 【立委科普:所谓大数据(BIG DATA)】 【立委科普:自动民调】 ...个人分类: 立委科普 | 2414 次阅读 | 8 个评论 分享 拉大旗做虎皮是 marketing 的惯用伎俩,不可轻信,但可以理解 热度 4 2013-3-24 23:35 Marketing claims are to be distinguished from scientific claims. Algorithms in academia can be scientifically compared but it is difficult to do apples to apples comparison between systems in terms of technical strength due to too many factors and moving parts involved. Innovation happens when the ...个人分类: 立委科普 | 436 次阅读 | 4 个评论 【研发笔记:没有语言结构可以解析语义么?浅论 LSA】 2013-3-24 15:10 what are your views on Latent Semantic Analysis (LSA)? LSA is a cool machine learning technique based on lexical evidence of co-occurrence in order to decode the underlying semantic categories (clustering or classification) of the given text (Deerwester et al. 1990). Typically, th ...个人分类: 立委科普 | 346 次阅读 | 没有评论 分享 【立委科普:所谓大数据(BIG DATA)】 热度 3 2013-3-21 04:58 Big data is not just data that are big. In the sense of data load, big data has been there for quite a while in Internet, on which the entire search industry was based and developed. The current buzz word big data is different, it is innately associated with users' background and social ...个人分类: 立委科普 | 807 次阅读 | 3 个评论 分享 广而告之:科学网“双百”博主立委四月一日在北京演讲大数据挖掘 热度 11 2013-3-20 19:57 UPDATE:立委愚人节北京讲演时间地点已经确认,感谢中文信息学会孙教授的邀请和安排,也感谢董振东前辈教授的建议和推举: The loacation is : Room 334, 3rd floor, building 5 Institute of Software, Chinese Academy of Sciences, No. Zhongguancun South 4th Street 10:00~12:00 It' ...个人分类: 立委科普 | 779 次阅读 | 13 个评论 分享 小广告:My talk is 2013-03-29 10:00 資訊所新館106演講廳 热度 2 2013-3-15 19:58 2013 學術演講 時間 主題 -- 主講人 地點 邀請人 2013-03-29 (Fri) 10:00 – 12:00 Towards robust large-scale Chinese parsing Wei Li 博士 資訊所新館106演講廳 陳克健 講 題: Towards robust large-scale Chinese parsing 講 者: ...个人分类: 立委科普 | 431 次阅读 | 3 个评论 分享 Course-grained vs. fine-grained sentiment extraction 2013-3-12 06:51 As for sentiment extraction itself, there are different layers: 1. sentiment classification: thumbs-up and down (or plus neutral) 2. sentiment association: to associate a sentiment with a topic or brand 3. fine-grained sentiment extraction: for example, who made the sentiment comment? about w ...个人分类: 立委科普 | 319 次阅读 | 没有评论 分享 【“剩女”的去向和出路(1)】 热度 2 2013-3-8 20:03 在面目可憎的新词“剩女”流行之前,大龄单身女青年的问题就存在,只是问题到如今愈加严重。 前文 说过,尤其是高学历大龄女青年这个群组,在她们可以选择的年龄段,合适的结婚对象比大熊猫还珍稀,因此成为比哥德巴赫还要难解的社会问题。那么从历史上看,她们的去向究竟怎样?今后的出路应该如何? 我是搞语言处理和 ...个人分类: 立委科普 | 575 次阅读 | 2 个评论 分享 【立委科普:基于关键词的舆情分类系统面临挑战】 热度 1 2013-2-15 22:47 Five challenges to keyword-based sentiment classification: (1) domain portability; (2) micro-blogs: sentence/twit classification is a lot tougher than document classification; (3) when big data become small: big data load when sliced and diced based ...个人分类: 立委科普 | 1069 次阅读 | 1 个评论 分享 曙光在眼前,轻松过个年 热度 1 2013-2-9 04:34 QA(Quality Assurance 质量检测)表明,在下领导开发的中文系统质量优良 日期: 02/08/2013 13:38:01 比起我们业已成熟的英文系统,QA 表明: precision (查准率)已经基本达到英文系统的查准率水平; recall (查全率)达到英文查全率的三分之二左右。 要知道,英文系统 ...个人分类: 立委科普 | 363 次阅读 | 3 个评论 分享 围脖提上来:大数据时代的生活策略 热度 2 2013-2-5 07:33 RE: 投票的时候,每个人只有一票,不管是like love crazy 还是 can't live without 都只有一票的用处。 一人一票制就是要排除 passion indensity 作者: 立委 (*) 日期: 02/04/2013 14:12:25 就客户而言,一个苹果饭可能会买n个iPhones,比如作为礼物给家人、朋友等,因此 intensity 加个权也许还 ...个人分类: 立委科普 | 1058 次阅读 | 2 个评论 分享 【立委科普:舆情挖掘的背后】 热度 2 2013-2-4 10:22 中文版 品牌舆情图 设计方案展示后,有不少反馈,其中有朋友认为,四极二维(love/hate,like/dislike)的图示不自然,因为它们实际上是在同一个维度上。今天就这个题目多写几句科普式随笔,看看舆情自动挖掘以及舆情表达(representation)背后的设计思想。 褒贬在客观语言事实上确实是一个连 ...个人分类: 立委科普 | 1466 次阅读 | 3 个评论 【立委科普:《非诚勿扰》中是谁心动谁动心?】 热度 1 2013-1-30 23:01 《非诚勿扰》成为很多海外华人的必看消遣节目,可以了解来自已然陌生了的祖国的社会百态,婚恋观念的演变最能反映时代意识的变迁。 选“心动”女生是《非诚勿扰》男生的第一个环节。幸运的男生的最后一个环节则是与两名“动心”女生和一名“心动”女生互动,他有权利牵手两名动心女生中任一位下场,但是如果他坚持选择那 ...个人分类: 立委科普 | 336 次阅读 | 1 个评论 分享 与老前辈谈 NLP 及其趋势 热度 2 2013-1-26 16:37 【立委按】俗话说, 铁打的营盘流水的兵。在我们 NLP(Natural Language Processing)这个营盘里,流水的兵过去了不知几拨。但也有像我这样赖在营盘就是不走的兵,任凭潮起潮落。比我更加坚韧的是我的导师一辈,他们早该退休,但还是抵制不了这个营盘的诱惑,仍然孜孜以求,让人钦佩不已。最近与前辈导师有交流,三句不离 ...个人分类: 立委科普 | 625 次阅读 | 2 个评论 分享 【立委随笔:NLP 的童子功】 热度 8 2012-11-24 08:51 “NLP 不是魔术,但是,其结果有时几乎就是魔术一般神奇。” 引自: http://www.confidencenow.com/nlp-seduction.htm 作为一个领域,NLP( Natural Language Processing , 自然语言处理 )在过去20年发生了翻天覆地的变化。这种变化伴随着电脑和互联网及其社会媒体的飞速发 展,使得 NLP 从 ...个人分类: 立委科普 | 2002 次阅读 | 8 个评论 分享 【朝华午拾:安娜离职记】 热度 4 2012-11-19 18:29 安娜是个很可爱的俄罗斯上进女青年,从小弹钢琴跳芭蕾,小学没毕业即随父母移民美国。她身材高佻,曲线优美,性情温和,举止得体,善解人意,给人一种古典但不古板,现代却不俗艳,阳光而浪漫的印象。大家知道,虽然 俄罗斯 大嫂大多偏胖粗线条,但 俄罗斯 姑娘却多有迷人的风采,老帮菜耳熟能详念念不忘的就有钢 ...个人分类: 立委科普 | 1030 次阅读 | 4 个评论 分享 【创业故事:技术的力量和技术公司的命运】 热度 5 2012-11-19 16:32 说技术的力量,需要有一个产品的 context,否则技术是无力的、苍白的。技术通过产品而发挥力量。因此,幸运的技术人需要遇到幸运的产品开发环境,才有施展的舞台和实现的可能。核心技术只是技术产品的一个条件,其他各个层面,无论哪个环节不给力,都可能翻船。以软件产品为例,主要的方面有:1. 必须有一支过硬的 工程队 ...个人分类: 立委科普 | 2929 次阅读 | 5 个评论 分享 把酒话桑麻,再泡一壶茶,白头老机译,闲坐说研发 热度 1 2012-11-12 15:44 提上来:把酒话桑麻,再泡一壶茶,白头老机译,闲坐说研发 这两天要写的话题太多,怕断了线。 日期: 11/12/2012 01:41:12 把酒话桑麻,再泡一壶茶,白头老机译,闲坐说研发,说一点儿机器翻译的掌故吧。 曾几何时,机器翻译处于手工业研发时期,每个语言对(language pair)要手工开发两套系统,A 到 ...个人分类: 立委科普 | 471 次阅读 | 1 个评论 分享 【立委随笔:机器翻译万岁】 热度 1 2012-11-11 08:33 机器翻译能走到今天是我们当年做梦也想不到的:技术进步起来真是没边儿 日期: 11/10/2012 12:27:27 30年前,我在社科院硕士报考专业上填写了“机器翻译”四个大字,内心充满了敬畏和神秘感。刚入行的时候做的是外汉机器翻译,一直不大敢碰汉外,原因是汉语语法不好形式化,感觉太难了。 现如今,汉语语法 ...个人分类: 立委科普 | 699 次阅读 | 1 个评论 分享 《OVERVIEW OF NATURAL LANGUAGE PROCESSING (1/5)》 by Wei Li 2012-11-11 00:22 Quote: “ NLP is not magic, but the results you can get sometimes seem almost magical . ” from http://www.confidencenow.com/nlp-seduction.htm From time to time, I am requested to give an overview presentation of the technology area Natural Language Processin ...个人分类: 立委科普 | 1341 次阅读 | 没有评论 分享 《眼睛一眨,来了王子,走了白马》 热度 11 2012-11-9 22:04 科学网编辑MM也有走眼的时候 一定是忙于18大做代表或美国总统大选做报道了,否则编辑MM睁着那双如此动人的眼睛,怎么可能,怎么可能没有看见 白马王子 呢? 居然、居然没有加精,那不是的立委的失败,那是科网的损失。 (为一个专门的科技领域 NLP 就写下了88篇,方方面面,不 ...个人分类: 立委科普 | 823 次阅读 | 13 个评论 分享 【立委科普:NLP 联络图 (之一)】 热度 3 2012-11-6 10:29 “NLP 不是魔术,但是,其结果有时几乎就是魔术一般神奇。” 引自: http://www.confidencenow.com/nlp-seduction.htm 【立委按】 样板戏《智取威虎山》里面, 杨子荣怀揣一张秘密联络图而成为土匪头子座山雕的座上客,因为在山头林立的江湖,谁掌握了联络图,谁就可以一统天下。 马克 ...个人分类: 立委科普 | 1706 次阅读 | 4 个评论 【随记:湾区的年度 NLP BBQ 】 热度 1 2012-11-2 09:39 前两周,斯坦福NLP教授大牛在家举行号称年度的 NLP BBQ 派对。 没想到湾区与这行有关的同仁如此之多:他 发出邀请500+,到场的有小 200 人 大概全世界也找不到一个地儿,有这么多同行如此集中吧。 聊起来,我说我是做 sentiment 的,结果发现有一群人也声称做 sentiments,真地这么热啊 遇到斯坦福出来的一位女士,说 ...个人分类: 立委科普 | 599 次阅读 | 1 个评论 分享 【科研笔记:big data NLP, how big is big?】 热度 1 2012-10-31 19:03 Big data 与 云计算一样,成为当今 IT 的时髦词 (buzzword / fashion word ). 随着社会媒体的深入人心以及移动互联网的普及,人手一机,普罗百姓都在随时随地发送消息,发自民间的信息正在微博、微信和各种论坛上遍地开花,big data 呈爆炸性增长。对于信息受体(人、企业、政府等),信息过载(information overlo ...个人分类: 立委科普 | 667 次阅读 | 1 个评论 分享 【科研笔记:NLP的词海战术】 热度 1 2012-10-30 06:55 女儿在背SAT词典,为美国高考挠心,说这词典太难了,都是偏僻少见的词,平时见不到,考试偏要考。死记硬背效果不好,指望海量阅读来提高词汇量,是远水不解近渴。气得直摔词典。我问:还有多少词汇需要死记?答曰不认识的和半认识的约一千,要在几周内搞定。 深表同情。区区一千词就把孩子折腾得寝食难安。我说见 ...个人分类: 立委科普 | 657 次阅读 | 1 个评论 分享 《NLP White Paper: Overview of Our NLP Core Engine》 2012-10-23 12:20 【立委科普:NLP 白皮书】 Quote: NLP is not magic, but the results you can get sometimes seem almost magical. (“NLP 不是魔术,但是,其结果有时几乎就是魔术一般神奇。”) 引自: http://www.confidencenow.com/nlp-seduction.htm 【立委按】 作为老兵,常常需要做行业 ...个人分类: 立委科普 | 724 次阅读 | 没有评论 分享 【立委科普:自动民调】 热度 3 2012-10-19 02:33 Automatic survey complements and/or replaces manual survey. That is the increasingly apparent direction and trend as social media are getting more popular everyday. 自动民调(or 机器民调: Automatic Survey / Machine Survey)指的是利用电脑从语言数据中自动抽取挖掘有关特定话题的民间舆论,其技术 ...个人分类: 立委科普 | 1158 次阅读 | 3 个评论 分享 【立委随笔:文傻和理呆的世纪悲剧(romance tragedy)】 热度 4 2012-10-15 20:45 不是冤家不碰头 St atisticians vs. Linguists: Deep-seated Antagonists? (Or Protagonists in NLP?) Chemistry? No! (生意归生意,感情归感情) 【一辈子只做一件事,幸也不幸?】 不知道多少次电脑输入 NLP(自然语言处理),出来的都是“你老婆”。难怪 ...个人分类: 立委科普 | 1116 次阅读 | 5 个评论 分享 【立委随笔:中文之心,如在吾庐】 热度 1 2012-10-13 23:51 借用盛传的霸王当年热恋时的妙句(“ 友人之心,如在吾庐”),我要说:二十五年了, 中文之心,如在吾庐,一日不曾忘记!拔高一点说,对于语言学家,中文之心可以说是梦萦魂牵的海外流浪人的中国心。 很多年了,由于工作的原因,一头扎进英语处理的海洋沉浮,直到近两年,英语已经无可再做,该做的差不多都 ...个人分类: 立委科普 | 611 次阅读 | 1 个评论 分享 《科研笔记:中文图灵试题?》 热度 1 2012-10-12 11:23 Chinese Turing Tests?? Challenging my Chinese dependency parser with puns. The real thing is, structural ambiguity is detectable, but not easily decodable. As for puns, forget it! Do you remember the last time you yourself, as an intelligent being designed by almigh ...个人分类: 立委科普 | 591 次阅读 | 2 个评论 分享 【研发笔记:粤语文句的情报挖掘】 热度 4 2012-9-28 07:50 在研发社会媒体舆情挖掘的中文系统过程中,遇到一些粤语的帖子,看上去似懂非懂的。从机器处理角度来看,方言与行业用语类似,算是一种子语言(sublanguage),可以看作是普通话的变体。其中绝大多数的区别在词汇层,句子结构大同小异。于是决定采用先把粤语文句自动翻译成普通话的方法,然后再 feed 到普通话的主体系统 ...个人分类: 立委科普 | 1857 次阅读 | 4 个评论 读书笔记:YT 神功源自 TWSS 2012-9-28 03:50 YT 是黑话,以前论过,不赘。无需深究,乃借题发挥,引入最近的读书笔记一则。 Quote For those who are too polite to know this type of humor, let me explain. When speaking in a non-sexual context, we sometimes say things that are not funny, but which would be funny if the same words were uttered ...个人分类: 立委科普 | 420 次阅读 | 没有评论 分享 科研笔记:究竟好还是不好 2012-7-18 03:09 绕口令:究竟好还是不好 作者: 立委 (*) 日期: 07/16/2012 18:30:31 谁说iPod好。 【不好】 谁说iPod不好? 【好】 谁不说iPod好。 【好】 谁不说iPod不好? 【不好】 没有 ...个人分类: 立委科普 | 594 次阅读 | 没有评论 分享 不是那根萝卜,不做那个葱 热度 1 2012-6-30 15:22 不是那根萝卜,不做那个葱 日期: 06/30/2012 01:58:08 改着系统,一阵犯困就迷糊过去了,n分钟后糊里糊涂说这两句,又醒来了。 醒来前好像某人说我的系统是 canned 系统,我说 can 你个球啊,我这是开放系统,你随便试,任何句子,只要是汉字就成。 那人睁大双眼,说:是么? 我哼了一下,丢下这两句。 此 ...个人分类: 立委科普 | 556 次阅读 | 1 个评论 分享 立委统计发现,汉语既适合吹嘘拍马亦长于恶意构陷 热度 3 2012-5-1 13:59 词汇统计发现,汉语既适合吹嘘拍马亦长于恶意构陷 作者: 立委 (*) 日期: 05/01/2012 00:49:08 日常汉语词汇不但比类似规模的英语日常词汇多出了两倍到三倍的褒义词和贬义词,更有意思的是,这些褒贬词汇中特别针对人的 就多达约1/3(3809/11968)。由于1/3以外的褒贬词汇大多既可以用于 物 ,也可以用 ...个人分类: 立委科普 | 1056 次阅读 | 4 个评论 分享 比起英语,汉语感情更外露还是更炽烈? 2012-4-28 04:29 Chinese is a more sentiment-intensive language than English?? FW: Counts of sentiment words in Chinese and English Interesting finding: that Chinese more than doubles the negative words and more than triples the positive words in comparison with the English vocabulary. This is based on the 5 ...个人分类: 立委科普 | 815 次阅读 | 没有评论 分享 社会媒体比烂,但国骂隐含舆情 热度 3 2012-3-20 03:59 本池有几个是物理出身啊?以后见他们退三舍。都是怎样的炼狱过来的。李剑芒这小子吹嘘小方见他这个师兄躲得远远地,不为别的,就 为他学物理而且敢骂街。 我感兴趣的是其中的社会媒体的国骂变种。前两天写了个regexp,不知道能抓住它多少: 国骂: 1. { ? ? }? /* 你 妈 了 个 逼 的 */ ? 2 ? 3 ...个人分类: 立委科普 | 693 次阅读 | 3 个评论 分享 《立委随笔: 语言学家是怎样炼成的》 热度 5 2012-2-29 23:29 《立委科普: 语言学家是怎样炼成的》 我们知道,钢铁战士保尔柯察金是在残酷的革命斗争中炼成的。我要说:语言学家是在 瞎琢磨中炼成的。下面这个故事就是证明。 《立委说文解字:好,好不?》 语言现象中,有逻辑的成分,也有不逻辑的成分:约定俗成是语言的天则,只要语言共同体认可,逻辑不逻 ...个人分类: 立委科普 | 1155 次阅读 | 11 个评论 分享 【立委科普:及物、不及物 与 动词 subcat 及句型】 2012-2-24 14:57 理呆说法:“只要找到一个及物反例就可以推翻其不及物的说法”。 及物动词、不及物动词、双及物动词等等叫做 subcat, 是动词大类里面的子类标识(subcategory)。 如果只要找到一个及物反例就否 定不及物,那么就不存在 不及物动词 的子类。比如,英语的 walk / go 是典型的不及物动词,但是就有如下反 ...个人分类: 立委科普 | 736 次阅读 | 没有评论 分享 2011 信息产业的两大关键词:社交媒体和云计算 2012-2-1 16:45 我们现在正处在一个难得的历史契机。 去年发生了一连串值得注意的相关事件。其热门关键词是社会媒体(social media) 和云计算(cloud computing),而大数据(big data)情报挖掘正是针对社会媒体内容利用云计算作为支撑的高新技术产业的代表。 社会媒体尤其是微博持续升温,无论是用户还是其产生的内容, ...个人分类: 立委科普 | 903 次阅读 | 没有评论 分享 女怕嫁错郎,男怕入错行,专业怕选错方向 热度 2 2012-1-7 13:11 想起数年前我被华尔街 VC 在 due diligence 阶段请去鉴定一家做WSD的技术公司(名字就不提了),这家公司声称解决WSD (Word Sense Disambiguation)有独到的技术,可以用来支持下一代搜索引擎,超越Google,因此吸引了华尔街投资家的注意。他们在白皮书中说得天花乱坠,WSD 是语言技术的皇冠,谁摘下了这颗皇冠,就掌握 ...个人分类: 立委科普 | 833 次阅读 | 2 个评论 说说科研立项中的大跃进 热度 11 2012-1-7 08:01 说到立项,再多说几句。...... 如果一个大项目选错了方向,才真是糟蹋人民的钱财。历史上这样的案例还是不少的。远的有日本在上个世纪80年代上马的所谓“第五代计算机”的项目,忽悠得昏天黑地,似乎这个大项目的完成,新一代能够理解自然语言的人工智能电脑就会面世,日本就会成为世界电脑技术翘楚。结果呢,无疾而终(当 ...个人分类: 立委科普 | 3085 次阅读 | 12 个评论 分享 NLP 迷思之四:词义消歧(WSD)是NLP应用的瓶颈 热度 4 2012-1-6 10:00 引用老友 : 受教了。谢谢立委。 我同意“成语从来不是问题”。成问题的应该是一词多义,或歧义,对吧? 这个迷思不再局限于中文处理,它在整个NLP领域和NLP爱好者圈子里颇有迷惑性。WSD (Word Sense Disambiguation) 确系 NLP 难点,但在NLP应用上基本不是问题。 泛泛而言,一切歧义( ...个人分类: 立委科普 | 1164 次阅读 | 4 个评论 分享 NLP 是一个力气活:再论成语不是问题 2012-1-5 09:16 NLP是一个力气活,100% agree. 日期: 01/04/2012 15:14:51 有朋友问: Quote 俺对这个领域 是外行,形式语言和自动机理论还是学过的。其实成语数据库建立并不容易。涉及到大规模数据存储和检索的问题。 从应用层面看,成语数据库没有想象地那么大。当然如果你是包括一个语言的所有领域,方方面面,要 ...个人分类: 立委科普 | 904 次阅读 | 没有评论 分享 NLP 历史上最大的媒体误导:成语难倒了电脑 2012-1-4 16:27 NLP 最早的实践是机器翻译,在电脑的神秘光环下,被认为是 模拟或挑战 人类智能活动的机器翻译自然成为媒体报道的热点。其中有这么一个广为流传的机器翻译笑话,为媒体误导之最: 说的是有记者测试机器翻译系统,想到用这么一个出自圣经的成语: The spirit is willing, but the flesh is weak (心有余 ...个人分类: 立委科普 | 960 次阅读 | 1 个评论 分享 NLP 围脖:成语从来不是问题 2011-12-31 22:06 成语的本质是记忆,凡记忆电脑是大拿,人脑是豆腐。 作者: 立委 日期: 12/31/2011 08:04:01 当然要大词库,无论何种方式 建立,只要想做就可以做,因此不是问题。 所谓自然语言“理解”,就是把 open expressions 分解成词典单位(包括成语)的关系组合(术语叫 semantic compositionality)。凡事到了词典层 ...个人分类: 立委科普 | 849 次阅读 | 1 个评论 分享 后生可畏,专业新人对《迷思》争论表面和稀泥,其实门儿清 2011-12-31 05:19 “专业新人” (early stage researcher)也别被我的夸赞冲昏头脑。门道门道,有门有道。门儿清,不等于道儿清。做到门儿情,只要聪颖和悟性即可,而道儿清要的却是耐性、经验、时间,屡战屡败、屡败屡战的磨练,而且还要有运气。是为冰冻之寒也。 On Thu, Dec 29, 2011 Gwrote: As you titled ...个人分类: 立委科普 | 599 次阅读 | 没有评论 分享 专业老友痛批立委《迷思》系列搅乱NLP秩序,立委固执己见 2011-12-29 23:29 G 是资深同行专业老友很多年了,常与立委有专业内外的交流。都是过来人,激烈交锋、碰撞出火是常有的事儿。 昨天给他邮去《迷思》系列三则,他即打电话说:“好家伙,你这是惟恐天下不乱啊。看了《迷思》,我就气不打一处来。你这是对中文NLP全盘否定啊,危言耸听,狂放颠覆性言论。偏激,严重偏激,而且误导。虽然我知 ...个人分类: 立委科普 | 871 次阅读 | 没有评论 分享 中文NLP迷思之三:中文处理的长足进步有待于汉语语法的理论突破 热度 2 2011-12-29 00:27 严格说起来,这不能算是迷思,而应该算是放之四海而皆准的“多余的话”:任何学科的理论突破都可能引起应用层面的长足进步,不说也罢。其所以归类到这个迷思系列,是因为这样的高论在中文处理界常常甚嚣尘上,有严重误导青年学子的危害。其结果是喊了多年理论突破,理论并没有突破,反而造就了一批民科妄想家(只是指出这 ...个人分类: 立委科普 | 1016 次阅读 | 2 个评论 分享 中文处理的迷思之二:词类标注是句法分析的前提 热度 1 2011-12-28 16:59 词类标注(Part-of-speech Tagging: POS)是汉语句法分析的前提么? 没有这回事。 如果说为了模块化开发的方便,中文处理系统先行词类标注,再行句法分析,这种类似于多数英语分析器的架构从工程上看确实有一定的道理,但是词类标注并非句法分析的前提。 点破这一迷思的最直接的例证就是完全可以设计一个跳 ...个人分类: 立委科普 | 862 次阅读 | 1 个评论 分享 中文处理的迷思之一:切词特有论 热度 6 2011-12-28 13:33 电脑的中文处理业界有很多广为流传似是而非的迷思。在今后的随笔系列中,准备提出来分别讨论。 迷思之一:切词(又叫分词,word segmentation)是中文(或东方语言)处理特有的前提,因为中文书写不分词。 切词作为中文处理的一个先行环节,是为了模块化开发的方便,这一点不错。但它根本就不特有。 任何自然 ...个人分类: 立委科普 | 2262 次阅读 | 6 个评论 突然有一种紧迫感:再不上中文NLP,可能就错过时代机遇了 热度 1 2011-12-10 20:29 与业內老友的对话:在‘用’字上狠下功夫 耳边响起了林副主席关于系统开发的谆谆教导: Quote 带着问题做,活做活用,做用结合,急用先做,立竿见影,在‘用’字上狠下功夫。 from: http://blog.sciencenet.cn/home.php?mod=spaceuid=362400do=blogid=510567 这是从与朋友的内部交 ...个人分类: 立委科普 | 788 次阅读 | 1 个评论 分享 坚持四项基本原则,开发鲁棒性NLP系统 热度 3 2011-12-9 07:04 《科研随笔:自然语言处理系统的鲁棒性》 以前说过,一个 real life 自然语言处理系统,其质量和可用度除了传统的 data quality 的衡量指标查准度(precision)和查全度(recall)外,还有更为重要的三大指标:海量处理能力(scalability), 深度(depth)和鲁棒性(robustness)(参见:《 “三好”立委要做“三有” ...个人分类: 立委科普 | 1641 次阅读 | 4 个评论 分享 应该立法禁止分词研究 :=) 热度 1 2011-12-6 05:56 RE: 分词当然是第一关。这个没弄好,其他的免谈 现如今中文自动分析的瓶颈早已不是分词了 日期: 12/05/2011 15:43:43 半个世纪折腾进去无数的人力了。是 overdone,很大程度上是科研财主(sponsors)和科学家共同的失职。应该立法禁止分词(又叫切词,word segmentation)研究(kidding :=)),至少是禁 ...个人分类: 立委科普 | 1496 次阅读 | 1 个评论 分享 再说苹果爱疯的贴身小蜜 死日(Siri) 热度 1 2011-12-6 04:55 话说这苹果真是能折腾,一个技术课题硬是折腾成大众话题,弄得满世界都在谈论苹果爱疯的贴身小蜜 “死日”(Siri,没追踪来源,但瞧这名字起的),说是她无所不能,能听得懂主人的心思,自动打理各项事务,从天气预报,到提供股票信息,甚至做笔记。不服不行,人家就是把这个科幻世界的机器人功能产品化了,挑起了大众的好 ...个人分类: 立委科普 | 1131 次阅读 | 1 个评论 分享 【立委科普:自动分析 《偉大的中文》】 热度 2 2011-12-5 14:28 【立委科普:语法结构树之美(之三)】 自动分析 《偉大的中文》 自从开始着手中文处理的研发以来,我不断遭遇挑战,也不断遇到惊喜。本着报喜不报忧的普世原则,挑战独自吞下,惊喜则可以与友分享。 老友也不断“挑战”我,不过老友的挑战往往是人云亦云,打不着软肋,倒可以拿来与民同乐。 老友转文《伟大的 ...个人分类: 立委科普 | 756 次阅读 | 2 个评论 分享 【立委科普:语法结构树之美(之二)】 2011-11-22 14:44 引用 如果爱因斯坦在时空万物中看到了造物主的美,如果门捷列夫在千姿百态的物质后面看到了元素表的简洁,语言学家则是在千变万化的语言现象中看到了逻辑结构之美。这种美的体验伴随着我们的汗水,鼓励我们为铲平语言壁垒而愚公移山,造福人类。 摘自: 【 立委科普:语法结构树之美 】 nb ...个人分类: 立委科普 | 1098 次阅读 | 没有评论 分享 社会媒体(围脖啦)火了,信息泛滥成灾,技术跟上了么? 热度 1 2011-11-22 14:23 “三好”立委要做“三有”系统 面对呈指数增长的海量信息,人类面对信息获取的困境。唯一的出路是依靠电脑,其核心的技术是语言处理(NLP)。这不是王婆卖瓜,而是客观形势。 就说社会媒体对产品和服务的评价吧,每时每刻,无数用户的抱怨和赞美不断出现在网上,这些客户对产品的评价情报对于企业加强产品功能和研发 ...个人分类: 立委科普 | 1244 次阅读 | 1 个评论 分享 科研笔记:开天辟地的感觉真好 2011-10-30 01:40 刚开始上系统的体验真好,有一点儿开天辟地的感觉。 作者: 立委 日期: 10/29/2011 12:35:42 那么多人在语言混沌中绕不出来,而我自己的感觉每一个挑战都有一条通天的大路,怪了。英语如此,其他欧洲语言(法、德、西、意等)如此,中文更如此。弄潮儿大海冲浪,不过如是吧。 手里有一库的工具,遇到一个问题 ...个人分类: 立委科普 | 996 次阅读 | 没有评论 分享 《立委科普:语言学的基本概念》 热度 1 2011-10-19 18:02 《立委科普:语言学的基本概念》 (5384 bytes) Posted by: 立委 Date: June 26, 2008 12:32AM 语言学是语言的学问,这学问的引人入胜之处,就在于其研究对象语言是一个人人知其然,很少人知其所以然的复杂的系统。复杂到什么程度呢,总之是很容易陷进去出不来。能出来的人不多,立委自以为是出来人,因此, ...个人分类: 立委科普 | 884 次阅读 | 3 个评论 分享 《科普随笔:“他走得风一样地快” 的详细语法结构分析》 2011-10-19 14:21 《立委随笔:“他走得风一样地快” 的详细语法结构分析》 (1564 bytes) Posted by: 立委 Date: June 07, 2008 05:18AM 有老友问如何分析句子“他走得风一样地快”。镜兄回答: 引用: “走/得快”是一个区分,不应该是“走/得/快”。 (157425) Posted by: mirror Date: May 30, 2008 ...个人分类: 立委科普 | 910 次阅读 | 没有评论 从 colorless green ideas sleep furiously 说开去 2011-10-14 17:59 《科普随笔:乔姆斯基》 (4031 bytes) Posted by: 立委 Date: April 22, 2007 10:15AM 周末说点语言学:从 colorless green ideas sleep furiously 说开去 (13928) Posted by: liwei999 Date: June 17, 2006 11:25AM 这句“名言”是大名鼎鼎的乔姆斯基(Chomsky)说的。 Noam Chomsky是MIT顶级教授(In ...个人分类: 立委科普 | 1022 次阅读 | 没有评论 分享 《科普随笔:keep ambiguity untouched》 2011-10-14 17:52 《立委随笔:keep ambiguity untouched》 (788 bytes) Posted by: 立委 Date: April 27, 2007 06:09PM 机器翻译:至美必在其中。 (22347) Posted by: liwei999 Date: September 19, 2006 12:15AM 冰冰说: 馒头的翻译:茶之至美则必在其中矣。 藕修改后的翻译:茶道必有至美匿于其 ...个人分类: 立委科普 | 848 次阅读 | 没有评论 分享 《科普随笔:汉字和语素》 2011-10-14 17:48 实在忍不住,到隔壁插了一句 (16228) Posted by: liwei999 Date: July 26, 2006 05:35AM 前几天看到江老弟在黑暗中摸索,想用汉字表达他琢磨出来的语素的概念,就想好为人师一下。想还是等别的语言学家出来给他点拨一下吧。结果没有。质疑他汉字说的人,逼迫他重新修正概念,提出了近似语素的基本概念。 ...个人分类: 立委科普 | 717 次阅读 | 没有评论 分享 《科普随笔:汉语自动断词 “一次性交500元”》 2011-10-14 17:41 《立委随笔:汉语自动断词 “一次性交500元”》 (2824 bytes) Posted by: 立委 Date: April 27, 2007 10:56PM 请教一下立委,这过滤词的语法能提高吗。 (15409) Posted by: oztiger Date: July 12, 2006 11:03PM 我初看xj这帖子,很不明白 北大法学院 怎么会变成 北 大法 学院,想想又挺 ...个人分类: 立委科普 | 863 次阅读 | 没有评论 分享 《科普随笔:机器八卦》 2011-10-14 17:09 机器八卦:Text Mining and Intelligence Discovery (13219) Posted by: liwei999 Date: June 10, 2006 10:07PM 犀角提议,干脆用机器挖掘吧。我不想吓唬大家,但是,理论上说,除非你不冒泡,言多必失,机器八卦,比人工挖掘,可能揭示出你的更多特征。好在该技术还不成熟。 Text mining 是我这 ...个人分类: 立委科普 | 725 次阅读 | 没有评论 分享 在构筑一个模型时,枚举法是常用的必要的强盗分类。 2011-10-12 18:16 枚举法是“权威”定义的一种。对有限集合(可枚举者)有效。 在构筑一个分类体系中,确实需要用枚举法。可以认为是强盗分类。 作者: 立委 (*) 日期: 10/12/2011 05:11:12 譬如,编制一套形式文法来model语言现 象。首要任务是词的分类。开放类(名形动副)是一种定义法。封闭类(功能词,如介词、连词 ...个人分类: 立委科普 | 638 次阅读 | 没有评论 分享 非常折服苹果的技术转化能力,但就自然语言技术本身来说 ... 热度 1 2011-10-8 08:10 苹果 iPhone 4S 里面的 Siri,跟我们的工作没法比 它面对的是非常狭窄的语言子集,我面对的是全开放的语言现象。 自然语言处理,领域越单纯,应用越好 。可我没有这个便利,我面对的是跨领域。 自然语言处理,语言越规范(譬如正式新闻),应用越好。可我没有这个便利,我面对的是社会网络的用语:充满了错别字、不 ...个人分类: 立委科普 | 1134 次阅读 | 1 个评论 分享 why hybrid? on machine learning vs. hand-coded rules in NLP 热度 1 2011-10-8 04:00 There are two major approaches to NLP, namely machine learning and rule-based approach. Each has its own strengths and limitations, as summarized below. 1. In general, a rule system is good at capturing a specific language phenomenon (trees) whilemachine learning is goo ...个人分类: 立委科普 | 934 次阅读 | 1 个评论 分享 从新版iPhone发布,看苹果和微软技术转化能力的天壤之别 热度 2 2011-10-5 18:29 终于熬夜把苹果昨天发布 iPhone 4S (其实应该叫 iPhone 5) 的现场录像( http://events.apple.com.edgesuite.net/11piuhbvdlbkvoih10/event/index.html )看了。其中的一个最重要的 feature 叫 Siri,你的贴身秘书,可以用自然语言与其对话,执行你的日常指令。里面用到了自然语言技术,语音识别(speech recognition)以及 ...个人分类: 立委科普 | 1715 次阅读 | 2 个评论 分享 言多必露,文本挖掘可以揭示背景信息 热度 1 2011-7-11 01:03 言多必露,挖掘有商用价值的背景信息 文本挖掘(text mining)中,Demographic Profile Extraction 的任务是要给网虫自动分类,揭示其背景信息(年龄,性别,身份,族裔,人生阶段,家庭背景等)。 一些简单的规则,查准率高(high precision),查全率并不高(moderate recall),譬如: I am X -- X (student, t ...个人分类: 立委科普 | 702 次阅读 | 1 个评论 立委围脖:对于用户来说,抓住老鼠就是好猫 热度 1 2011-6-24 18:16 这是从镜子的话想到的。 Re: 对乘客而言,瞬间跑多少速度无关紧要。要的是平均速度。 Quote  mirror 因为距离是不变的,花多少时间才能到达目的地是个关心的问题。 在我们这个信息抽取/搜索这个行当里,学界与业界对于覆盖面(recall)的定义完全不同。学界的定义是以一个信息的出现次数 (mention level) ...个人分类: 立委科普 | 617 次阅读 | 没有评论 分享 今天的Ask.com 热度 1 2011-6-13 14:11 今天的Ask.com: 回归问答系统,常见问题的回答令人印象深刻 今天无事,对AskJeeves十周年推出的 人生十大难题发了一回议论 。我跟甜甜说,你来看看这些人类无法解答的难题,其中有好几个问题也是近一年你反复问我,而我的解答总是无法令你满意的,譬如人生意义的问题,上帝的问题,还有如何才能克服抑郁, ...个人分类: 立委科普 | 720 次阅读 | 没有评论 分享 【 IT风云掌故:金点子起家的 AskJeeves 】 热度 1 2011-6-11 18:42 前两天甜甜突然问道:Dad, is AskJeeves still alive? 这孩子一直对IT业界的事情感兴趣。譬如,当我讲述微软和苹果近二十五年的纠缠,五年河东,十年河西,十年又河东,彼伏此起,此消彼长,她都听得不亦乐乎,特别是说到 IT 传奇巨人 Bill Gates 与 Steve Jobs 迥然不同的性格和理念,她都特别爱听。 ...个人分类: 立委科普 | 1016 次阅读 | 1 个评论 分享 【立委科普:语法结构树之美】 热度 2 2011-6-4 20:04 我们知道,语句呈现的是线性的字符串,而语句 结构却是二维的。我们之所以能够理解语句的意思,是因为我们的大脑语言处理中枢能够把线性语句解构(decode)成二维的结构:语法学家常常用类似下列的上下颠倒的树形图来表达解构的结果(所谓 parsing)。 上面这个树形图叫作依从关系树形图(depende ...个人分类: 立委科普 | 1152 次阅读 | 3 个评论 分享 《立委科普:汉语只有完成体,没有过去时》 热度 1 2011-5-19 10:36 回答:老友关于动词加“了”还是不加“了”的争论:又见师姐 vs 又见了师姐 汉语语言学界比较共识的是,汉语只有完成体,没有过去时 作者: 立委 (*) 日期: 05/18/2011 04:33:11 时 (tense)和 体 (aspect)是两个不同的语法范畴。因为其反映语言时间概念的角 度不同,实际应用中有些纠 ...个人分类: 立委科普 | 947 次阅读 | 1 个评论 分享 立委微博:抄袭否定的是整个语言学 热度 2 2011-5-5 17:06 回答: 对事实的陈述不算抄,不抄怎么表述同样的事实呢? 你一句话否定了整个语言学!!! 作者: 立委 日期: 05/04/2011 10:17:58 如果同一个事实或者思想,只有同一种表达,必须抄袭,语言完蛋了,语言学完蛋了,语言学家都去喂狗吃。 看样子,应该写篇语言学科普《立委科普:逻辑表达式》,说 ...个人分类: 立委科普 | 660 次阅读 | 3 个评论 分享 80年代在国内,社科院的硕士训练使我受益最多 热度 1 2011-5-3 12:54 有老友问社科院80年代的硕士情况。回想了一下是这样的。 引用不规范是常见的,但是综述代替硕士论文是难以想象的 日期: 05/02/2011 23:28:16 我的硕士论文不是文科的代表,不作数。我是先做试验,用 BASIC 编了一个从世 界语到英语和汉语得自动翻译系统,然后才写论文的。答辩前,导师对我说,我们这行好办,答辩容 ...个人分类: 立委科普 | 459 次阅读 | 1 个评论 分享 【立委科普:问答系统的前生今世】 热度 5 2011-4-23 21:43 上周信笔涂鸦写了个不伦不类的科普( 【立委科普:从产业角度说说NLP这个行当】 ),写完自我感觉尚可,于是毛遂自荐要求加精:“ 自顶一哈:不用谦虚,这个应该加精。也不枉我费了大半天的时辰。 ” 本来是玩笑话,没成想科网的编辑MM在两小时内就真地加精上首页了。前几周还在抱怨,怕被编辑打入另册,正琢磨 ...个人分类: 立委科普 | 2075 次阅读 | 11 个评论 分享 【立委科普:从产业角度说说NLP这个行当】 热度 10 2011-4-19 08:25 前面一篇博文 的本意,是想借题发挥,从工业运用的角度说说 NLP(Natural Language Processing:自然语言处理)这个行当。不好意思,我算是这个行当在工业界的老古董了(学界不算,学界有的是NLP师爷和大牛)。跟我同期学习这行的同门学长们有小20位,由于这个行当不能在工业界形成规模,他们无一例外都在不同时期改行了 ...个人分类: 立委科普 | 3992 次阅读 | 14 个评论 分享 据说,神奇的NLP可以增强性吸引力,增加你的信心和幽会成功率 热度 1 2011-4-19 05:28 wow,听上去比伟哥的发明还要伟大,I never knew this side of NLP。 我一辈子就干的自然语言处理这行,即 NLP (Natural Language Processing),最近才知道它还有 seductive 的一面。 不过,我特别喜欢这个广告: Quote NLP is not magic, but the results you can get sometimes seem almost magical. (“NL ...个人分类: 立委科普 | 1366 次阅读 | 1 个评论 与机器人对话 2010-10-26 10:58 这年头,美女帅哥泛滥成灾,尤其在国内的网络上。有几次点击链接看帖子或者图片,常常到一个注册网站,非登记不给看。于是随便注册一个ID,结果填写“性别”信息时遇到了“帅哥”和“美女”的两难。我虽然也爱吹牛,还没有胆子大到自称帅哥的程度,看到满目的芙蓉姐姐那样的美女和芙蓉哥哥那样的帅哥,突然觉得中国不仅国 ...个人分类: 立委科普 | 891 次阅读 | 1 个评论 分享 If it's working, don't change 2010-7-31 23:29 If it's working, don't change. (107276) Posted by: liwei999 Date: September 07, 2007 12:36PM 想起自己经历的故事来。 在水牛城,我作为研发经理,经常要跟工程经理打交道,这位VP的口头禅就是这个。我们这边满怀建功立业的热情,生怕产品不更新,不增加 advanced features, ...个人分类: 立委科普 | 743 次阅读 | 没有评论 分享 《立委随笔:语言这东西,挺好玩de》 2010-7-23 00:38 副词“都”/“也”用到句末,这个现象是怎么发生的? (116009) Posted by: liwei999 Date: November 09, 2007 10:30AM 我一直奇怪。 好像只有口语有这种用法。甚至我到北京上学前也从来没有见过这样用的,也许是北方口语?师姐也许知道怎么回事。 还有两个现象也很 strike m ...个人分类: 立委科普 | 839 次阅读 | 没有评论 分享 《立委随笔:乔姆斯基的“世界语”》 2010-7-23 00:37 《立委随笔:乔姆斯基的“世界语”》 (213 bytes) Posted by: 立委 Date: March 08, 2008 03:59AM 乔姆斯基的出发点:先天的结构,后天的参数调整。因此,元语言而论,“世界语”(universal grammar)必然存在。 当然这只是个假说。然而这个假说,半个世纪以来成为西方语言学流派的主流。 nb ...个人分类: 立委科普 | 814 次阅读 | 没有评论 分享 《立委随笔:语言自动分析的两个路子》 2010-4-17 12:42 以前断续写过一些随笔。 (899 bytes) Posted by: 立委 Date: September 22, 2008 12:18AM 不外是两个路子,基于语法规则的路子,基于统计的机器学习(ML)路子,或者是二者的某种结合。不过,语法的路子并不大用乔姆斯基的转换生成语法。除了教授在实验室做玩具系统外,应用系统中最多用最熟练的 ...个人分类: 立委科普 | 1554 次阅读 | 2 个评论 分享 《朝华午拾:在美国写基金申请的酸甜苦辣》 2010-2-18 10:43 作者:立委 立委按:有朋友私下聊天提到,科网都是一帮工愚理呆,你个文傻,只能敲边鼓,你那些人生故事,《朝华》什么的,小资怀旧情调,低吟浅唱,写得再好,再真切,也是注定寂寞的,因为你远离热门话题。我说,是么?好,那我就“朝华”一篇热门话题,看看能不能把小资打到科网的头条去!毕此一役,不 ...个人分类: 立委科普 | 7030 次阅读 | 27 个评论 分享 《立委随笔:机器学习和自然语言处理》 热度 1 2010-2-13 07:39 有脚客介绍人工智能(AI)现状 ( http://rl.rockiestech.com/node/636 ),认为由于机器学习(ML)技术的长足进步,人工智能正进入繁荣期,并且开始成功用于自然语言处理(NLP). 除了调子过分乐观了一些,这是个不错的介绍。下面的随笔是根据我自己的经验和体会而来。 AI, ML and NLP NLP 中过分 ...个人分类: 立委科普 | 4471 次阅读 | 3 个评论 分享 《立委随笔:通天塔不是一日建成的》 2010-2-12 04:35 Date: October 27, 2008 03:37AM 立委 新技术先锋苹果公司最近推出了新款的笔记本电脑 Mac Pro,最大的卖点是 unibody 的设计制作工艺 (Precision aluminum unibody enclosure: http://www.apple.com/macbook/ )。苹果开发副总介绍说,他们开始了一个开发过程的革命性转变。以前的电脑是组件安装,因此 ...个人分类: 立委科普 | 1348 次阅读 | 1 个评论 分享 《立委科普:现代汉语语法随笔》 2010-2-11 02:47 立委按:本随笔属心得,信马由缰,不在全,不求稳,不引经据典,欢迎讨论批评。 现代汉语语法随笔 语法表达组词造句的规律。Native speakers 心中都有一套语法,尽管由于地域、出身、教育程度等等的差异,每个人心中的语法和其他 native speakers 并不完全重合,但是其核心部分是相同的,否则语言交流就不可思议 ...个人分类: 立委科普 | 1500 次阅读 | 1 个评论 分享 《立委随笔:自然语言是递归的么?》 热度 1 2010-2-11 02:47 mirror 说: 括号可以用几重?立委作为计算机的半拉专家,应该知道是有限的。问题是限在几重上。 比如{[最(伟光正的)党]领导的}是一个深度的例子。 没有抽象化,也就没有学问了。问题不在于可不可以。问题是出自一个什么样的考虑、取舍,定下的如此规矩。 由镜子所说 ...个人分类: 立委科普 | 1399 次阅读 | 1 个评论 【立委科普:语言学的基本概念】 2010-2-10 07:11 语言学是语言的学问,这学问的引人入胜之处,就在于其研究对象语言是一个人人知其然,很少人知其所以然的复杂的系统。复杂到什么程度呢,总之是很容易陷进去出不来。能出来的人不多,立委自以为是出来人,因此,斗胆开讲语言学学理讲座。外行看热闹,内行看奥妙,陪伴各位做一次语言学揽胜之旅。 谈语 ...个人分类: 立委科普 | 1492 次阅读 | 没有评论 分享 【立委科普:教机器识英文】 2010-2-10 07:10 2008-09-20 我们教机器理解语言(Natural Language Understanding),基本的一条就是通过句法分析 (parsing) 解析出句子的意义。什么是一个句子的意义呢?举个例子: John loves Mary. 上述句子有三个构句成分:约翰,玛丽,爱。认识这些词不难,一部词典就成,但这不等于能听懂这个句子,因为句子的意义不是 ...个人分类: 立委科普 | 1325 次阅读 | 没有评论 分享 “自由”的语言学至少有三种理论 2010-2-2 06:02 自由的语言学至少有三种理论 (1880 bytes) Posted by: 立委 Date: July 10, 2008 01:11AM 对于(逻辑)形容词譬如自由,至少有三种理论,试图概括形容词的常用语言现象: 资产阶级自由派理论(简称右派理论):自由是形容词、动词和名词的兼类词,词无定类,入句而后 ...个人分类: 立委科普 | 1207 次阅读 | 没有评论 分享 《立委科普:机器八卦》 2009-12-23 06:45 机器八卦:Text Mining and Intelligence Discovery (13219) Posted by: liwei999 Date: June 10, 2006 10:07PM 犀角提议,干脆用机器挖掘吧。我不想吓唬大家,但是,理论上说,除非你不冒泡,言多必失,机器八卦,比人工挖掘,可能揭示出你的更多特征。好在该技术还不成熟。 文本挖掘(text mining) 是我这几年 ...个人分类: 立委科普 | 4879 次阅读 | 没有评论 分享 《朝华午拾:今天是个好日子》 热度 1 2009-12-22 18:45 今天是个好日子 – 立委研发笔记之二 作者:立委 今天是个好日子。 今天真是个好日子。 什么日子呢?这么说吧,就好比陈景润证出1+1=2的那天,算不算个好日子。 写完上面几句话,兴奋了一天,终于轰然到下,难得地一觉睡到自然醒。所以,确切地说,标题应该是:昨天是个好日子。 我们搞研发的工匠, ...个人分类: 立委科普 | 1489 次阅读 | 2 个评论 分享 《朝华午拾:欧洲之行》 2009-12-16 10:09 1989年夏天,我和导师去德国慕尼黑应参加第二次国际机器翻译最高级会议。此前,我跟荷兰BSO(Buro voor Systeemontwikkeling BV)公司的机器翻译研究组一直有联络,应约为他们的以世界语作为媒介语的多语机器翻译系统 DLT,编写了一部 现代汉语依从关系的形式句法 。他们听说我们要来欧洲,就邀请我和我的导师,还有中 ...个人分类: 立委科普 | 1073 次阅读 | 没有评论 分享 《朝华午拾:世界语之恋》 2009-12-15 18:20 朝华午拾 - 我的世界语国(二):世界语之恋 世界语之父柴门霍夫博士 柴门霍夫(Zamenhof)博士创造完世界语后,并没有马上发布,而是用世界语自己跟自己说话和著述了好多年,烂熟于心。 我刚开始接触世界语,就一见钟情,堕入爱河,有诗为证: Al Nia Kara Lingvo La lingvo gracia, kara mia, Ghis k ...个人分类: 立委科普 | 1126 次阅读 | 没有评论 分享 《朝华午拾:一夜成为万元户》 2009-12-13 18:11 我1986年硕士研究生毕业留语言研究所,受到导师器重,春风得意。除了组里的日常研究开发外,每个周末都泡在所里,干些自己感兴趣的项目,都与世界语(Esperanto)的研究和应用有关。第一个项目是把自己的硕士毕业设计从封闭系统转为开放系统。这是我用BASIC编写的一款从世界语自动翻译成汉语和英语的系统 ...个人分类: 立委科普 | 1536 次阅读 | 1 个评论 分享 《朝华午拾:“数小鸡”的日子》 热度 1 2009-12-13 18:06 这是一个很久远的动人故事,只是结局有些让人扫兴。说是一位爱幻想的村姑,左手一只老母鸡,右手一篮子鸡蛋,走在冰天雪地里。她开始幻想这些鸡蛋都孵出小鸡,小鸡长大又下更多的蛋,这些蛋再孵出更多的小鸡,直到她拥有了全世界。她正数小鸡数不过来,一不小心滑倒在地,鸡飞蛋打。 太太最近问我:“我们上次数小鸡 ...个人分类: 立委科普 | 1448 次阅读 | 4 个评论 分享 《朝华午拾:我的考研经历》 2009-12-13 06:14 立委按:这是我《朝华午拾》怀旧系列的第一篇,从此一发不可收。回想起来,人的一生,高考和考研的“跳龙门” 确实是命运的根本转机。最近探亲,老哥和师姐都跟我说,同辈人后来的生活道路,大多在冲刺龙门的那一刻就注定了。这很不公平,因为很多同学所具有的才干和潜力,应试教育是不能全面衡量的。但是,社会就是这样 ...个人分类: 立委科普 | 4665 次阅读 | 10 个评论 【立委科普:机器翻译】 2009-12-13 04:09 MACHINE TRANSLATION By Wei Li liwei999 AT gmail.com (In GB code) 本文是作者应约为科技辞书写的辞条, 现略加修改, 力求深入浅出, 既反映本学 科的最新发展水平, 又能让一般读者容易理解。 立委 一九九六年六月二十五日 于 加拿大温哥华 -------------------------------------------------- ...个人分类: 立委科普 | 1982 次阅读 | 没有评论 分享 【立委科普:信息抽取】 热度 1 2009-12-12 08:35 【立委科普:信息抽取】 (13618 bytes) Posted by: 立委 Date: August 10, 2007 10:31AM 作者:立委 前言 信息这个词对大家都不陌生,因为我们处在一个信息爆炸时代。事实上,如今internet上信息是如此的泛滥,鱼龙混杂,以至于当我们搜寻资讯的时候,常常有大海捞针的感觉 ...个人分类: 立委科普 | 2681 次阅读 | 4 个评论 分享 《朝华午拾:信息抽取笔记》 热度 1 2009-12-12 08:33 《朝华午拾:信息抽取笔记 — Julian Hill Entity Profile 的形成》 作者:立委 在我的科研生涯中,有些插曲很有意思。关于 Julian Hill 的故事就是其一,这段故事成为我们研究组推介所谓实体概览(Entity Profile)的概念和功能的经典例证。 那是七八年前,我涉入信息抽取领域不到两年,同时主持两个信息抽取 ...个人分类: 立委科普 | 1721 次阅读 | 1 个评论 分享 《朝华午拾 - 水牛风云》 2009-12-11 17:33 朝华午拾 - 我的世界语国(五): 水牛风云 作者:立委 纽约州水牛城是我来美奋斗挣扎了八年的地方,我的世界语国也经历了许多的风雨起伏。 我是在美国网络热潮中来到这家创业公司的(见 《朝华午拾-创业之路》 )。在世纪末网络泡沫破灭之前,我协助老板获得了1000万美元的风险投资。钱一下多得好像永远用不完 ...个人分类: 立委科普 | 1983 次阅读 | 没有评论 分享 《朝华午拾:用人之道》 2009-12-11 17:20 朝华午拾-水牛风云(二):用人之道 作者:立委 上次说到,上个世纪末美国也来了一场大跃进,网络狂热促使我们这样的小公司疯狂扩招。我的研发组一下子多了十几个兵,再加上七八个实习生,从未当过经理的我,一时有点手足失措。我于是抓紧培养 team leaders, 好帮助我管理这个团队。研发研发,研究开发,研究主 ...个人分类: 立委科普 | 961 次阅读 | 没有评论 分享 《朝华午拾:创业之路》 热度 1 2009-12-11 04:23 1996年11月来到B城,发现自己是公司的第二号员工。第一号是一位富有经验的瑞典籍的软件工程师,为人朴实,是很好的合作伙伴。印度女老板是大学教授,很有修养和风度,待人热情和气。当时正赶上美国网络热潮,股市狂涨,高科技项目成为宠儿。网络泡沫最盛的时候,总使我想起国内的大跃进。不怕做不到,就怕想不到。各种概念型 ...个人分类: 立委科普 | 3298 次阅读 | 4 个评论 关于李维 豆油里面到底有没有转基因?Yes or No? 李维先生: 我不得不说你几句了。 在转基因食品的大数据输入问题上, 不少网友指出了你输入的数据是伪数据, 我没有进来说什么。 现在你又来说什么转基因大豆油的问题了。 尽管你是Simon Fraser University的信息科学博士,我也确信你是那个领域有水平的学者。 但不得不说,在分子生物学和遗传工程领域, 你的知识与一般的大学本科的学生没有什么区别。你要在这个领域里指教别人, 其结果就步崔永元的表演,现在崔永元已经下不了台了。 所以我奉劝你不要不在不是自己专业的领域内指教别人(我没有在大数据里多发表自己的看法, 因为这不是我的专业), 还是找这个专业的专家多请教一下比较好(我决没有指责你的意思, 完全是好言相劝)。 现在就转基因大豆油给你说几句吧。 1. 所有的食用油都要经过一个精炼去除杂质的程序, 其中一个精炼程序就是用水来萃取所有的水溶性杂质, 转基因所产生的BT蛋白(对玉米油和菜籽油-conola)以及大豆里的转抗除草剂草甘膦的蛋白,是水溶性的, 都被水带走了, 在油相里是没有转基因的BT蛋白和除草剂草甘膦的蛋白, 在用PCR扩增技术(我没时间给你解释PCR了), 也基本检测不出BT基因和和除草剂草甘膦的基因和它们的片段碎片(武汉的油料作物研究所采样上百批, 只在个别样品中检测到痕量的转BT基因的残片)。 所以你的标题“豆油里面到底有没有转基因”,让内行人看了很搞笑的 2. 你说的“玉米的问题 ,主要用途也是榨油和提取淀粉、造酒精,不是作为主要食品”也是很搞笑的。 我可以告诉你转基因玉米的淀粉和高果糖糖浆里都含有BT蛋白的, 甚至你在美国经常吃的corn chip里也含有BT蛋白的, EPA有检测Corn chip 里面BT蛋白的含量报告。 你吃的很多玉米食品, 如Corn Muffin等等都有BT蛋白在里面的。 美国的甜玉米, 50%是转基因的, 在groccery 和路边小摊(农贸市场)上卖的甜玉米都是转基因的。 美国90%以上的速冻甜玉米粒(我想你经常在吃吧)和罐装玉米粒基本都是转基因甜玉米做的。 美国的软性饮料可乐, 雪碧, 7-up,雀巢/麦氏咖啡里面的甜味都是加转基因玉米糖浆来的(这就是可口可乐,pepssi,雀巢咖啡等公司在加州是否要做GMO标识时, 给了很多钱来反对反转分子的主要原因0, 否则所有的软性饮料和咖啡的包装上都要印上GMO可乐或GMO雪碧, 或GMO雀巢的标识了。 如果有人说我不吃加了转基因玉米糖浆的可乐, 我只吃diet 可乐或雪碧, 那么我告诉你, diet可乐里面加的甜味素阿斯巴也是转基因的产品, 比转基因玉米还要“可怕”, 是从大肠杆菌里提炼出来的 。 麦当劳,Berger Kin(估计你吃了不少)的Big Mac 和whopper 来说, 把肉末黏在一起的淀粉就是转基因玉米的淀粉(里面 含有BT蛋白)。 美国人每天都要吃蔬菜沙拉, 上面浇的Drressing(就是中国人说的浇头)都是用转基因的豆油,或玉米油,或canola(菜籽油)配制的。。 所以你说美国人不吃转基因玉米食品,可能是你自己不了解事实, 无怪乎人家说你的大数据输入是伪数据, 结论没有意义。 我告诉你吧, 美国的玉米总产量中有21%的玉米是生产食品的, 大部分都是美国人吃掉了。 我讲的上面情况,还没有包括转基因大豆和玉米做饲料喂出来的几十万亿头的家畜家禽。 抱歉, 没有指责你的意思, 就是提供一些信息供你参考。 祝你元旦快乐 博主回复(2014-1-1 03:07) : 有谁不匿名指责伪数据么?跟匿名我怎么玩呢。 伪数据?笑话嘛,那个数据根本不是我掌控的,怎么伪? 那是我们的客户情报系统所要求的社会媒体index,顺便拿来测一下社会媒体的转基因形象。你倒跟我说说,我怎么“伪”它。 博主回复(2014-1-1 03:02) : 镜子呢?大新年的。 你的所有问题,都是镜子惹起的。他的名字叫横扫。 而我不懂转,只懂大数据和语言学。
个人分类: 科网群英烩|4 次阅读|0 个评论
看望导师刘倬先生,中国机器翻译的开山鼻祖之一
热度 1 liwei999 2013-4-3 06:43
1991 年出国前与刘倬导师和爱平大姐合影留念 来前就跟爱平大姐联系,说请安排一起去拜访我们的导师刘倬老先生。大姐说,刘老先生80高龄,刚做了手术,如果术后身体还好,我们就去医院探视。 于是,科学院讲演和午餐完,就去医院,看到刘老师精神蛮好,恢复不错,感到宽慰。我们闲谈了一些NLP的过去和现在,刘老师当年开创的一套模式匹配的分析方法,从本质上至今依然有效,可以在大数据时代发挥作用。今非昔比,如今的计算机软硬件鸟枪换炮,大数据时代的到来,使得NLP在亿万文档上施行。Size matters,奇迹在量变中发生,我们正在创造和见证这种奇迹。而这一切都离不开恩师当年的栽培和教诲。 不能忘记当年硕士毕业留语言研究所,与爱平大姐一起,在刘老师的带领下,研发机器翻译系统的经历。刘老师亲自设计实现一套NLP专用语言,从解释器到控制器,从专家词典(个性规则)到句型转换(共性规则)的系统架构和流程,这些凝结了几十年MT探索的设计思想和算法,全在刘老师的掌控之中。刘老师还有一个绝技,就是不借用任何工具,可以凭着自己苦思冥想找到系统问题的所在。常常是,系统有一个 bug,刘老师晚上就睡不着,程序就在脑子里绕,常常半夜捉住了bug,第二天迫不急待上机试验,问题往往得到解决。也有隐藏太深的 bug,头脑绕不出来,于是大姐和我就帮着刘老师“人工串图”,有时候要一步步串好几天才发现逻辑漏洞,那种高兴,跟打了一场胜仗似的。如今的软件工程师大概很难想象在没有任何debug工具的环境下,怎样开发系统,可当年刘老师带领我们就是这么磨出来的。 以前提过,中国NLP新一代思维开阔活跃,与世界接轨,后生可畏。可NLP领域统计一边倒的现状使得语言学派的传承几乎遭遇断层。从我的两位导师刘涌泉和刘倬老前辈在上个世纪50年代末开创了中国的机器翻译事业以来,董振东前辈是一面旗帜,他的【译星】是一个里程碑,第一次把实验室的原型系统转化成了工业产品。译星之后,刘老师和董老师、爱平大姐和我,与中关村高立公司合作,招收了一批清华新毕业生,共同打拼,在刘老师设计的以专家词典(expert lexicon)为基础的系统原型上,研发下一代机器翻译系统。这套系统是中国NLP历史上第二个有影响力的工业产品。 1991年与刘老师(下左2)、董老师(下右1)、爱平大姐(上右2)在中关村高立公司 在刘老师指导下的这些研发经历,成为我一生的宝贵财富。天不变,道不变;天变了,道亦不变。留洋了,镀金了,眼界开阔了,对不同方法的优劣比较了解了。但语言处理里面的一些核心思想并没有过时。我以二刘老师和董老师的嫡系传人而骄傲。 我跟刘老师说,如今大数据了,我们可以利用云计算,租用几百台虚拟机,对海量数据进行并行处理,对上亿的文档做深层语法分析,抽取舆情挖掘所需要的情报。这样的规模是当年不敢想象的。正因为有大数据天然的信息冗余及其 scale up 的处理能力,我们挖掘的情报质量,从用户体验上看,无论精度(precision)还是广度(recall)都得到了的大幅度提高。以前看上去无解的难题,譬如捕抓舆情动态,回答why和how这样的问题,如今都取得了实用性的突破。 谈话间提到,刘老师的学生还在做NLP的,除了学界象大姐这样的,流出去的大概我是唯一幸存的了。刘老师说,应该还有李卫东,他在IBM做NLP的,至少上次刘老师和熊老师访问美国的时候,刘老师这位得意门生还在做NLP,可掐指算来刘老师那次北美之行已经是20+年前了。我不敢肯定这位特别聪明的学长是不是还在这一行。 刘老师术后不让进食,身体还是很虚弱,我们怕影响刘老师的康复,一个小时后就告别了。遗憾的是,匆匆来去,没能与刘老师合个影,主要是觉得在医院病床前不大方便,没好意思提。上次董老师来拜访刘老师的时候,刘老师身体很好,两位NLP老前辈畅谈了好几个小时。 祝刘老师很快康复,健康长寿。 2001 年与刘老师在尼亚加拉大瀑布合影 2001 年与刘老师、师母及全家合影 博主回复(2011-12-10 19:14) : 我当年读我导师的论文就很头大。可是他那论文多是干货,跟马鞍山采石干子似的,耐嚼。当年读了多少遍自己都忘记了。 老先生当年在业内就很受景仰,毕竟有硬通货。可是当年景仰他的人,一多半根本看不懂他在说什么。 这是一个很奇特的现象,一半是老先生不善于科学普及,另一半也许是老先生确实没有多少时间,也不屑于鸡毛蒜皮。 这些都是NLP的掌故了。
个人分类: 立委随笔|8013 次阅读|1 个评论
《多语言领域本体学习研究》勘误表
热度 4 timy 2012-12-2 10:28
序号 章节页码行号 原文 修改后 发现日期 指出人 1 P48 ,公式( 3-5 ) , 倒数第二行 Dice(C,E)=2a/((a+b)(a+c)) Dice(C,E)=2a/(2a+b+c) 2012,02.27 博主 2 P75 ,表 4-7 最后一行 0.84144 0.75648 0.79508 0.84036 0.75225 0.79211 2012.11.30 博主 3 P76 ,表 4-8 倒数第 6 行 0.84144 0.75648 0.79508 0.84036 0.75225 0.79211 2012.11.30 博主 4 P76 ,表 4-9 第 2 行 0.81183 0.63934 0.71136 0.82852 0.62701 0.71007 2012.11.30 博主 5 P173 ,表格最后两行 倒数第二行数字,倒数第一行说明 将倒数第一行和倒数第二行互换 2012.12.1 博主 6 P174 ,表格最后两行 倒数第二行数字,倒数第一行说明 将倒数第一行和倒数第二行互换 2012.12.1 博主 7 P177 ,附表 12-6 最后一行 0.80098 0.7422 0.76851 0.84036 0.75225 0.79211 2012.11.30 博主 8 P179 ,附表 12-16 最后一行 0.8285 0.6270 0.7101 0.82852 0.62701 0.71007 2012.11.30 博主
个人分类: 信息组织|4539 次阅读|11 个评论
【立委随笔:NLP 的童子功】
热度 8 liwei999 2012-11-24 08:51
【立委随笔:NLP 的童子功】
“NLP 不是魔术,但是,其结果有时几乎就是魔术一般神奇。” 引自: http://www.confidencenow.com/nlp-seduction.htm 作为一个领域,NLP( Natural Language Processing , 自然语言处理 )在过去20年发生了翻天覆地的变化。这种变化伴随着电脑和互联网及其社会媒体的飞速发 展,使得 NLP 从高深的人工智能研究转变为近在咫尺的实用技术,以其各种应用,从机器翻译到智能秘书(如 Siri),正在造福亿万用户,而这仅仅是技术改变信息世界的开始。可以预见,今后20年将是NLP技术和应用的黄金时期,信息技术的创新和新一代人机互动离不开NLP。 另一方面,NLP 教育的缺失和断层也凸现出来。由于NLP领域一边倒倾斜于机器学习的方法论,新一代 NLP 从业人员普遍缺乏语言学的培训,缺乏对语言现象的多层次把握,他们追随国际潮流,花样翻新地尝试各种机器学习的新算法及其实现技巧,从而忽略了语言本身的复杂性及其问题领域的把握。算法有余而语言不足是新人普遍表现出来的NLP营养缺乏症。机器学习把一切智能过程看做黑匣子的方法论,在特定的任务和特定的条件下确实可以创造语言应用的奇迹,然而对于计算语言学教育,却带来了种种局限。培养出来的人重普适,少专才。NLP 博士可以不做语言,而去华尔街做金融系统。可是当面对语言问题的方方面面,他们的知识往往失之肤浅。典型的情形是,研究生教育阶段,他们下载过不同数据,尝试过不同项目,譬如训练出一个词性标注(POS:Part of Speech tagging)系统,实现过一个狭窄领域的褒贬分类的系统(譬如影评),做得好的甚至利用某现成的句法分析器(parser)去实现某种超越关键词分析或浅层分析的复杂语言系统,施行语义角色标注(semantic role labeling)或词义辨识(WSD:Word Sense Disambiguation)。可是,纵观这些培训项目的过程可以发现,这些项目强调的不是对语言和语言学的理解,受训者只是隔雾看花,语言的千变万化和多姿多彩被隐含在海量数据(labeled corpus)或者第三方的工具(如下载来的 parser,POS tagger,or morphology analyzer)之中。其结果是,他们缺乏解决复杂任务所需要的底蕴和对语言现象的控制能力。 这种营养缺失和语言学田野训练的断层在国内尤其严重。曾经与国内信息产业重量级人物谈过此事,他们千辛万苦追求人才到海外,我问:NLP 是朝阳领域,国内专于此项研究的教授和研究生越来越多,已经有相当规模的学业基础,在国际学界发表的论文数也直线上升,与我们当年入行时的隔离局面和手工业局面有天壤之别。怎么就要到海外来延揽人才,不能就地取材呢?回答是,领军人才真地是难寻,我们遴选面试了成百的国内优秀人才,还真地就是找不到合适的。大部分人才都缺乏某种东西。对NLP应用貌似有宏观把握的高级人才往往不 hands-on,遇到多变复杂的具体问题,缺乏具体的应对和实现措施。而对语言现象和语言学有深入了解和丰富经验的人,往往又跟不上时代,过于迂腐,难以在全局中对项目定位。总之是上去的人下不来,下面的人又上不去;文科的人太傻,理工的人太呆,此乃交叉学科之痛。 交叉学科之痛是普遍存在的。人无完人。文理两全不呆不傻的人比熊猫还珍贵。除了熊猫,文理全才据说只剩下方博士和镜子大师了,均属可遇不可求见首不见尾的人物。但NLP的知识和人才断层却不仅仅是交叉之痛,而是一个更为普遍的学科倾斜的后果。如果新一代的导师(我们的同辈或晚辈)由于学界潮流的影响(非统计方法的论文基本上无从发表),忽视了语言学,怎么能指望他们的学生可以接受全面的培训呢?取法乎上仅得其中,什么环境造就什么人才。 笔者认识一位美女文学家,电影明星出身。多数人的偏见都是,凡美女明星,难得文采。而文采斐然的女作家,则往往其貌不扬。她却是一个罕见的例外。原来她的明星之路实属偶然,而她的书香门第和特殊家教从小培养了她引为骄傲的“童子功”。这种文字的功力,加上她驰骋的文艺想象力,在她息影以后成就了她作家的道路。回到本文的主题,笔者以为,NLP 教育的缺失和断层很大原因也是一种语言学童子功的失传。 从这一点看,我们这一辈是幸运的。我们的导师都是语言应用的大师,我们一入行接触的就是当时国内顶尖的几位语言应用泰斗(刘先生、董先生等前辈),他们经历了几十年传统机器翻译的历练。回想起来,传统的机器翻译真是一个绝佳战场,在这里小鬼可以磨练成将军,童子功的传承即在此磨练之中。与现在流行的统计机器翻译不同,传统的 机器翻译 把语言掰碎了来分析(源语分析),然后做词汇意义 和 逻辑语义 的转换,最后还要把语言碎片重新拼接成语言的表达(目标语生成),这等于孙悟空 钻进语言的肚子里面大闹天宫,也好比大圣 被扔进语言学的熔炉里冶炼成火眼金睛。这样的培训最见 NLP 童子功。现在的 NLP 学生,还有多少人能有这样的环境、机会和耐心呢? 【立委名言:技术改变世界,甚至总统】 【相关篇什】 【立委科普:NLP 联络图 (之一)】 《OVERVIEW OF NATURAL LANGUAGE PROCESSING (1/5)》 【立委科普:机器翻译】 【立委随笔:机器翻译万岁】 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|8034 次阅读|9 个评论
把酒话桑麻,再泡一壶茶,白头老机译,闲坐说研发
热度 1 liwei999 2012-11-12 15:44
提上来:把酒话桑麻,再泡一壶茶,白头老机译,闲坐说研发 这两天要写的话题太多,怕断了线。 日期: 11/12/2012 01:41:12 把酒话桑麻,再泡一壶茶,白头老机译,闲坐说研发,说一点儿机器翻译的掌故吧。 曾几何时,机器翻译处于手工业研发时期,每个语言对(language pair)要手工开发两套系统,A 到 B 一套,B 到 A 一套,语言对一多就有一个貌似系统数量组合爆炸的问题(n 个语言需要编制 n**2 套系统)。 于是,怎样实现多套语言之间的相互翻译成为机器翻译领域的经典话题之一。各种探索和方案都有提出,主要有两类:一类是所谓基于媒介语的设计思想;另一类是合一文法(unification grammar,又叫 constraint-based grammar)支持的方案。第一种方案很动听,因为如果有一种比较中性可以表达意义的媒介语,那么每个语言只要编制两套针对媒介语的互译系统,就可以实现通过媒介语而成的任意语言对的翻译(采用媒介语,n 个语言只需要编制 n(n-1)/2 套系统)。 媒介语这幅图画是如此美妙,为老一辈机器翻译宣传家门所津津乐道。由此而来又引发了媒介语设计和选择的种种争论和探索,有主张全新设计一套基于逻辑的形式语言(日本曾经联合亚洲其他国家实施过这个方案),有主张利用或者改造世界语(Esperanto,立委出道当年也曾著文鼓吹过世界语作为媒介语,荷兰一家公司BSO也曾尝试过),还有研究者坚持认为只有采用自然语言(譬如英语,或者简化版英语)做媒介语才现实可行。 第二类合一文法的研究在理论上也很诱人,它的兴起与新型计算机语言 Prolog 紧密关联:合一运算是 Prolog 语言的内置特性。所谓合一文法,就是排除蕴含在传统计算文法(computational grammar)里面的语言分析和生成的过程性,把语言规则的条件表达为对于语言单位的不同features 的制约信息,这些 features 在语言的小单位逐渐组合成大单位的过程中不断融合,语言信息丰富起来,达成对语言的分析结论。 在合一文法的旗下出现过一系列以后缀G(gammar)命名的形式化系统方案(formalisms),如 GPSG,HPSG(立委的博士课题就是在HPSG这个框架下做的机器翻译实验)等。因为语言规则不再具有单向性,那么分析文法和生成文法就可以是同一套语法,由这套文法支持的系统是做分析还是做生成,是在文法资源被调用的时候才得以确定。理论上,A 语言翻译为 B 语言,与 B 语言翻译为 A 语言,在语言资源上归一以后,开发系统的工程就节省了一半,对于多语互译的效率虽然不如媒介语方案高,省工一半也还是非常诱人的。 长话短说,这两类方案都是传统的基于规则的系统,虽然都做过相当程度的研究探索,但最终由于局限于手工规则系统难以 scale up 而没成大气候,最终修成正果的还是后起的统计型机器翻译(statistical MT)。多语翻译的问题因此转化为海量双语对照语库的资源问题。同一个架构和算法,原则上只需要同一个双语对照语库对互译的两个方向训练两次即可生成两套机译系统。 机器翻译是一个相当特别的 NLP 应用,特别之处就在于海量 labeled data,即人工翻译双语对照库的普遍存在。它不但成就了统计型机器翻译这个方向,也在机器学习和传统规则系统的消长方面起了作用。据说,微软NLP研发方面资源调配的转机也是由机器翻译触发的。 微软的故事是这样的。在统计方法还没成熟的前机器学习时代,NLP 的主导自然是语言学家编制的规则系统,当时的争论和竞争不在用统计还是规则,机器学习还是手工编制,而是如何把规则与过程(算法)分开,因为早期的规则系统规则是直接编写到程序里面去的,非常不利于系统调试。当年做得最先进的规则系统之一是 IBM 的一帮(计算)语言学家,他们着重系统的鲁棒性,编制了一套 broad-coverage 的英语句法分析器(parser),并成功应用于对百科辞典中的定义的自动分析。具体细节忘了,总之是 IBM 的这些研究家的自动语言分析工作引起了比尔盖茨的兴趣和注意,当时微软正在处于爆炸增长期,野心勃勃,财力雄厚。于是盖茨把这个队伍挖过来成立了自然语言研究部。有微软帝国最高领袖的支持,这个部门大规模扩张,雄心勃勃开始了多语言并举的自动分析研究,正在加拿大攻读博士的立委当年也被 short-listed 去微软面试中文NLP研究的职位。这支队伍做出了一个非常具有观赏性质的语义表达系统,叫做 MindNet,该系统通过自然语言自动分析词典和百科全书的词条定义,挖掘出概念之间的种种语义关系,形成一个错综复杂概念网络,demo 起来令人印象深刻。可是,在很长一段时间,这个研究组没有找到利用 MindNet 解决实际问题的大规模应用,部分原因应该与 cyc 手工编制常识网络而无法应用的情形类似:overhead 大,功效却不大,因为用知识处理来支持智能系统的开发,相比把智能活动当成黑匣子的机器学习方法,既不够直接、鲁棒,又难以 scale up。总之 MindNet 没有大规模实用。另一方面,各语言的几年开发也都做出了自己的分析器(parsers),于是他们尝试利用这些分析器支持一些 NLP 应用,包括机器翻译,当然这些系统都还在实验室内,没有成熟到可以产品化的阶段。 时光荏苒,话分两头,(待续) 有意思的是,IBM 研究院的另一部分人是统计机器翻译的先驱,最早在实验室证明了统计机器翻译是可行的一个路子,当然当时的系统很粗糙,质量还是无法与传统的基于人工规则的机器翻译相比。 (未完, 写了一半太困就睡了,后来没顾上后续: 今后续不续看情绪吧) http://blog.sciencenet.cn/home.php?mod=spaceuid=362400do=blogquickforward=1id=631290 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|5241 次阅读|1 个评论
【立委随笔:机器翻译万岁】
热度 1 liwei999 2012-11-11 08:33
机器翻译能走到今天是我们当年做梦也想不到的:技术进步起来真是没边儿 日期: 11/10/2012 12:27:27 30年前,我在社科院硕士报考专业上填写了“机器翻译”四个大字,内心充满了敬畏和神秘感。刚入行的时候做的是外汉机器翻译,一直不大敢碰汉外,原因是汉语语法不好形式化,感觉太难了。 现如今,汉语语法形式化(除了正在进行的工作外,包括在下的系统)还真没有见到大规模能实用的。按照传统的转换式机译的路子,没有足够强大的汉语文法支撑的自动分析,汉外机器翻译必然寸步难行,因为汉语分析是前提,然后才是转换和生成。 可谁能想到,机器学习越来越牛。人工翻译的双语资料作为人类活动的副产品,几乎“天然地”源源不断而来,因此成就了统计型机器翻译的飞跃式突破。什么分析,什么生成,统统绕过去,基本就是靠双语对照的记忆,直接施行转换。 Google Translate 因此可以在同一个模型架构下,支持几十种语言的互译。这简直就是神迹,可却是技术的事实。 不要着急批评它翻译得不准确、不恰当什么的。想想吧,现在遇到任意一个网页,任何一种语言,只要轻轻按一下鼠标,就立即翻译过来了。译文再不济,也给你个大概齐,不仅立等可取,而且完全免费。(说句老实话,电脑翻译再不济,也比你学两年外语,带上词典死磕往往还要强一些。) 除了天堂,天下哪里有这样的美事? 把酒话桑麻,再 泡一壶茶, 白头老机译,闲坐说研发, 说一点儿机器翻译的掌故吧。曾几何时,机器翻译处于手工业研发时期,每个语言对(language pair)要手工开发两套系统,A 到 B 一套,B 到 A 一套,语言对一多就有一个类似系统数组合爆炸的问题。于是,怎样实现多套语言之间的相互翻译成为机器翻译领域的经典话题之一。各种探索和方案都有提出,主要有两类:一类是所谓基于媒介语的设计思想;另一类是合一文法(unification grammar,又叫 constraint-based grammar)支持的方案。第一种方案很动听,因为如果有一种比较中性可以表达意义的媒介语,那么每个语言只要编制两套针对媒介语的互译系统,就可以实现通过媒介语而成的任意语言对的翻译。这幅图画是如此美妙,为老一辈机器翻译宣传家门所津津乐道。由此而来又引发了媒介语设计和选择的种种争论和探索,有主张全新设计一套基于逻辑的形式语言(日本曾经联合亚洲其他国家实施过这个方案),有主张利用或者改造世界语(Esperanto, 立委出道当年也曾著文鼓吹过世界语作为媒介语,荷兰一家公司BSO也曾尝试过 ),还有研究者坚持认为只有采用自然语言(譬如英语,或者简化版英语)做媒介语才现实可行。第二类合一文法的研究在理论上也很诱人,它的兴起伴随着新型计算机语言 Prolog 问世:合一运算是 Prolog 语言的内置特性。所谓合一文法,就是排除蕴含在传统计算文法(computational grammar)里面的语言分析和生成的过程性,在合一文法的旗下出现过一系列以后缀G(gammar)命名的形式化系统方案(formalisms),如 GPSG,HPSG(立委的博士课题就是在HPSG这个框架下做的机器翻译实验)等。因为语言规则不再具有单向性,那么分析文法和生成文法就可以是同一套语法,由这套文法支持的系统是做分析还是做生成,是在文法资源被调用的时候才得以确定。理论上,A 语言翻译为 B 语言,与 B 语言翻译为 A 语言,在语言资源上归一以后,开发系统的工程就节省了一半,对于多语互译的效率虽然不如媒介语方案高,省工一半也还是非常诱人的。长话短说,这两类方案都是传统的基于规则的系统,虽然都做过相当程度的研究探索,但最终由于局限于手工规则系统难以 scale up 而没成大气候,最终修成正果的还是后起的统计型机器翻译(statistical MT)。多语翻译的问题因此转化为海量双语对照语库的资源问题。同一个架构和算法,原则上只需要同一个双语对照语库对互译的两个方向训练两次即可生成两套机译系统。 机器翻译 (MT)是自然语言处理(NLP)领域历史最悠久的应用方向,从上个世纪50年代初发轫,承载了中外几代不知道多少人的青春和梦想,也包括青年时代的立委。如今,梦想化为现实,嵌入式机器翻译在互联网无孔不入,已经成为普罗大众手中招之即来挥之即去的便捷工具,每时每刻在默默服务着千百万互联网用户。女儿学汉语用它,学西班牙语用它,去日本动漫网页也用它,用到对它熟视无睹,把机器翻译视为理所当然。只在翻译错得离谱的时候才意识到它的存在,不时报以嘲讽:真笨。可机器翻译呢,谦谦君子,玉树临风,虚怀若谷,任劳任怨。对于已经天然成为女儿这代人生活一部分的机器翻译,我满腹机器翻译的历史和掌故,却不知如何给她诉说。耳濡目染,她从我断续的话语中似乎隐隐觉得机器翻译对于她父亲的一生具有特别的意义,可是我还是无法象对同辈人那样娓娓道来,如数家珍,传达出我内心深处的机器翻译所蕴含的那份厚重和神圣。不仅仅是一般意义上的代沟,是技术的跨越式发展造成了两代人迥然不同的视角,让人欣慰更感慨。 昨天晚上心血来潮,突然想到我的 NLP “ 超级科普 ”,应该也用英语写出来。可是一想到要一句一句重新来过,就发怵,打退堂鼓。又一想,better sth. than nothing,何不就用 Google 汉英机器翻译打个底子,然后顺一顺不就成了?这样做法当然不如自己重写或者自己完全手工翻译来得顺溜(flow),但省下时间 to kill kill 也还是值得的。 于是就有了这篇 OVERVIEW OF NATURAL LANGUAGE PROCESSING (1/5) 。不到一晚上的功夫就搞定,不禁高呼:机器翻译万岁! (等闲来再进一步顺顺,改改语法修辞错) 另:如果你忍受不了机器译文的粗糙和歪曲,请无视它,不必抱怨,多存感恩之心。不仅仅因为它是免费的,更主要的是,机器翻译在目前的功能主要是为不懂英文的人解燃眉之急,给个大概印象,不至于两眼一抹黑。我个人的观察是,有两种人会欣赏或感激机器翻译,一种是不识英文的网虫,终于全世界的网络对他/她开放了,有盲人重见光明、遵义会议遇到毛委员的喜悦;另一种是立委这样的机器翻译化石级元老,因为做过,知其艰辛,不得不为技术进步鼓与呼 。何况使用得当的话,它的确是辅助翻译的省时利器。毛主席保证,没有自动翻译平台的辅助,我根本不会做任何翻译工作了,他至少节省了很多词典查询的时间。 【姐妹篇】【立委科普: 机器翻译 】 http://blog.sciencenet.cn/home.php?mod=spaceuid=362400do=blogid=631251 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|6585 次阅读|2 个评论
【研发笔记:粤语文句的情报挖掘】
热度 4 liwei999 2012-9-28 07:50
【研发笔记:粤语文句的情报挖掘】
在研发社会媒体舆情挖掘的中文系统过程中,遇到一些粤语的帖子,看上去似懂非懂的。从机器处理角度来看,方言与行业用语类似,算是一种子语言(sublanguage),可以看作是普通话的变体。其中绝大多数的区别在词汇层,句子结构大同小异。于是决定采用先把粤语文句自动翻译成普通话的方法,然后再 feed 到普通话的主体系统去做分析和挖掘,这样比较简便可行,系统接口清晰,主体中文系统无需改变即可识得广东话。研发一个句对句自动翻译系统作为前处理太过繁难,对于子语言而言,有些牛刀宰鸡了。于是决定退回到上个世纪50年代的词对词第一代机器翻译(word-for-word MT)的路子上来(见【 立委科普: 机器翻译】),再加上一点儿有限语境消歧(local context disambiguation),应该是可以基本满足要求的:我们不追求完美的翻译,只要翻译过来的普通话大体可读就差不多了。这样的项目不大不小,需要语言数据分析,编写机器翻译词典,上机调试,正好适合做研究生的暑期实习。一个暑假下来,在指导暑期实习生的过程中,我这个原来对粤语一窍不通的语言学家,也差不多成了一个半吊子粤语实践者了:虽然不会发音,但看文字大体89不离10了,也算是收获。从系统来看,这个项目完成得不错,编写了一部6000多词条的机器翻译转换(翻译)词典,增加了两个粤语上下文规则的小模块,加上编写出一个粤语识别的程序,可以宣称支持粤语这个子语言的处理和舆情挖掘了。测试结果看也很不错,可以对付80%以上的粤语现象,今后的工作主要是词典维护和在调试中慢慢提高质量(incremental enhancement),无需大手术,感觉对这个方案的设计和执行基本满意。 由于我们的系统是面对社会媒体,粤语处理的难度比传统媒体(譬如香港、广东的地方报纸上的文字)大了很多。很多粤语特用的汉字在社会媒体上都是别字,很多人为了打字方便,就胡乱用别字代替(如 【既】 代替 【嘅】,【系】代替【喺】,【左】代【咗】, 【 比 】 代 【 俾 】 , 等等),只要读起来差不多音的,怎么方便怎么来,简直是随心所欲 ,没有什么规范。最头疼的是这些别字往往是普通话里也常用的汉字,这造成了很多歧义。经过努力,我们还是基本搞定了这些混淆杂乱的粤语社会媒体的自动规整和翻译的工作。 下面演示一些粤语帖子的自动翻译实例: 點解學生就要平比佢?佢地咩資格去玩器材 佢呃人你又知 搏大霧哩樣野真係唔要得、有欺詐成份 佢話你知? 反正你咁八又要投訴, 點解唔問下當時人 4s冇啦啦壞左 係咪架, 睇下先 好似幾靚, 快啲俾我睇 琴日係唔知邊到早就見到,我仲以為又係fake 官網既可信性好高 而且 Apple 不嬲都唔會一早更新定網站 作為iphone的fans明知是呃錢也會買的 估佢唔到 真係唔講都唔知 有冇多d 所以~佢應該食埋煙 咁樣佢會變成炸蛋人架喎 香港迪士尼真係睇唔到有咩前景 ======》 为什么學生就要平比他?他们什么資格去玩器材 他骗人你又知 混水摸魚这样东西真是要不得、有欺詐成份 他告诉你? 反正你这样八又要投訴, 为什么不問下當時人 4s无端壞了 是不是架, 看下先 好像蛮漂亮, 快一些给我看 昨日是不知哪里早就見到, 我还以為又是fake 官網的可信性好高 而且 Apple 向来都不會早就更新定網站 作為iphone的fans明知是骗钱也會買的 估他不到 真是不講都不知 有没有多d 所以~他應該吃完煙 这样樣他會變成炸蛋人架喔 香港迪士尼真是看不到有什么前景 下面是粤语帖子大体转化为普通话以后的的自动句法分析而得的树形图演示: 最后是从粤语帖子中挖掘出来的关于产品/品牌的客户评价或舆情: 乌拉,#we support 粤语# 拉!~ #NLP #IE #AI #Cantonese @52nlp @liwei999 @米拉宝鉴 @立委 有老友提供了地道的人工翻译,谨致谢忱。 帮你翻译一下 日期: 09/28/2012 00:02:02 點解學生就要平比佢?佢 地咩資格去玩器材 为什么是学生就得给个便宜价格?他们(有)什么资格去玩器材? 佢呃人你又知 他骗人你也知道? 搏大霧哩樣野真係唔要得、有欺詐成份 蒙混过关这样的行为真是要不得,算是欺诈行为 佢話你知? 他告诉你的? 反正你咁八又要投訴, 點解唔問下當時人 反正你那么八卦(罗嗦)又要投诉,为啥不去问下当事人? 4s冇啦啦壞左 4s无缘无故坏了 係咪架, 睇下先 是不是的啊?看看先 好似幾靚, 快啲俾我睇 好象挺漂亮,快点给我看 琴日係唔知邊到早就見到,我仲以為又係fake 昨天在某个地方早就看到过了,我还以为又是fake的 官網既可信性好高 官网的可信度很高 而且 Apple 不嬲都唔會一早更新定網站 而且Apple 从来都不会提早更新好网站 作為iphone的fans明知是呃錢也會買的 作为iphone的fans明知是骗钱也会买的 估佢唔到 猜不到他(以后的行为) 真係唔講都唔知 真是(别人)不说(我)都不知道 有冇多d 有没多一些啊 所以~佢應該食埋煙 所以,他应该也学会吸烟 咁樣佢會變成炸蛋人架喎 这样他会变成炸弹人的啊 香港迪士尼真係睇唔到有咩前景 香港迪士尼真是看不到有什么前景 对比一下机器的翻译质量。。。 【相关】 测试粤语舆情挖掘:拿娱乐界名人阿娇和陈冠希开刀 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|8648 次阅读|4 个评论
《科普随笔:keep ambiguity untouched》
liwei999 2011-10-14 17:52
《立委随笔:keep ambiguity untouched》 (788 bytes) Posted by: 立委 Date: April 27, 2007 06:09PM 机器翻译:至美必在其中。 (22347) Posted by: liwei999 Date: September 19, 2006 12:15AM 冰冰说: 馒头的翻译:茶之至美则必在其中矣。 藕修改后的翻译:茶道必有至美匿于其中。 原句 The truly beautiful must always be in it 要我说,你们两位都对,都不全对。不全对的地方有相同的原因:自作聪明。 还是第一次看见掐架双方一个劲地说对方正确自己错了: “你有道理” “你没错” 文明礼貌至此,语言学者想批评,都不好意思了。 我们做机器翻译的有一个原则,叫做:keep ambiguity untouched (as much as possible),这样才可以立于不败之地。The key 是不要自作聪明。 举个例子吧: A and B of C 怎么翻译? 很多人翻译成:甲和丙的乙 另有很多人翻译成:丙的甲和乙 争论不已,又不懂文明礼貌,搞不好伤了和气,丢了朋友。 机器翻译就绝不会有这个麻烦: 丙的乙和甲 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|5847 次阅读|0 个评论
[转载]再转一篇导师最近的短文:Google翻译器 VS Baidu 翻译器
热度 1 liwei999 2011-8-2 14:33
Google 翻译器 VS Baidu 翻译器 1954 年美国乔治敦大学,在 IBM 公司的支持下,进行了第一次机器翻译试验,把俄文译成了英文。五年之后, 1959 年中国试验成功了俄汉机器翻译。当年,由于计算机软硬件能力有限,只能在有限的范围内进行很简单的翻译试验。如今,机器容量和速度已不成问题,翻译能力大增,在线翻译也已实现。但总的说来,还有不少问题。例如, Google 的翻译工具,把 I don’t go to the party 和 I didn’t go to the party 都翻译成 “ 我没有去参加派对”。 最近, Baidu (百度)也推出了一种翻译工具。上述两句话分别译成“我不去参加派对”和“我没有去参加派对”。在这一点上, Baidu 比 Google 技 高一筹。 然而,在其他一些例句中,两个系统的翻译效果各有千秋,请比较: 1) I played basketball at school this morning. 我打了今天上午在学校的篮球。 我在学校打篮球,今天上午。 我今天上午在学校打篮球了。 This morning I played basketball in school. Today I am playing basketball at school. 2) This black granite wall includes the names of over 58,000 American soldiers who died or disappeared during the Vietnam War. 这个黑色花岗岩墙包括超过 58,800 人死亡或在越南战争期间失踪的美国士兵的名字。 这个黑色的花岗岩壁包括姓名,超过 58000 名美国士兵死亡或失踪,在越南战争。 3) The newest of the Presidential memorials is dedicated to Franklin Delano Roosevelt. Located in west Potomac Park, it includes four open air rooms made of rough granite blocks. The four rooms symbolize the four terms that President Roosevelt served guiding the nation through the Great Depression and World War ll. 新的总统纪念馆是致力于富兰克林德拉诺罗斯福。位于西部波托马克公园,它包括四个露天粗糙的花岗岩荒料的客房。四个房间的象征,罗斯福总统曾经历过大萧条和第二次世界大战会指导全国的四个方面。 最新的总统纪念碑是献给罗斯福总统。位于西波托马克公园,它包括四个开放气室,由粗花岗岩块。四间客房,象征四条款,罗斯福总统曾指导国家通过大萧条和二战。 以上两个系统的优劣,大家可以分析,并得出自己的结论。不过,我可以在这里提供一些线索,让大家考虑。机器翻译系统主要分规则型和统计型两类。 Google 的翻译器自称是统计型的,即在数百万篇文档中找出最佳模式,从而生成译文。规则型就是根据语言学原理建立的。 Baidu 翻译器究竟根据什么建立的, 没有明确指出,只提到 四大技术亮点,即卓越的机器翻译核心技术、领先的语料挖掘技术、强大的海量计算技术、可靠的 web 前端技术。 总起来说,半个多世纪以来,机器翻译的进步是很大的。但机器翻译归根到底是一个语言学问题,单靠统计是不够的。在此基础上,努力挖掘语言规则和翻译技巧,相信在二三十年后,定会出现能在某种程度上与人工翻译媲美的译文。 * 注:应该指出,本文谈的只是中英文互译的一些情况。实际上, Google 翻译器强大得多,它能支持 57 种语言的翻译。 白水 2011-07-28
个人分类: 立委推荐|4648 次阅读|1 个评论
我的导师刘涌泉最近的短文
liwei999 2011-7-31 22:22
中国机器翻译之父,我的导师刘涌泉退休没事,也写点儿文字呢 刘涌泉老师50年代去苏联进修,学习机器翻译,当时世界上只有美国和苏联的科学家在搞机器翻译的研究。刘先生回国后就开展了这 方面的俄汉机器翻译实验,1959年成功上机调试,开创了这个学科。 他如今已是80-90高龄,退休在家。作为语言学家,他对急速变化的语言还是那么敏感,文字也很风趣,特转载于后。 刘老师和蔼可亲。逢年过节请学生到家里吃饭。 打电话说:你们过来吧,会宰鸡么?我家有活鸡。 不过,他上课语调特平缓,老北京腔调,下午正犯困呢,一堂课下来,我把大腿掐了无数次。一共就两个学生,围着他家小桌子坐着,阳光从窗户斜射过来,打瞌睡实在不像话啊。 机器翻译课上,就让我们做结构转换的标注,用所谓【中介成分】给句子标注,有点像语法课上画树,弄些复杂的英语句子,说你们的标注, 必须是机器可以模拟的,标注完了,翻译也就差不离了,譬如 【前介定B】 这个四元组是说这个介词短语翻译的时候要前置,它是定语,处于 B 层。这种简单甚至简陋的标注就是当年的MT中间语言,我们试验过很多句子,居然大体都可以对付,英汉翻译出来相当可读。这算是我的两位导师当年的发明创造。 刘老师的教导中,有一条我印象最深。在做标注的过程中,大多数手到擒来,我们英语系出身的人从来就擅长画树(diagramming),做这种标注跟玩似的。但也有卡壳的时候,于是请教刘老师。刘老师没有给答案,只是说:解构不出来,那人是怎么理解和翻译的呢?严格地说,当然有案例,人的认知过程很难算法化,人能翻译,不见得可以让机器翻译。但是我还是觉得他这句教导我受益良多。因为这是一种 mindset 的唤醒,促使我们琢磨人的认知过程如何形式化,哪怕不能完全形式化,也让我们明白卡在哪一个环节,常识、专业知识、还是什么?这种 mindset 跟了我一辈子,它实际上是一种反对智能神秘化的哲学,也就是我后来论过的 反伊莉莎(Anti-Eliza)效应 。 引用: 一个受众的反响 岁数大了没事干,不是看报,就是上网,或者听广播,看电视。还有时候记点东西或哼哼两句。 这样一来,我就成了一个听说读写看全方位的“受众”。 当今社会信息爆炸,怪事层出不穷,作一个合格的受众,真不容易。像最近许多国家“通涨inflation”,而美国却“通缩deflation”,我就弄不清是怎么回事。每年语言使用情况都有评选,今年中国使用最多的汉字是“涨”这个字。跟“涨”有关的词语出现了不少,您知道吗?“蒜你狠”、“豆你玩”、“姜你军”、“糖高宗”、“油他去”、“苹什么”。由此产生了“海囤族”,“省长抓米袋子”、“市长抓 菜篮子”。“族”是指一群人,除了“工薪族”、“银发族”、“月光族”、“丁克族”、“电脑族”、“啃老族”、“寄托族GTER”、“尼特族NEET”这些老字眼儿外,最近又出现了“蜗居族”、“蚁族”、“鼠族”、“傍傍族”、“网络淘课族”。带“族”字的词儿还可以,词义有褒有贬。如果带“门”字儿,那就坏了,没什么好事儿:“水门事件”、“召回门”、“艳照门”、“诈捐门”、“泼墨门”、“拉链门”,“罗生门”等等,不一而足。 随着“通胀”,字母词CPI(消费者物价指数)在各种媒体上随处可见。改革开放以来,中国话里吸收了不少外来语,CPI是利用汉语拼音字母转写的,另外也有用汉字写的, 如“秀”(show)、“晒”(share),等等。台湾最近报道的学校“霸凌”事件,也是来自外来语 bullying,不过为了显示语义而偏离了语音。这几年,国际上流行的一些词儿,也很有意思,如“金砖四国” (2010年12月又吸收了南非South Africa,成了“金砖五国BRICS”)。相对于这五国,最近出现了“欧猪五国” 。这些词的构成,除了音义,还加了诙谐。 另外,网语更厉害,什么“打酱油”、“俯卧撑”、“躲猫猫”,“我爸爸叫李刚”,每一个都是一个典故。据说,海外开了不少孔子学院,学汉语的已超过4000万人,真不知道他们碰到这些,受得了受不了。 最近,更有甚者,一些省市领导在给网友写贺信时,争先恐后地使用“灌水”、“拍砖”、“脖主”、“神马都是浮云”等网语*。这不仅会增加人们的学习负担,而且也会影响汉语规范化。真不知道这些领导怎么搞的。 *注释1)“灌水”=网上发帖子;2)“拍砖”=发表意见/骂人;3)“脖主”=微博作者;4)“神马都是浮云”=什么都不值得一提。
个人分类: 立委随笔|3903 次阅读|0 个评论
Cambridge《自然语言工程》被SCI、SSCI、A&HCI收录
wanyuehua 2010-9-4 08:17
Cambridge《自然语言工程》被SCI、SSCI、A&HCI收录
1995 年创刊的Natural Language Engineering 《自然语言工程》, ISSN: 1351- 3249,季刊,英国剑桥大学出版社(CAMBRIDGE UNIV PRESS, EDINBURGH BLDG, SHAFTESBURY RD, CAMBRIDGE, ENGLAND, CB2 8RU)出版, 2010 年入选 Web of Science 的 Science Citation Index Expanded 、 Social Sciences Citation Index 、 Arts Humanities Citation Index , 目前在SCI数据库可以检索到该期刊2009年的第15卷第1期到2010年第16卷第2期共40篇论文。 该刊是 EI 收录期刊, EI 从 1996 年开始收录, 1997 年被 EI 剔除, 2003 年开始被 EI 重新收录, EI 共收录了该刊 1996 , 2003-2010 年 170 篇论文。 40 篇文章包括学术论文31篇、书评6篇、社论2篇、更正1篇。 40 篇文章的主要国家分布:美国15篇,英国13篇,德国、意大利、荷兰各4篇,法国、土耳其各2篇,中国、瑞士、加拿大、奥地利、澳大利亚、芬兰、以色列各1篇等。 中国学者以通讯作者单位在Natural Language Engineering《自然语言工程》上发表论文的是哈尔滨工业大学(Harbin Inst Technol)1篇。 40 篇文章共被引用8次(其中2009年被引用2次、2010年被引用6次),平均引用0.20次。 Natural Language Engineering《自然语言工程》投稿指南: 该刊主要刊登自然语言工程方面的研究论文、评论、社论、会议论文等,涉及计算机的机器翻译、信息检索、语言识别及生成、对话系统、自然语言加工基础、文本分析、集成系统等。 网址: http://journals.cambridge.org/action/displayJournal?jid=NLE 编委会: http://journals.cambridge.org/action/displayMoreInfo?jid=NLEtype=eb 作者指南: http://journals.cambridge.org/action/displayMoreInfo?jid=NLEtype=ifc
个人分类: SCI投稿|8919 次阅读|1 个评论
2010 summer school——人类语言技术HLT学习心得
热度 1 smile321 2010-9-1 21:25
小记 来哈尔滨之前,曾有想过,回来写篇日志,记录一下这次学习经历。但后来有事就给搁浅了。现在章老师希望有个书面汇报,于是写了一篇文档,顺道一并写了这篇博文。不曾想,这也竟是我在科学网博客自己写的第一篇博文 时间: 2010.8.16~2010.8.20 研讨班: 2010 暑期研讨班(自然语言处理) 地点:哈尔滨工业大学 与会学生人数: 73 人左右 特邀报告人: 4 名 2010 HIT-MSRA Summer School On Human Language Technology ,哈尔滨 研讨班共有 5 天, 2.5 天课程, 2.5 天 Project 。 研讨班主页: http://mitlab.hit.edu.cn/2010summer/zh_index.php 课程资料: http://mitlab.hit.edu.cn/2010summer/zh_courses.php 1课程内容梳理 Learning to rank for information retrieval 刘铁岩博士 @ 微软亚洲研究院 2010.8.16 上午,在简单的研讨班举办情况介绍、哈工大机器翻译实验室简介、特邀报告演讲人发言、所有与会人员合影之后,便开始了第一门课程: Learning to rank for information retrieval 。这是来自微软亚洲研究院的刘铁岩主讲的,也是四个课程中唯一没有 Project 任务的。 课程首先对机器学习进行了概述。其中重点讲述了监督学习的四个要素:输入空间、输出空间、假设空间、损失函数( loss function )。文档对象通过特征向量表示。其次介绍了传统的排序模型,主要查询依赖模型、查询独立模型。由于在传统的排序模型中手工调整参数是很困难的,因此紧接着课程就讲述机器学习方法在排序中的运用,主要内容涉及主要的学习算法、各种方法的优劣分析、评估方法和数据集。在课程最后,讨论了在学习排序模型中一些前沿的话题,并进行了总结。对于这个课程简单总结一句:利用机器学习的方法训练数据,获取一个性能比较好的排序模型。 Phrase-based statistical machine translation Lars Ahrenberg ,基于短语的统计机器翻译 http://vir.liu.se/~lah/index.en.shtml 课程从基于词语的机器翻译讲起。基于词语的机器翻译有许多缺陷,因此基于短语的机器翻译研究成为热点话题。基于短语的机器翻译通常方法是在词语对( Giza++ )的基础上,运用启发式方法发现短语对。研究表明:基于短语的翻译优于基于词语的翻译;在预处理中融入语言学知识例如tagger、parser等对翻译系统性能是有帮助的 课程中有提到 Factored translation ,对我来说是比较新的概念。一般的翻译模型是遵循 Word-Lemma-POS 模式,而 Factored 模型则 Lemma -POS-Word 模式,即首先翻译 lemma ,其次翻译 POS 词性类别,最后从 lemma 和 POS 词类中生成Word。使用 Factored translation models 主要依据是:词语的统计信息大量出现在 lemma 层次,许多语言中的名词短语可以在 POS 中捕获,在训练数据中不能观察到的形式可以通过对词语的某些组成部分的分析获得。 课程中介绍了 Moses 系统,最后的 project 要求使用中英平行语料,基于 Moses 开发一个统计翻译平台。 Generation of referring expressions(GRE):the state of art Kees Van Deemer , 指称表达式生成- GRE http://www.csd.abdn.ac.uk/~kvdeemte/ 在课程的第一环节, Deemter 教授花了一部分时间讲述 GRE 到底在怎么一回事。我的理解就是:对于一个给定的场景或对象,设计一个算法用最准确的属性恰当地描述场景或对象,并且这种描述能识别唯一的一个场景或对象。简言之,这个算法需要找到最好的描述该对象的属性或者识别出该对象的独有属性。 在具体的 指称表达式 生成 (GRE) 的算法设计中,当前的方法和技术一般都是限定在某一个领域中,枚举对象的所有属性,通过类似查找筛选的方法(判断对象是否具有该属性,属性是否在领域类别中及属性的取值等),搜索并返回能够表征某个对象的最佳属性。 在 GRE 评估中,基本思想是:计算机器生成的 referring expression 和人类生成的 referring expression 之间的相似度,比较相似度差异,从而判断算法的优劣。实质是计算机生成的文本与人类生成的文本之间的相似度比较。 GRE 对领域非常依赖的,准确率也有待提高。 Project 部分则要求设计一个算法,实现简单的 GRE 。 Information retrieval Daqing He http://www.sis.pitt.edu/~daqing/ 何老师的课程更为基础,基本覆盖信息检索的基本理论,并对多语言信息存取的基本理论进行了讲述。 信息检索的基本理论主要包括:文档和查询处理(预处理、标引、存储)、检索或匹配模型(向量空间模型、语言模型)、相关反馈及其评估,其中穿插有一些检索评估度量方法和标准(准确率、召回率、评价准确率等)。 何老师的课程中以英文作为语种,因此 文档预处理部分 的内容就围绕如何对英文文档进行预处理展开讨论,主要涉及 tokenization 、 lemmatization 、 stemming 等预处理方法。 文档标引部分 主要讲述倒排索引的构成、如何构建等问题;同时详细讨论倒排索引文件的存储结构和方法,如哈希表、 B- 树等。对于大规模的文档处理来说,速度显得尤为重要,因此一个好的索引文件存取结构显得非常必要。 查询处理 的一般步骤包括:停用词去除、词干还原、名词短语识别、查询词语的权重计算等。 检索模型部分中,首先讲述了布尔模型的基本概念,布尔模型类似一个 hard classifier ,比较简单但缺陷也较多;其次讨论了特征权重的计算方案,包括 tf 、 df 、 tf-idf 、似然频率权重等;重点对向量空间模型的理论进行了系统的讲解,涉及向量构成、向量表示、余弦相似度、归一化等基本内容。信息检索中的统计语言模型可以看作是一个生成模型,即生成某种语言文本的一种概率机制。 相关反馈的运用基于这样的事实:用户的查询并不总是接近其真实的信息需要,而通过对检索到的相关或不相关文档的分析能够生成更符合用户信息需要的查询。相关反馈的信息可以从用户的检索行为中获取(显式相关反馈),也可将检索系统返回的前 N 个文档作为相关文档(即伪相关反馈)。通过对相关反馈信息的运用,可以对查询特征项重新赋予权重,或进行查询扩展,或应用到其他的检索任务中如跨语言信息检索。相关反馈的评估中以 TREC 作为引子,详述了当前一些常用的评估方法和标准。 在多语言的信息存取中,首先讲述跨语言信息检索的三大关键问题:翻译什么,如何获取翻译知识,怎样使用翻译知识;其次是多语言信息存在的一些关键问题。在多语言信息存取中,课程内容的一个理念是:多语言信息存取应该是以用户为中心的,是人机交互的一个动态的过程。因此为了支持交互的多语言信息处理,解决跨语言信息检索中出现的翻译歧义问题,相关反馈( relevance feedback )的应用显得尤为重要。查询扩展则作为查询、查询翻译、相关反馈等环节的联系纽带,通过查询扩展,相关反馈的信息得以利用,从而有效解决了部分查询翻译歧义的问题。机器翻译是解决多语言信息存取中跨语言查询翻译的另一个方法。 Project 部分要求在 Lucene 基础上,对于给定的文档集合,建立索引并存储;利用 Trec 做一个评估测试;基于 Lucene 设计一个简单的语言模型;使用 Google Tranlate 搭建一个多语言的 Lucene ;使用在线词典构建多语言的 Lucene 。 2 Project 所有的 project 都是在一个实验室进行的,其中以机器翻译组尤为活跃。大概是由于举办单位哈工大有个机器翻译课题组,因而多了许多高手,讨论的比较激烈。相比之下, referring expression 生成小组人数有些单薄,不到 10 个人;而信息检索小组虽然人数居多,但因为何老师走了,没有辅导人员,也显得有些落寞,不过有一部分人还是完成了部分任务。 3 感想 研讨班的四门课程讲的都是一些基本问题,关注理论前沿的内容较少!总体而言,对我来说,帮助仍然是很大的,尤其是信息检索的内容。虽然有些理论和概念早有看过,但总有些问题理解不够深入,听过何老师课程,解决了很多疑惑。遗憾的是,因为 project 部分要求用 Java 实现,而我本身是不懂 Java 语言的事实上,如果能完成 project 中的任务,对我的帮助会更大。 另外,不得不提的是,英语的听说水平实在是有待提高。刚开始听课,感觉就是在听天书,偶尔才能听懂几个单词。好在有讲义,听几句,翻讲义,再加上猜,对基本内容有了基本了解。看来,以后的学习中,对于英语的听说学习应该强化。 考虑一下在时间和能力允许的情况下,学习下 Java 语言,因为有很多开源的工具用 Java 编写,如果会一点,一定大有裨益。关注机器学习在信息检索、文本挖掘领域的应用,貌似机器学习的方法很管用。 后记 其实,整个 2.5 天的课程中,几乎每天我都有不同程度的瞌睡,我也是相当郁闷,在学校再怎么熬夜也不会如此困,何况在哈尔滨那几日都是 10:30 左右睡觉。也许是感冒的缘故,也许是有太大压力吧,抑或是其它,哎,这个问题真是个谜 在哈尔滨的几天,真的没有出过汗,凉爽,绝佳的避暑胜地但是如果像我一样,感冒了,就不 OK 了,那只能是杯具 回南京时,在北京转车,有 5 个小时的候车时间,偷空去了天安门,赶上看降旗了,也算不枉路过北京。不过郁闷的是,其实没看清楚,仪式没开始的时候,觉得自己站的位置还不错,应该可以看清楚,可是等快开始的时候,前面突然多了 N 多比自己高的,举着相机,无语
个人分类: 科研心得|5437 次阅读|1 个评论
毕业设计
ZYyuyu 2010-7-9 15:04
前几天开题,研究内容为基于依存语法的SMT,这是个不容小觑的工程,确切的说应该有点挑战性。以前都在短语的级别来做,研究了短语抽取,最小错误率训练,和相关的解码,只是自我感觉最底层的东西依然没有彻底搞清楚,所以,接下来的几个月,除了找工作,还要抓紧时间把毕业设计做做好,然后再写两篇论文发了,也算大功告成。 暑假期间争取搭个框架出来,可以把流程完整的跑一边,至少丢个中文句子进去,系统能扔个英文出来,目标很明确,接下来就是时间和精力了,加油。 话说中文依存工具只有哈工大的那个平台可以用,大概准确率在百分之七十几,没有仔细去研究,因为貌似标点符号没有包含在依存树上,如果用没有标点的树,无疑为以后的解码增加了无形的困难,还要去学习和定位标点符号,于是用stanford的工具直接做了Syntactic Parser,然后用Penn2Malt去转了一把,中文短语结构树的parser的F1值大概80%左右,不同的领域应该有差别,语料库用的以前哈工大暑期课程里的一个双语语料,训练集开发集和测试集都有,领域偏向口语的日常交流,挺适合做研究,等系统平台稳定了,再增加训练语料,进行性能测试和分析,目前首要的是好好设计翻译模型,一个好的翻译模型可以存储丰富的翻译知识。 加油。
个人分类: NLPの机器翻译|3157 次阅读|0 个评论
硕士论文: 世界语到汉语和英语的自动翻译试验
liwei999 2010-2-20 04:42
立委按: 不知道苹果怎么得罪当局的,总之,那次回国探亲发现,凡是 .mac 都联结不上(此前路兄提过,我还以为只是部分屏蔽),与 youTube 同等待遇,不愧为是建造过万里长城的国度。我还每年傻乎乎地给苹果网站交几百块钱呢。算了,把 .Mac 东西备份到博客来,立委苹果家页关张了事。 倒霉的苹果。 硕士论文 世界语到汉语和英语的自动翻译试验 –EChA 机器翻译系统概述 中国社会科学院研究生院语言系 立委 1986 第1页 世界语到汉语和英语的自动翻译试验 –EChA机器翻译系统概述 0. 本文是我在导师刘涌泉和刘倬先生指导下所做的毕业设计的论文总结. 共分十大部分: 1. EChA概况: 系统流程图; 2. 世界语: 语言学特点及其研究价值; 3. 层次递归成分体系 CDC: 体现独立分析结果的中间语言; 4. EChA 机器词典, 句子加工场格式; 5. 世界语形态分析: 削尾算法, 关于削缀问题的讨论; 6. 句法分析第一线: 虚词处理, 规则和规则分开的讨论; 7. 句法分析第二线: CDC 的求解, 中间结果分析; 8. 英语形态生成, 汉语形态修辞, 原语和译语对比差异的一般总结, 多义区分例释; 9. 调序: 自底而上加工; 10. EChA 试验结果分析, 汉语和英语的机译文的比较, 关于文学作品可不可以跟机器翻译结合的问题, 修辞的讨论. 第2页 ———————————————— 目 录 1. EChA 概况 ……………………………………………………… 3 2. 世界语: 语言学特点及其研究价值 ………………………………….. 7 3. 层次递归成分体系 ………………………………………………. 13 4. EChA 机器词典 ………………………………………………….. 19 5. 世界语形态分析 ………………………………………………… 23 6. 世界语句法分析(1) ……………………………………………… 29 7. 世界语句法分析(2) ……………………………………………… 31 8. 英语形态生成 ………………………………………………….. 34 9. 目标语调序 ……………………………………………………. 38 10. EChA 试验结果的分析 …………………………………………….. 39 …………………………………………………………… 44 ……………………………………………………….. 45 EChA 试验结果 ……………………………………………… 46 世界语文摘 ……………………………………………….. 57 ~~~~~~~~~~~~~~~ 硕士论文全文(世界语版) Automatika Tradukado el Esperanto en la Chinan kaj Anglan Lingvojn pri E-Ch/A Mashin-tradukado Sistemo far Wei Li 1986 ENHAVO 1. Skizo pri EchA …………………………………………… 2 2. Esperanto: Lingvistikaj Trajtoj kaj Esplora Valoro …………… 6 3. La Mashintraduka Interlingvo CDC ………………………….. 12 4. EChA Mashinaj Vortaroj kaj Vortotabeloj …………………….. 18 5. Morfologia Analizo pri Esperanto …………………………… 22 6. Sintaksa Analizo pri Esperanto …………………………….. 27 7. Morfologia Sintezo pri la Angla Lingvo ……………………… 28 8. Vortrevicigo de la celolingvoj …………………………….. 32 ……………………………………………. 34 Specimenoj de Mashintradukajho el EchA Eksperimento …. 35 (1) La Originala Teksto el “Mashinmondo”…………… 35 (2) Diversaj Frazoj……………………………… 37 (3) Du Poemoj…………………………………… 42 ……………………………………. 47 ~~~~~~~~~~~~~~~ 关于语言系机器翻译专业立委同志学位论文的答辩情况 [论文题目] 世界语到汉语和英语的自动翻译试验 一一EChA机器翻译系统概述 [论文时间]1985.09-1986.05 [答辩日期]1986.05.24.am. [答辩委员会]主任:姚兆炜,副研究员; 委员: 刘倬, 研究员, 指导教师;刘涌泉,副研究员, 指导教师;王广义,助理研究员. [投票结果]答辩委员会四人,四票同意毕业论文通过,四票建议授予硕士学位. [总评] 论文以世界语为源语,由世界语到汉语和英语进行机器翻译研究和试验,这在我国还是第一次.文章在理论上阐述了不同语言间进行机器翻译的方法和实现的过程,上机试验是成功的.作者具有独立研究工作的能力. EChA系统的设计中使用了层次递归成分体系的中间语言,试图提供一套适合独立分析和独立综合要求的机器翻译抽象文法,这是该系统设计中的一个独创.在加工过程中也较好地处理了虚词的个性与实词的共性问题. 语言分析中还缺乏语义参数,因此描写自然语言显得抽象性不够.对层次递归成分体系的定义尚欠严谨. [刘倬研究员评语] 世界语到汉语和英语的自动翻译系统简称EChA系统.以世界语为源语进行机器翻译研究和试验,这在我国还是第一次. 这次试验共翻译了150多个世界语文句,输出了汉语和英语可懂的译文,试验结果是令人满意的.世界语的文句是根据语言学特点选取的,它们基本上能反映世界语的各种句型,这有利于试验EChA系统的能力和适应性. 在EChA系统的设计中使用了一种所谓"层次递归成分体系"的中间语言,试图提供一套适合独立分析和独立综合要求的机器翻译抽象文法,这可以看成是EChA系统设计上的一个独创.从试验和论文中可以看出这套中间语言可以满足不同要求的形式分析和综合的需要.但由于语言中缺乏语义(特别是逻辑语义)参数,所以"层次递归成分体系",作为分析,描写自然语言的一种抽象文法,其抽象性还是不够的. 总之,EChA系统的研制,设计和试验是成功的. [刘涌泉副研究员评语] 立委指的是一个一对多的翻译系统.在国内来说,还是第一个(语委会的冯志伟在国外搞过一个类似的系统).尽管目前只是一对二,但从设计原则和方法来看,今后加以补充修订,扩充到对其他一些语言也是可行的. 为了解决一对多翻译问题,必须设计独立分析系统,这正如要解决多对一翻译问题而必须设计独立生成系统一样合理.因此说,该系统基本立脚点是正确的. 如何实现独立分析的原则,以便于下一步生成多种语言,是本篇论文的重点.为此,立委建立了一个由六元信息组组成的层次递归成分体系.他没有墨守成规,根据具体情况对于过去的成果进行了补充和改造.这个体系的框架基本上是合理的.不足之处是对语义参考不够.如果再加一个“语义元”,也就比较完美了.目前范围较小,缺少语义信息还可以,一旦扩大,利用语义的必要就会增大.这一点应该作为今后努力的方?向.另外,个别辞句还要加工. [姚兆炜副研究员评语] 由世界语译为英语和汉语的机器翻译在我国还是初次尝试.文章内容在理论上阐述了不同语言间进行机器翻译的方法和实现的过程,并给出了上机试验的结果, 获得了比较满意的译文. 机器翻译是实验性比较强的学科. 不仅要有一定的理论依据, 而且还须要有在机器上能加以实现的方法和手段. 文章达到了理论与实践相结合的要求. 虽然试验规模不是太大, 但也自始至终完成了机器翻译全过程所要涉及的有关内容. 文章第三节(见P.8)关于层次递归成分体系的形式化定义, 既没有刻划出”递归”的实质, 也没有作到”形式化”的基本表示. 文章第十节(见P.25)前九行整段内容, 对机器的评价 “机器和人没有什么不同”, “机器的无能全由于人的无能” 等等, 用词是欠妥的, 整段内容也是不可取的. (86.05.21) 一. 就语种来说, EChA世一英/汉机器翻译系统在国内算作者首创, 在国外也属少见. 它的设计成功并实现运行, 获得质量不错的译文, 说明设计者已掌握了机器翻译的基本理论和实现方法. 二. 国内已有的机器翻译系统多属”一对一”的, 实现方法也多是”相关分析”的. 而EChA初步实现了”独立分析”, 且为能在”中介成分体系”上推出功能更强一些的”层次递归成分体系”(CDC), 这是一个发展和进步. 三. EChA系统在加工过程中比较好地处理了虚词的个性与实词的共性问题, 有利于系统的维护和改善. 四. EChA能够处理的语言现象比较丰富和全面, 功能较强, 不仅译出科技文献, 还能应付文学体裁的文献. 由此可见作者在语言学方面有较好的素养. 五. 应当指出, CDC 仍然没有改变以句法分析转换为依据的中介成分体系的基础, 因而目标语(英/汉语)的译文生成就不得不主要地依赖源语的句法分析. 作者试图将CDC用作”中介语”, 则必须更多地甚至彻底地?将CDC改造成一个以语义为基本内核的体系方有可能成功. 六. EChA系统的译文综合, 仍属相关型的. 因此, 作者预计的只要加一线俄语综合(或法语综合), “就能实现世一俄或世一法机器翻译”, 恐怕是过高地估计了CDC的作用. ~~~~~~~~~ 英语 76 (免修考试) 机器翻译概论 80 法语 95 / 88 概率论 及格 俄语 98 / 90 高等数学 良 资本论 优 语言学基础 优 反杜林论 良 离散数学 95 邓选学习 良 程序设计与上机试验 90 语音训练 95 中国社会科学院研究生院语言系 1986.05 【相关】 硕士论文: 世界语到汉语和英语的自动翻译试验 立委硕士论文:1. EChA概况 立委硕士论文:2. 世界语: 语言学特点及其研究价值 立委硕士论文:3. 层次递归成分体系 立委硕士论文:4. EChA机器词典及词表 立委硕士论文:5. 世界语形态分析 立委硕士论文:6/7 世界语句法分析 立委硕士论文:8. 英语形态生成 立委硕士论文:9. 目标语调序 立委硕士论文:10. EChA 试验结果的分析 立委硕士论文【致谢】【参考书目】 立委硕士论文全文(世界语版) 《朝华午拾:shijie-师弟轶事(3)——疯狂世界语 》 灵感有如神授,巧夺岂止天工 《立委随笔:一小时学会世界语语法》 立委世界语文章 (1987): 《中国报道:通天塔必将建成》 立委世界语论文(1986): 《国际语到汉语和英语的自动翻译》 立委(1988)《世界科技:世界语到汉语和英语的自动翻译试验》 DLT项目背景介绍 立委硕士论文全文(世界语版) PhD Thesis: Morpho-syntactic Interface in CPSG (cover page) 【关于机器翻译】 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 世运资料|6063 次阅读|0 个评论
立委硕士论文:1. EChA概况
liwei999 2010-2-20 04:27
世界语到汉语和英语的自动翻译试验 --EChA 机器翻译系统概述 第 3 页———————————————————————————————————————————————————— 1. EChA 概况 EChA (E-Ch/A: el Esperanto en la Chinan kaj Anglan Lingvojn) 系统是以世界语作为源语 , 以汉语和英语作为目标语的一对多小型实验系统。它是一个句对句的 , 分析和综合有一定独立性的全文机器翻译系统。本系统实现了翻译过程的完全自动化 , 不需要译前和译后编辑。 ( 由于纯技术原因 , 世界语中的几个戴帽字母暂时还需要用加 H 的复合字母来转写 .) EChA 系统从上机调试到打出译文只用了五个月 , 全部工作历时近一年 , 进展比较顺利。本系统使用的是 IBM-PC/XT 微型机 , 编程语言 BASIC (Version D2.00), 同时选用 IBM 公司的 BASIC 编译程序软件包。 EChA 由 CCDOS 操作系统 ( 即带有汉字库的 PC DOS 2.10) 支持。系统主体是六线分析和综合程序。另外还建立了三部词典 , 两个词表 , 编制了词典的造查 , 扩充和维护程序。整个系统由近一万条 BASIC 语句构成。编程时充分利用了 BASIC 串处理函数 , 显得特别方便。 这次试验共翻译了 150 多句世界语文句。汉语和英语的机器译文都通顺或可懂 , 结果令人满意。 ( 见附录 ) 提供本系统试验的源语素材有三部分 : 第一部分是选自著名世界语作家 Sandor Szhatmari 的世界语原文著作 Mashinmondo ( 机器世界 , 中国展望出版社 ) 上的两段连续文章 (12 句 , P.100-101), 句子比较长 , 结构也比较复杂。第二部分选自魏原枢和徐文琪编著的 世界语语法 ( 上海外语教育出版社 , 1982.10) 中的典型例句 (100 多句 ), 这些例句 ( 其中有一部分是日常用语 ) 都具有一定的语言学特点 , 表现了不同时态 ( 简单时态 , 复合时态 ), 语态 ( 主动语态 , 被动语态 ), 语式 ( 陈述语式 , 命令语式 , 假定语式 ), 不同的句式 ( 简单句 , 并列句 , 复合句 , 无主句 , 独词句 , 一般疑问句 , 特殊疑问句 , 等等 ), 不同的句型以及动词的各种形式。总之 , 它们具有相当的代表性 , 基本上反映了世界语语法概貌 , 这就弥补了连续文句特点单一的不足 , 更有利于试验 EChA 系统的能力和适应性。最后作为一种尝试 , 还选译了两首世界语诗歌 ( 第一首是著名的世界语者的颂歌“希望之歌” ) 。 EChA 由三大部分组成 : 1) 机器词典 ; 2) 源语分析 ; 3) 目标语生成。源语分析部分包括了世界语的全部基本语法和常用句型。然而 , 由于机器条件和实验周期的限制 , 本系统的规模 ( 特别是词典的规模 ) 还很小 , 有待于进一步扩充和改进。 ---- 准备从两方面来扩充 EChA 系统 , 一是补充例句 , 做扩大试验 ; 二是增加俄语和法语作为新的目标语 , 进一步检验体现独立分析结果的中间语言 CDC( 层次递归成分体系 , 第 3 节详述 ) 的适应范围 , 并探讨其完善的途径。另外 , 时间仓促给系统还带来一些问题 : EChA 的结构还不是很合理 , 算法有待于进一步优化 , 规则和算法还没能分开 , 在分析和综合的独立性上下了不少功夫 , 但还没有完全独立。 尽管还有上述问题 , 然而按照设计要求 , 只要适当扩充词典 , 系统就有能力处理世界语的绝大多数语言现象。在中国近三十年的机器翻译研究历史中 , EChA 是第一个以世界语为研究对象的机译系统。在世界语跟机器翻译结合的过程中 , EChA 是一个成功的尝试和良好的开端。我们热切希望得到专家学者 , 世界语同志们的帮助和指导。 EChA 系统流程图 ______ 丨 ________ / 原文输入 丨 /________________ 丨 _______________________ 丨 ______________________ 词 丨 1. 削尾 , 查词典 ( 实词词典 , 虚词词典 , 成语词典 , 丨 典 丨 词类词义区分表 ) 丨 ( 形态分析 ) 丨 ______________________________________________ 丨 ------------------- _______________________ 丨 _______________________ 句 丨 2. 连词标点 , 切分 , 其他虚词 丨 法 丨 ______________________________________________ 丨 分 _______________________ 丨 _______________________ 析 丨 3. 中间语言 CDC 的求解 丨 丨 ______________________________________________ 丨 ------------------- _______________________ 丨 _______________________ 丨 4. 多义词区分 ; 英语形态生成及汉语形态修辞 ; 查 丨 目 丨 英语不规则词词表 丨 标 丨 ______________________________________________ 丨 语 _______________________ 丨 _______________________ 生 丨 5. 英语调序 丨 成 丨 _______________________________________________ 丨 _______________________ 丨 _______________________ 丨 6. 汉语调序及其他修辞 丨 丨 _______________________________________________ 丨 _________ 丨 _________ 丨 译文输出 丨 丨 __________________ 丨 源语文句输入以后 , 作第一遍扫描。首先判定加工词长度是否大于三。若大于三 , 转子程序削尾后查实词词干词典 , 否则查虚词词典。因为世界语虚词 ( 无词尾变化 ) 大多短小 , 以三为界限最合理 , 可以大大减少虚查次数。词典查不着的作生词处理 , 削尾信息保留。查完词典及词表以后 , 把削尾信息和词典信息移到计算机内存中所开辟的句子加工场。 句法分析确定源语文句的层次结构和句法关系。分析结果以一种高度形式化的层次递归成分体系 CDC 来体现。 CDC 是独立于目标语的机器翻译中间语言 , 这种独立性对于一对多机译系统是必要的。 CDC 由形态 , 成分 , 节点 , 分布 , 链号和层次几部分信息构成。它不但揭示了源语文句的正确的句法树 , 而且还包含了其它的有用的信息。事实上 , 它为建立多目标语的生成系统奠定了良好的基础。 句法分析第一线处理虚词 , 中心任务是加工连词和标点 , 正确切分语段。原则上为每一个虚词编制一套分析规则。世界语虚词数量很有限 , 但用法较多 , 具有民族语功能词的类似的复杂性 , 是语言个性的集中表现 , 所以分别加工比较适宜 , 这也有利于规则跟规则分开。该线加工任务很重 , 特别是连词 KAJ 和 KE, 分析规则十分复杂。在很大程度上 , 虚词分析对了 , 句法关系也就清楚了。因此 , 集中力量编制一套完备的针对具体虚词的分析系统 , 对于世界语类型的机器翻译至关重要。该线正确处理了虚词个性现象 , 便可以保证下一线分析的充分抽象性和概括性 , 这样做对于象世界语这样的科学而规则的语言显得特别有利。句法分析第二线运用自顶而下的方法 , 从句子的谓语轴心 ( 第一层 ) 着手 , 一层一层往下递归加工 , 直到最末层 ( 终结节点层 ) 。加工过程就是不断递归调用各子程序的过程。其中以动词子程序为核心 , 它充分反映了世界语语法的基本内容及其高度规则性。分析完毕得出一条对应于源语文句的中间语言 CDC 的链。 综合第一线做英语形态生成和汉语形态修辞。英语形态并不发达 , 所以世英的形态转换规则也不复杂。汉语缺乏形态 , 一般用适当的虚词 ( 助词 , 副词等 ) 来代替。我们把多义词区分规则也放在这一线 , 这是因为多义区分的条件至此已经具备。一般来说 , 根据多义词及其联系词的 CDC 成分和语义特征就可以得出该词的正确义项。综合第二线和第三线分别做英语调序和汉语调序。调序信息由 CDC 结合目标语语法规律得出 , 调序的方法是自底而上 , 层层归约 , 这样就不至于调乱。我们知道 , 世界语语序极为灵活自由 , 而汉语语序却很固定 , 所以生成汉语的主要任务是调序。对于英语 , 调序的任务较轻 , 主要是保证文句主干 主谓宾 次序不乱。英语名词没有主宾格的区分 , 所以关键是把前置宾语移到动词之后。 世界语是印欧语系的一个合理化的公分母 , 与英语相似处毕竟很多 , 比如同一句法层次的定语或状语的内部调序 , 在译汉语时是一个难题 , 而在印欧系诸语言中则不是大问题。另外修辞加工的过程也可以免了。(世英转换中的成语和多义现象较之世汉转换也少得多。)总之 , 英语生成比汉语生成容易许多。 EChA 虽然是个不大的系统 , 但是内容比较丰富。它既有形态分析 , 又有形态生成 , 也有调序和修辞 , 还有自己的一套成分体系。我们在总体设计时 , 已经考虑到增加新的不同类型的目标语扩充该系统的需要。可以预计 , 如果增加两线俄语和法语的生成程序 ( 主要是形态生成 ), 分析部分稍作改动 ( 主要是充实与综合还没有完全独立开来的虚词分析规则 ), 就可以实现崐世到汉 / 英 / 法 / 俄的自动翻译。总之 , 实用机译系统所能遇到的问题 , EChA 几乎都已涉及 , 而且主体六线程序各个有自己的特色 , 是个有相当代表性的一对多全自动机译模型。 【相关】 硕士论文: 世界语到汉语和英语的自动翻译试验 立委硕士论文:1. EChA概况 立委硕士论文:2. 世界语: 语言学特点及其研究价值 立委硕士论文:3. 层次递归成分体系 立委硕士论文:4. EChA机器词典及词表 立委硕士论文:5. 世界语形态分析 立委硕士论文:6/7 世界语句法分析 立委硕士论文:8. 英语形态生成 立委硕士论文:9. 目标语调序 立委硕士论文:10. EChA 试验结果的分析 立委硕士论文【致谢】【参考书目】 立委硕士论文全文(世界语版) 《朝华午拾:shijie-师弟轶事(3)——疯狂世界语 》 灵感有如神授,巧夺岂止天工 《立委随笔:一小时学会世界语语法》 立委世界语文章 (1987): 《中国报道:通天塔必将建成》 立委世界语论文(1986): 《国际语到汉语和英语的自动翻译》 立委(1988)《世界科技:世界语到汉语和英语的自动翻译试验》 DLT项目背景介绍 立委硕士论文全文(世界语版) PhD Thesis: Morpho-syntactic Interface in CPSG (cover page) 【关于机器翻译】 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 世运资料|5541 次阅读|0 个评论
立委硕士论文:2. 世界语: 语言学特点及其研究价值
liwei999 2010-2-20 04:27
世界语到汉语和英语的自动翻译试验 --EChA 机器翻译系统概述 第 7 页———————————————————————————————————————————————————— 2. 世界语 : 语言学特点及其研究价值 在进入 EChA 系统的细节和探讨机器翻译的一般理论和方法之前 , 我们专列这一节讨论世界语本身 , 这对说明本系统的设计思想和具体方法是很必要的。毫无疑问 , 我们的讨论主要是从语言学角度着眼。 世界语 (Esperanto) 是波兰的语言大师柴门霍夫博士 ( L.L.Zamenhof 1859.12.15 - 1917.4.14 ) 于 1887 年在印欧语系的基础上经过艰苦研究提出的一个人造语方案。由于其科学 , 简明 , 逻辑性强 , 由于日益增长的克服语言障碍的国际需要 , 也由于其维护世界和平 , 增进各民族相互了解 , 实现世界大同的崇高理想的感召 , 它逐渐为人们所接受。目前 , 世界上有 2000 多万人在学习和使用世界语。世界语早已脱尽了人造的斧痕 , 走上了自然发展的道路。它不但能写也能说 , 不但适于表达精密的科学思想 , 而且在文学上也取得了令人赞叹的成就。从莱勃尼茨的万国通用文字的设想开始 , 先后提出的人造语方案达 150 多种 , 唯有世界语经受住各种考验生存下来了。现在 , 越来越多的人认识到世界语作为国际辅助语的独特价值。有些国际性学术会议 ( 如控制论大会 ) 已经采用世界语作为工作语言。 世界语中除数量有限的虚词外 , 其他词都有非常规则的形态变化 , 借以表现该词的词性、格、数、时态、语态、语式、分词形式等语法信息。另外还有一整套前缀后缀 , 用以表现词汇意义上的细微差别和修辞色彩。世界语是典型的黏着语 , 词尾和语缀的意义单一 , 可以叠加。这套词尾和语缀设计得非常巧妙 , 规则 , 特别容易掌握 , 而且也非常适合机器的递归加工。( EChA 的削尾算法就体现了这种递归加工的优点 , 见本文第 5 节。)世界语没有语法同形词 , 句法关系一目了然 , 这不论对人还是对机器的识辨 , 都是一个极为有利的条件 ( 民族语机器翻译中同形判别的问题在这儿根本不存在了 ) 。同时 , 世界语的词类转换也特别灵活 , 只要逻辑上说得过去 , 不致引起误解 , 同一个词干可以根据句法需要 , 通过词尾变化随意改变词性。(我国古汉语词类活用也比较自由 , 在一定程度上具有类似的灵活性 , 可惜这种活用没有明确的形态标志 , 常常要靠逻辑语义的分析才能确定。) 世界语的词尾形式并不很多 , 但却很完备 , 可以和形态发达的语言相媲美 , 这一点我们不能不为之惊叹。拿格来说 , 世界语只有普通格 ( 零形态 ) 和目的格 ( 加词尾 -N) 两种 , 但由于它把词性和格的用法巧妙地统一起来 , 再加上有介词这种分析形式的后备 , 表达起来跟形态丰富的语言一样灵活自由。俄语是现代形态最丰富的语言之一 , 它有六个格。粗略地说 , 它的一格 ( 主格 ) 跟世界语普通格对应 , 二格 ( 属格 ) 跟世界语形容词 -- 姑且叫做形容格吧 ( 加词尾 -A) 对应 , 三格 ( 与格 ) 在世界语中没有相应的屈折形式 , 一般用介词 AL 来代替。四格 ( 宾格 ) 对应于世界语的目的格。五格 ( 工具格 ) 跟世界语副词 -- 也姑且叫做状格吧相对应。六格是前置格 , 跟前置词 O,Ha,B 等搭配 , 它本身并不表示特定的语义关系。有意思的是 , 世界语介词后可以跟崐普通格和目的格两种 , 前者表示静态 , 后者表示动态 ( 方向 ) 。比较俄语的类似用法 , 世界语的简洁和完备的特点是很明显的。 世界语基本语法规则共 16 条 , 原则上没有例外 . 由此人们也许会推断这门语言很简陋 , 刻板 , 缺乏表现力。这是一个极大的误解。这里涉及世界语的另一个非常突出的语言学特点 , 就是它兼有分析性语言和综合性语言的要素 ( 虚词和形态都比较丰富 ), 同一种语义既可以用分析形式 ( 借助于虚词 ), 又可以用综合形式 ( 借助于屈折变化 ) 来表示 ---- 当然 , 这两种形式并不等同 , 它们体现了不同的风格。由于这一特点 , 世界语兼容性强 , 文体多样 , 特别灵活 , 富于弹性和表现力。如果作为目标语 , 它最能维妙维肖地模仿原文的语言特色。它既可以反映语序自由 , 文体柔美的斯拉夫风格 , 又可以表现形态缺乏的语言 ( 如汉语和英语 ) 的单纯 , 严谨 , 密集的特点。下面我们举几个例子来看一下分析形式和综合形式在世界语中的兼容并存情况 : 分析形式 综合形式 1. 时态 : Mi ESTAS skrib-ANTA. Mi skrib-AS. / Mi skrib-ANTAS. I AM writ-ING. 我 在 写字。 2. 语态 : Ghi ESTAS limig-ITA. Ghi limig-ITAS. / Ghi lim-IGHAS. It IS limit-ED. 它 被 限定了。 3. 词义 : Tio estas MALGRANDA (ETA) sekreto. Tio estas sekret-ETO. That is a LITTLE secret. 那是 小 秘密。 4. 介词与副词 ( 状格 ): Li parolas EN (PER) Esperanto. Li parolas esperant-E. Li parolas Esperant-ON. He speaks IN Esperanto. He speaks Esperanto. 他 用 世界语说话。 他说世界语。 5. 介词与格 ( 目的格 ): Shi parolis POR 30 minutoj. Shi parolis 30 minut-OJN. She spoke FOR 30 minutes. 她说了 30 分钟 . 6. 分析形式向综合形式的转换 : LAU kutimo ...............LAU-kutim-E...kutim-E 这种分析形式和综合形式并存的情形在世界语中极其普遍 , 这一点跟民族语不一样。虽然没有绝对不用分析形式的综合性语言 , 也没有绝对不用综合形式的分析性语言 , 但是 , 每一个具体的民族语言总是以一种形式为主 , 而且在多数场合总是一种形式排斥另一种形式 , 一般不允许并存。 总之 , 跟人们通常想象的正相反 , 世界语是高度灵活的 , 表达方式极其多样 , 且能互相转换。这种高度灵活性正好适应了人类思维模糊性的特点。灵活性与规则性的高度统一 , 这就是世界语的真正奇迹。 人造语言的规则性容易为人理解。关于灵活性 , 再补充几点。由于篇幅关系 , 我们不打算展开 , 必要时辅以一两句例证。 1. 在世界语中动词的及物与不及物的界限模糊了。 Mi IRAS. / IRU vian propran VOJON! I GO. / GO your own WAY! 我行走。 / 走你自己的路 ! La tuta homaro PAROLOS nur unu LINGVON. / Mi PAROLAS esperante (en Esperanto, per Espernato). The whole mankind will SPEAK only one LANGUAGE. / I SPEAK in Esperanto. 全人类将说仅仅一种语言。 / 我用世界语说话。 2. 直接宾语 ( 所谓宾格 ) 与间接宾语 ( 所谓与格 ) 的界限模糊了。 informi ION al IU / informi IUN pri IO tell sth. to sb. / tell sb. about sth. 向某人告诉某事 / 告诉某人关于某事 3. 宾语与状语的界限模糊了。世界语语法规定 : 目的格 ( 即通常所谓宾格 ) 也可以表达某种状语意义 ( 参见基本法规第 14 和第 13 条 ) 。 Mi invitas vin VOJAGHI kun mi PEKINON. I invite you to TRAVEL with me TO PEKING. 我邀请你和我一起 “旅游北京”。 4. 词缀与词根的界限模糊了 , 从而派生词与合成词的界限模糊了。同时虚词与实词的界限也模糊了。 sekret-ET-o / ET-a sekreto JES, / mi JES-as vian opinion. little secret 小秘密 Yes, I agree with you. 是的 , 我同意你的意见。 ANTAU-vidi / Sinjorinoj ANTAU-as. Kred-IND-a / ne-IND-a , IND-igi , sen-IND-ulo foresee / Ladies first. believ-able / not worthy, make worthy, good-for-nothing 5. 万能介词 JE 的设置。人们在表达思想时 , 常常只意识到从属成分与中心成分有某种朦胧的修饰关系 , 但却说不出 , 往崐往也不必要说究竟是何种语义联系。为了适应人类思维的这种模糊特点 , 柴门霍夫引入介词 JE 。这是一个很有见识的创造。表达这种模糊关系还可用屈折形式的目的格或副词 ( 状格 ), 见基本法规第 14 条。 6. 词性与格在用法上的统一。词性和格都是根据词尾 入句而后定 的动态句法特征 , 都能表现比较抽象的语义关系 , 可以相互补充。(这跟分析形式的介词短语不同。介词除了上述 JE 外 , 一般用来表示较为具体和确定的语义关系。) Mi skribas plum-E. CF: ( 俄 ) ( 五格 ) 7. 极其灵活的词类转换。 La FLOR-OJ FLOR-AS. Li KANT-AS italan popolan KANT-ON. Mi estas GHOJ-A. Mi GHOJ-AS. The flowers blossom. He sang an Italian folk song. I am glad. 8. 词序的自由。 Mi amas vin. (106) / Mi vin amas. / Vin amas mi. (108) / Vin mi amas. (111) / Amas mi vin. Amas vin mi. I love you. 我爱你。 9. 构词的灵活。派生词 : 词缀的丰富及其黏合特点 ; 合成词 : 词根与词根的自由复合。 Shi rid-AS. Shi rid-ETAS. Shi estas rid-EMA. Shi estas rid-EMULO. Shi estas rid-EMULINO (rid-EMINO). Shi estas rid-EMULINETO (rid-EMINETO)....... 她笑。 她微笑。 她爱笑。 她是爱笑的人。 她是爱笑的女人。 她是爱笑的小女孩儿 ...... 。 INTER-lingvo 中间语言 fonto-lingvo celo-lingvo ponto-lingvo naci-lingvo internaci-lingvo 源语 目标语 媒介语 ( 桥梁语言 ) 民族语 国际语 10. 完善的时态语态系统和精巧的相关词表。世界语的时态语态系统和相关词表是两项绝妙的创造。它们是如此地精巧完善 , 富有逻辑的力量和美 , 每一个世界语者都象化学家欣赏元素周期表一样体验到这种美 , 并为此感到自豪。借助于唯一的一个助动词 ESTI, 世界语能表达各种复合时态语态。相关词表所能表达的语义的简洁和丰富更是无与伦比的。 世界语的这些特点给人们的自由创造留下了很大的余地 , 为人们充分发挥自己的语言才能提供了最好的条件。这种灵活性并不影响作为世界语基础的 16 条基本法则的不可动摇的严格性。在这儿 , 自由和约束达到了完美的统一。在世界语国里 , 每个人都在不同程度上是创造者 , 每一个世界语者都体验到这种创造的乐趣。人们再也不是习惯的奴隶了。 然而 , 不能不承认 , 世界语的灵活和自由给机器的自动处理带来了一定的困难。我们在研制 EChA 系统的过程中 , 深深感到 , 与民族语相比 , 以世界语为源语的机器翻译虽然有其容易的一面 , 也有其特有的难处 , 总之要比我们预料的要复杂得多。容易来自其高度规则性 , 困难则源于其高度灵活性。 世界语作为人们唯一实际使用的人造语言自然有它独特的研究价值。拿它与民族语作对比研究 , 我们会得到很多有益的启示。由于其独特的地位 , 人们在研究思维与语言 , 民族与语言 , 社会与语言 , 个体与语言 , 信仰与语言等等的关系 , 以及探讨语言的共性 , 语言的本质 , 语言的前途 ( 未来社会的语言 ), 语言的形式和内容 , 语言的类型 , 语言的教学等问题时都可能在研究世界语的过程中获益。另外 , 世界语本身的发展也需要语言学者对它作科学的研究和总结 , 这不但有益于这门语言健康的发展 , 有助于世界语语言学理论体系的建立 , 同时也会丰富一般语言学的理论。语言学者对世界语的理论研究虽然早已开始 , 但还远远不够。 对于机器翻译工作者 , 世界语还有一层特殊的意义 , 就是世界语作为民族语间机器翻译的媒介语的价值 . 这可以从两方面看 : 1) 按照机器特点对世界语作必要改造 , 定义一个作为媒介语的世界语子集 , 再辅以一套高度形式化的成分体系。这个设想我们在第一届中国世界语大会上提过。我们也确实设计过一个以世界语作为媒介语的英汉机器翻译规则系统。虽然由于时间等原因没有能上机试验 , 但我们相信该方案是可行的 , 也是值得尝试的。拿世界语或其子集作媒介语 , 尽管还远远不是最理想 , 但如果研制的是印欧语系间多语言自动翻译 , 或者是以这些语言为源语的多对一系统 ( 如英 / 法 / 德 / 俄 -- 汉系统 ), 相信会带来很多方便。 2) 虽然不直接采用世界语作媒介语 , 但在设计机译媒介语时 , 认真吸取世界语的优点 , 可以少走弯路。 __________________________________________________________________________ 附注 : 为便于查对 , 这里把世界语 16 条基本法规转抄如下 : (1) 不存在不定冠词 , 只存在定冠词 (LA), 其性数格不变。 (2) 名词词尾为 -O, 复数形式加词尾 -J 。只存在两个格 : 普通格和目的格 ; 后者由普通格加词尾 -N 构成。 (3) 形容词以 -A 收尾 , 其格数与名词同。比较级用 PLI 和连词 OL, 最高级用 PLEJ 。 (4) 基数词 ( 没有词尾变化 ) 是 : UNU 1, DU 2, TRI 3, KVAR 4, KVIN 5, SES 6, SEP 7, OK 8, NAU 9, DEK 10, CENT 100, MIL 1000 。几十和几百由数词简单合并而成。序数词加形容词词尾 ; 倍数加后缀 -OBL-, 分数加 -ON-, 集合数词加 -OP-, 分配意义用介词 PO 。此外 , 数词也可以有名词和副词形式。 (5) 人称代词 : MI, VI, LI, SHI, LI, GHI ( 代物件或动物 ), NI, VI, ILI 。其所有格形式加形容词词尾构成。数格的变化与名词同。 (6) 动词没有人称和数的变化。动词的各种形式 : 现在时用词尾 -AS; 过去时 -IS; 将来时 -OS; 假定式 -US; 命令式 -U; 不定式 -I 。分词 ( 有形容词和副词的意义 ): 主动现在式 -ANT-; 主动过去式 -INT-; 主动将来式 -ONT-; 被动现在式 -AT-; 被动过去式 -IT-; 被动将来式 -OT- 。被动语态的各种形式 , 都借助于 ESTI 的相应形式和所需要的动词的被动分词构成 ; 被动式所用的介词是 DE 。 (7) 副词以 -E 收尾 ; 各比较等级与形容词同。 (8) 所有介词都要求普通格。 (9) 每个词读写一致。 (10) 单词重音永远在倒数第二个音节上。 (11) 合成词由词与词简单合并而成 ( 主要的词放在后面 ); 语法词尾也被看作独立的词。 (12) 有其他否定词的时候 , 就不再用 NE 。 (13) 为了表示方向 , 单词加目的格词尾。 (14) 每个介词都有确定不变的意义。但是如果我们需要用一个介词 , 而从意义上看不出应该用哪一个 , 这时我们就用没有独立意义的介词 JE 。介词 JE 也可以用没有介词的目的格来代替。 (15) 所谓外来词 , 即大多数语言取自同一来源的词 , 在世界语里不加变化地应用 , 只需照世界语拼写法书写 ; 但如果一个词根派生几个不同的词时 , 最好只不加变化地采用那个基本词 , 并由此按照世界语的规则构造出其他的词来。 (16) 名词和冠词末尾的元音字母可以省略 , 用省略号 ' 来代替。 请参看 《巴贝尔通天塔必将建成》(刘涌泉 李维 , 中国第一届世界语大会论文。其中第四节专门讨论了世界语作为机译媒介语的优点 , 缺点 , 可能和前景。) 【相关】 硕士论文: 世界语到汉语和英语的自动翻译试验 立委硕士论文:1. EChA概况 立委硕士论文:2. 世界语: 语言学特点及其研究价值 立委硕士论文:3. 层次递归成分体系 立委硕士论文:4. EChA机器词典及词表 立委硕士论文:5. 世界语形态分析 立委硕士论文:6/7 世界语句法分析 立委硕士论文:8. 英语形态生成 立委硕士论文:9. 目标语调序 立委硕士论文:10. EChA 试验结果的分析 立委硕士论文【致谢】【参考书目】 立委硕士论文全文(世界语版) 《朝华午拾:shijie-师弟轶事(3)——疯狂世界语 》 灵感有如神授,巧夺岂止天工 《立委随笔:一小时学会世界语语法》 立委世界语文章 (1987): 《中国报道:通天塔必将建成》 立委世界语论文(1986): 《国际语到汉语和英语的自动翻译》 立委(1988)《世界科技:世界语到汉语和英语的自动翻译试验》 DLT项目背景介绍 立委硕士论文全文(世界语版) PhD Thesis: Morpho-syntactic Interface in CPSG (cover page) 【关于机器翻译】 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 世运资料|5524 次阅读|0 个评论
立委硕士论文:3. 层次递归成分体系
liwei999 2010-2-20 04:27
世界语到汉语和英语的自动翻译试验 --EChA 机器翻译系统概述 第 13 页———————————————————————————————————————————————————— 3. 层次递归成分体系 在给出层次递归成分体系 (CDC) 的定义之前 , 我们先说说该体系的来源及其理论依据。 CDC 体系是机器翻译的一种中间语言 , 我们试图提供一套更加合乎独立分析独立综合要求的机器翻译抽象文法。 CDC 是 EChA 系统的关键 , 它体现了我们对语言结构的看法和对机器翻译的认识。 CDC 是直接从导师们的中介成分体系 脱胎而来的 , 它保留了中介成分的形式 , 继承和改造了它的内容 , 其思想基础是有向直接联系理论 ( 或轴心词理论 ) 。体现在 CDC 中的要点是 : 1) 句子的最顶层是主句谓语 , 它是全句的最大联系中心 ( 主轴心 ), 所以谓语是全句的代表。一个完整的句子的最简单也是最典型的形式 , 就是独词祈使句。如 : Venu! Come! 来 ! 任何其他句子 ( 无谓句是不完整句 , 除外 ) 都是从上面的简单形式一层一层推衍出来的 : Venu! ... La studento venu chi tien! ... La studento, kiu parolis, venu chi tien! ...... Come! Let the student come here! Let the student, who spoke, come here! 反过来说 , 对一个无论怎样复杂的句子层层归约 , 归约的顶层必然是主句动词谓语 : VENU / \ \ studento tien (!) / \ / la parolis chi / / \ (,) kiu (,) 2) 一个词只能跟另外的一个词发生直接联系 , 但一个词可以带 N 个 ( N=0 ) 直接联系词。这就是句子结构的有向直接联系观点 . 带直接联系词的词叫轴心词 , 当 N0 时 , 它是非终结节点词。直接联系词本身也常常是低一层次的轴心词。 3) 主句谓语 ( 主轴心 ) 处在第一层。与主句谓语发生直接联系的词位于第二层。与第二层词直接联系的词在第三层。这样一环扣一环 , 组成句子的每一个词都处在某一个层次上。理论上说 , 句子的层次可以是无限的。 4) “虚词不虚。”虚词 ( 或者叫功能词 , 结构词 ) 较之实词包含更多的句法结构信息。有些虚词同样可以充当轴心词。比如 : 在 介 + 名 结构中 , 介词是轴心词。主从连词如 SE (IF), KVANKAM (ALTHOUGH) 等也充当轴心词 , 作为从句的代表 , 它跟主句谓语发生直接联系 , 它所带的下位直接联系词是从句谓语。 5) 作为源语文句的中间语言映射 , 层次递归成分应该 , 也可以落实到每个词上。所谓词 , 从机器角度来看 , 就是两空之间的字符串 ( 汉语另当别论 ) 。严格地说 , 标点符号也是词 ( 虚词 ), 也要参与文句的分析和归约。 建立 CDC 体系的两项基本原则是 : 1. 层次递归原则 : 有多少层次反映多少层次 , 而且层次是递归的。层次的递归性表现在 : (1) 对文句可以自底而上层层归约 ( 参见 EChA 系统的目标语生成算法 ); (2) 对文句可以自顶而下层层分析(参见 EChA 的源语分析算法)。 2. 词本位原则 : 词到句子 ( 以主句谓语为代表 ) 是一个动态递归过程的两极 , 其间的各个环节就是所谓层次。贯彻词本位原则的实质 , 就是在一切层次上都把成分 (CDC) 落实到词。句子是 , 也仅仅是由句素组成的。而每一个大大小小的句素(词组、短语、从句等)按照我们的看法 , 总是以一个轴心词来代表的。 现在 , 我们给出层次递归成分体系的形式化定义 : 层次递归成分体系是层次递归成分的集合 层次递归成分是这样一个六元信息组 : 丨 形态信息 | 结构关系信息 | 节点信息 | 分布信息 | 层号信息 | 链号信息 丨 形态信息 ::= { 词性 , 格 , 数 , 时态 , 语态 , 语式 , 非谓语形式 , 体 , 人称 , ... } 词性 ::= { N, V, A, F, P, Z, C, K, B } N= 名词 , V= 动词 , A= 形容词 , F= 副词 , P= 介词 , Z= 助动词 , C= 并列连词 , K= 主从连词 , B= 标点符号 格 ::= { 非格 , 普通格 , 目的格 } 数 ::= { 非数 , 单数 , 复数 } 时态 ::= { 非时态 , 现在时 , 过去时 , 将来时 } 语态 ::= { 非语态 , 主动语态 , 被动语态 } 语式 ::= { 非语式 , 陈述语式 , 命令语式 , 虚拟语式 } 非谓语形式 ::= { 非非谓语形式 , 分词 , 不定式 , 名动词 } 体 ::= { 非体 , 进行体 , 完成体 , 将来体 } 人称 ::= { 非人称 , 第一人称 , 第二人称 , 第三人称 } 结构关系信息 ::= { S, W, O, D, F, B, T, I, C, L, M, A, Z, V, R } S= 主语 , W= 谓语 , O= 宾语 , D= 定语 , F= 状语 , B= 补语 , T= 同位语 , I= 独立成分 C= 同等连词或标点 , L= 从句起始标点 , M= 从句末标点 ,A= 插入成分起始标点 ,Z= 插入成分末标点 V= 非结构意义标点 , R= 句末标点 节点信息 ::= { J, 非终结节点 } J= 终结节点 非终结节点 ::= { S, O, D, B, K, X, Y } S= 主语从句节点 , O= 宾语从句节点 , D= 定语从句节点 , B= 补语从句节点 , K= 一般从句节点 X= 动词性非终结节点 , Y= 其他非终结节点 分布信息 ::= { Q, H, G } Q= 位于轴心词前 , H= 位于轴心词后 , G= 轴心 层号信息 ::= { 非层号 , 自然数 } 自然数 ::= { 1, 2, 3, ... } 链号信息 ::= { 左链号 , 右链号 } 左链号 ::= { 非左链号 , 99, N } N= 大于句首号小于句末号的自然数 右链号 ::= { 非右链号 , N } 左链号的设置是为了处理同等成分的方便。我们把同等成分的最右元素认作整个成分的代表 ( 落脚点 , 轴心 ) 。 左链号 99 是同等成分最左元素的标志。有了左链号 , 消除了后顾之忧 , 同等成分就可以和其他句素一样 , 参加 文句的分析和归约。 下面是用这套成分体系作分析的例句 (004): CDC 中形态信息略去 , 余下依次是 : 关系 / 节点 / 分布 / 层号 / 左链 / 右链 , 例如 : FJQ 05 00 02 --- 状语 / 终结节点 / 位于其轴心词之前 / 处于第 5 层 / 没有左链 (00 是非左链号 )/ 右链号为 02 Pli poste , kiam la sciodisketoj 英 语 : More later , when the knowledge-disks 汉语 : 更 以后 , 当 (... 时 ) 微型知识磁盘 CDC 链 : FJQ 05 00 02 FYQ 04 00 17 LJQ 05 00 04 FKQ 04 00 17 DJQ 07 00 06 SYQ 06 00 07 estis eltrovitaj , la plenan indikaron had been found out , the full indication 被 发明了 , 全套 指令集合 WBH 05 00 04 BJH 06 00 07 MJH 05 00 04 DJQ 05 00 12 DJQ 05 00 12 OYQ 04 00 17 , endiskigitan , oni metis en , endisked , people put into , 所写入磁盘的 , 人们 放 到 (... 里面 ) AJQ 06 00 14 DYH 05 00 12 ZJH 06 00 14 SJQ 04 00 17 WXG 03 99 20 BYH 04 00 17 mashinojn kaj ili tiamaniere povis en machines and they therefore could in 机器 它们 这样 能 在 (... 里面 ) OJH 05 00 18 CJQ 02 17 23 SJQ 02 00 23 FJQ 02 00 23 WXG 01 20 00 FYQ 03 00 27 si mem akumuli sciencan stokon , them- selves accumulate scientific stock , 自己 本身 积累 科学 贮蓄 , BYH 04 00 24 BJH 05 00 25 BXH 02 00 23 DJQ 04 00 29 OYH 03 00 27 VJQ 05 00 32 pli grandan ol la homa cerbo more great than the man's brain 更 大 比 人的 头脑 FJQ 05 00 32 DYH 04 00 29 FYH 05 00 32 DJQ 07 00 36 DJQ 07 00 36 BYH 06 00 33 层次递归成分实质上就是不同层次的词之间直接联系关系的一种反映。它揭示了文句结构的正确的句法树。根据文句的 CDC 链 , 我们很容易画出该句的句法树。实验证明 , 作为体现独立分析结果的机器翻译中间语言 , 层次递归成分体系是比较有效的。现在 , 越来越多的专家呼吁建立能充分体现对源语分析的结果 , 正确揭示文句的层次结构和语义信息的媒介语 , 或类似媒介语的东西。许多文章论证了分析和综合独立的必要性。原语分析依赖译语 , 或译语综合依赖原语 , 使分析和综合都不能深入 , 而且难免捉襟见肘。 当然 , 层次递归成分体系还处于草创时期 , 必然存在不少问题 , 有待于在实践中不断检验 , 改进和完善。通过时间的考验和我们的努力 , 也许它最终能成为一个比较得心应手的机译工具 , 而为人们乐于采用 , 这当然是我们所希望的。也许它不是一个好的方案 , 很快便被淘汰了。但无论如何 , 总是一次有益的尝试。 这套体系的不足之处是 , 它不大能够反映有向直接联系的语义性质 , 而这对于高质量的机器翻译是比较关键的信息。人类语言不管怎样千差万别 , 总有某些共同的东西。例如 , 句素间的层次结构及其直接联系关系就具有很强的普遍性。正是这些语言共性才使翻译成为可能 , 从而它成为语言转换的基础。句素与句素之间的逻辑语义联系 , 也是重要的语言共性之一。 逻辑语义的确定 , 将大大有助于生成地道的目标语。在 CDC 体系中 , 结构关系一项基本上是传统语法中句法成分的继承 , 反映的是句子表层结构的关系 ( 主谓宾定状补等 ) 。看来 , 有必要扩充 CDC, 再加一个逻辑语义元 : 逻辑语义信息 ::= { Ag, Sb, Ob, Vb, Pl, Tl, Mn, Pp, Rs, Fr, Rg, Dg, Tm, Pr, Cl, Fn, Ms, Pm, Cd, Nb, Pt, Mt, Ps, Tg, Cs, Ex, Dt, Ct, Cn, Cc, Cp, Tw, Xx } Ag= 施事 (Agent), Sb= 主体 (Subject), Ob= 受事 (Object), Vb= 行为 (Verb), Pl= 地点 (Place) Tl= 工具 (Tool), Mn= 方式 (Manner), Pp= 目的 (Purpose), Rs= 结果 (Result), Fr= 频率 (Frequency) Rg= 范围 (Range), Dg= 程度 (degree), Tm= 时点 (Time), Pr= 时段 (Period), Cl= 颜色 (Colour) Fn= 功能 (Function), Ms= 尺寸 (Measurement), Pm= 后饰 (Post-modifier), Cd= 条件 (Condition) Nb= 数量 (Number), Pt= 属性 (Property), Mt= 质料 (Material), Ps= 领属 (Possession) Tg= 对象 (Target), Cs= 原因 (Cause), Ex= 说明 (Explanation), Dt= 限定 (Determiner) Ct= 环境 (Circumstance), Cn= 内容 (Content), Cc= 让步 (Concession), Cp= 比较 (Comparison) Tw= 同位 , Xx= 非语义 ( 或不定语义 ) Xx 是所有无法确定 , 或没有必要确定的成分的逻辑语义。机器翻译跟自然语言理解不同 , 并 不一味要求分析得越具体越透彻越好。机器翻译过程中的中间信息究竟要深入到怎样的程度 , 应 根据充分必要的原则来决定。少则影响效果 ( 质量 ), 多则白费功夫。 __________________________________________________________________________ 附注 : 关于中介成分体系 , 参见 : 刘涌泉 , 刘倬 , 高祖舜 俄汉机器翻译规则系统新旧方案比较 ( 中国语文 1962.2 ) 刘涌泉 外汉机器翻译中的中介成分体系 ( 中国语文 1982.2 ) 刘 倬 三次机器翻译试验 ( 第一次机器翻译学术会议论文 , 1980.9 ) 关于有向直接联系理论 , 参见 : 刘涌泉 , 刘倬 , 高祖舜 俄汉机器翻译规则系统新旧方案比较 ( 同上 ) 刘涌泉 , 刘倬 , 高祖舜 机器翻译中的词序问题 ( 中国语文 1965.3 ) 并请参阅 特斯尼埃的 结构句法基础 简介 ( 张烈材 , 国外语言学 1985.2 ) 参见 : 刘涌泉 词 ( 1984 年机器翻译及自然语言处理学术讨论会论文 , 1984.9 ) 参见 : 冯志伟 当前机器翻译的一些新特点 ( 情报学刊 1982. Vol 1 No.2 ) 参见 : 董振东 逻辑语义及其在机译中的应用 ( 中国的机器翻译 pp.25-45 ) 【相关】 立委硕士论文:目标语调序 《朝华午拾:shijie-师弟轶事(3)——疯狂世界语 》 灵感有如神授,巧夺岂止天工 《立委随笔:一小时学会世界语语法》 立委世界语文章 (1987): 《中国报道:通天塔必将建成》 立委世界语论文(1986): 《国际语到汉语和英语的自动翻译》 立委(1988)《世界科技:世界语到汉语和英语的自动翻译试验》 DLT项目背景介绍 立委硕士论文全文(世界语版) PhD Thesis: Morpho-syntactic Interface in CPSG (cover page) 【关于机器翻译】 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 世运资料|5102 次阅读|0 个评论
立委硕士论文:4. EChA机器词典及词表
liwei999 2010-2-20 04:27
世界语到汉语和英语的自动翻译试验 --EChA 机器翻译系统概述 第 19 页———————————————————————————————————————————————————— 4. EChA 机器词典及词表 EChA 所有词典词表都是随机数据文件 , 并且各配有一套修改和扩充的外围维护程序 , 这给系统的改进提供了方便。下面分别介绍各词典词表的定义。 1) 实词词干词典 格式 : _______________________________________________________________________________ 丨词干 丨 逻辑类 丨 及物性 丨 带不定式 丨 支配词 丨 支配词汉义码 丨 汉义 丨 汉义特征 丨 英义 丨 丨 _____ 丨 ______ 丨 _______ 丨 ________ 丨 _______ 丨 ____________ 丨 _____ 丨 _________ 丨 _____ 丨 ________________________________________________ 丨英义特征 丨 语义特征 丨 词类词义区分表记录号 丨 备用项 丨 丨 _______ 丨 _________ 丨 ___________________ 丨 _______ 丨 逻辑类 ::= { N, V, A, F, P, C, K, T, R, S, W, E, D, X } N= 名词 , V= 动词 , A= 形容词 , F= 副词 , P= 介词 , C= 连词或标点 , K=K 类相关词 , T=T 类相关词 , R= 其他相关词 , S= 数词 , W= 人称代词 , E= 系词 , D= 冠词 , X= 万能词 逻辑类用来表明词的静态词性。世界语实词的语法词性是动态随机的 , 只能由削尾决定。但每个词一般具 有一个基本词性 , 这是单词的深层的逻辑特征。语法词性不过是由它通过加词尾派生的表层的句法特征。 汉义特征 ::= { ... 以后 , ... 的 , 使 ..., 把 ..., 给 ..., ... 下 , ... 上 , ... 里 , ... 时 , 多义词特征 , 构成成语特征 , ... } 汉义特征揭示了该词汉义的结构特性 , 也给出了汉语生成的修辞信息。 英义特征 ::= { 不规则变化特征 , 双写特征 , 形式不变特征 , ... } 英义特征给出该词的英语形态生成方式信息。 支配词汉义 ::= { 零义 , 给 , 以 , 到 , ... } 支配词汉义标示该词所支配的词 ( 通常是介词 ) 的汉义。 语义特征 ::= { HM, LK, TM, FX, ... } HM= 人类特征 , LK= 地点特征 , TM= 时间特征 , FX= 方向特征 2) 虚词词典 虚词词典除包含实词词典的各项信息外 , 还揭示了部分 CDC 信息 , 如词性 , 格 , 数 , 关系 , 分布 , 节点等。分析之前就能在词典里给出某些动态信息 , 这是由虚词特点决定的。例如 : 介词永远处于非终结节点 ( 节点 Y) 上 , 原副词和万能词一般是不扩展的 , 所以总处于终结节点 ( 节点 J) 上。万能词 ECH (EVEN) 永远位于其轴心词之前 ( 分布 Q) 。原副词 JAM (ALREADY) 永远做状语 ( 关系 F) 。从属连词 KE (THAT) 总是引导名词性从句 ( 词类 K, 节点 K), 而且总位于其轴心词之后 ( 分布 H) 。冠词 LA 永远做定语 ( 关系 D), 位于轴心词前 ( 分布 Q), 处于终结节点上 ( 节点 J) 。 3) 成语词典 机器翻译界所谓的成语 , 比其通常的意义要宽泛得多。凡是常用的比较固定的词组都可收作成语。世界语中纯粹的不可分析的习惯表达法较少 , 所以成语词典容量相对不大。成语词典的收词范围 , 还在很大程度上决定于原语和译语的对比差异。亲属关系相近的表达方法类似 , 可以少收或不收成语。在 EChA 中 , 就没有设立世英成语词典 , 只有一部世汉成语词典。 EChA 成语例释 : MALFERMA(JN) AUTO(JN) ----- 敞蓬汽车 ( CF: OPEN CAR(S) ) SOMERA(JN) FERIO(JN) ----- 暑假 ( CF: SUMMER HOLIDAY(S) ) LA ANGLA(N) LINGVO(N) ---- 英语 ( CF: THE ENGLISH LANGUAGE ) INSTRUA(JN) LIBRO(JN) ---- 教科书 ( CF: TEACHING BOOK(S) ) LA GRANDA(N) MURO(N) ---- 长城 ( CF: THE GREAT WALL ) HOMA(N) SVARMO(N) ---- 人群 ( CF: MAN'S SWARM ) FACILA(N) VENTO(N) ---- 顺风 (CF: EASY WIND ) 4) 词类词义区分表 建立该词表对于世界语作为源语的机器翻译很必要 , 可以大大减轻综合时多义区分的负担。凡是随着词性和逻辑类的不同 , 目标语的义项也相应不同 , 而这种改变并不遵循形态转换规律 , 这样的单词就收入区分表。例如 : MATEMATIK-A(JN) 必须收入 , 而 HOM-A(JN) 就不必收 , 因为前者的英义是 MATHEMATICAL ( 不是 MATHEMATICS' ), 而后者只要按规律从源语形容格 ( 形容词性 ), 生成目标语所有格的词尾 -'S 或助词 的 ( MAN-'S / 人 - 的 ) 就可以了。我们在实词词典中对要入区分表的词 , 都给出了查表记录号 ( 随机文件地址 ), 所以系统只要按地址取记录就行了。用 BASIC 编程时 , 拿随机文件记录号作为单词内部代码 , 是值得推荐的。词类词义区分表例释 : 实词词典 词类词义区分表 ATING-I: ACHIEVE / 达到 ATING-O: ACHIEVEMENT / 成就 EKZEMPL-O: EXAMPLE / 例子 EKZEMPL-E: FOR EXAMPLE / 例如 KOMENC-I: BEGIN / 开始 KOMENC-E: AT BEGINNING / 开始时 MEZUR-I: MEASURE / 测量 MEZUR-O: MEASUREMENT / 尺寸 OKAZ-I: HAPPEN / 发生 OKAZ-O: OCCASION / 场合 SCI-I: KNOW / 知道 SCI-O: KNOWLEDGE / 知识 TIP-O: TYPE / 型号 TIP-A: TYPICAL / 典型的 5) 英语不规则词表 这个词表跟一般英语词典附录中列的不规则表没什么两样 , 不过为了简便 , 我们把动词形式的不规则变化和名词复数的不规则变化放在一个表内。不规则词表是供英语形态生成查用的。 英语不规则词表 原形 过去时 过去分词 名词复数 BEAT BEAT BEATEN BECOME BECAME BECOME ... ... ... ... CHILD CHILDREN ... ... ... ... 最后我们给出 EChA 句子加工场的格式 : __________________________________________________________________________ 丨目标语序号丨实词词典各项丨 CDC 信息丨已加工特征丨虚词特征丨目标语调序信息丨目标语位移序号丨 丨 ________ 丨 __________ 丨 _______ 丨 ________ 丨 ______ 丨 ____________ 丨 ___________ 丨 1. 目标语序号用来在综合阶段自底而上归约加工时给同号。 2. 目标语位移序号用来在用搬家法作虚拟调序时代表整个词条。用序号代替整个词条位移的虚拟调序 , 比纯粹用搬家法效率高 , 大约跟拉链法相仿。鉴于 BASIC 不能处理组合项变量 , 如果采用搬家法调序 , 只能一项一项位移 , 这种虚拟调序的技术更显出优越性。但须注意 , 跟位移序号一起移动的 , 还必须包括该词的自然顺序号 , 用它标示原词条位置 , 这样查问时才无后顾之忧。 【相关】 硕士论文: 世界语到汉语和英语的自动翻译试验 立委硕士论文:1. EChA概况 立委硕士论文:2. 世界语: 语言学特点及其研究价值 立委硕士论文:3. 层次递归成分体系 立委硕士论文:4. EChA机器词典及词表 立委硕士论文:5. 世界语形态分析 立委硕士论文:6/7 世界语句法分析 立委硕士论文:8. 英语形态生成 立委硕士论文:9. 目标语调序 立委硕士论文:10. EChA 试验结果的分析 立委硕士论文【致谢】【参考书目】 立委硕士论文全文(世界语版) 《朝华午拾:shijie-师弟轶事(3)——疯狂世界语 》 灵感有如神授,巧夺岂止天工 《立委随笔:一小时学会世界语语法》 立委世界语文章 (1987): 《中国报道:通天塔必将建成》 立委世界语论文(1986): 《国际语到汉语和英语的自动翻译》 立委(1988)《世界科技:世界语到汉语和英语的自动翻译试验》 DLT项目背景介绍 立委硕士论文全文(世界语版) PhD Thesis: Morpho-syntactic Interface in CPSG (cover page) 【关于机器翻译】 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 世运资料|5357 次阅读|0 个评论
立委硕士论文:5. 世界语形态分析
liwei999 2010-2-20 04:26
世界语到汉语和英语的自动翻译试验 --EChA 机器翻译系统概述 第 23 页—————————————————————————————————————————————— 5. 世界语形态分析 源语文句分析大体可以分形态分析和句法分析两大类。前者研究的对象小于等于词 , 而后者的对象大于等于词 ( 句素 ) 。分析的终极目的就是求解词的正确的 CDC 成分。本节先讨论形态分析问题。我们把构词分析的讨论也放在这一节。 世界语形态分析的主体是消尾算法的建立。世界语没有形态同形现象 , 所以只要削尾正确 , 形态分析也就完成。下面给出 EChA 的削尾算法。应该说 , 该算法是比较完备和合理的 , 完全能够满足世界语自动分析实用系统的要求。 世界语削尾算法 (1) 若该词最末字母为 -O 取 名词 / 普通格 / 单数 的结论 , 该词削尾后查实词词干词典 , 转下一步 (2), 否则步骤 (12) 。 (2) 若查词典成功 , 取词典信息到加工场 , 该词加工完毕 , 否则下一步 (3) 。 (3) 若该词最末二字母为 -AD 取 AD 词 的结论 , 该词削尾后查实词词干词典 , 转下一步 (4), 否则步骤 (5) 。 (4) 若查词典成功 , 取词典信息到加工场 , 该词加工完毕 , 否则步骤 (11) 。 (5) 若该词最末三字母为 -ANT 取 分词 / 进行式 / 主动式 的结论 , 该词削尾后查实词词干词典 , 转步骤 (4), 否则下一步 (6) 。 (6) 若该词最末三字母为 -INT 取 分词 / 完成式 / 主动式 的结论 , 该词削尾后查实词词干词典 , 转步骤 (4), 否则下一步 (7) 。 (7) 若该词最末三字母为 -ONT 取 分词 / 将来式 / 主动式 的结论 , 该词削尾后查实词词干词典 , 转步骤 (4), 否则下一步 (8) 。 (8) 若该词最末二字母为 -AT 取 分词 / 进行式 / 被动式 的结论 , 该词削尾后查实词词干词典 , 转步骤 (4), 否则下一步 (9) 。 (9) 若该词最末二字母为 -IT 取 分词 / 完成式 / 被动式 的结论 , 该词削尾后查实词词干词典 , 转步骤 (4), 否则下一步 (10) 。 (10) 若该词最末二字母为 -OT 取 分词 / 将来式 / 被动式 的结论 , 该词削尾后查实词词干词典 , 转步骤 (4), 否则下一步 (11) 。 (11) 该词取 生词 的结论 , 保留削尾结论 , 在加工场的目标语语义项里复制该词 , 该词加工完毕。 (12) 若该词最末字母为 -' 取 名词 / 普通格 / 单数 的结论 , 该词削尾后查实词词干词典 , 转步骤 (2), 否则下一步 (13) 。 (13) 若该词最末字母为 -A 取 形容词 / 普通格 / 单数 的结论 , 该词削尾后查实词词干词典 , 转步骤 (2), 否则下一步 (14) 。 (14) 若该词最末字母为 -E 取 副词 / 普通格 的结论 , 该词削尾后查实词词干词典 , 转步骤 (2), 否则下一步 (15) 。 (15) 若该词最末字母为 -J 取 普通格 / 复数 的结论 , 该词削尾后转下一步 (16), 否则步骤 (18) 。 (16) 若该词最末字母为 -O 取 名词 的结论 , 该词削尾后查实词词干词典 , 转步骤 (2), 否则下一步 (17) 。 (17) 若该词最末字母为 -A 取 形容词 的结论 , 该词削尾后查实词词干词典 , 转步骤 (2), 否则步骤 (11) 。 (18) 若该词最末字母为 -N 取 目的格 的结论 , 该词削尾后转下一步 (19), 否则步骤 (23) 。 (19) 若该词最末字母为 -J 取 复数 的结论 , 该词削尾后转步骤 (16), 否则下一步 (20) 。 (20) 若该词最末字母为 -O 取 名词 / 单数 的结论 , 该词削尾后查实词词干词典 , 转步骤 (2), 否则下一步 (21) 。 (21) 若该词最末字母为 -A 取 形容词 / 单数 的结论 , 该词削尾后查实词词干词典 , 转步骤 (2), 否则下一步 (22) 。 (22) 若该词最末字母为 -E 取 副词 的结论 , 该词削尾后查实词词干词典 , 转步骤 (2), 否则步骤 (11) 。 (23) 若该词最末字母为 -S 转下一步 (24), 否则转步骤 (30) 。 (24) 若该词最末二字母为 -AS 取 现在时 的结论 , 该词削尾后转步骤 (28), 否则下一步 (25) 。 (25) 若该词最末二字母为 -IS 取 过去时 的结论 , 该词削尾后转步骤 (28), 否则下一步 (26) 。 (26) 若该词最末二字母为 -OS 取 将来时 的结论 , 该词削尾后转步骤 (28), 否则下一步 (27) 。 (27) 若该词最末二字母为 -US 取 虚拟式 的结论 , 该词削尾后转步骤 (29), 否则步骤 (32) 。 (28) 取 陈述式 的结论 , 转下一步 (29) 。 (29) 取 动词 / 谓语 / 主动语态 的结论 , 查实词词干词典 , 转步骤 (2) 。 (30) 若该词最末字母为 -I 取 动词 / 不定式 的结论 , 该词削尾后查实词词干词典 , 转步骤 (2), 否则下一步 (31) 。 (31) 若该词最末字母为 -U 取 命令式 的结论 , 该词削尾后转步骤 (29), 否则下一步 (32) 。 (32) 查虚词词典 ( 因该词无尾可削 ) 。若成功取词典信息到加工场 , 该词加工完毕 , 否则取 名词 / 专有名词 的结论 , 返回步骤 (11) 。 世界语基本法规第 16 条说 : 名词和冠词末尾的元音字母可以省略 , 用省略号 ' 来代替 。这种现象多出现在诗歌里 , 如 MOND'(103) 。我们在步骤 (12) 对它作了处理 ( 冠词是长度小于 3 的虚词 , 直接查虚词词典 , 不入削尾一线 , 故不予考虑 ) 。 我们谈谈构词分析问题 , 这包括两个方面 : 1. 关于建立削缀算法 ( 派生词处理 ) 的讨论 ; 2. 关于拆离合成词的讨论。在现行的 EChA 系统中 , 这两个问题都回避了。我们建立的词典 , 是以词干 ( 包括合成词词干 ) 作存贮单位的 , 加工词只要削去语法词尾 , 就可以查到。但是 , 应该指出 , 这样做 , 对于世界语这种构词特别灵活的语言并不合理。以词干存词 , 在做小型实验时还可应付 , 如果是实用系统 , 就会出现存不胜存的情况。我们主张实词词典既存词根也存词干 , 同时建立一个完全的世界语削缀算法和合成词拆离算法 , 以便对付生词。(世界语除国际性的专业词汇外 , 基本词根很有限。所谓生词 , 一般都是由基本词根及几十个词缀随机组合的派生词或合成词。因此 , 只要切分正确 , 生词便不 “生”。 ) 世界语后缀可以叠加 ( 理论上无限 ), 但前缀通常只能有一个。这样词典一线的加工路径应该是 : 削缀与削尾不同 , 并非有缀必削。对于削尾 , 机器是先削后查 , 而对于削缀 , 则是先查词典 , 查不着的生词再去削缀。这样处理便于我们根据设计要求 ( 实验型还是实用型 , 对于翻译速度 , 质量 , 成本的要求等等 ) 和机器条件 ( 内存容量 , 运算速度等 ) 决定实词词典收词干的标准。 现在 , 由于计算机技术的发展 , 机器功能 ( 存贮 , 速度 ) 越来越强 , 而成本急遽下降。因此机器翻译界如今有人提倡存贮单位宜大不宜小 ( 如尽量多收成语的主张 ), 以海量存贮和快速查找来减轻分析的负担。这是很有见地的认识。单位越大 , 确定性就越强 , 对分析综合 ( 机器智能 ) 的要求就越低 , 研制的难度相对减轻 , 而译文的质量会大大提高。机器翻译是实用性很强的学科 , 这种主张就显得更有价值。当然 , 单位也不是越大越好 , 因为单位每大一级 ( 从词根到词干 , 从词干到词 , 从词到词组 , 从词组到语句 ), 其组合的可能性呈指数增长 . 如果推向极端 , 以句子为存贮单位 , 则完全不需要分析和综合 , 只要对号入座即可输出译文。这时候 , 人工智能的程度等于零 , 翻译质量却可以达到最佳 ( 如果以人工水平为最佳 ) 。可惜 , 硬件技术无论怎样发达 , 其存贮容量和查找速度也总有限 , 不可能对付无穷的句子。(但为了某种特殊的需要在有限的范围内 , 这种办法是可行的 , 如旅游翻译机。这到底还算不算机器翻译 ? 应该算的 , 只是它不是人工智能意义下的机器翻译。)机器翻译的另一极是以词素 ( 词根 , 词缀 , 词尾 ) 为分析单位 , 它所需要的词典容量 ( 只存词根 ) 最小 , 人工智能的水平最高 , 不但有句法分析和综合 , 还要有构词分析和综合。但费了好大劲儿 , 质量却最不能保证 , 因为一个句子掰得太碎 ( 原文分析 ), 捏拢来总难免有些难看的痕迹 ( 译文综合 ) 。所以 , 现行的机译系统 , 一般都是在这两极中根据具体条件和设计者的观点取某个中值。我们认为 , 一个优秀的实用系统应该有两手 , 既能分析得很透彻 , 又能对常用词组 ( 成语 ) 囫囵儿处理。该细的地方细得下去 , 该粗的地方粗得起来。一般来说 , 对于常用的 , 固定的 , 个性的可枚举现象粗一点比较有利 , 而对于规律性的随机现象 , 则适宜较细致的分析。所以 , 对于以世界语为分析对象的实用机译系统 , 我们既主张尽可能多收成语和带缀词干 , 也充分肯定建立一个完备的削缀算法的必要性。 那么 , 世界语实词词典收多少派生词词干比较合理呢 ? 对于独立型机器翻译 : (1) 如果是小型实验系统 , 目的是在有限的材料内试验系统的句法分析和综合能力 , 那就词干全收 ; 否则 : (2) 凡是常用的派生词词干一律收进词典 , 而不再入削缀子程序 ---- 常用性 ( 出现频率高 ) 是根本标准 ; (3) 有助于区别同形多义的派生词词干 , 应该收 ; (4) 可收可不收的 , 主张收 ; (5) 在刚开始设计实用系统的机器词典时 , 由于世界语词缀的极端灵活性和随机性 , 很难一次收入许多带缀的词干 , 这样 , 削缀算法就显得更重要。削下缀来 , 虽然表义不是很确切 , 甚至有时在目标语综合时 , 还需要辅以说明性注释 ( 见后面例释 ), 但总比直接打出生词来 ( 信息量为零 ) 强出百倍。随着系统的不断扩充和完善 , 收的词干自然会越来越多。 如果是具有特定的目标语的相关型机器翻译 : (1) 收多少派生词词干应该考虑目标语的构词特点及词汇状况; (2) 在目标语中作为一个完整概念 , 而不是词根和词缀意义简单相加所能反映的词干 , 应该收入词典。如 : DOM-EGO 楼房 , 大厦(而不是一般的“大 - 房子”); (3) 如果以汉语为目标语 , 削缀更多一些 , 因为世汉构词法很相似 , 汉族人的心理本能地习惯于理解词素与词素的组合。(这种民族偏爱心理在引进外来词时表现的很明显 , 如 德律风 为 电话 取代 , 莱塞 为 激光 取代等。)可以举出很多世汉构词神似的例子。而且也有许多世界语派生词如 DOM-ACHO 虽然整个儿译作 陋室 更雅一些 , 但也不妨用统一的削缀合成法组成新词 鬼 - 房子 , 与原义相去也不远。特别是有些缀与汉字 ( 词素 ) 有很多一致性 , 如 VIC-/ 副 - , -IN-/ 女 - , -EBL-/ 可 - 等等 , 就更有理由作削缀处理。 世汉构词对比例释 (1): 派生词 BO- 姻 - : BO-PATRO 姻 - 父亲 ( 岳父或公公 ) , BO-FILO 姻 - 儿子 ( 女婿 ) , BO-FRATO 姻 - 兄弟 ( 内弟 ) ; (1) GE- ( 男女 )- : GE-AMIKOJ ( 男女 )- 朋友们 , GE-KAMARADOJ ( 男女 )- 同志们 , GE-AKTOROJ ( 男女 )- 演员们 ; (2) EKS- 前 - : EKS-OFICISTO 前 - 职员 , EKS-MINISTRO 前 - 部长 , EKS-INSTRUISTO 前 - 教师 ; (3) MAL- : MAL-BONA 好 ( 坏 ) , MAL-AMIKO 朋友 ( 敌人 ) , MAL-SAGHE 聪明 ( 愚苯 ) ; MAL- 是世界语中用得最广 , 随机性最强的前缀之一 , 具有极强的造词能力 , 可惜 , 中文没有对应的词素。 如果系统遇到某个 MAL- 型生词 , 削下前缀后给出 这样的说明性标识 , 也还可以使人理解。 (4) VIC- 副 - : VIC-PREZIDANTO 副 - 主席 , VIC-ESTRO 副 - 队长 , VIC-CHEFMINISTRO 副 - 总理 ; (5) FI- 坏 - : FI-INSEKTO 坏 - 虫 , FI-KOMERCISTO 坏 - 商人 ( 奸商 ) , FI-KUTIMO 坏 - 习惯 ( 恶习 ) ; (6) SEN- 1. 若词根逻辑类为名词则 无 - : SEN-GUSTA 无 - 味的 , SEN-SENCA 无 - 意义的 ; 2. 若词根逻辑类为动词则 不 - : SEN-MORTA 不 - 死的 ( 不朽的 ) , SEN-ATENTA 不 - 注意的 ; NE- 若词根逻辑类为名词则 非 - 否则 不 - : NE-ESPERANTISTO 非 - 世界语者 , NE-BONA 不 - 好的 ; (7) 介词性前缀 : 1. SUR- - 上 : SUR-TABLE 桌子 - 上 ; 2. APUD- - 旁 : APUD-VOJA 路 - 旁的 ; 3. EN- - 内 : EN-LANDE 国 - 内 ; 4. LAU- 按 -: LAU-VICE 按 - 次序 ; 5. DE- 从 -: DE-NOVE 从 - 新 ; -ACH- 鬼 - : DOM-ACHO 鬼 - 房子 ( 陋室 ) , KNAB-ACHO 鬼 - 男孩 ( 捣蛋鬼 ) , VETER-ACHO 鬼天气 ; (8) -AN- - 成员 : KLUB-ANO 俱乐部 - 成员 , KURS-ANO 讲习班 - 成员 , KOMUNUM-ANO 公社 - 成员 ; (9) -UL- - 者 : BON-ULO 好 - 者 , KAR-ULO 亲爱 - 者 , JUN-ULO 年青 - 者 , LONG-KRUR-ULO 长 / 腿 - 者 ; (10)-IN- 女 - : KAMARAD-INO 女 - 同志 , INSTRUIST-INO 女 - 教师 , OFICIST-INO 女 - 职员 , AKTOR-INO , 女 - 演员 ; (11)-EBL- 可 - : VID-EBLA 可 - 见的 , MANGH-EBLA 可 - 吃的 , UZ-EBLA 可 - 用的 , NE-ATING-EBLA 不 - 可 - 达到的 ; (12)-EC- - 性 : CERT-ECO 确实 - 性 , NECES-ECO 必要 - 性 , KLAR-ECO 清楚 - 性 , LIBER-ECO 自由 - 性 ; (13)-EM- 爱 - : LABOR-EMA 爱 - 工作的 ( 勤劳的 ) , PAROL-EMA 爱 - 说话的 , MENSOG-EMA 爱 - 撒谎的 ; (14)-IND- 值得 - : LERN-INDA 值得 - 学习的 , LAUD-INDE 值得 - 称赞 , LEG-INDA 值得 - 读的 , AM-INDA 值得 - 爱的 ; (15) -ON- 1. 若 -ONO 则 - 分之一 : DU-ONO 二 - 分之一 , TRI-ONO 三 - 分之一 , KVAR-ONO 四 - 分之一 ; 2. 若 X+Y-ONOJ 则 Y- 分之 X: TRI DEK-ONOJ 十 - 分之三 , KVIN OK-ONOJ 八 - 分之五。 合成词 ( 词根 + 词根 ) 也是一样。比较固定的 , 应该整个儿存入词典 , 随机组合的 , 应该拆开。但这儿有一个困难 , 世界语语法为了方便使用者 , 即便对完全随机组合的合成词 , 也不作加连字符的规定。那么怎么拆呢 ? 词根的数量与词缀不能比 , 长度也变化很大 , 一个字母一个字母地削查比较 , 显然不是办法。如果坚持不要译前编辑 , 还找不到一个合理的解决办法。目前可以考虑先对中间有连字符的合成词作拆词加工。我们提倡除比较固定常用的合成词外 , 世界语者在运用随机合成词时,为读者的省力和机器的识辨计加上连字符。鉴于世界语构词法与汉语构词法惊人的一致 ( 组合方式及其高度随机性都很类似 ), 对于世汉机器翻译这一倡议更加必要。 世汉构词对比例释 (2): 合成词 (1) AKVO-FONTO 水 / 源 ; (2) VARM-ENERGIO 热 / 能 ; (3) ARBO-BRANCHO 树 / 枝 ; (4) VAPOR-SHIPO 汽 / 船 ; (5) SURD-MUT-ULO 聋 / 哑 - 者 ; (6) BLANK-HARA 白 / 发的 ; (7) NUD-PIEDA 光 / 脚的 ; (8) FISH-KAPTI 捕 / 鱼 __________________________________________________________________________________________ 附注 : 参见 : 刘涌泉 中国的机器翻译 ( 情报科学 1980, 3 ) 王广义 机器翻译中的固定词组和固定结构问题 ( 语言和计算机 (1), 1982 ) 参看 : 叶蜚声 , 徐通锵 语言学纲要 第二章第二节 1. 语言的层级体系 , PP.34-36 ( 北京大学出版社 , 1981 ) 【相关】 硕士论文: 世界语到汉语和英语的自动翻译试验 立委硕士论文:1. EChA概况 立委硕士论文:2. 世界语: 语言学特点及其研究价值 立委硕士论文:3. 层次递归成分体系 立委硕士论文:4. EChA机器词典及词表 立委硕士论文:5. 世界语形态分析 立委硕士论文:6/7 世界语句法分析 立委硕士论文:8. 英语形态生成 立委硕士论文:9. 目标语调序 立委硕士论文:10. EChA 试验结果的分析 立委硕士论文【致谢】【参考书目】 立委硕士论文全文(世界语版) 《朝华午拾:shijie-师弟轶事(3)——疯狂世界语 》 灵感有如神授,巧夺岂止天工 《立委随笔:一小时学会世界语语法》 立委世界语文章 (1987): 《中国报道:通天塔必将建成》 立委世界语论文(1986): 《国际语到汉语和英语的自动翻译》 立委(1988)《世界科技:世界语到汉语和英语的自动翻译试验》 DLT项目背景介绍 立委硕士论文全文(世界语版) PhD Thesis: Morpho-syntactic Interface in CPSG (cover page) 【关于机器翻译】 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 世运资料|4690 次阅读|0 个评论
立委硕士论文:6/7 世界语句法分析
liwei999 2010-2-20 04:26
世界语到汉语和英语的自动翻译试验 --EChA 机器翻译系统概述 第 29 页———————————————————————————————————————————————————— 6. 世界语句法分析 (1): 虚词处理 虚词分析是世界语句法分析中最困难的部分。 EChA 的策略是分而治之 , 各个击破。每一个虚词的分析规则自成一体 , 互相独立 , 这样在充实或改进某一具体虚词的规则时 , 便不致于影响其他虚词的规则 , 这也就是规则和规则分开吧。 语言规则和算法程序应该分开 , 大家已经说了许多 , 而规则和规则分开 , 似乎还没有引起足够的重视。 ( 不是指所有规则都分开 : 具有普遍意义的抽象语法规则集合 , 作为系统对于该语言充分形式化的逻辑描述 , 是自动分析的枢纽 , 本身就是一个可以做的很美的统一整体 , 谈不上分开。 ( 参考 EChA 句法分析第二线 , 见第 7 节 .) 一个优良的系统应该既能分得开 , 又能合得拢 .) 我们认为 , 规则和规则分开 , 对于研制实用性机译系统具有决定性意义。没有什么系统从一开始研制就可以足够完善 , 所以是否容易扩充和改进 , 在很大程度上决定了一个系统的前途。规则和算法分开 , 固然大大增强了系统的扩充能力 , 并且便于语言工作者和软件工作者充分合作。但这还不够。如果能实现规则和规则分开 , 不但有利于遵循具体问题具体分析原则 , 去解决语言这种特别复杂的现象中的许多个性问题 , 从而大大提高翻译质量 , 而且也为语言工作者和语言工作者的协作 , 创造了必要的条件 ---- 这种协作 , 对于研制大型实用系统是必不可少的。 规则和规则分开的主要方式是 : 1) 词典语法化 : 以词为基本单位 , 把关于该词的各种用法及其分析规则 , 以数据的形式写入词典 ( 它建在外存贮器上 ) 。这样的机器词典 , 形式上很类似于我们案头的词典工具书 , 如牛津 , 韦式 , LONGMAN 等 , 而且也较容易借鉴已有的这些词典的研究成果。我们建议首先把虚词和动词的条目语法化。 2) 语法词典化 : 在编写句法分析或综合程序 ( 它在内存贮器中 ) 时 , 把规则落实到具体词或小类上 , 并使这些规则独立开来。这两种方法形式有别 , 实质是一样的。我们在 EChA 中采用的是第二种方法。 ( 参见 EChA 虚词分析部分和 EChA 综合部分的多义词区分规则 .) 说到底 , EChA 分析第一线不过是一个带有分析规则的虚词大词典。 当然 , 应该指出 , 规则和规则分开 , 必然使规则量成倍增长。然而 , 由于边界分明 , 这种增长并不影响系统结构上的逻辑清晰性 , 这跟以前语言和算法 , 规则和规则都没分开时的情形大不相同 , 那时的规则无限膨胀 , 只能致使系统最终报废。不过规则量的增长 , 涉及到机器的存贮容量问题。但这实际上也不成问题 , 因为现在的机器对于存贮节省的要求 , 已经不是那么苛刻了。即便是微型机 , 中高挡的内存容量就能达到 , 或很容易扩充到四兆到八兆字节。值得强调的是 , 规则量的增长 , 一般并不影响系统的工作效率 , 因为规则是附在具体的词或小类下 , 只有所译文句出现了某词 , 才会入该词一线。 在 EChA 虚词分析一线中 , 我们把虚词的多义区分 , 甚至有些涉及虚词特点的目标语修辞 , 都一古脑纳入具体虚词的分析规则中。这样处理显然比较简便易行 , 也大大减轻了综合的困难。但是 , 正是在这儿 , EChA 违背了我们所极力赞同的分析和综合独立的原则。目前还想不出更好更合理的办法。不过 , 我们主张独立分析的本意 , 不外乎为了两点 : 1) 为了使分析深入以便提高机译质量 ; 2) 让同一个独立分析结果 , 能为多语综合所利用。考虑到虚词的分析和综合同步进行 , 有助于提高译文崐质量 , 而且由于虚词数量的有限及其分析规则的相互独立 , 在增加新的目标语时充实这些规则不会有很大困难 , 更不会影响整个系统的筋骨 , 因而我们目前的做法是有理由的 , 它并不违背我们的宗旨。 __________________________________________________________________________________________ 附注 : 这儿关于规则和规则分开的讨论 , 很大程度上得益于与刘倬老师的几次谈话。 返回目录 上一章节 下一章节 返回目录 上一章节 下一章节 第 31 页———————————————————————————————————————————————————— 7. 世界语句法分析 (2) 分析第 (2) 线与目标语综合充分独立 , 逻辑性强 , 是一个相当完整的语言分析模型。它由一个主程序和几个以动词分析算法为核心的环环相扣的子程序构成。主程序主要用来确定各语段的范围 ( 前限后限 ) 及其加工次序 , 为它们进入动词子程序做好准备。它必须对各种类型的世界语文句作出正确 , 合理的处理 , 才能保证系统的充分概括性和适应性。从各类文句的试验结果看 , EChA 相当好地做到了这一点。 我们把世界语文句的类型归纳如下 : 1. 无谓句 . 如 : Kia belega pejzagho ! (041) / What beautiful scenery ! 多么绝美的景色 ! 2. 谓语句 : 1) 简单句 : 全句只有一个谓语。如 : Skribu klare ! (033) / Write clearly ! 写清楚 ! 2) 扩展的简单句 : 全句至少有两个谓语 , 但只有一个主句 , 从句跟主句 ( 以主轴心为代表 ) 没有直接联系 , 即从句处于 2 层以外 ( 其层号 = 3 ) 。这类从句往往是定语从句或同位语从句。如 : La homon , pri kiu vi parolas , mi neniam vidis . (131) The man( 宾 ), about whom you speak , I never saw . 我从未见过你提到的人。 3) 主从句 : 全句至少有两个谓语 , 但只有一个主句 , 从句跟主句发生直接联系。如 : Se mi partoprenus en via amuza aktivado , mi estus tre ghoja . (050) If I should take part in your recreational activity , I would be very glad . 如果我参加你们的文娱活动 , 我会是很高兴的。 4) 并列句 : 全句至少有两个谓语 , 同时也至少有两个有并列关系的分句 , 并且其中一个是主轴心。如 : Mi miras , timas , tremas . (074) / I wonder, fear, tremble. 我惊奇 , 害怕 , 颤抖。 5) 交错句 : 以上四类句子交错组合而成的复杂句。如本文第 3 节举的例句 (004) 就是。 EChA 在对付这些不同类型的句子时 , 能够把复杂的句子分解成简单的句子处理。分析程序首先查找从句。如果查到 , 先入并列从句子程序分解 ( 若是光杆从句就放过 , 返主 ), 然后确定每一个从句的前后限 , 入动词子程序加工。加工完毕 , 做绝对放过标志。所有从句处理完毕 , 再行主句加工。这时候 , 句子呈或者简单句 , 或者并列句的形式。 世界语中表示关系的从句 , 如有相应的 T 类相关词与之呼应 , 就是同位语从句。而当主句中 T 类相关词省略时 , 便与表示疑问的名词性从句同形 , 从而增加了识辨难度。对此本系统暂时不予考虑。这种省略虽然显得较干练 ( 成语警句中常用 ), 崐但不宜提倡 , 因为甚至人 ( 尤其是非印欧语系的人 ) 理解起来 , 也常常感到困难。 Bone ridas , KIU laste ridas . / Well smiles, WHO smiles at last. 谁笑得最后 , 笑得最好。 KIO pasis , ne revenos . / WHAT passed, will not return. 时不再来。(一去不复返。 ) CF: Nur TIU ne eraras, KIU neniam ion faras.(151) / Only THAT PERSON is not wrong, WHO never dose something. 仅仅从不做某事的那个人不犯错误。 第二线的关键是动词子程序的建立。 ( 这儿所谓动词包括谓语动词 , 形动词 , 副动词和不定式 , 但不包括 -ADO 词 , 因为世界语的 -ADO 词已经完全名词化了 , 不再具有动词的特性 .) 如果说先从句后主句的加工过程 , 实际上是自下而上的方法 , 那么动词算法的路径正好反过来 , 是自上而下。动词子程序首先设三个开关。一是检验是否可以构成动词短语 VP 。若不能 , 如独词句及光杆的形动词 , 副动词或不定式 , 则给该词节点信息 J ( 终结节点 ), 该词加工完毕 , 退出。二是检验该词是否系词 , 若是 , 转系词子程序作适当处理 , 再回动词子程序递归加工。这是因为系动词有其特殊性 , 比如一般动词谓语简单句 , 只可能有一个前面没有介词的普通格名词 ( 它当然是主语 ), 而系词谓语句却可以有两个 ( 一主一表 ), 因而不能直接入动词子程序。最后一个开关检验该动词短语是否扩展的 VP, 若不是 , 即行分析。扩展的 VP 定义为该动词的间接成分层中 ( 所谓间接成分层是指其层号 = 动词轴心的层号 + 2 的层次 ), 至少又包含一个 VP 。对于扩展的动词短语 , 运用栈技术作递归加工。这样动词子程序真正的加工单位便是不扩展的各类 VP ( 简单句 , 形动词短语 , 副动词短语 , 不定式短语 ) 。动词子程序在工作期间 , 常常需要调用其他子程序。各子程序间的逻辑关系是十分清楚的。 名词子程序也要设开关。扩展的 NP 定义为带有至少一个 VP 的 NP, 它必须回动词子程序递归加工。 对于不扩展的动词短语 , 一般来说加工次序如下 : _________ ____________ ___________ ____________ 丨动词子程序丨 -------- 丨 名词子程序 丨 ------ 丨形容词子程序丨 ---- 丨 副词子程序 丨 这形象地体现了 自顶而下 的分析思想。 试验表明 , EChA 的两线分析程序 , 一具体一抽象 , 一个对付个性一个对付共性 , 一个面向虚词一个面向实词 , 一个尽量使句法分析词典化 , 一个则努力使分析过程逻辑化 , 二者相互配合 , 很有效地实现了各类世界语文句的自动分析。 EChA 输出的中间结果 158 条 CDC 链中只发现一处分析错误。它出现在第一首诗歌 LA ESPERO 的第三句 : Ne al glavo sangonsoifanta , ghi LA HOMAN tiras FAMILION . (102) Not to sword bloodthirsty , it THE MAN'S ( 目的格 ) pulls FAMILY ( 目的格 ). 为了节奏和韵律的关系 , 作者把形容词修饰语与其轴心词分开了 ( 当然仍同格同数 ), 中间插进一个动词谓语。于是系统误把二者都看作是动词谓语的宾语 , 因为 冠词 + 形容词 ( 后不跟名词 ) 结构一般总是代替 NP 的 , 所以 EChA 也就这样分析了。幸运的是 , 这一分析错误没有导致译文错误 , 因为中英文综合都把前置宾语移至动词轴心之后 , 客观上恢复了修饰语与其中心词的正常词序 , 当然这只是巧合。 【相关】 硕士论文: 世界语到汉语和英语的自动翻译试验 立委硕士论文:1. EChA概况 立委硕士论文:2. 世界语: 语言学特点及其研究价值 立委硕士论文:3. 层次递归成分体系 立委硕士论文:4. EChA机器词典及词表 立委硕士论文:5. 世界语形态分析 立委硕士论文:6/7 世界语句法分析 立委硕士论文:8. 英语形态生成 立委硕士论文:9. 目标语调序 立委硕士论文:10. EChA 试验结果的分析 立委硕士论文【致谢】【参考书目】 立委硕士论文全文(世界语版) 《朝华午拾:shijie-师弟轶事(3)——疯狂世界语 》 灵感有如神授,巧夺岂止天工 《立委随笔:一小时学会世界语语法》 立委世界语文章 (1987): 《中国报道:通天塔必将建成》 立委世界语论文(1986): 《国际语到汉语和英语的自动翻译》 立委(1988)《世界科技:世界语到汉语和英语的自动翻译试验》 DLT项目背景介绍 立委硕士论文全文(世界语版) PhD Thesis: Morpho-syntactic Interface in CPSG (cover page) 【关于机器翻译】 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 世运资料|4937 次阅读|0 个评论
立委硕士论文:8. 英语形态生成
liwei999 2010-2-20 04:26
世界语到汉语和英语的自动翻译试验 --EChA 机器翻译系统概述 第 34 页———————————————————————————————————————————————— 8. 英语形态生成 加尾算法跟削尾算法正好是逆过程。建立一个完全的 , 符合实用系统要求的英语加尾算法并不困难 , 因为英语的形态比较简单。 EChA 把汉语形态修辞与英语形态生成放在一处进行。 原语和译语的对比差异是建立语言转换规则的依据。这种对比差异可以归纳为下面五种情况 : 1) 一一对应 ; 2) 此一彼多 ; 3) 此多彼一 ; 4) 此有彼无 ; 5) 此无彼有。我们以世界语到英语的形态转换分别举例如下 : 1) 一一对应 世界语派生副词 ( 由逻辑类为形容词的词干加 -E 尾构成 ) --------- 英语相应形容词加 -LY 尾。 例 : diligent-E ---- diligent-LY ; serioz-E ---- serious-LY ; sincer-E ---- sincere-LY. (063) 例外 : bon-E ---- well (045) ( 不是 good-LY, 这种情况在词典一线入词类词义区分表处理。 ) 显然 , 一一对应的情形最好办。 2) 此一彼多 世界语不定式 -------- 英语动词原形 或 TO + 动词原形 世界语条件句 ( 谓语动词以 -US 收尾 ) -------- 英语三种形式(过去、现在、将来 ) 。 例 : 1. Se mi sci-US hierau, mi certe ven-US. ---- If I HAD KNOWN yesterday, I certainly SHOULD HAVE COME. ( 与过去事实相反的假设 ) 2. Se vi est-US mi, kion vi far-US? ---- If you WERE me, what WOULD you do? ( 与现在事实相反 ) 3. Se vi ven-US morgau, vi shin vid-US. ---- If you SHOULD come tomorrow, you WOULD see her. ( 与将来事实相反 ) 这种情况最麻烦。机器翻译中的多义现象盖源于此。如果上例没有明确的时间状语 , 那只能靠跨句上下文去 推测 , 这对机器实在太难了。 EChA 遇到这种情况 , 就干脆一律用 WOULD 代替 -US (050), 这虽然不大符合 英语语语法规范 , 暂时也只能这样了。好在这样转换并不造成误解。 此一彼多另一个常见的例子是 , 世界语现在时简单式 (-AS 尾 ) 对应于英语一般现在时和现在进行时两种。虽 然世界语复合时态有与英语现在进行时对应的形式 ( ESTAS x-ANTA ), 但是世界语的节约原则要求人们尽可能少 用复杂形式。我们一时还找不出足够可靠的形式规则 , 来决定 -AS 究竟何时译作一般时态 , 何时译作进行时 态。 EChA 目前一律以一般现在时译之 , 这使得部分译文不是很确切 , 但并不造成误解或费解。如 : Kien vi ir-RA? (158) ---- To where DO you go? ( CF: Where ARE you GOING? ) Chu kredas, ke mia koro flam-AS? (110) ---- Do believe, that my heart burn-S? ( CF: Do you believe that my heart IS BURNING? ) 3) 此多彼一 世界语形动词或副动词的各种形式 -------- 英语分词的相应形式。 -ANTA 和 -ANTE ---- -ING ; -INTA 和 -INTE ---- HAVING+ 过去分词 ; -OTA 和 -OTE ---- TO BE+ 过去分词 ; 等等。 KURANTE sur la strato, li falis. (091) ---- RUNNING on the street, he fell. Laboristoj estas KONSTRUANTAJ fabrikon. (015) ---- Workers are BUILDING factory. 这种情况好办。世界语形态比较丰富 , 而现代英语形态不发达 , 所以世英形态转换中最经常出现的 , 就是此多彼 一或此有彼无的情形 , 这对建立比较完全的 EChA 英语形态生成 ( 加尾 ) 算法是很有利的条件。 4) 此有彼无 世界语将来将来时 ( ESTOS x-ONTA(J) ) -------- 英语 ? Mi ESTOS LEGONTA la libron kiam shi venos. (023) ---- I WILL ( 或 : WILL BE GOING TO ) read the book when she comes. 这种情况看上去似乎很不利 , 实际上并不难处理。因为现今存在的各种语言 , 作为人们千百年来交流思想的 工具 , 一般都能够表达各种细微的语义差别。虽然乙语言也许缺乏甲语言的某个特定的表达手段 , 但如果必要 , 它总可以找到代替的表达方式。如上例 ESTOS LEGONTA 通常译作 WILL READ 已经足够 , 如果一定要强调将来的 将来 , 也不妨译作 WILL BE GOING TO READ 这样繁冗的形式。再如汉语缺乏形态 , 但如果需要 , 总可以用适当 的助词或副词等来代替 , 这就是所谓的形态修辞。 5) 此无彼有 世界语 ? -------- 英语完成进行时 Mi atend-AS vin chi tie du horojn. ---- I HAVE BEEN WAITING here for you for two hours. CF: I WAIT here for you for two hours. I AM WAITING here for you for two hours. 此所无彼所有的 , 如果在彼也是可有可无的 , 或并不太影响语义 , 那还好办 , 如上例。再如 , 英语的不定冠词 , 世界语就没有 , EChA 对此干脆不管 , 也没造成严重的后果 , 只是译文显得有些不顺 : Is your friend (*) doctor? (039) This is (*) green star, and that is (*) red star. (152) ( * 处本应有不定冠词 A ) 最头痛的是此所 无彼必有。从完全没有冠词的语言 ( 如汉语和俄语 ) 译入有冠词的语言在很多情况下就是这样。 上述归纳在机器翻译的转换生成中具有普遍意义。最困难的是此一彼多和此所无彼必有两种情况 , 一般要通过精密的句法和语义的对比和分析来解决。比如通过分析不定式所直接联系的英语轴心词的句型特征 , 就可以决定该不定式采用带 TO 还是不带 TO 的形式。实在不得已 , 只好把几种可能的选择同时打印出来 , 由用户自己决定 ---- 这当然是权宜之计 , 但常常比编制一套不可靠的区分规则 , 客观上更有利一些。机器模拟人的智能 , 在一定的阶段总还有某些局限。上面的做法 , 实际上就是把机器暂时还不具有的智能 , 交还给人发挥 , 特别是那些很难形式化 , 但人凭经验和直感却很容易判断的部分。然而 , 人工智能的使命决定了 , 人们应该尽最大努力提高机器智能化程度。条件允许却不去努力是设计者的懒惰和失职。 在 EChA 形态生成一线 , 还有词典化了的多义区分程序段 ( 它在形态生成前执行 ), 用 BASIC 写起来很容易。现举例介绍如下 : 1) LUDI 玩 / 打 ( 各类球 ) / 拉 ( 提琴 , 胡琴 ) / 弹 ( 钢琴 ) / 吹 ( 口琴 ) 2120 IF VT$(GC)1 THEN 2160 ( 若该词不及物则保留词典基本义项 玩 , 该词多义区分毕 , 转 2160. ) 2130 IF HY$(ZC)= 胡琴 OR RIGHT$(HY$(ZC),4)= 提琴 THEN HY$(GC)= 拉 : GOTO 2160 ( 若找到词为 胡琴 , 或找到词的后两字为 提琴 ( 包括大提琴 , 小提琴 , 中音提琴等 ), 则该词取汉义 拉 , 该词毕 , 转 2160. ) 2140 IF HY$(ZC)= 钢琴 THEN HY$(GC)= 弹 : GOTO 2160 2145 IF HY$(ZC)= 口琴 THEN HY$(GC)= 吹 : GOTO 2160 2150 IF RIGHT$(HY$(ZC),2)= 球 THEN HY$(GC)= 打 2160 GC=GC+1: GOTO 1830 ( 放过该词 , 取后一词 , 转 1830. ) 2) BATI 打 / ( 心 ) 跳动 1990 IF VT$(GC)=1 AND (RIGHT$(HY$(ZC),2)= 心 OR HY$(ZC)= 心脏 ) THEN HY$(GC)= 跳动 2000 GOTO 2160 3) OKAZI 进行 / 发生 / 召开 2450 IF RIGHT$(HY$(ZC),2)= 事 THEN HY$(GC)= 发生 :GOTO 2160 2460 IF RIGHT$(HY$(ZC),2)= 会 THEN HY$(GC)= 召开 :YY$(GC)=BE HELD: YTZ$(GC)=8: XX$(GC)=1 2470 GOTO 2160 3) RIGARDI: LOOK AT / LOOK / WATCH (TV) / SEE (FILM) 2830 IF VT$(GC)1 THEN YY$(GC)=LOOK: GOTO 2160 2840 IF YY$(ZC)=TELEVISION OR YY$(ZC)=TV THEN YY$(GC)=WATCH: GOTO 2160 2850 IF YY$(ZC)=FILM THEN YY$(GC)=SEE: YTZ$(GC)=1 2860 GOTO 2160 4) NENIAM 从不 / 从未 3070 IF ST$(ZC)=2 THEN HY$(GC)= 从未 : HY$(ZC)=HY$(ZC)+ 过 : JG$(ZC)=9 3080 GOTO 2160 【相关】 硕士论文: 世界语到汉语和英语的自动翻译试验 立委硕士论文:1. EChA概况 立委硕士论文:2. 世界语: 语言学特点及其研究价值 立委硕士论文:3. 层次递归成分体系 立委硕士论文:4. EChA机器词典及词表 立委硕士论文:5. 世界语形态分析 立委硕士论文:6/7 世界语句法分析 立委硕士论文:8. 英语形态生成 立委硕士论文:9. 目标语调序 立委硕士论文:10. EChA 试验结果的分析 立委硕士论文【致谢】【参考书目】 立委硕士论文全文(世界语版) 《朝华午拾:shijie-师弟轶事(3)——疯狂世界语 》 灵感有如神授,巧夺岂止天工 《立委随笔:一小时学会世界语语法》 立委世界语文章 (1987): 《中国报道:通天塔必将建成》 立委世界语论文(1986): 《国际语到汉语和英语的自动翻译》 立委(1988)《世界科技:世界语到汉语和英语的自动翻译试验》 DLT项目背景介绍 立委硕士论文全文(世界语版) PhD Thesis: Morpho-syntactic Interface in CPSG (cover page) 【关于机器翻译】 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 世运资料|5591 次阅读|0 个评论
立委硕士论文:9. 目标语调序
liwei999 2010-2-20 04:26
世界语到汉语和英语的自动翻译试验 --EChA 机器翻译系统概述 返回目录 上一章节 下一章节 第 38 页 9. 目标语调序 在前面的虚词一线和形态生成一线 , 已经做了一些局部调序并给了同号。如 : CHIO ( 一切 ) CHI ( 这 ) ---- 这一切 (012); DOKTORO ( 博士 ) ZAMENHOF ( 柴门霍夫 ) ---- 柴门霍夫博士 (134) 英语疑问句和否定句所需要的调序 , 就放在形态生成的同时进行。如 : NE (NOT) ESTIS (WERE) ---- WERE NOT (008) CHU VIA (YOUR) AMIKO (FRIEND) ESTAS (IS) KURACISTO (DOCTOR) ? ---- IS YOUR FRIEND DOCTOR ? (039) 从综合第二线开始 , 系统从句子整体着眼 , 自底而上分别做各目标语的归约调序。有了 CDC 和调序子程序 , 建立目标语的归约生成算法就很简单了。其基本思路是 : (1) 由句首至句末依次取词 , 放过已加工和非终结节点。 (2) 若该词层号为一 , 右链为零 , 说明已经归约到顶层主轴心 , 该句加工完毕。 (3) 若该词需要调序 , 入调序子程序。 (4) 该词做已加工特征 , 并视情况决定是否给该词以轴心词同号。 (5) 入子程序检查该词的姐妹词是否也都已加工。 (6) 若是 , 则该词及其所有姐妹词给以轴心词同号 , 轴心词做终结节点特征。 (7) 返回第 (1) 步。 对于英语 , 问题特别简单 , 只有一种情况需要调序 , 即及物谓语所带的前置宾语和后置主语。(不及物谓语句中的后置主语无需调序。)汉语的问题就复杂得多 , 主要规则有 : (1) 存在 有 (ESTI) 的主语应后置。除此以外 , 后置主语 ( 包括多数主语从句 ) 一律前移。 (2) 要求带 把 , 使 等的汉语及物动词做谓语的句子 , 其宾语在加上 把 , 使 等以后 , 应置于谓语前。除此以外 , 前置宾语一律后移。 (3) 后置定语从句在两种情况下不需前移 : 1. ESTAS + X, KIU 型强调句式 ; 2. 长 15 词以上的定语从句。其余的所有后置定语一律前移。各姐妹定语的相对位置主要由它们的语义特征决定 , 具体是通过调序时给或不给同号来实现。 (4) 状语从句一般原位不动(但后置时间状语从句最好前移)。其余后置状语一律前移。各姐妹状语相对位置的处理原则同上。 返回目录 上一章节 下一章节
个人分类: 世运资料|4984 次阅读|0 个评论
立委硕士论文:10. EChA 试验结果的分析
liwei999 2010-2-20 04:26
世界语到汉语和英语的自动翻译试验 --EChA 机器翻译系统概述 第 39 页———————————————————————————————————————————————————— 10. EChA 试验结果分析 总的来说 , 这次试验结果相当令人满意。译文不但可读 , 多数都很通顺。由于比较重视修辞 , 机器味儿也不浓。当然 , 这毕竟是小范围的实验 , 虽然我们尽量照顾到各种可能出现的语言现象 , 但也难说在今后的扩大试验中会出现什么问题 , 好在该系统比较容易维护和改进。 第二首诗中有两处 (110)(111) 把疑问句错译成英语强调句 : CHU kredas la vorton pure karan: vin mi amas! (111) DO BELIEVE the word purely dear: I love you! Cf: 相信纯粹地亲爱的词吗 : 我爱你 ! 这是因为原诗句为了节奏的需要 , 承前省略了主语 VI (YOU) 。有意思的是 , 译成强调句于诗意没有什么损害。 在 EChA 上机伊始 , 我们由于专心于检验方案主体的可行性和合理性 , 而忽略了修辞。初期译文 (1985.12) 显得较粗糙 , 比较后期结果 (1986.2), 译文的改进是明显的。例如 : 1. 形式主语 IT 的增加 (007)(012)(077)(122)(125)(133): Sed chio chi ankorau okazis sub homa gvidado kaj PLEJ GRAVE ESTIS, KE chio chi bazighis sur la homa scio. (012) 1) But all this still happened under man's guiding and MOST IMPORTANT WAS, THAT all this was based on the man's knowledge. 2) But all this still happened under man's guiding and IT WAS MOST IMPORTANT, THAT all this was based on the man's knowledge. 2. 不定式带 TO 跟不带 TO 的区分 (004)(019)(072)(078)(083)(084)(088)(089)(092)(095)(132)(142)(146): LABORI estas necese.(072) 1) (TO) WORK is necessary. 2) TO WORK is necessary. 工作是必要的 . 3. 双宾语 (128)(143)(144): Donu AL mi iom da kafo! (128) 1) Give TO me a little coffee! 2) Give me a little coffee! 给我一点咖啡 ! 表示存在的 ESTI 译 有 和 THERE TO BE (049)(157): En unu jaro ESTAS kvar sezonoj: printempo, somero, autuno kaj vintro. (049) 1) In one year ARE four seasons: spring, summer, autumn and winter. 在一年里面 是 四季节 : 春季 , 夏季 , 秋季和冬季。 2) In one year THERE ARE four seasons: spring, summer, autumn and winter. 在一年里面 有 四季节 : 春季 , 夏季 , 秋季和冬季 . 。 5. 目标语词义的选择 (059)(067)(081)(046)(098)(013)(014)(027)(118)(130): ELMETU viajn opiniojn pri nia laboro! (059) 1) 输出 你们的关于我们的工作的意见 ! 2) 提出 你们的关于我们的工作的意见 ! OUTPUT your opinions about our work! Chu mi FARIS multajn erarojn en mia hejmtasko? (081) 1) Did I DO a lot of mistakes in my homework? 我在我的家庭作业里面 做 了许多错误吗 ? 2) Did I MAKE a lot of mistakes in my homework? 我在我的家庭作业里面 犯 了许多错误吗 ? La partio TRE zorgas la vivon de la popolamaso. (046) 1) The party VERY cares for the life of the masses. 2) The party VERY MUCH cares for the life of the masses. 党很关心人民群众的生活。 La suno levighas CHE oriento. (013) 1) The sun rises AT east. 2) The sun rises IN THE east. 太阳在东方升起。 POST unu monato komencighos la someraj ferioj. (014) 1) AFTER one month will begin the summer's holidays. 2) IN one month will begin the summer's holidays. 暑假在一月以后将开始。 La eksperimento pri mashina tradukado ANKORAU NE estas finita. (027) 1) The experiment about machine's translating STILL has been NOT finished. 关于机器的翻译的试验 仍然没有 被完成。 2) The experiment about machine's translating has been NOT finshed YET. 关于机器的翻译的试验 还没有 被完成。 Ni esperas, ke li GAJNU championecon en la konkurso. (118) 1) We hope, that he WIN championship in the competition. 2) We hope, that he WILL WIN championship in the competition. 我们希望 , 让他在比赛里面赢得冠军。 Prenu la lingvon neutralan KIEL la bazon. (130) 1) Take the language neutral AS the base. 2) Take the language neutral FOR the base. 拿中立的语言作为基础。 通过 EChA 试验 , 我们深深体会到 , 同一语系中的语言转换较之不同语系容易许多。亲属关系越近 , 机器翻译对自动分析的精度要求也就越低 , 因而越容易推向实用。英语和汉语都是分析型语言 , 有很多类似的语言特点 , 即便如此 , 世英转换比世汉还是简单得多。只要建立一部世英自动词典 , 再加上一套形态转换算法 , 甚至无需进行层次和句法的分析 , 就可以实现词对词世英机器翻译。这样的译文尽管粗糙 , 但在相当程度上是可用的。我们对 ECHA 综合第一线 ( 形态转换 ) 输出的未经调序 * 的中间译文作了统计 , 以不引起误解为标准 , 英语正确率为 95% (150/158) 左右 , 费解的有八句 (003)(010)(075)(095)(102)(108)(111)(141), 汉语正确率为 72% (113/158) 左右。排除形态转换中利用了句法分析结果的部分 , ( 但不排除第一线的虚词分析和转换 ), 英语正确率也在 80% 以上。如果在输出译文时 , 对前置宾格名词加上标识符 , 则可懂度还可提高。当然 , 我们试验的这 158 句总有一定的局限 , 所以上述统计也只具有相对意义。中国的机器翻译 , 从一开始研究的就是印欧和汉臧这两个没有亲属关系的语系间语言的自动转换 , 难度很大。这恐怕是我们的实用系统迟迟不能问世的重要原因之一。所以 , 崐中国机器翻译工作者肩上的担子更重 , 任务更艰巨 , 更需要独创和献身精神。这种不利的条件也有它的另一面 : 机器翻译与汉语结合带来的许多特别的问题 , 客观上使我们的研究比较深入。我国的机译研究就没有象欧美那样经历词对词翻译的第一代 , 而是直接从第二代句对句翻译开始 , 起点较高 , 并且在很短时间内 (60 年代初期 ) 就赶上了当时的世界先进水平。这显然与我们所研究的特定对象 ( 俄 - 汉 , 英 - 汉等 ) 的要求有关。 现在谈谈另一个问题 : 文学作品可不可以由机器翻译 ? 我们说完全可以 , 不过很困难。要把人在翻译文学作品时所遵循的规则 ( 其中很多是下意识的 ) 形式化算法化 , 显然不容易。即便做到了 , 经济上也不上算。所以 , 在相当长的时间内 , 除特别的实验需要外 , 人们一般不去花这个力气。 EChA 选译了两首诗歌 , 在这个方面做了粗浅的尝试 , 证明机器也可译诗。从译文看 , 英语比汉语美 , 保留了更多的节奏和韵律的特点 , 更象一首诗。汉语译文除了几句译得较好 ( 如 : 向永远战争着的世界 , / 它允诺神圣的和谐 ), 总体上看 , 更象一篇散文。这也难怪 , 因为 EChA 本来就不是专门为翻译诗歌而设计的。诗歌形式上的两个最大特点是节奏和尾韵。可以设想 , 诗歌机译系统的词典跟一般机器词典应有所不同 : 各词条的每一义项下集中了一批同义的目标语等价词。这些词长短不一 , 韵尾各异 , 供机器在诗歌综合时选用 , 正象人在写诗或译诗时常需要翻韵书一样。 一提机器翻译 , 人们总爱问 : 机器能够翻译文学作品吗 ? 为什么不能 ? 离散是对连续的逼近 , 机器智能是对人的智能的模拟 , 二者之间并没有一道不可逾越的鸿沟。从功能上看 , 机器和人没有什么不同。机器不过是无机体的人罢了。只要人会的事情 , 机器迟早也能会。机器的不会并不是它不能 , 而是人没有使它会 , 这正如文盲不会写字是因为没人教他一样。不过 , 机器胃口很刁 , 不懂 意会 , 只有 言传 ( 通过计算机语言 ) 才能教会它。可惜 , 对很多事 , 人至今还是知其然 , 并不知其所以然 , 无法传授。可见 , 机器的无能全由于人的无能。可人今天不知其所以然的 , 并不说明将来总也不知 , 所以从发展的观点看 , 机器和人一样是无所不能的。事实上 , 机器目前已能代替医生 , 译员和作曲家做部分工作 , 而且比技术较差的人做得还象样些 , 因为它 取法乎上 。即便人 , 也只有很少一部分专家能够从事这些工作。机器已经闯进了万物之灵的神圣禁地。 最后 , 一般地谈谈修辞问题。由于机器翻译至今多局限在实验室里 , 所以未予修辞而产生的阅读障碍 ( 包括心理障碍 ) 还不突出。但随着机器翻译的逐步实用化 , 修辞的必要性将越来越明显。前面所举的后期译文对初期译文的改进的实例 , 主要涉及的就是修辞。 1) 什么是机器翻译修辞 ? 机器翻译修辞是保证译文通顺的一个重要手段。它是机器语法之后译文综合的一部分 , 是自动翻译过程的最后一个环节。广义的修辞包括贯穿翻译全过程的 , 一切旨在促使译文通顺和美化的手段 , 譬如成语手段 ( 通过成语词典 ), 虚词分析 ( 通过虚词模块 ), 结构手段 ( 通过搭配关系 ) 等等。有些所谓多义区分 , 实际上也是一种修辞 , 例如 LUDI (PLAY) 可分为 玩 , 打 ( 球 ), 演奏 ( 乐器 ) 等义项 , 但 演奏 义下具体选择 拉 ( 提琴 , 胡琴 )(016), 弹 ( 钢琴 )(038) 还是 吹 ( 口琴 ) 就属于修辞了。 EChA 对于涉及多义的修辞 , 即目标语合适对等词的选择 , 就把它当作多义问题解决 ( 见 EChA 虚词模块 , 词类词义区分表和多义区分模块 ) 。一般来说 , 跟具体的词汇或语法现象联系很紧的修辞 , 以及其他个性较强的特例修辞 , 应该放在相应的词典或语法部分同时处理 , 而可以归出类别的修辞 , 则由最后独立的修辞模块统一解决。 机器翻译修辞具有某种超语言学的特征 , 属于翻译学范畴。我们知道 , 根据原语和译语的语言学角度的对比差异 , 就可以对所译文句实现转换 ( 主要是句型转换 ), 这是我们目前机器翻译的主体工作。但这样直接转换的句子不能保证其通顺 , 甚至也不能保证其正确 ( 即不被误解 ), 因为语言间 ( 尤其是没有亲属关系的语言间 ) 除了词汇语法等差异外 , 还有超语言学 ( 表达习惯 , 思维方式等等 ) 的差异存在 , 即翻译学角度的对比差异。例如 : nun DE LOKO flugu ghi AL LOKO (now FROM PLACE let it fly TO PLACE) (101) / 现在从 一个 地方让它飞到 另一个 地方吧 ( 从地方到地方 不符合汉语表达习惯 ) 。修辞主要是为消除这种差异而设置的。因此 , 只有翻译学角度的语言对比差异 , 才是修辞的根本依据。 2) 修辞的分类 可分作两大类 : 必要修辞和美修辞。必要修辞是保证译文正确可懂所必需的修辞 , 它是修辞的初级阶段。美修辞则是保证译文通顺畅达 , 甚至产生某种美感或帮助形成译文风格所要求的修辞 , 它是修辞的高级阶段。机器翻译修辞首先是作为必要修辞提出来的。必要修辞是基础 , 具有更大的迫切性 , 是所有实用系统的必要组成部分 , 如形态修辞。这部分修辞数量很有限 , 一定量的研究就可以穷尽它。美修辞可以说是锦上添花。它是为机器译文不断提高质量 , 使之朝成熟 , 完美方向发展 , 以期赶上人工翻译的手段。可见 , 美修辞是无限发展的 , 它本身具有许多层次和侧面。修修补补远不能满足美修辞发展的需要。它要求体系和方法上的不断革新。就机器翻译的前景来说 , 美修辞的比重将逐渐变大。从严格的意义上讲 , 只有美修辞才真正体现修辞本身的特点和规律 , 因为必要修辞在一定的意义上不过是语法的推广 , 即可以算作广义的语法。它的手段跟机器语法没有根本的不同。在现行的 EChA 系统中 , 必要修辞就常常跟语法混在一起。 关于美修辞 , EChA 只是做了一点尝试。应该指出 , 机器翻译的美有自己的侧重点 , 它最推崇 通顺流畅 , 合乎习惯和简洁自然 , 其次是译文风格的形成。我们认为 , 机器译文的风格逐步形成 , 是完全可能的。因为从形式上看 , 风格的承担者主要是词汇 , 尤其是小词 ( 语气词 , 结构词 ), 其次 , 语法形式也有些不同。不同风格的形式特点 , 是可以为机器识辨和接受的。具体做法可以吸收计算风格学 (Computational stylistics) 的研究成果 , 去设计不同风格的译语修辞模型。风格可以有正规体 , 典雅体和口语体等等。正规体格式规范 , 清楚简单 , 给人的印象是客观公正 , 不假藻饰。典雅体的特点是虚词多用古字 ( 如 则 , 即 , 乃 , 便 , 故 , 且 , 其 , 及 等 ), 成语用的也较多 , 显得简洁古雅。口语体则比较松散自由 , 带有更多的语气词 ( 如 吗 , 呢 , 可不 , 是吗 , 啊 等 ) 。 _________________________________________________________________________________ 附注 : 参见 刘涌泉 中国的机器翻译 ( 情报科学 1980, 3 ) 研制世界语类型的机器翻译系统 , 从一开始就得到刘涌泉老师的热情支持 , 从方案主体到具体问题的处理 , 他都给以认真指导。在程序设计和上机调试的的过程中 , 刘倬老师也多次给予指导 , 有些基本操作的算法也是刘倬老师提供的。在 EChA 系统取得初步成果的时候 , 笔者向他们表示深切的感谢。另外 , 还要特别感谢机房韩老师的多方协助。没有她提供的方便 , EChA 系统根本不可能在这么短时间试验成功。 第 45 页—————————————————————————————————————————————— 1. Heinz Dieter MAAS Automata Tradukado en kaj el Esperanto ( Lingvo-kibernetiko kaj aliaj internacilingvaj aktoj de la IX-a Internacia Kongreso de Kibernetiko, pp 75-81, 1982 Gunter Narr Verlag Tubingen ) 2. 机器翻译论文选辑 ( 科学技术文献出版社 , 1979 ) 3. Kalocsay-Waringhien Plena Analiza Gramatiko de Esperanto ( 中国世界语出版社 , 1984 ) 4. 刘涌泉等著 中国的机器翻译 ( 知识出版社 , 1984 ) 5. 刘涌泉 , 高祖舜 , 刘倬著 机器翻译浅说 ( 科学普及出版社 , 1964 ) 6. 刘涌泉 , 李维 巴贝尔通天塔必将建成 ( 中国第一届世界语大会论文 , 1985.8 ) 7. 刘倬 三次机器翻译试验 ( 第一次机器翻译学术会议论文 , 1980.9 ) 论机器翻译规则系统的编制方法 ( 1982.3 上海 ) JFY 型英汉机器翻译系统的研制和试验 ( 语言学会第二届年会论文 , 1983.4 ) 8. 乔毅 开展语言的计算机处理和世界语类型的机器翻译 ( 中国第一届世界语大会论文 , 1985.8 ) 9. 魏原枢 , 徐文琪编 世界语语法 ( 上海外语教育出版社 , 1982 ) 10. 叶蜚声 , 徐通锵著 语言学纲要 ( 北京大学出版社 , 1981 ) 11. 语言和计算机 (1) ( 中国社会科学出版社 , 1982 ) 12. 语言和计算机 (2) ( 中国社会科学出版社 , 1985 ) 13. 张道真编著 实用英语语法 ( 商务印书馆 , 1984 ) 第 46 页———————————————————————————————————————————————————— EChA 试验结果 (1) LA ORIGINALA TEKSTO / THE ORIGINAL TEXT / 世界语原文 (001) TIEL EVOLUIGHIS PLI KAJ PLI LA PLANADO PER MASHINOJ . (002) TIUJ MASHINOJ KOMENCE NUR ELKALKULIS LA DIKTITAJN MATEMATIKAJN PROBLEMOJN , KONFORME AL LA ENPROGRAMIGO . (003) LA ELEKTRONIKAN PROGRAMIGON PRETIGIS HOMOJ . (004) PLI POSTE , KIAM LA SCIODISKETOJ ESTIS ELTROVITAJ , LA PLENAN INDIKARON , ENDISKIGITAN , ONI METIS EN MASHINOJN KAJ ILI TIAMANIERE POVIS EN SI MEM AKUMULI SCIENCAN STOKON , PLI GRANDAN OL LA HOMA CERBO . (005) KAJ SE TEMIS EKZEMPLE PRI LA PLANADO DE ELEKTROMOTORO , ONI ENMETIS LA SHABLONDISKETON DE LA ELEKTROMOTOR-PLANADO , DONIS LA INDIKOJN DE LA DEZIRATA MOTORO ( KILOVATO , TENSIO , ROTACIO , TIPO , KTP ) , (006) POST KIO LA MASHINO MEM PROGRAMIGIS SIN KAJ FARIS LA KALKULOJN . POST KELKAJ MINUTOJ GHI JAM PRETE ELDONIS LA MEZUROJN : LA DIAMETRON DE LA ROTACIA PARTO , GHIAN LONGON, LA MEZUROJN DE LA KANELOJ , DRATOJ , LA VOLVONOMBRON , ENTUTE CHION BEZONATAN . (007) ECH PLI : BALDAU ESTIS ATINGITE , KE LA MASHINO FARIS LA TUTAN DESEGNON KAJ TRANSDONIS GHIN AL LA FABRIKO . (008) KOMPRENEBLE TIUJ DESEGNOJ NE ESTIS IDENTAJ KUN NIAJ PAPERDESEGNOJ . (009) ILI ESTIS DISKETOJ , KIUJ ENTENIS CHIUN DETALON . (010) TIAMANIERE LA PLANADON KAJ FABRIKADON DE LA MASHINOJ JAM PLENUMIS SAME MASHINOJ . (011) ILI PLANIS LA MENDITAN MASHINON , FABRIKIS , ECH KONTROLPROVIS GHIN KAJ LA FUSHAN FORJHETIS . (012) SED CHIO CHI ANKORAU OKAZIS SUB HOMA GVIDADO KAJ PLEJ GRAVE ESTIS , KE CHIO CHI BAZIGHIS SUR LA HOMA SCIO . LA TEKSTO TRADUKITA EN LA ANGLAN / THE TEXT TRANSLATED INTO ENGLISH / 英语译文 (001) SO DEVELOPED MORE AND MORE THE PLANNING BY MACHINES . (002) THOSE MACHINES AT BEGINNING ONLY CALCULATED OUT THE DICTATED MATHEMATICAL PROBLEMS , ACCORDING TO THE PROGRAMMING . (003) MEN PREPARED THE ELECTRONIC PROGRAMMING . (004) MORE LATER , WHEN THE KNOWLEDGE-DISKETTES HAD BEEN FOUND OUT , PEOPLE PUT THE FULL INDICATION , ENDISKED , INTO MACHINES AND THEY THEREFORE COULD IN THEMSELVES ACCUMULATE SCIENTIFIC STOCK , MORE GREAT THAN THE MAN'SBRAIN . (005) AND IF IT CONCERNED FOR EXAMPLE ABOUT THE PLANNING OF ELECTRIC MOTOR , PEOPLE INPUT THE SAMPLE DISKETTE OF THE MOTOR PLANNING , GAVE THE INDICATIONS OF THE DESIRED MOTOR ( KILOWATT , VOLTAGE , ROTATION , TYPE , ETC ) , AFTER WHICH THE MACHINE ITSELF PROGRAMMED ITSELF AND DID THE CALCULATIONS . (006) AFTER SEVERAL MINUTES IT ALREADY READILY GAVE OUT THE MEASUREMENTS : THE DIAMETER OF THE ROTARY PART ,ITS LENGTH , THE MEASUREMENTS OF THE GROOVES , WIRES , THE WINDING NUMBER , IN TOTAL ALL REQUIRED . (007) EVEN MORE : SOON IT HAD BEEN ACHIEVED , THAT THE MACHINE DID THE TOTAL DESIGN AND OVERHANDED IT TO THE FACTORY . (008) OF COURSE THOSE DESIGNS WERE NOT IDENTICAL WITH OUR PAPERDESIGNS . (009) THEY WERE DISKETTES , WHICH CARRIED ALL DETAIL . (010) THEREFORE MACHINES ALREADY FULFILED THE PLANNING AND MANUFACTURING OF THE MACHINES SAMELY . (011) THEY PLANNED THE ORDERED MACHINE , MANUFACTURED , EVEN EXAMINED IT AND THREW AWAY THE USELESS . (012) BUT ALL THIS STILL HAPPENED UNDER MAN'S GUIDING AND IT WAS MOST IMPORTANT , THAT ALL THIS WAS BASED ON THE MAN'S KNOWLEDGE . LA TEKSTO TRADUKITA EN LA CHINAN / THE TEXT TRANSLATED INTO CHINESE / 汉语译文 (001) 这样用机器设计越来越发展了。 (002) 那些机器开始时仅仅按照输入程序计算出所命令的数学问题。 (003) 人准 备了电子程序设计。 (004) 更以后 , 当微型知识磁盘被发明了时 , 人们把所写入磁盘的全套指令集合放到机器里面 , 他 ( 它 ) 们这 样能在自己本身里面积累比人的头脑更大的科学贮蓄。 (005) 如果涉及例如关于电动机的设计 , 人们输入了电动机设计的微 型样品磁盘 , 给了所希望的电动机的指标 ( 千瓦 , 电压 , 运转 , 型号 , 等等 ), 在此以后机器本身把自己程序化了 , 做了计算。 (006) 在几分钟以后它已经就能给出尺寸 : 运转部分的直径 , 它的长度 , 槽纹 , 导线的尺寸 , 圈数 , 总之所需要的一切。 (007) 甚至更 : 很 快达到了 , 机器做了整个图样 , 把它转交到工厂。 (008) 当然那些 图样 与我们的图纸不是一样的。 (009) 他 ( 它 ) 们是储有所 有细节的微型磁盘。 (010) 这样机器已经同样地完成了机器的设计和制造。 (011) 他 ( 它 ) 们设计了所定购的机器 , 制造了 , 甚 至检验了它 , 把废的抛弃了。 (012) 但是这一切仍然在人的指导下进行 , 最重要的是 , 这一切以人的知识作为基础 . (2) DIVERSAJ FRAZOJ / VARIOUS SENTENCES / 各类文句 (016) KIAM MI ESTIS LUDANTA VIOLONON , MIA ONKLO VIZITIS NIAN HEJMON . WHEN I WAS PLAYING VIOLIN , MY UNCLE VISITED OUR HOME . 当我 ( 当时 ) 正在拉小提琴时 , 我的叔叔访问了我的家。 (020) MI ESTOS FININTA LA EKSPERIMENTON PRI MASHINA TRADUKADO POST KELKAJ MONATOJ . I WILL HAVE FINISHED THE EXPERIMENT ABOUT MACHINE'S TRANSLATING IN SEVERAL MONTHS. 我在几月以后将已经完成关于机器的翻译的实验。 (028) BABELO NE ESTIS ELKONSTRUITA. BABEL HAD NOT BEEN BUILT UP . 巴贝尔塔没有被建成。 (029) NEPRE ESTOS ELKONSTRUITA LA NOVA BABELO . ABSOLUTELY WILL HAVE BEEN BUILT UP THE NEW BABEL . 新巴贝尔塔必然地将被建成。 (040) KIAL VI LERNAS ESPERANTON ? WHY DO YOU LEARN ESPERANTO ? 为什么你学习世界语 ? (044) NE PROKRASTU LA HODIAUAN LABORON GHIS MORGAU . DON'T PUT OFF THE TODAY'S WORK TILL TOMORROW . 别把今天的工作推迟到明天。 (045) KIEL BONE PENTRAS LA KNABO ! HOW WELL THE BOY PAINTS ! 男孩多么好地画画啊 ! (048) KIU ESTAS LA AUTORO DE LA LIBRO , KIUN VI JHUS LEGIS ? WHO IS THE AUTHOR OF THE BOOK , WHICH YOU JUST READ ? 你刚刚读了的书的作者是谁 ? (050) SE MI PARTOPRENUS EN VIA AMUZA AKTIVADO , MI ESTUS TRE GHOJA . IF I WOULD TAKE PART IN YOUR RECREATIONAL ACTIVITY , I WOULD BE VERY GLAD . 如果我参加你 ( 们 ) 的文娱活动 , 我会是很高兴的 . (056) CHU VI MEMORAS LA TAGOJN , KIAM NI KUNE STUDIS EN LA UNIVERSITATO ? DO YOU REMEMBER THE DAYS , WHEN WE TOGETHER STUDIED IN THE UNIVERSITY ? 你记得我们在一起在大学里面学习的日子吗 ? (058) UNUIGHU PROLETOJ DE CHIUJ LANDOJ ! LET PROLETARIANS OF ALL COUNTRIES UNITE ! 让所有国家的无产者联合吧 ! (061) KIEL SAGHA VI ESTAS ! HOW WISE YOU ARE ! 你是多么聪明啊 ! (062) ESPERANTO ESTAS INTERNACIA HELPA LINGVO . ESPERANTO IS INTERNATIONAL HELP LANGUAGE . 世界语是国际辅助语言。 (067) LIA PROPONO ESTAS , KE NI CHIUJ LIBERE ELMETU NIAJN OPINIOJN . HIS PROPOSAL IS , THAT WE ALL FREELY OUTPUT OUR OPINIONS . 他的建议是 , 让我们所有人自由地提出我们的意见。 (068) MI NE SCIAS , KIAM KOMENCIGHOS NIAJ FERIOJ . I DON'T KNOW , WHEN WILL BEGIN OUR HOLIDAYS . 我不知道 , 我们的假日什么时候将开始。 (069) LA LIBRO , KIU KUSHAS SUR LA TABLO , ESTAS VERDA . THE BOOK , WHICH LIES ON THE TABLE , IS GREEN . 在桌子上躺的书是绿的。 (071) LA INFANO PLORAS , CHAR IU LIN BATIS . THE CHILD CRIES , BECAUSE SOMEBODY BEAT HIM . 小孩哭 , 因为某人打了他。 (078) LERNI ESPERANTON NE ESTAS MALFACILE . TO LEARN ESPERANTO IS NOT DIFFICULT . 学习世界语不是困难的。 (084) MI NE SCIAS , CHU VI POVAS PLENUMI TIUN CHI TASKON . I DON'T KNOW , WHETHER YOU CAN FULFIL THIS TASK . 我不知道 , 是否你能完成这个任务。 (086) MULTAJ DIVERSLANDAJ ESPERANTISTOJ CHEESTOS LA UNIVERSALAN KONGRESON DE ESPERANTO OKAZONTAN PEKINE . A LOT OF VARIOUS COUNTRY'S ESPERANTISTS WILL ATTEND THE UNIVERSAL CONGRESS OF ESPERANTO TO BE HELD IN BEIJING . 许多不同国家的世界语者将参加在北京将召开的世界语的国际大会。 (089) LIA PROPONO ELEKTI NOVAN PREZIDANTON NE ESTIS AKCEPTITA . HIS PROPOSAL TO ELECT NEW PRESIDENT HAD NOT BEEN ACCEPTED . 他的选举新总统的建议没有被接受。 (090) SHI ESTAS LA PLEJ BELA EL LA KNABINOJ . SHE IS THE MOST BEAUTIFUL OF THE GIRLS . 她在女孩里面是最漂亮的。 (092) FALINTE , LI NE POVIS RELEVIGHI . HAVING FALLEN , HE COULD NOT GET UP . 摔倒了 , 他不能重新起来。 (093) FORIRONTE , LI PREMIS MIAN MANON . TO GO AWAY , HE SHOOK MY HAND . 将要离去 , 他握了我的手。 (098) MI TRE AMAS ESPERANTON , MI PLI AMAS ESPERANTISTOJN , MI PLEJ AMAS LA IDEALON DE ESPERANTO . I VERY MUCH LOVE ESPERANTO , I MORE LOVE ESPERANTISTS , I MOST LOVE THE IDEAL OF ESPERANTO . 我很爱世界语 , 我更爱世界语者 , 我最爱世界语的理想。 (116) NI LUDU , CHU BONE ? LET'S PLAY , ALL RIGHT ? 让我们玩吧 , 好吗 ? (119) KIA MIRAKLO TIO ESTAS , KE NIAJ ANTIKVULOJ KONSTRUIS LA GRANDAN MURON NUR PER SIAJ DU MANOJ ! WHAT MIRACLE IT IS , THAT OUR ANCESTORS BUILT THE GREAT WALL ONLY BY THEIR TWO HANDS ! 我们的祖先仅仅用自己的两手建造了长城 , 这是怎样的奇迹啊 ! (121) FORPASIS UNU TAGO , FORPASIS ANKAU LA DUA . PASSED AWAY ONE DAY , PASSED AWAY ALSO THE SECOND . 一天过去了 , 第二也过去了。 (122) CHU ESTAS EBLE , KE VI NENION SCIAS ? IS IT POSSIBLE , THAT YOU KNOW NOTHING ? 你不知道任何事 , 这是可能的吗 ? (131) LA HOMON , PRI KIU VI PAROLAS , MI NENIAM VIDIS . I NEVER SAW THE MAN , ABOUT WHOM YOU SPEAK . 我从未看见过你提到的人。 (132) NI , ESPERANTISTOJ , DEVAS LABORI PLI ENERGIE OL IAM . WE , ESPERANTISTS , MUST WORK MORE HARD THAN EVER . 我们 , 世界语者 , 应该比任何时候更努力工作。 (133) SOMERE ESTAS TRE VARME . IN SUMMER IT IS VERY HOT . 夏天是很热的。 (134) DOKTORO ZAMENHOF NASKIGHIS LA 15-AN DE DECEMBRO EN 1859 . DOCTOR ZAMENHOF WAS BORN ON THE 15TH OF DECEMBER IN 1859 . 柴门霍夫博士 1859 年十二月的 15 号出生。 (135) SE VI SCIUS , KIU LI ESTAS , VI LIN PLI ESTIMUS . IF YOU WOULD KNOW , WHO HE IS , YOU MORE WOULD ESTEEM HIM . 如果你知道 , 他是谁 , 你更会尊敬他。 (136) CENTOJ DA MALFERMAJ AUTOJ NIN PORTIS AL LA CENTRA LENIN-STADIONO , MALRAPIDE MOVIGHANTE TRA LA HOMA SVARMO . HUNDREDS OF OPEN CARS CARRIED US TO THE CENTRAL LENIN STADIUM , SLOWLY MOVING THROUGH THE MAN'S SWARM . 成百敞篷汽车把我们带到中央列宁运动场 , 缓慢地通过人群运动。 (137) MI VIDIS , KE LI FALIS KAJ LIA VESTO MALPURIGHIS . I SAW , THAT HE FELL AND HIS CLOTHES BECAME DIRTY . 我看见了 , 他摔倒了 , 他的衣服弄脏了。 (139) MI SCIIS , KE LI NE FAROS , KION LI PROMESIS . I KNEW , THAT HE WOULD NOT DO WHAT HE PROMISED . 我知道 , 他将不做他允诺的。 (140) ESTAS PAULO , KIU ARANGHIS LA AFERON . IT IS PAULO THAT ARRANGED THE AFFAIR . 是 PAULO 安排了事情。 (142) KUREGIS LA KNABO PER SIA TUTA FORTO , SED LI NE POVIS ATINGI LA PAPILION . RAN THE BOY BY HIS TOTAL STRENGTH , BUT HE COULD NOT ACHIEVE THE BUTTERFLY . 男孩用自己的整个力量狂奔 , 但是他不能达到蝴蝶。 (144) LI DONIS AL MI MULTAJN INSTRUAJN LIBROJN . HE GAVE ME A LOT OF TEACHING BOOKS . 他给了我许多教科书。 (145) CHU VI PAROLAS CHINE AU JAPANE ? DO YOU SPEAK IN CHINESE OR IN JAPANESE ? 你用中文还是用日文说话 ? (151) NUR TIU NE ERARAS , KIU NENIAM ION FARAS . ONLY THAT PERSON IS NOT WRONG , WHO NEVER DOES SOMETHING . 仅仅从不做某事的那个人不犯错误。 (155) ESPERANTO ESTAS CHIES PROPRAJHO . ESPERANTO IS EVERYBODY'S PROPERTY . 世界语是所有人的财产。 (156) MI MEMORAS CHIUN , KIUN MI VIDIS . I REMEMBER ALL , WHOM I SAW . 我记得我看见了的所有人。 (157) ESTAS NENIU EN LA CHAMBRO . THERE IS NOBODY IN THE ROOM . 在房间里面没有任何人。 第 页———————————————————————————————————————————————————— (3) DU POEMOJ / TWO POEMS / 两首诗歌 (099) LA ESPERO : ESPERANTISTA HIMNO ( POEMO FAR ZAMENHOF ) . (100) EN LA MONDON VENIS NOVA SENTO , TRA LA MONDO IRAS FORTA VOKO ; (101) PER FLUGILOJ DE FACILA VENTO , NUN DE LOKO FLUGU GHI AL LOKO . (102) NE AL GLAVO SANGONSOIFANTA , GHI LA HOMAN TIRAS FAMILION ; (103) AL LA MOND' ETERNE MILITANTA , GHI PROMESAS SANKTAN HARMONION . (099) THE HOPE : ESPERANTIST'S HYMN ( POEM BY ZAMENHOF ) . (100) INTO THE WORLD CAME NEW FEELING , OVER THE WORLD GOES STRONG VOICE ; (101) BY WINGS OF EASY WIND , NOW FROM PLACE LET IT FLY TO PLACE . (102) NOT TO SWORD BLOODTHIRSTY , IT PULLS THE MAN FAMILY ; (103) TO THE WORLD EVER FIGHTING , IT PROMISES SACRED HARMONY . (099) 希望 : 世界语者的颂歌 ( 柴门霍夫所作的诗歌 ) 。 (100) 新感觉来到了世界 , 有力的声音走遍世界 ; (101) 用顺风的翅膀 , 现在让它从一个地方飞到另一个地方吧。 (102) 它不把人的家庭 引到渴血的刀剑 ; (103) 向永远战争着的世界 , 它允诺神圣的和谐。 (104) AL NIA KARA LINGVO ( FAR IU NOVA ESPERANTISTO ) . (105) LA LINGVO GRACIA , KARA MIA , GHIS KIAM VI VENIS AL MI FINE FIN ? (106) ATENDIS SOIFE MI , ETERNE VIA , MI AMAS VIN ! (107) MI AMAS VIN VERE , PRUVU DIO , KAJ MIA BON-KORO BATAS NUR POR VI ; (108) NE PLU SEKRETETO ESTAS TIO : VIN AMAS MI ! (109) CHU KREDAS VI MIAN AMON MARAN ? (110) CHU KREDAS , KE MIA KORO FLAMAS ? (111) CHU KREDAS LA VORTON PURE KARAN : VIN MI AMAS ! (104) TO OUR DEAR LANGUAGE ( BY SOME NEW ESPERANTIST ) . (105) THE LANGUAGE GRACEFUL , MY DEAR , TILL WHEN YOU CAME TO ME AT LAST ? (106) WAITED LONGINGLY I , EVER YOURS , I LOVE YOU ! (107) I LOVE YOU TRUELY , LET GOD PROVE , AND MY GOOD HEART BEATS ONLY FOR YOU ; (108) NO LONGER THAT IS LITTLE SECRET : I LOVE YOU ! (109) DO YOU BELIEVE MY LOVE LIKE SEA ? (110) DO BELIEVE , THAT MY HEART BURNS ? (111) DO BELIEVE THE WORD PURELY DEAR : I LOVE YOU ! (104) 献给我们的亲爱的语言 ( 某新世界语者所作 ) 。 (105) 优美的语言 , 我的亲爱的 , 到什么时候你最后来到了我这儿 ? (106) 我渴望地等待 , 你的永远的 , 我爱你 ! (107) 我真实地爱你 , 让上帝证明吧 , 我的善良的心仅仅为了你跳动 ; (108) 那已经不再是小秘密 : 我爱你 ! (109) 你相信我的大海一样的爱吗 ? (110) 相信 , 我的心燃烧吗 ? (111) 相信纯粹地亲爱的词吗 : 我爱你 ! 第 57 页———————————————————————————————————————————————————— 世界语摘要 Automata Tradukado el Esperanto en la Chinan kaj Anglan Lingvojn --pri EChA Mashintraduka Sistemo EChA (el Esperanto en la Chinan kaj Anglan Lingvojn) estas esperimenta mashintraduka sistemo, kiu ricevas Esperanton kiel fontolingvon kaj elmetas fine la chinan kaj anglan lingvojn kiel celolingvojn. Ghi estas fraz-al-fraza traduksistemo, en kiu la analizo de la fontolingvo kaj la sintezo de la celolingvoj sendependas unu de alia. La traduka procezo de EChA tute automatas, nebezonante antau-redakton kaj post-redakton. La tuta peniga laboro dauris unu jaron. La sistemo EChA establighis sur la mikro-komputero IBM-PC/XT kaj la progamiga komputero-lingvo estas BASIC (D 2.00). EChA estas subtenata de la CCDOS sistemo (t.e. PC DOS 2.10 kun la tenejode china ideografiajho). La chefa parto de EChA konsistas el 6 linioj da analiza-sinteza programo. Krome, en la sistemo ankau fondighis 3 mashinvortaroj kaj 2 vortotabeloj kune kun la programoj por ilin establi, konsulti, ekspansiigi kaj protekti. La tuta sistemo programighis je ch. 10,000 BASIC-frazoj. En chi tiu eksperimento ni ricevis el EChA la mashintradukajhon de pli ol 150 frazoj kun diversaj lingvistikaj trajtoj inkluzive 2 poemojn (la unua estas La Espero far Zamenhof). La tradukajho en la china kaj angla celolingvoj estas sufiche prava kaj facile komprenebla. ( Vd. la apendicon ) La originala materialo elektighis el: 1. Mashinmondo far Sandor Szhatmari; 2. Gramatiko de Esperanto (Wei Yuanshu kaj Xu Wenqi, 1982). En la sistemo EChA spegulighas la enhavo de la tuta baza gramatiko de Esperanto kun chefaj fraztipoj, tial ghi povas ghuste trakti plejmulton da fenomenoj en Esperanto. Tamen, bedaurinde, limigite de tempo kaj la kondicho de komputero, la kuranta sistemo estas ankorau malgranda, la mashinvortaroj ege limigitas. Kompreneble, la sistemo bezonas ekspansiighon kaj plibonighon. Dekiam disvolvighis la esploro pri mashina tradukado en Chinio en 1957, EChA estas la unua sistemo por prilabori Esperanton. En majo de 1986 la sistemo trapasos la cezuron de la diploma komitato, pro kio la projektoro ricevos sian magistron. ___________ 丨 ___________ Enmeto de fontolingvo ----------------------- ____________________________________ 丨 ____________________________________ 1. Fortranchi gramatikajn finajhojn; konsulti la vortarojn ( Vortaro pri fleksaj vortoj, vortaro pri senfleksaj vortoj, vortaro pri vortogrupoj kaj vortotabelo por diferencigi la signon lau vortospeco ) ( VORTAROJ ) --------------------------------------------------------------------------- ____________________________________ 丨 _____________________________________ ANALIZO DE 2. Prilabori konjunkciojn kaj interpunkciojn, forigi la frazon en partojn FONTOLINGVO kaj trakti aliajn senfleksajn vortojn -------------------------------------------------------------------------- ____________________________________ 丨 ____________________________________ 3. Formighi CDC chenoj ( la interlingvo en EChA ) -------------------------------------------------------------------------- ____________________ ____________________________________ 丨 ____________________________________ 4. Produkti gramatikajn finajhojn por la angla lingvo kaj inserti helpajn vortojn por la china lingvo; diferencigi plursignifojn; konsulti la tabelon en la angla lingvo por senregulaj vortoj ------------------------------------------------------------------------- SINTEZO DE ___________________________________ 丨 ____________________________________ CELOLINGVOJ 5. Vicigi la vortordon por la angla lingvo ------------------------------------------------------------------------- ___________________________________ 丨 ____________________________________ 6. Vicigi la vortordon kaj beligi la frazon por la china -------------------------------------------------------------------------- ___________ 丨 __________ Elmeto de celolingvoj EChA sistemo konsistas el 3 subsistemoj: 1) Mashinvortaroj inter la fontolingvo kaj la celolingvoj En tiu chi subsistemo trovighas 5 vortaroj (tabeloj) kun la algoritmo por fortranchi gramatikajn finajhojn en Esperanto. La unua estas vortaro pri fleksaj vortoj, la dua pri senfleksaj vortoj kaj la tria estas por trakti vortogrupojn. La subsistemo liveras chiujn necesajn elementajn informojn al la frazkampo, kio bone bazighas por la postaj analizo kaj sintezo. 2) Analizo de la fontolingvo En chi tiu etapo la subsistemo decidas la strukturajn tavolojn kaj semantikajn interrilatojn de la prilaborata frazo. La rezulto enkorpighas en iu alte formala interlingvo CDC. La analiza procezo iras tute sendepende de ajna celolingvo, kio tre necesas kaj facile kompreneblas char la sistemo ne prenas iun certan lingvon kiel sian celon. Fakte la projektoro planas elekti la francan kaj la rusan kiel la trian kaj kvaran celolingvojn por la ekspansiota EChA. CDC estas la shlosilo al la sistemo EChA. Kiel mashintraduka interlingvo entenanta la rezulton de sendependa analizo pri fontolingvo, ghi konsistas el la informoj morfologia, sintaksa, situa, noda, tavola kaj chena. CDC ne nur priskribas prave la arbostrukturon de la prilaborata frazo, sed ankau enhavas en si utilajn aliajn informojn. Praktike, ghi bone bazighas por la plurlingvo-sinteza subsistemo. La unua linio de programo chefe celas la senfleksajn vortojn, speciale la konjunkciojn kaj interpunkciojn. Principe oni devas establi unu aron da analizareguloj por unu senfleksa vorto. En Esperanto ekzistas nur fiksa nombro da senfleksaj vortoj, sed ili estas tre kompleksaj en uzado, ghuste simile al la funkciaj vortoj en nacilingvoj. Fakte, ili chefe reflektas la lingvan individuecon, tial bezonas respektivan prilaboron. En chi tiu linio trovighas multe da malfacilajhoj, ekzemple pri la vortoj KAJ kaj KE. Ghenerale senfleksvortoj enhavas pli da gramatikaj signifoj. Tial la tasko chi tie eksterordinare gravas al la esperantofronta automate analiza sistemo. En la dua linio, la analizo multe pli abstraktas. La prilabora procezo estas cirkule voki la subprogramojn, kies kerno estas la verbosubprogramo kiu fakte estas matematika modelo de esperantogramatiko. Post la analizo rezultatas CDC-cheno responda al la fontofrazo. 3) Sintezo de la celolingvoj En la unua linio de chi tiu etapo inkluzivas ankau la regulojn por diferencigi plursignifojn kaj elekti 妅 onvenan esprimon en la celolingvoj lau la semantikaj trajtoj, la CDC kaj la semantike transferaj reguloj de la prilaborata vorto. En la kazo pri la sintezo de la china lingvo, la chefa tasko estas reordigi la prilaboratan frazon, char la vortordo en Esperanto estas tre libera kaj en la china lingvo tre mallibera. La reordiga informo dependas de kaj la chingramatikaj reguloj kaj la CDC interlingva cheno. Post la reordigo estas ankau necese plibonigi kaj beligi la tradukajhon precipe koncerne la inserton de la chinaj helpaj vortoj kiuj povas transporti etajn signifojn pri tempo, vocho kaj modo kaj aliajn nuancojn. Kiel chiuj scias, la china estas senfleksa lingvo, en kiu gramatikaj finajhoj tute mankas. Pri la lingvo angla, la sinteza kondicho fore favoras. La substantivoj en la angla ne sindistingeblas inter nominativo kaj akuzativo, tial la reordiga pasho chi tie celas certigi la frazon lau la tipa vortordo Subjekto-Predikato-Objekto (S-P-O). La alia grava tasko estas produkti finajhojn por la angla lingvo. Efektive, la morfologiaj transferaj reguloj inter la du lingvoj ne estas kompleksaj. Kvankam EChA estas nur eksperimenta malgranda sistemo, tamen ghi riche enhavas. EChA ne nur faras analizon morfologian (pri la fontolingvo Esperanto) sed ankau produkas finajhojn morfologiajn (pri la celoligvo angla). Ghi ankorau enkalkulas la regulojn vicigan (pri la china kaj angla) kaj beligan (pri la china). Krome, EChA havas sian interlingvon CDC, kiu pruvighas tre efika. Unuvorte, EChA tushas almenau chiujn problemojn por praktika sistemo, tial ghi vere estas tipa, tute automata modelo al unu-al-plurlingva praktika traduksistemo. ______________________________________________________________________________________________ Mi deziras chi tie eksprimi mian koran dankon al Profesoro Liu Yongquan kaj Profesoro Liu Zhuo. Sen ilia gvidado, mi tute ne povis plenumi mian eksperimenton pri EChA sistemo. Dekomence Profesoro Liu Yongquan subtenas entuziasme mian projekton pri EChA kaj donis multe da gvidaj konsiloj dum mia eksperimentado. Profesoro Liu Zhuo liveris al mi kelkajn algoritmojn de la elementaj operacioj pri mashina tradukado. Dankon ankau al Sinjorino Han pro shia helpo en la komputerochambro. BIBLIOGRAFIO 1. Liu Yongquan, Gao Zushun kaj Liu Zhuo, Enkonduko de Mashina Tradukado ( Eldonejo Kexuepuji, 1964 ) 2. Liu Yongquan k.a. La Mashina Tradukado en Chinio ( Eldonejo Zhishi, 1984 ) 3. La Elektita Traktataro pri Mashina Tradukado ( Eldonejo Kexuejishuwenxian, 1979 ) 4. Lingvo kaj Komputero (1) ( Eldonejo Zhongguoshehuikexue, 1982 ) 5. Lingvo kaj Komputero (2) ( Eldonejo Zhongguoshehuikexue, 1985 ) 6. Wei Yuanshu kaj Xu Wenqi, Gramatiko de Esperanto ( Eldonejo Shanghaiwaiyujiaoyu, 1982 ) 7. Kalocsay-Waringhien, Plena Analiza Gramatiko de Esperanto ( Eldonejo Zhongguoshijieyu, 1984 ) 8. Zhang Daozhen, Praktika Gramatiko de la Angla Lingvo ( Eldonejo Shangwu, 1984 ) 9. Ye Feisheng kaj Xu tongqiang, Skeleto de Lingvistiko ( Eldonejo Beijingdaxue, 1981 ) 10.Liu Yongquan kaj Li Wei, Nepre Estos Konstruita la Nova Babelo, 1985, akademia traktato por la Unua China Kongreso de Esperanto 11.Liu Zhuo, Tri Eksperimentoj pri Mashina Tradukado, 1980, akademia traktato por la Unua China Kongreso de Mashina Tradukado 12.Heinz Dieter MAAS, Automata Tradukado en kaj el Esperanto ( Lingvo-kibernetiko kaj aliaj internacilingvaj aktoj de la IX-a Internacia Kongreso de Kibernetiko pp. 75-81, 1982 Gunter Narr Verlag Tubingen ) 13.J. Chiau, Lingvojn Komputere Prilaboru kaj Esperanton Mashine Tradukadu, 1985, akademia traktato por la Unua China Kongreso de Esperanto 【相关】 硕士论文: 世界语到汉语和英语的自动翻译试验 立委硕士论文:1. EChA概况 立委硕士论文:2. 世界语: 语言学特点及其研究价值 立委硕士论文:3. 层次递归成分体系 立委硕士论文:4. EChA机器词典及词表 立委硕士论文:5. 世界语形态分析 立委硕士论文:6/7 世界语句法分析 立委硕士论文:8. 英语形态生成 立委硕士论文:9. 目标语调序 立委硕士论文:10. EChA 试验结果的分析 立委硕士论文【致谢】【参考书目】 立委硕士论文全文(世界语版) 《朝华午拾:shijie-师弟轶事(3)——疯狂世界语 》 灵感有如神授,巧夺岂止天工 《立委随笔:一小时学会世界语语法》 立委世界语文章 (1987): 《中国报道:通天塔必将建成》 立委世界语论文(1986): 《国际语到汉语和英语的自动翻译》 立委(1988)《世界科技:世界语到汉语和英语的自动翻译试验》 DLT项目背景介绍 立委硕士论文全文(世界语版) PhD Thesis: Morpho-syntactic Interface in CPSG (cover page) 【关于机器翻译】 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 世运资料|7697 次阅读|0 个评论
立委硕士论文【致谢】【参考书目】
liwei999 2010-2-20 04:25
世界语到汉语和英语的自动翻译试验 --EChA 机器翻译系统概述 返回目录 上一章节 下一章节 第 44 页 研制世界语类型的机器翻译系统 , 从一开始就得到刘涌泉老师的热情支持 , 从方案主体到具体问题的处理 , 他都给以认真指导。在程序设计和上机调试的的过程中 , 刘倬老师也多次给予指导 , 有些基本操作的算法也是刘倬老师提供的。在 EChA 系统取得初步成果的时候 , 笔者向他们表示深切的感谢。另外 , 还要特别感谢机房韩老师的多方协助。没有她提供的方便 , EChA 系统根本不可能在这么短时间试验成功。 返回目录 上一章节 下一章节 第 45 页 1. Heinz Dieter MAAS Automata Tradukado en kaj el Esperanto ( Lingvo-kibernetiko kaj aliaj internacilingvaj aktoj de la IX-a Internacia Kongreso de Kibernetiko, pp 75-81, 1982 Gunter Narr Verlag Tubingen ) 2. 机器翻译论文选辑 ( 科学技术文献出版社 , 1979 ) 3. Kalocsay-Waringhien Plena Analiza Gramatiko de Esperanto ( 中国世界语出版社 , 1984 ) 4. 刘涌泉等著 中国的机器翻译 ( 知识出版社 , 1984 ) 5. 刘涌泉 , 高祖舜 , 刘倬著 机器翻译浅说 ( 科学普及出版社 , 1964 ) 6. 刘涌泉 , 李维 巴贝尔通天塔必将建成 ( 中国第一届世界语大会论文 , 1985.8 ) 7. 刘倬 三次机器翻译试验 ( 第一次机器翻译学术会议论文 , 1980.9 ) 论机器翻译规则系统的编制方法 ( 1982.3 上海 ) JFY 型英汉机器翻译系统的研制和试验 ( 语言学会第二届年会论文 , 1983.4 ) 8. 乔毅 开展语言的计算机处理和世界语类型的机器翻译 ( 中国第一届世界语大会论文 , 1985.8 ) 9. 魏原枢 , 徐文琪编 世界语语法 ( 上海外语教育出版社 , 1982 ) 10. 叶蜚声 , 徐通锵著 语言学纲要 ( 北京大学出版社 , 1981 ) 11. 语言和计算机 (1) ( 中国社会科学出版社 , 1982 ) 12. 语言和计算机 (2) ( 中国社会科学出版社 , 1985 ) 13. 张道真编著 实用英语语法 ( 商务印书馆 , 1984 ) 返回目录 上一章节 下一章节 世界语到汉语和英语的自动翻译试验 --EChA 机器翻译系统概述
个人分类: 世运资料|4808 次阅读|0 个评论
立委履历
liwei999 2010-2-19 05:28
立委履历 (一)工作经历 2006.11-至今 首席科学家 架构师,自然语言平台和核心技术设计者 所设计研发的自然语言平台支持新一代搜索引擎,用于企业市场,主要搜索互联网上的商业情报,包括产品技术信息,客户反馈,等。该产品为多家财富500强的研究部门和市场部门采用,证明了它提供的价值是其他搜索引擎和工具难以取代的。 1997/11 至 2006/03 Cymfony 公司,研究开发部,美国纽约州水牛城(Buffalo, New York) 主研究员(Principal Research Scientist) 自然语言处理副总裁(Vice President,NLP) (1999始) 撰写研究基金申请计划,先后赢得18项美国政府”小企业创新研究基金”(SBIR: Small Business Innovative Research),担任其课题负责人(PI: Principal Investigator or co-PI),研究开发新一代基于自然语言处理(NLP: Natural Language Processing)的信息抽取(IE: Information Extraction)技术。 该技术集中体现在 Cymfony 公司所开发的 InfoXtract(TM) 软件系列,包括 InfoXtract NLP/IE 引擎,组建技术,词典语法资源,有限状态转录机工具箱(Finite State Transducer Toolkit),机器自动学习工具箱(Machine Learning Toolkit)及开发平台。 在此基础上开发的软件产品 Brand Dashboard 和 Digital Consumer Insight,实时扫描处理数千种媒体报道,自动抽取品牌报道关键信息,过滤整合,分析数据全面反映品牌走势,为大企业创保作为无形资产的名优品牌提供决策参考,达到人工分析难以企及的广度及统计学意义上的精度。 2000 年帮助成功引进华尔街高科技风险基金一千一百万,使Cymfony由有两三个员工的从事互联网一般业务的公司发展成为具有70多员工,设立三处办公楼(美国波士顿,布法罗,和印度孟买分公司),引进专业管理人员及制订信息技术(IT: Information Technology)市场营销计划的高科技中小企业。 1999 年指导 Cymfony 研发部参与由美国国家标准技术局(NIST:National Institute of Standards and Technology)主持评判的第八届”文本检索大会”(TREC-8: Text Retrieval Conference)专项竞赛“自然语言问答系统”,获得第一名。 Cymfony 的技术及成长先后被多种媒体报道,包括《财富》,《华尔街日报》,《布法罗新闻》,及中文版《世界日报》。Cymfony 由于在一系列 SBIR 研究中成绩突出,被提名竞逐“2002 全美小企业最优合同项目年度奖”(2002 US Small Business Administration Prime Contractor of the Year Award)。 1987-1991 中国社会科学院语言研究所,北京 助理研究员 从事外汉机器翻译,自然语言处理及中文信息处理等领域的研究。 1988-1991 高立软件公司,北京 高级工程师(兼职) 从事高立英汉机器翻译系统 GLMT 的开发研究。主要工作有: 开发及调试八百条机器语法规则 设计及实现系统的语义模块背景知识库 培训及指导八人小组建立并开发有六万多词条的机器翻译词典及具有上万词典规则的专家词典规则库的开发 推动高立公司将 GLMT 1.0 产品化(1992) 该机译技术成功转化到香港韦易达公司袖珍电子词典系列产品中 GLMT于1992年1月在北京新技术产业开发试验区通过鉴定,先后获得北京市科技进步奖、新加坡INFORMATICS’92国际博览会计算机应用软件银奖和92年第二届中国科技之光博览会电子行业金奖,被列入火炬计划。 1988 承接荷兰 BSO 软件公司合同项目,撰写为多语种机器翻译服务的“汉语依从关系形式句法”,获得好评。 (二)教育经历 2001年 获加拿大 Simon Fraser University 计算语言学专业博士学位 学位论文 “汉语短语结构文法中的词法句法接口研究” (The Morpho-syntactic Interface in a Chinese Phrase Structure Grammar) 该汉语形式文法成功运用于英汉双向机器翻译系统的实验,证明同一部文法可以用于双向系统的汉语分析和综合。 攻读博士期间,多次担任计算机系自然语言实验室(Natural Language Lab)助研(Research Assistant)及语言学系助教(Teaching Assistant)或临时讲师(Sessional Instructor) 1991-1992年 英国曼彻斯特理工大学计算语言学中心(CCL/UMIST)博士候选人 1986年 获中国社会科学院研究生院语言学系机器翻译专业硕士学位 学位论文”从世界语到英语和汉语自动翻译”:这是国内少有的一对多机器翻译系统的研究探索。 1982年 安庆师范学院外语系英语专业学士学位 (三)获奖 2001年获本系杰出成就奖(Outstanding Achievement Award), Department of Linguistics, Simon Fraser University (award given to the best PhD graduates from the department) 1995-1997获加拿大卑诗省科学委员会 G.R.E.A.T. 奖学金 (G.R.E.A.T. Award, Scienc Council, B.C. CANADA), 旨在促进应用性博士课题与当地高科技企业的结合 1997年获校长研究资助(President’s Research Stipend) 1996年获新加坡 ICCC 大会特别旅行资助,宣讲论文 1995年获研究生奖学金(Graduate Fellowship) 1992年与傅爱平合作的机器翻译数据库应用程序获中国社会科学院软件二等奖 1991年获中英友好奖学金(中国教育部,英国文化委员会及包玉刚基金会联合提供)赴英深造 (四)其他专业活动 2002-2005,担任新加坡《中文和计算杂志》国际编委 1998-2004 担任企业导师(Industrial Advisor),先后指导20多位博士或硕士侯选人从事有工业应用前景的暑期实习研究课题(实习生来自纽约州立大学布法罗分校计算机系或语言学系) (五)论文发表记录 Srihari, R, W. Li and X. Li, 2006. Question Answering Supported by Multiple Levels of Information Extraction, a book chapter in T. Strzalkowski S. Harabagiu (eds.), Advances in Open- Domain Question Answering. Springer, 2006, ISBN:1-4020-4744-4. Srihari, R., W. Li, C. Niu and T. Cornell. 2006. InfoXtract: A Customizable Intermediate Level Information Extraction Engine. Journal of Natural Language Engineering, 12(4), 1-37, 2006. Niu,C., W. Li, R. Srihari, and H. Li. 2005. Word Independent Context Pair Classification Model For Word Sense Disambiguation. Proceedings of Ninth Conference on Computational Natural Language Learning (CoNLL-2005). Srihari, R., W. Li, L. Crist and C. Niu. 2005. Intelligence Discovery Portal based on Corpus Level Information Extraction. Proceedings of 2005 International Conference on Intelligence Analysis Methods and Tools. Niu, C., W. Li and R. Srihari. 2004. Weakly Supervised Learning for Cross-document Person Name Disambiguation Supported by Information Extraction. In Proceedings of ACL 2004. Niu, C., W. Li, R. Srihari, H. Li and L. Christ. 2004. Context Clustering for Word Sense Disambiguation Based on Modeling Pairwise Context Similarities. In Proceedings of Senseval-3 Workshop. Niu, C., W. Li, J. Ding, and R. Rohini. 2004. Orthographic Case Restoration Using Supervised Learning Without Manual Annotation. International Journal of Artificial Intelligence Tools, Vol. 13, No. 1, 2004. Niu, C., W. Li and R. Srihari 2004. A Bootstrapping Approach to Information Extraction Domain Porting. AAAI-2004 Workshop on Adaptive Text Extraction and Mining (ATEM), California. Srihari, R., W. Li and C. Niu. 2004. Corpus-level Information Extraction. In Proceedings of International Conference on Natural Language Processing (ICON 2004), Hyderabad, India. Li, W., X. Zhang, C. Niu, Y. Jiang, and R. Srihari. 2003. An Expert Lexicon Approach to Identifying English Phrasal Verbs. In Proceedings of ACL 2003. Sapporo, Japan. pp. 513-520. Niu, C., W. Li, J. Ding, and R. Srihari 2003. A Bootstrapping Approach to Named Entity Classification using Successive Learners. In Proceedings of ACL 2003. Sapporo, Japan. pp. 335-342. Li, W., R. Srihari, C. Niu, and X. Li. 2003. Question Answering on a Case Insensitive Corpus. In Proceedings of Workshop on Multilingual Summarization and Question Answering - Machine Learning and Beyond (ACL-2003 Workshop). Sapporo, Japan. pp. 84-93. Niu, C., W. Li, J. Ding, and R.K. Srihari. 2003. Bootstrapping for Named Entity Tagging using Concept-based Seeds. In Proceedings of HLT/NAACL 2003. Companion Volume, pp. 73-75, Edmonton, Canada. Srihari, R., W. Li, C. Niu and T. Cornell. 2003. InfoXtract: A Customizable Intermediate Level Information Extraction Engine. In Proceedings of HLT/NAACL 2003 Workshop on Software Engineering and Architecture of Language Technology Systems (SEALTS). pp. 52-59, Edmonton, Canada. Li, H., R. Srihari, C. Niu, and W. Li. 2003. InfoXtract Location Normalization: A Hybrid Approach to Geographic References in Information Extraction. In Proceedings of HLT/NAACL 2003 Workshop on Analysis of Geographic References. Edmonton, Canada. Li, W., R. Srihari, C. Niu, and X. Li 2003. Entity Profile Extraction from Large Corpora. In Proceedings of Pacific Association for Computational Linguistics 2003 (PACLING03). Halifax, Nova Scotia, Canada. Niu, C., W. Li, R. Srihari, and L. Crist 2003. Bootstrapping a Hidden Markov Model for Relationship Extraction Using Multi-level Contexts. In Proceedings of Pacific Association for Computational Linguistics 2003 (PACLING03). Halifax, Nova Scotia, Canada. Niu, C., Z. Zheng, R. Srihari, H. Li, and W. Li 2003. Unsupervised Learning for Verb Sense Disambiguation Using Both Trigger Words and Parsing Relations. In Proceedings of Pacific Association for Computational Linguistics 2003 (PACLING03). Halifax, Nova Scotia, Canada. Niu, C., W. Li, J. Ding, and R.K. Srihari 2003. Orthographic Case Restoration Using Supervised Learning Without Manual Annotation. In Proceedings of the Sixteenth International FLAIRS Conference, St. Augustine, FL, May 2003, pp. 402-406. Srihari, R. and W. Li 2003. Rapid Domain Porting of an Intermediate Level Information Extraction Engine. In Proceedings of International Conference on Natural Language Processing 2003. Srihari, R., C. Niu, W. Li, and J. Ding. 2003. A Case Restoration Approach to Named Entity Tagging in Degraded Documents. In Proceedings of International Conference on Document Analysis and Recognition (ICDAR), Edinburgh, Scotland, Aug. 2003. Li, H., R. Srihari, C. Niu and W. Li 2002. Location Normalization for Information Extraction. In Proceedings of the 19th International Conference on Computational Linguistics (COLING-2002). Taipei, Taiwan. Li, W., R. Srihari, X. Li, M. Srikanth, X. Zhang and C. Niu 2002. Extracting Exact Answers to Questions Based on Structural Links. In Proceedings of Multilingual Summarization and Question Answering (COLING-2002 Workshop). Taipei, Taiwan. Srihari, R. and W. Li. 2000. A Question Answering System Supported by Information Extraction. In Proceedings of ANLP 2000. Seattle. Srihari, R., C. Niu and W. Li. 2000. A Hybrid Approach for Named Entity and Sub-Type Tagging. In Proceedings of ANLP 2000. Seattle. Li. W. 2000. On Chinese parsing without using a separate word segmenter. In Communication of COLIPS 10 (1). pp. 19-68. Singapore. Srihari, R. and W. Li. 1999. Information Extraction Supported Question Answering. In Proceedings of TREC-8. Washington Srihari, R., M. Srikanth, C. Niu, and W. Li 1999. Use of Maximum Entropy in Back-off Modeling for a Named Entity Tagger, Proceedings of HKK Conference, Waterloo, Canada W. Li. 1997. Chart Parsing Chinese Character Strings. In Proceedings of the Ninth North American Conference on Chinese Linguistics (NACCL-9). Victoria, Canada. W. Li. 1996. Interaction of Syntax and Semantics in Parsing Chinese Transitive Patterns. In Proceedings of International Chinese Computing Conference (ICCC’96). Singapore W. Li and P. McFetridge 1995. Handling Chinese NP Predicate in HPSG, Proceedings of PACLING-II, Brisbane, Australia Uej Li. 1991. Lingvistikaj trajtoj de la lingvo internacia Esperanto. In Serta gratulatoria in honorem Juan Régulo, Vol. IV. pp. 707-723. La Laguna: Universidad de La Laguna Z. Liu, A. Fu, and W. Li. 1989. JFY-IV Machine Translation System. In Proceedings of Machine Translation SUMMIT II. pp. 88-93, Munich. 刘倬,傅爱平,李维 (1992). 基于词专家技术的机器翻译系统,”机器翻译研究新进展”,陈肇雄编辑,电子工业出版社,第 231-242 页,北京 李维,刘倬 (1990). 机器翻译词义辨识对策,《中文信息学报》,1990年第一期,第 1-13 页,北京 刘倬,傅爱平,李维 (1989), JFY-IV 机器翻译系统概要,《中文信息学报》,1989年第四期,第 1-10 页,北京 李维 (1988). E-Ch/A 机器翻译系统及其对目标语汉语和英语的综合,《中文信息学报》,1988年第一期,第 56-60 页,北京 其他发表 (略)
个人分类: 立委其人|6435 次阅读|2 个评论
DLT项目背景介绍
liwei999 2010-1-12 03:23
[DLT项目背景介绍] BSO公司当时是荷兰第二大软件公司,总部在离阿姆斯特丹两个小时车程的 Utrecht 城。1982-1983年,由 Toon Witkam 先生牵头,在欧洲共同体资助下,完成了一项利用世界语作为媒介语(又称中间语言,interlingua)的多语言自动翻译的可行性研究报告。传统的机器翻译多采取转换式(transfer),需要针对每一对源语和目标语编制专门的规则系统。这种转换法用于多语自动翻译,随着语言对的增加,存在一个组合爆炸的问题:n 种语言需要编制 n**2 套转换子系统,而采用媒介语则只需要 n(n-1)/2 套子系统。以欧洲共同体常用的8种语言计算,共有28个语言对,传统的系统需要开发出64套转换式规则系统,而采用媒介语则只需要16套子系统(8套翻译成媒介语,8套从媒介语译出)。这是简单的算术,所以媒介语方案对于多语系统的经济性早已成为共识,学者们争论的主要是究竟采取什么样的媒介语合适。另外一项共识是,自然语言(比如英语、汉语或俄语)作为媒介语是不合适的,因为自然语言普遍存在歧义和不规则的惯用法。理想的媒介语应该是规则而没有歧义的,所以很多学者认为应该人造一套形式系统作为媒介语(比如当年由日本牵头的东亚各国合作的一项多语翻译开发系统使用的就是设计者自己定义的形式系统作为媒介语)。Witkam 不同意这种看法,主要论点是形式系统作为媒介语往往失之简陋,毕竟象语言这样复杂的系统,不是一蹴而就的形式系统能够涵括的。不仅如此,形式系统虽然适合机器处理,可是作为中间表达,不如人类语言那样易读,不利于语言工作者调试系统。这样看来,世界语这种有了100年发展历史的人造语比较合适,因为原则上它的语法是不允许有例外的。不过,跟所有实际使用的人类语言一样,世界语仍然存在歧义现象。因此,可行性研究中,他们还是对世界语做了控制,尽量排除其歧义,以适应机器处理的需要。其中有一项设计很巧妙,用来区分结构歧义。在自然语言处理领域,结构歧义的典型例子有所谓 PP attachment 的问题,即名词宾语后面的介词短语究竟修饰前面的名词还是谓语动词。比如:I saw the girl with telescope,如果是修饰名词,应该翻译成我看见了带望远镜的姑娘,如果是修饰动词,则应翻译成我用望远镜看到了那个姑娘。Witkam 小组提出的区别结构歧义的表达方法是,用介词跟前面的名词的空格数来决定:如果只有一个空格,那么机器就认为是修饰名词,如果是两个空格,则认为它修饰动词。这种表达方法的巧妙在于它用书面语的线性方式表达了需要三维的结构关系,方便了机器的还原处理。更绝的是这种表达不影响中间语言的自然性,毕竟人眼对于一个空格和两个空格是不做区分的,读起来跟普通世界语没有不同。 上述可行性研究在1984年赢得了荷兰政府经济部的资助,BSO 公司补足另一半,开始了六年的DLT (Distributed Language Translation) 分布式语言翻译的项目。所谓分布式,是设想该系统应用在电脑网络的环境下,源语到世界语的系统和世界语到目标语的系统分别在两端进行:在源语输入端遇到歧义,系统会直接提问作者以确定其含义,然后翻译成中间语言世界语,这是用所谓半自动交互式机器翻译来解决自然语言分析中最困难的歧义区分问题。(这个思路跟这几年流行的 semantic web 异曲同工,都是力求在源头上解决问题。)网络之间传输的是已经消除了歧义的世界语,各接收端根据需要,调用从世界语翻译生成目标语的程序,即用即调(on-the-fly),这个阶段是全自动的。这种分布式应用环境的设想似乎有点超前,如果推后五年,在网络热中寻找巨额投资是不困难的。可惜当年(1990)网络经济的概念还只是萌芽阶段。有人和,却没有天时地利。 DLT研究组在六年期间做出了原型系统(prototype),发表了详细介绍系统的理论和实践、印制精美的系列丛书,主持召开了一次机器翻译国际研讨会,与各国世界语者和语言学家合作,在统一的依存关系的框架下,编制了20多种主要语言的形式句法,应该说工作是卓有成效的。迄今,这一项目由于其描述之详尽,不少教授列为计算语言学课程的辅助材料。 BSO的这个DLT项目由于有 Victor Sadler 这样的世界语元老级人物的参与和宣传,在国际世界语界影响很大,引起了各国世界语者的关注,大家(包括笔者)对它的期许很高,希望借助世界语和世界语者的支持,为大规模解决语言问题提供一个切实可行的技术方案。世界语在系统的轴心地位也满足了很多世界语者的心愿,自愿为这个系统服务的各国世界语者很多,如果系统真到了大规模商业开发阶段,管理得当,这是一个不小的资源优势。记得当年听 BBC 中文广播电台,就有中国世界语者去信询问世界语的机器翻译问题,广播节目就特别介绍了荷兰科学家正在进行的 DLT 项目。可惜,1990年前后,他们在国际国内寻找后续资金的努力终于失败,研究组不得不解散,结束了这段世界语和机器翻译的蜜月期,令人扼腕。(不过,多年来,一直有人主张利用世界语机做器翻译做媒介语的方案。美国有一家公司 Unikom 做类似的尝试已经多年,不过也一直没有找到大笔资金做商业开发。其负责人跟我和Dan一直保持着联系。) 要想进一步了解媒介语和机器翻译的学术背景,可以参见我的 机器翻译的介绍文章 。 Comments (7) xfliu 12月 17th, 2008 at 12:18 pm edit 我的一个直觉是,语言的表达是模糊的,如果每次翻译的准确度为x%,那么以世界语作为中介两次翻译后准确度为x^2%。除非是技术文档,两次翻译后的文字可能是结构清晰,但是句子语义很别扭,甚至不能表达原意。 相反,一对一的直接翻译,可以在模式化的翻译过程中,强加一些特殊的修饰或处理,让翻译的句子易读。 不知立委如何高见。 (又注:你的机器翻译的介绍文章还没有细看。) 曾子后 12月 18th, 2008 at 2:06 am edit 语言的表达是模糊的,尤其是文学著作,可以是天马行空、飘逸朦胧,甚至反讽隐喻等等。。。。所以翻译被认为是再创作。。。。而现在结构的电脑是一个完整意义的机器,其优势体现在运算、速度、记忆、逻辑等能力,,,,,,而思考、创新、模糊判断与决策、学习等能力及其有限。。。。所以我对机器翻译研究工作完全持否定态度。。。 liwei 12月 18th, 2008 at 3:07 am edit 机器翻译面对的是资料,而不是文学作品。谁要读机器翻译的文学作品呢?除非为了搞笑。 xfliu 的说法是有道理的,通过世界语作为媒介语做翻译,是转手两次,质量会受到影响,总体不如源语到目标语转换基础上的翻译。用媒介语纯粹是为多语翻译开发的经济上的考量,而不是因为质量优越与双语转换法。 有人做过实验,就是勤勤恳恳的复印机,复印 n 次(n 足够大)也会模糊一片。 曾子后 12月 18th, 2008 at 3:25 am edit 资料该如何定义? 曾子后 12月 18th, 2008 at 3:28 am edit 我承认我所举的文学作品的例子太过偏颇,,但我坚持认为研究机器翻译是徒劳。。 期待被博主说服:-)) liwei 12月 18th, 2008 at 4:32 am edit 资料该如何定义? 非文学的文字。极端的例子包括天气预报。 事实上,机器翻译50-60年的研究历史上,公认的最成功的机器翻译的应用,就是加拿大的在英语法语之间做天气预报翻译的系统 Meteo. 由于领域的限制,翻译质量已经达到人工的水平。 机器翻译不是徒劳,已经是现实。如果网上的翻译系统让你感觉失望,至少你必须承认,如果你对某网页的语言一无所知的话,利用机器翻译,你可以获得信息,对该网页的内容有了一个大概的了解。如果是欧洲语言之间,其翻译质量是很可以接受的,有可读性。当然,也有很多生硬、别扭或者误译的地方。 机器翻译历史上,1966年(正好是中国文革开始,一切研究中断的时候),美国政府曾经对机器翻译项目做了一个评定,其结论与你说的一致,对机器翻译持基本否定的态度(史称黑皮书),断定机器翻译在可预见的未来是没有前景的。这个黑皮书使得美国50-60年代对机器翻译研究的大规模资助几乎全部冻结,机器翻译研究在美国和中国同时进入了寒冬。 现在,已经很少有人完全否认机器翻译的研究和作用了。 曾子后 12月 18th, 2008 at 5:01 am edit 谢谢博主提供的信息,,我会去学习一下,,先保留我自己的看法。。 http://www.de-sci.org/blogs/liwei/archives/12461
个人分类: 世运资料|5137 次阅读|0 个评论
2010-NSFC重点项目指南—— 与NLP相关的部分
timy 2009-12-17 13:06
资料来自小木虫: http://emuch.net/bbs/viewthread.php?tid=1735264fpage=1 2010-NSFC重点项目指南中, 和自然语言处理相关的有1个优先资助重点领域、2个科学处资助重点领域(可能和NLP有关系),列出如下: ( 注 :2009年度信息科学部发布50个重点项目领域和一个重点项目群,共收到重点项目申请154项,共有46个重点项目获得资助,资助经费共9 400万元,平均资助强度204万元/项。 2010年度信息科学部发布47个申请资助领域,其中科学部优先资助重点领域4个;拟资助48~55个重点项目,平均资助强度约250万元/项。) 科学部优先资助重点领域 1.多民族文档分析识别、机器翻译及应用研究(F010205,拟资助重点项目2~3项) 研究我国民族文字印刷及手写文档识别及机器翻译的理论和方法,探索基于语义本体的多语知识的获取、表达等理论方法及关键技术,旨在提高民族文字信息化处理水平与应用能力。研究内容可涉及蒙古文、藏文、维吾尔文等文字的识别、文档图像分析、机器翻译。 科学处资助重点领域 19.网络信息融合与知识服务的模型和方法(F0205) 30.基于云计算的海量数据挖掘(F0305) 博主注1: 上次在南京开第五届全国机器翻译研讨会时,最后有个讨论环节,当时有专家传达了一个信息是:国家对语言信息处理方面的投入已经很多了,可能今后不会再强化资助。但实际情况是,无论是理论还是技术,目前仍需要继续强化资助。看来,NLP专家们的努力没有白费。课题指南中(多民族文档分析识别、机器翻译及应用研究),研究课题更加贴近语言信息处理的中文化特色,包括蒙古文、藏文、维吾尔文等文字的识别、文档图像分析、机器翻译。语义本体方面,由于EU主导的Global WordNet已经涉及到50余种语言,但没有藏文、维吾尔等语言,而现在国家如果立项做蒙古文、藏文、维吾尔文在内的中文的语言学本体的话,显然对这些语言的信息化处理起到极大的推动作用。 博主注2: 拟重点资助的两个可能和NLP有关的项目(网络信息融合与知识服务的模型和方法、基于云计算的海量数据挖掘),这是因为网络环境下,大规模的多语言的文本资源的获取、加工、挖掘、服务等,是一个难以回避的问题,除非研究的是一个理论或者计算模型。当然,这要看研究者从哪个角度进行研究,比如研究Web挖掘或文本挖掘的,一般会考虑将NLP技术作为基础之一。
个人分类: 科学评论|4493 次阅读|1 个评论
【立委科普:机器翻译】
liwei999 2009-12-13 04:09
MACHINE TRANSLATION By Wei Li liwei999 AT gmail.com (In GB code) 本文是作者应约为科技辞书写的辞条, 现略加修改, 力求深入浅出, 既反映本学 科的最新发展水平, 又能让一般读者容易理解。 立委 一九九六年六月二十五日 于 加拿大温哥华 ------------------------------------------------------------------------------- 机 器 翻 译 立 委 又称自动翻译, 是按照规定的算法由电子计算机进行语言翻译。它是计算语言学的主要研究领域之一。 机器翻译通常由机器词典和语言规则库支持, 其对象为自然语言。机器翻译是一种自然语言处理应用软件。与此相对应, 还有一种系统软件, 专门用于把用计算机语言编写的程序自动翻译成可执行的机器代码, 这在计算机科学中叫编译器或解释器。编译理论和技术已经相当成熟, 它与自然语言的机器翻译有相通之处。 与计算机语言相比, 自然语言有两个明显的特点: 首先, 自然语言普遍存在同形多义现象。在词汇层, 一词多义, 词类同形等现象随处可见, 而且越是常用的词其意义和用法越多; 在句法层, 结构同形也相当普遍, 同一种结构也可能表达多种含义和关系。因此, 区分同形和多义成为机器翻译的首要任务。 其次, 自然语言是规则性和习惯性的矛盾统一体。自然语言中, 几乎没有一条语法规则没有例外。然而, 如果把语言规则组织成从具体到抽象的层级体系, 区别个性规则和共性规则的层次, 建立个性和共性的联系方式, 就为解决这一矛盾创造了条件。因此, 在设计机器翻译系统的算法时, 如何把握和处理个性与共性的关系, 在很大程 度上决定了系统的前途。 机器翻译通常包括五个环节: 源语输入; 源语分析; 源语到目标语的转换; 目标语生成; 目标语输出。 源语到目标语的转换 (1) 源语输入 ============================ 目标语输出 I 形态分析 ====================== 形态生成 II 句法分析 ============= 句法生成 III 语义分析 ===== 语义生成 语用加工 , 知识推理 (2) 元语言 对于书面语, 输入和输出是纯技术性环节。语音机器翻译则还必须赋予计算机以听和说的能力, 这是语音识别和语音合成所研究的课题。 源语分析的结果用某种中间形式表示。转换包括词汇转换和结构转换, 它反映源语和目标语的对比差异。生成是分析的逆过程。可见, 只有转换才必须同时涉及两种语言, 源语分析和目标语生成可以相互独立。这种设计思想称作转换法, 是当前机器翻译系统的主流。当然, 也可以把转换放到分析或生成中, 用所谓直接法进行自动翻 译。 直接法和转换法各有其优缺点。运用直接法的系统结构紧凑, 翻译过程比较直观,规则的编制易于参照现成的双语词典、对比语法以及前人长期积累的翻译经验。其主要缺点是, 由于分析和生成不能独立, 使得分析和生成都难以深入; 另外, 对于多种语言之间的自动翻译, 直接法是不适合的。转换法也有缺点: 尽管可以分析得比较深 入, 但多了一个环节, 多了许多接口信息, 处理不好反而影响译文质量; 另外, 在不同语系的语言之间, 要想得到较高质量的翻译, 其转换模块(主要是词汇转换)势必很大, 大到与分析和生成模块不相称的地步, 这差不多等于回到了直接法。看来, 对两个差别比较大的语言进行自动翻译, 直接法还是很有效的。 究竟分析到哪一步实施转换, 是由系统的设计目标, 加工对象和研究深度等条件决定的。从上图可以看出, 分析越深入, 转换便越少, 最终达到没有转换。分析一下两极的情形是很有意思的, 即: (1) 只有转换的翻译; (2) 没有转换的翻译。 只有转换的翻译是一一对应的翻译, 不需要分析和生成。翻译只是机械的数据库查询和匹配过程, 谈不上任何理解。需要指出的是, 对于语言中纯粹的成语和习惯表达法, 这种翻译方法不仅是有效的, 往往也是必需的。 机器翻译的另一极是建立在充分理解基础上, 毋须转换的自动翻译, 这是从实质上对人的翻译过程的模拟。这时候, 源语分析才是真正的自然语言理解, 机器翻译才真正属于人工智能。然而, 这里遇到两个难题: 一是知识处理问题; 二是所谓元语言问题。 考察人的翻译活动, 可以发现, 人是靠丰富的知识在理解的基础上从事翻译的。这些知识既包括语言知识, 也包括世界知识(常识、专业知识等)。如何组织这些包罗万象的百科全书一样的知识, 以便适应机器处理和运用的需要, 是人工智能所面临的根本性课题。 另一方面, 人类可以用语言交流思想, 语言可以相互翻译, 必定有某种共同的东西作为基础, 否则一切交流和翻译都是不可思议的。概念, 或者更准确地说, 概念因子(即构成各种概念的元素)是全人类一致的。概念与概念间所具有的逻辑关系和结构也是全人类共同的。如果人们可以把这种共同的东西研究清楚, 把它定义成元语言, 源语分析以元语言作为其终极表达, 目标语生成也以元语言作为出发点, 就不需要任何转换了。这时候, 源语分析和目标语生成便完全独立, 每一种语言只需要一套针对元语言的分析和生成系统, 就可以借助于它自动翻译成任何其他语言。研究元语言是认知科学中的一个难题, 有待于语言学家, 逻辑学家, 心理学家, 数学家和哲学家的共同努力。有意义的是, 研究机器翻译的学者们设计过种种近似元语言的方案, 作为多种语言之间自动翻译的媒介语, 取得了一定的成果和经验。 总之, 虽然机器翻译的最终出路在于人工智能的理论和技术的突破, 但在条件不成熟的时候过份强调机器翻译的人工智能性质, 一味追求基于知识和理解的自动翻译, 对于应用型机器翻译系统的研制, 往往没有益处。 除了上述的两极, 人们根据转换所处的层次, 把机器翻译系统大致分为三代: 第I代是词对词的线性翻译, 其核心是一部双语词典, 加上简单的形态加工(削尾和加尾)。I代系统不能重新安排词序, 不能识别结构同形, 更谈不上多义词区分。 第II代系统强调句法分析, 因此能够求解出句子的表层结构及元素间的句法关系 (分析结果通常表现为带有节点信息的结构树), 从而可以根据源语和目标语的对比差异进行句法结构的转换和词序调整, 这就从线性翻译飞跃到有结构层次的平面翻译。然而, 在没有语义的参与下, 虽然可以识别句法结构的同形, 但却不能从中作出合适 的选择; 多义词区分问题也基本上无法解决。 第III代系统以语义分析为主, 着重揭示语句的深层结构及元素间的逻辑关系,可以解决大部分结构同形和多义词区分问题。 目前, 多数机器翻译系统处于II代,或II代和III代之间。纯粹以语义分析为核心的III代系统只做过小规模的实验(Wilks, 1971), 但也取得了令人瞩目的成就。从工程和实用考虑, 大型商品化机译系统的研制, 采用句法分析与语义分析相结合的方法, 是比较切合目前的研究水平和实际需要的。 从方法上看, 语言规则和算法分开是自动翻译技术上的一大进步, 算法从而成为系统的控制器和规则的解释器。早期的机器翻译系统并没有专门的语言规则库, 而是把规则编在程序中, 这带来三个严重的缺陷: 第一, 规则的每一点修改都要牵涉程序的变动; 第二, 无法提高机器翻译算法的抽象度, 从而影响了语言处理的深度和效率; 第三, 不利于语言学家和计算机专家的分工合作。 值得强调的是, 规则与算法分开以后, 只是从形式上为规则的增删修改提供了方便, 真正的方便取决于规则的结构体系, 具体地说, 就是规则与规则的相互独立程度。如果规则彼此依赖, 牵一发而动全身, 就谈不上修改规则的自由。这样的网状规则系统在规则数达到一定限量以后, 就无法改进了: 往往改了这条, 影响那条, 越改越糟, 最终可能导致系统的报废。因此, 在规则和算法分开以后, 有必要强调规则与规则分开。 随着信息社会的到来, 人工翻译的低效率已远远不能满足社会的需求, 迫切需要计算机帮助人们翻译。目前, 世界上已有一批机器翻译系统投放市场或投入运用, 更多的系统正在积极研制中。而英汉机器翻译也已有高科技产品问市。在大陆,继“译星”一鸣惊人后, 近年又有两套英汉系统分别投放市场, 一套为中国社会科学院语言 研究所和北京高立电脑公司所研制开发,另一套是中国科学院的863项目,竞争日趋激烈。机器翻译经过40多年的发展, 对语言的认识逐步深入, 发展了许多行之有效的语言处理技术。其前景是令人乐观的。 寄自加拿大 姐妹篇:【立委科普:信息抽取】: http://www.starlakeporch.net/bbs/read.php?45,20654 何人可12月 6th, 2008 at 5:18 pm 贤弟十二年前的旧作今天读来仍有不少新意,如基于语义分析的机译,和语言规则的独立性的重要。这些年我一直在关注NLP和MT的进展,但机器翻译的出路是在哪儿呢?我认为基于概念的机器翻译是个方向,不知你是否有所涉及,有何心得? liwei12月 6th, 2008 at 7:08 pm 何兄謬爱。我其实已经离开这个领域不少时间了,知识陈旧了。 从应用上看,由于海量双语对照文库的存在,由 IBM 研究人员等开端的统计一派现在成为业界主流,基于对等翻译单位(translation unit, 可以是词,词组或成语)的统计信息的系统已经达到实用开发的程度。这实际上是词汇转换(lexical transfer)路线的翻版,直接在源语和目标语之间建立联系,跳过显性的概念手段。 所谓基于概念的翻译原理上没有问题。概念从最低处说包括从词到概念的转换,涉及多义词区分(word sense disambiguation)的难题(从概念转换到目标语的词原则上不是难题,即便一个概念对应多个目标词,选错了也不影响整体意义,影响的是翻译的地道程度)。WSD本身是NLP中最艰难的问题之一。如果基于概念进一步包括“表层结构”到深层逻辑结构的转换的话,那么基于概念的翻译也就是我文中所说的基于理解的翻译了,真正属于人工智能的范畴了。 【姐妹篇】 【立委随笔:机器翻译万岁】 《立委科普:自然语言处理领域中的语义路线及其代表人物》 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|9884 次阅读|0 个评论
转发报告通知:机器翻译技术研究
timy 2009-11-9 16:43
题 目:机器翻译技术研究 报告人:张玉洁博士 日本国立信息通信研究机构研究员 时 间:2009年11月11日(星期三)下午2:00 地 点:中信所五层548会议室 (北京海淀区复兴路15号中央电视台西门) 张玉洁博士简历 : 1986年从中国科学院计算技术研究所获得硕士学位,1986年1992年在中国科学院计算技术研究所从事863项目机器翻译的研究以及英中机器翻译系统的研发,获得国家科学技术进步一等奖。1999年从日本电气通信大学获得博士学位,博士论文的研究课题是日语依存结构解析中统计信息利用方法的研究。之后在日本国际电气通信基础研究所从事翻译技术的研究与开发工作,曾参加了新闻领域的日英机器翻译项目以及旅游观光领域的中日口语翻译项目。自2002年起在日本国立信息通信研究机构从事日中、中日机器翻译的研发,包括基于第三语言的译语自动获取技术以及日中平行语料库中单词自动对齐技术,40万条日中电子翻译辞典和4万句对的日中平行语料库的建设以及相关手工辅助标注工具的开发。2005年开始参加科学技术论文的日中、中日机器翻译项目。2007年-2008年完成了面向北京奥运及观光的中日机器翻译系统的开发,这个系统在通过第三方的技术评测后,被集成到北京奥运的观众信息服务平台中。2005年2006年参加了中国863评测项目中的日中机器翻译评测的组织工作,包括评测技术的研发、评测标准的制定以及评测数据的提供。到目前为止,在期刊上发表过12篇论文,在国际会议上发表过20多篇有审查的论文,获得过两项专利。(个人主页: http://mastarpj.nict.go.jp/~yujie/ ) 报告提纲 : 在报告中张玉洁博士首先讲述机器翻译研究的发展历史,然后详细介绍机器翻译的主要方法及其相关基础技术。在此基础之上,张玉洁博士还将根据其工作经验介绍机器翻译系统的开发技术和具体应用,以及机器翻译研发在日本的最新发展状况。如果您对计算语言学、机器翻译感兴趣,可以来此与张博士一起交流和讨论。 欢迎所内外各界人士踊跃参加! 信息技术支持中心 学术委员会 二○○九年十一月九日
个人分类: 自然语言处理|4495 次阅读|0 个评论
全国第五届机器翻译会议观感
gothere 2009-10-17 22:39
转眼之间,南京大学承办的第五届机器翻译会议闭幕了。这次会议汇聚了国内主要的机器翻译研究机构的大牛们,会议报告和讨论都十分有激情。会议上,参与今年机器翻译评测的各机构讨论总结了机器翻译及评测的若干问题。我自己并不怎么搞机器翻译,只能就自己的理解总结如下: 1 国内自己举办的评测,直接推动了国内同行的交流和共同进步。由于评测方是中国人,更能体会评测中存在的问题,这样能更好地敢追甚至超越国际同行。 2 统计机器翻译方法占据了绝对主流。包括SYSTRAN,虽然主干是几十年来一贯的规则系统,但也增加了很多统计方法,优化翻译结果。 3 MOSES成为基本平台。酷似SIGHAN的比赛,各支参赛队都用上了 摩西系统 (http://www.statmt.org/moses/),或直接利用,或修改或重写代码。几天的报告下来,摩西成了最高频的词语。连董振东老师都评价道:你们说参加评测的哪个系统最成功?我看是摩西。 4 语言知识的利用进一步加强。句法分析的引入,使得SMT效果有了一定的提升。句法信息,作为一种结构化的启发性知识,应该可以提升效果。句法分析的质量对提升度也基本成正比。那么下一步需要什么样的语言知识,成为与会者关注的话题。毕竟这不是一个简单的问题,google的大牛就说,SMT中的语言知识是有害的。 5 机器翻译的产学研一体化还有很长的路要走。由于目前的机器翻译质量很不理想,难以应用到直接的翻译领域,但作为辅助翻译还是有市场的。沈阳的格微软件就推出了国内第一款辅助机译系统。 6 机器翻译遇到严冬还是春天?机译系统的低性能,多年来的慢进展,使得国家投入也萎靡不振。即使奥巴马政府的白皮书支持美国的MT,也没办法让SMT在十年内达到全新的高度。美国的聪明人很多,语言学家也很多,机器翻译的真正提高,目前还是靠语言资源的增加(比如谷歌的海量数据)。没有新的语言理论,机器翻译不管投入多少钱,不管社会多需要,都不可能达到较为理想的地步。所以,我同意没钱不好做事情,但对有钱就一定可以持保留意见。 好了,从语言和计算的角度谈谈自己的看法。我关心的是可计算的语言知识的构建,现有的语言知识库,大都处于唯物主义的范畴,几乎不顾及语言的主观性,所以是僵化的系统。这样的知识并不是语言知识,而是世界知识或常识。语言知识是什么,就拿汉语的语气词来说,呢有多种用法,这些用法与什么客观的东西都不相干,而是表达的说话人的不同意图、认识。不从根本上重建基于认知的心理的语言知识库,就没法给机器翻译或其他的NLP带来真正的帮助。
个人分类: NLP|5997 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-20 04:23

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部