科学网—标签 - 机器翻译

相关帖子	版块	作者	回复/查看	最后发表

2010 summer school——人类语言技术HLT学习心得

热度 1 smile321 2010-9-1 21:25

小记来哈尔滨之前，曾有想过，回来写篇日志，记录一下这次学习经历。但后来有事就给搁浅了。现在章老师希望有个书面汇报，于是写了一篇文档，顺道一并写了这篇博文。不曾想，这也竟是我在科学网博客自己写的第一篇博文时间： 2010.8.16~2010.8.20 研讨班： 2010 暑期研讨班（自然语言处理）地点：哈尔滨工业大学与会学生人数： 73 人左右特邀报告人： 4 名 2010 HIT-MSRA Summer School On Human Language Technology ，哈尔滨研讨班共有 5 天， 2.5 天课程， 2.5 天 Project 。研讨班主页： http://mitlab.hit.edu.cn/2010summer/zh_index.php 课程资料： http://mitlab.hit.edu.cn/2010summer/zh_courses.php 1课程内容梳理 Learning to rank for information retrieval 刘铁岩博士 @ 微软亚洲研究院 2010.8.16 上午，在简单的研讨班举办情况介绍、哈工大机器翻译实验室简介、特邀报告演讲人发言、所有与会人员合影之后，便开始了第一门课程： Learning to rank for information retrieval 。这是来自微软亚洲研究院的刘铁岩主讲的，也是四个课程中唯一没有 Project 任务的。课程首先对机器学习进行了概述。其中重点讲述了监督学习的四个要素：输入空间、输出空间、假设空间、损失函数（ loss function ）。文档对象通过特征向量表示。其次介绍了传统的排序模型，主要查询依赖模型、查询独立模型。由于在传统的排序模型中手工调整参数是很困难的，因此紧接着课程就讲述机器学习方法在排序中的运用，主要内容涉及主要的学习算法、各种方法的优劣分析、评估方法和数据集。在课程最后，讨论了在学习排序模型中一些前沿的话题，并进行了总结。对于这个课程简单总结一句：利用机器学习的方法训练数据，获取一个性能比较好的排序模型。 Phrase-based statistical machine translation Lars Ahrenberg ，基于短语的统计机器翻译 http://vir.liu.se/~lah/index.en.shtml 课程从基于词语的机器翻译讲起。基于词语的机器翻译有许多缺陷，因此基于短语的机器翻译研究成为热点话题。基于短语的机器翻译通常方法是在词语对（ Giza++ ）的基础上，运用启发式方法发现短语对。研究表明：基于短语的翻译优于基于词语的翻译；在预处理中融入语言学知识例如tagger、parser等对翻译系统性能是有帮助的课程中有提到 Factored translation ，对我来说是比较新的概念。一般的翻译模型是遵循 Word-Lemma-POS 模式，而 Factored 模型则 Lemma -POS-Word 模式，即首先翻译 lemma ，其次翻译 POS 词性类别，最后从 lemma 和 POS 词类中生成Word。使用 Factored translation models 主要依据是：词语的统计信息大量出现在 lemma 层次，许多语言中的名词短语可以在 POS 中捕获，在训练数据中不能观察到的形式可以通过对词语的某些组成部分的分析获得。课程中介绍了 Moses 系统，最后的 project 要求使用中英平行语料，基于 Moses 开发一个统计翻译平台。 Generation of referring expressions（GRE）：the state of art Kees Van Deemer ，指称表达式生成- GRE http://www.csd.abdn.ac.uk/~kvdeemte/ 在课程的第一环节， Deemter 教授花了一部分时间讲述 GRE 到底在怎么一回事。我的理解就是：对于一个给定的场景或对象，设计一个算法用最准确的属性恰当地描述场景或对象，并且这种描述能识别唯一的一个场景或对象。简言之，这个算法需要找到最好的描述该对象的属性或者识别出该对象的独有属性。在具体的指称表达式生成（GRE）的算法设计中，当前的方法和技术一般都是限定在某一个领域中，枚举对象的所有属性，通过类似查找筛选的方法（判断对象是否具有该属性，属性是否在领域类别中及属性的取值等），搜索并返回能够表征某个对象的最佳属性。在 GRE 评估中，基本思想是：计算机器生成的 referring expression 和人类生成的 referring expression 之间的相似度，比较相似度差异，从而判断算法的优劣。实质是计算机生成的文本与人类生成的文本之间的相似度比较。 GRE 对领域非常依赖的，准确率也有待提高。 Project 部分则要求设计一个算法，实现简单的 GRE 。 Information retrieval Daqing He http://www.sis.pitt.edu/~daqing/ 何老师的课程更为基础，基本覆盖信息检索的基本理论，并对多语言信息存取的基本理论进行了讲述。信息检索的基本理论主要包括：文档和查询处理（预处理、标引、存储）、检索或匹配模型（向量空间模型、语言模型）、相关反馈及其评估，其中穿插有一些检索评估度量方法和标准（准确率、召回率、评价准确率等）。何老师的课程中以英文作为语种，因此文档预处理部分的内容就围绕如何对英文文档进行预处理展开讨论，主要涉及 tokenization 、 lemmatization 、 stemming 等预处理方法。文档标引部分主要讲述倒排索引的构成、如何构建等问题；同时详细讨论倒排索引文件的存储结构和方法，如哈希表、 B- 树等。对于大规模的文档处理来说，速度显得尤为重要，因此一个好的索引文件存取结构显得非常必要。查询处理的一般步骤包括：停用词去除、词干还原、名词短语识别、查询词语的权重计算等。检索模型部分中，首先讲述了布尔模型的基本概念，布尔模型类似一个 hard classifier ，比较简单但缺陷也较多；其次讨论了特征权重的计算方案，包括 tf 、 df 、 tf-idf 、似然频率权重等；重点对向量空间模型的理论进行了系统的讲解，涉及向量构成、向量表示、余弦相似度、归一化等基本内容。信息检索中的统计语言模型可以看作是一个生成模型，即生成某种语言文本的一种概率机制。相关反馈的运用基于这样的事实：用户的查询并不总是接近其真实的信息需要，而通过对检索到的相关或不相关文档的分析能够生成更符合用户信息需要的查询。相关反馈的信息可以从用户的检索行为中获取（显式相关反馈），也可将检索系统返回的前 N 个文档作为相关文档（即伪相关反馈）。通过对相关反馈信息的运用，可以对查询特征项重新赋予权重，或进行查询扩展，或应用到其他的检索任务中如跨语言信息检索。相关反馈的评估中以 TREC 作为引子，详述了当前一些常用的评估方法和标准。在多语言的信息存取中，首先讲述跨语言信息检索的三大关键问题：翻译什么，如何获取翻译知识，怎样使用翻译知识；其次是多语言信息存在的一些关键问题。在多语言信息存取中，课程内容的一个理念是：多语言信息存取应该是以用户为中心的，是人机交互的一个动态的过程。因此为了支持交互的多语言信息处理，解决跨语言信息检索中出现的翻译歧义问题，相关反馈（ relevance feedback ）的应用显得尤为重要。查询扩展则作为查询、查询翻译、相关反馈等环节的联系纽带，通过查询扩展，相关反馈的信息得以利用，从而有效解决了部分查询翻译歧义的问题。机器翻译是解决多语言信息存取中跨语言查询翻译的另一个方法。 Project 部分要求在 Lucene 基础上，对于给定的文档集合，建立索引并存储；利用 Trec 做一个评估测试；基于 Lucene 设计一个简单的语言模型；使用 Google Tranlate 搭建一个多语言的 Lucene ；使用在线词典构建多语言的 Lucene 。 2 Project 所有的 project 都是在一个实验室进行的，其中以机器翻译组尤为活跃。大概是由于举办单位哈工大有个机器翻译课题组，因而多了许多高手，讨论的比较激烈。相比之下， referring expression 生成小组人数有些单薄，不到 10 个人；而信息检索小组虽然人数居多，但因为何老师走了，没有辅导人员，也显得有些落寞，不过有一部分人还是完成了部分任务。 3 感想研讨班的四门课程讲的都是一些基本问题，关注理论前沿的内容较少！总体而言，对我来说，帮助仍然是很大的，尤其是信息检索的内容。虽然有些理论和概念早有看过，但总有些问题理解不够深入，听过何老师课程，解决了很多疑惑。遗憾的是，因为 project 部分要求用 Java 实现，而我本身是不懂 Java 语言的事实上，如果能完成 project 中的任务，对我的帮助会更大。另外，不得不提的是，英语的听说水平实在是有待提高。刚开始听课，感觉就是在听天书，偶尔才能听懂几个单词。好在有讲义，听几句，翻讲义，再加上猜，对基本内容有了基本了解。看来，以后的学习中，对于英语的听说学习应该强化。考虑一下在时间和能力允许的情况下，学习下 Java 语言，因为有很多开源的工具用 Java 编写，如果会一点，一定大有裨益。关注机器学习在信息检索、文本挖掘领域的应用，貌似机器学习的方法很管用。后记其实，整个 2.5 天的课程中，几乎每天我都有不同程度的瞌睡，我也是相当郁闷，在学校再怎么熬夜也不会如此困，何况在哈尔滨那几日都是 10:30 左右睡觉。也许是感冒的缘故，也许是有太大压力吧，抑或是其它，哎，这个问题真是个谜在哈尔滨的几天，真的没有出过汗，凉爽，绝佳的避暑胜地但是如果像我一样，感冒了，就不 OK 了，那只能是杯具回南京时，在北京转车，有 5 个小时的候车时间，偷空去了天安门，赶上看降旗了，也算不枉路过北京。不过郁闷的是，其实没看清楚，仪式没开始的时候，觉得自己站的位置还不错，应该可以看清楚，可是等快开始的时候，前面突然多了 N 多比自己高的，举着相机，无语

个人分类: 科研心得|5428 次阅读|1 个评论

毕业设计

ZYyuyu 2010-7-9 15:04

前几天开题，研究内容为基于依存语法的SMT，这是个不容小觑的工程，确切的说应该有点挑战性。以前都在短语的级别来做，研究了短语抽取，最小错误率训练，和相关的解码，只是自我感觉最底层的东西依然没有彻底搞清楚，所以，接下来的几个月，除了找工作，还要抓紧时间把毕业设计做做好，然后再写两篇论文发了，也算大功告成。暑假期间争取搭个框架出来，可以把流程完整的跑一边，至少丢个中文句子进去，系统能扔个英文出来，目标很明确，接下来就是时间和精力了，加油。话说中文依存工具只有哈工大的那个平台可以用，大概准确率在百分之七十几，没有仔细去研究，因为貌似标点符号没有包含在依存树上，如果用没有标点的树，无疑为以后的解码增加了无形的困难，还要去学习和定位标点符号，于是用stanford的工具直接做了Syntactic Parser，然后用Penn2Malt去转了一把，中文短语结构树的parser的F1值大概80%左右，不同的领域应该有差别，语料库用的以前哈工大暑期课程里的一个双语语料，训练集开发集和测试集都有，领域偏向口语的日常交流，挺适合做研究，等系统平台稳定了，再增加训练语料，进行性能测试和分析，目前首要的是好好设计翻译模型，一个好的翻译模型可以存储丰富的翻译知识。加油。

个人分类: NLPの机器翻译|3148 次阅读|0 个评论

硕士论文: 世界语到汉语和英语的自动翻译试验

liwei999 2010-2-20 04:42

立委按: 不知道苹果怎么得罪当局的，总之，那次回国探亲发现，凡是 .mac 都联结不上（此前路兄提过，我还以为只是部分屏蔽），与 youTube 同等待遇，不愧为是建造过万里长城的国度。我还每年傻乎乎地给苹果网站交几百块钱呢。算了，把 .Mac 东西备份到博客来，立委苹果家页关张了事。倒霉的苹果。硕士论文世界语到汉语和英语的自动翻译试验 –EChA 机器翻译系统概述中国社会科学院研究生院语言系立委 1986 第1页世界语到汉语和英语的自动翻译试验 –EChA机器翻译系统概述 0. 本文是我在导师刘涌泉和刘倬先生指导下所做的毕业设计的论文总结. 共分十大部分: 1. EChA概况: 系统流程图; 2. 世界语: 语言学特点及其研究价值; 3. 层次递归成分体系 CDC: 体现独立分析结果的中间语言; 4. EChA 机器词典, 句子加工场格式; 5. 世界语形态分析: 削尾算法, 关于削缀问题的讨论; 6. 句法分析第一线: 虚词处理, 规则和规则分开的讨论; 7. 句法分析第二线: CDC 的求解, 中间结果分析; 8. 英语形态生成, 汉语形态修辞, 原语和译语对比差异的一般总结, 多义区分例释; 9. 调序: 自底而上加工; 10. EChA 试验结果分析, 汉语和英语的机译文的比较, 关于文学作品可不可以跟机器翻译结合的问题, 修辞的讨论. 第2页 ———————————————— 目录 1. EChA 概况 ……………………………………………………… 3 2. 世界语: 语言学特点及其研究价值 ………………………………….. 7 3. 层次递归成分体系 ………………………………………………. 13 4. EChA 机器词典 ………………………………………………….. 19 5. 世界语形态分析 ………………………………………………… 23 6. 世界语句法分析(1) ……………………………………………… 29 7. 世界语句法分析(2) ……………………………………………… 31 8. 英语形态生成 ………………………………………………….. 34 9. 目标语调序 ……………………………………………………. 38 10. EChA 试验结果的分析 …………………………………………….. 39 …………………………………………………………… 44 ……………………………………………………….. 45 EChA 试验结果 ……………………………………………… 46 世界语文摘 ……………………………………………….. 57 ~~~~~~~~~~~~~~~ 硕士论文全文（世界语版） Automatika Tradukado el Esperanto en la Chinan kaj Anglan Lingvojn pri E-Ch/A Mashin-tradukado Sistemo far Wei Li 1986 ENHAVO 1. Skizo pri EchA …………………………………………… 2 2. Esperanto: Lingvistikaj Trajtoj kaj Esplora Valoro …………… 6 3. La Mashintraduka Interlingvo CDC ………………………….. 12 4. EChA Mashinaj Vortaroj kaj Vortotabeloj …………………….. 18 5. Morfologia Analizo pri Esperanto …………………………… 22 6. Sintaksa Analizo pri Esperanto …………………………….. 27 7. Morfologia Sintezo pri la Angla Lingvo ……………………… 28 8. Vortrevicigo de la celolingvoj …………………………….. 32 ……………………………………………. 34 Specimenoj de Mashintradukajho el EchA Eksperimento …. 35 (1) La Originala Teksto el “Mashinmondo”…………… 35 (2) Diversaj Frazoj……………………………… 37 (3) Du Poemoj…………………………………… 42 ……………………………………. 47 ~~~~~~~~~~~~~~~ 关于语言系机器翻译专业立委同志学位论文的答辩情况［论文题目］世界语到汉语和英语的自动翻译试验一一ＥＣｈＡ机器翻译系统概述［论文时间]１９８５．０９－１９８６．０５［答辩日期]１９８６．０５．２４．ａｍ．［答辩委员会]主任：姚兆炜，副研究员; 委员: 刘倬, 研究员, 指导教师；刘涌泉，副研究员, 指导教师；王广义，助理研究员．［投票结果］答辩委员会四人，四票同意毕业论文通过，四票建议授予硕士学位．［总评］论文以世界语为源语，由世界语到汉语和英语进行机器翻译研究和试验，这在我国还是第一次．文章在理论上阐述了不同语言间进行机器翻译的方法和实现的过程，上机试验是成功的．作者具有独立研究工作的能力．ＥＣｈＡ系统的设计中使用了层次递归成分体系的中间语言，试图提供一套适合独立分析和独立综合要求的机器翻译抽象文法，这是该系统设计中的一个独创．在加工过程中也较好地处理了虚词的个性与实词的共性问题．语言分析中还缺乏语义参数，因此描写自然语言显得抽象性不够．对层次递归成分体系的定义尚欠严谨．［刘倬研究员评语］世界语到汉语和英语的自动翻译系统简称ＥＣｈＡ系统．以世界语为源语进行机器翻译研究和试验，这在我国还是第一次．这次试验共翻译了１５０多个世界语文句，输出了汉语和英语可懂的译文，试验结果是令人满意的．世界语的文句是根据语言学特点选取的，它们基本上能反映世界语的各种句型，这有利于试验ＥＣｈＡ系统的能力和适应性. 在ＥＣｈＡ系统的设计中使用了一种所谓＂层次递归成分体系＂的中间语言，试图提供一套适合独立分析和独立综合要求的机器翻译抽象文法，这可以看成是ＥＣｈＡ系统设计上的一个独创．从试验和论文中可以看出这套中间语言可以满足不同要求的形式分析和综合的需要．但由于语言中缺乏语义（特别是逻辑语义）参数，所以＂层次递归成分体系＂，作为分析，描写自然语言的一种抽象文法，其抽象性还是不够的. 总之，ＥＣｈＡ系统的研制，设计和试验是成功的．［刘涌泉副研究员评语］立委指的是一个一对多的翻译系统．在国内来说，还是第一个（语委会的冯志伟在国外搞过一个类似的系统）．尽管目前只是一对二，但从设计原则和方法来看，今后加以补充修订，扩充到对其他一些语言也是可行的．为了解决一对多翻译问题，必须设计独立分析系统，这正如要解决多对一翻译问题而必须设计独立生成系统一样合理．因此说，该系统基本立脚点是正确的．如何实现独立分析的原则，以便于下一步生成多种语言，是本篇论文的重点．为此，立委建立了一个由六元信息组组成的层次递归成分体系．他没有墨守成规，根据具体情况对于过去的成果进行了补充和改造．这个体系的框架基本上是合理的．不足之处是对语义参考不够．如果再加一个“语义元”，也就比较完美了．目前范围较小，缺少语义信息还可以，一旦扩大，利用语义的必要就会增大．这一点应该作为今后努力的方?向．另外，个别辞句还要加工．［姚兆炜副研究员评语］由世界语译为英语和汉语的机器翻译在我国还是初次尝试．文章内容在理论上阐述了不同语言间进行机器翻译的方法和实现的过程，并给出了上机试验的结果, 获得了比较满意的译文. 机器翻译是实验性比较强的学科. 不仅要有一定的理论依据, 而且还须要有在机器上能加以实现的方法和手段. 文章达到了理论与实践相结合的要求. 虽然试验规模不是太大, 但也自始至终完成了机器翻译全过程所要涉及的有关内容. 文章第三节(见P.8)关于层次递归成分体系的形式化定义, 既没有刻划出”递归”的实质, 也没有作到”形式化”的基本表示. 文章第十节(见P.25)前九行整段内容, 对机器的评价 “机器和人没有什么不同”, “机器的无能全由于人的无能” 等等, 用词是欠妥的, 整段内容也是不可取的. (86.05.21) 一. 就语种来说, EChA世一英/汉机器翻译系统在国内算作者首创, 在国外也属少见. 它的设计成功并实现运行, 获得质量不错的译文, 说明设计者已掌握了机器翻译的基本理论和实现方法. 二. 国内已有的机器翻译系统多属”一对一”的, 实现方法也多是”相关分析”的. 而EChA初步实现了”独立分析”, 且为能在”中介成分体系”上推出功能更强一些的”层次递归成分体系”(CDC), 这是一个发展和进步. 三. EChA系统在加工过程中比较好地处理了虚词的个性与实词的共性问题, 有利于系统的维护和改善. 四. EChA能够处理的语言现象比较丰富和全面, 功能较强, 不仅译出科技文献, 还能应付文学体裁的文献. 由此可见作者在语言学方面有较好的素养. 五. 应当指出, CDC 仍然没有改变以句法分析转换为依据的中介成分体系的基础, 因而目标语(英/汉语)的译文生成就不得不主要地依赖源语的句法分析. 作者试图将CDC用作”中介语”, 则必须更多地甚至彻底地?将CDC改造成一个以语义为基本内核的体系方有可能成功. 六. EChA系统的译文综合, 仍属相关型的. 因此, 作者预计的只要加一线俄语综合(或法语综合), “就能实现世一俄或世一法机器翻译”, 恐怕是过高地估计了CDC的作用. ～～～～～～～～～英语 76 (免修考试) 机器翻译概论 80 法语 95 / 88 概率论及格俄语 98 / 90 高等数学良资本论优语言学基础优反杜林论良离散数学 95 邓选学习良程序设计与上机试验 90 语音训练 95 中国社会科学院研究生院语言系 1986.05 【相关】硕士论文: 世界语到汉语和英语的自动翻译试验立委硕士论文：1. EChA概况立委硕士论文：2. 世界语: 语言学特点及其研究价值立委硕士论文：3. 层次递归成分体系立委硕士论文：4. EChA机器词典及词表立委硕士论文：5. 世界语形态分析立委硕士论文：6/7 世界语句法分析立委硕士论文：8. 英语形态生成立委硕士论文：9. 目标语调序立委硕士论文：10. EChA 试验结果的分析立委硕士论文【致谢】【参考书目】立委硕士论文全文（世界语版）《朝华午拾：shijie－师弟轶事（3）——疯狂世界语》灵感有如神授，巧夺岂止天工《立委随笔：一小时学会世界语语法》立委世界语文章 (1987): 《中国报道：通天塔必将建成》立委世界语论文（1986）: 《国际语到汉语和英语的自动翻译》立委（1988）《世界科技：世界语到汉语和英语的自动翻译试验》 DLT项目背景介绍立委硕士论文全文（世界语版） PhD Thesis: Morpho-syntactic Interface in CPSG (cover page) 【关于机器翻译】【置顶：立委NLP博文一览】《朝华午拾》总目录

个人分类: 世运资料|6046 次阅读|0 个评论

立委硕士论文：1. EChA概况

liwei999 2010-2-20 04:27

世界语到汉语和英语的自动翻译试验 --EChA 机器翻译系统概述第 3 页———————————————————————————————————————————————————— 1. EChA 概况 EChA (E-Ch/A: el Esperanto en la Chinan kaj Anglan Lingvojn) 系统是以世界语作为源语 , 以汉语和英语作为目标语的一对多小型实验系统。它是一个句对句的 , 分析和综合有一定独立性的全文机器翻译系统。本系统实现了翻译过程的完全自动化 , 不需要译前和译后编辑。 ( 由于纯技术原因 , 世界语中的几个戴帽字母暂时还需要用加 H 的复合字母来转写 .) EChA 系统从上机调试到打出译文只用了五个月 , 全部工作历时近一年 , 进展比较顺利。本系统使用的是 IBM-PC/XT 微型机 , 编程语言 BASIC (Version D2.00), 同时选用 IBM 公司的 BASIC 编译程序软件包。 EChA 由 CCDOS 操作系统 ( 即带有汉字库的 PC DOS 2.10) 支持。系统主体是六线分析和综合程序。另外还建立了三部词典 , 两个词表 , 编制了词典的造查 , 扩充和维护程序。整个系统由近一万条 BASIC 语句构成。编程时充分利用了 BASIC 串处理函数 , 显得特别方便。这次试验共翻译了 150 多句世界语文句。汉语和英语的机器译文都通顺或可懂 , 结果令人满意。 ( 见附录 ) 提供本系统试验的源语素材有三部分 : 第一部分是选自著名世界语作家 Sandor Szhatmari 的世界语原文著作 Mashinmondo ( 机器世界 , 中国展望出版社 ) 上的两段连续文章 (12 句 , P.100-101), 句子比较长 , 结构也比较复杂。第二部分选自魏原枢和徐文琪编著的世界语语法 ( 上海外语教育出版社 , 1982.10) 中的典型例句 (100 多句 ), 这些例句 ( 其中有一部分是日常用语 ) 都具有一定的语言学特点 , 表现了不同时态 ( 简单时态 , 复合时态 ), 语态 ( 主动语态 , 被动语态 ), 语式 ( 陈述语式 , 命令语式 , 假定语式 ), 不同的句式 ( 简单句 , 并列句 , 复合句 , 无主句 , 独词句 , 一般疑问句 , 特殊疑问句 , 等等 ), 不同的句型以及动词的各种形式。总之 , 它们具有相当的代表性 , 基本上反映了世界语语法概貌 , 这就弥补了连续文句特点单一的不足 , 更有利于试验 EChA 系统的能力和适应性。最后作为一种尝试 , 还选译了两首世界语诗歌 ( 第一首是著名的世界语者的颂歌“希望之歌” ) 。 EChA 由三大部分组成 : 1) 机器词典 ; 2) 源语分析 ; 3) 目标语生成。源语分析部分包括了世界语的全部基本语法和常用句型。然而 , 由于机器条件和实验周期的限制 , 本系统的规模 ( 特别是词典的规模 ) 还很小 , 有待于进一步扩充和改进。 ---- 准备从两方面来扩充 EChA 系统 , 一是补充例句 , 做扩大试验 ; 二是增加俄语和法语作为新的目标语 , 进一步检验体现独立分析结果的中间语言 CDC( 层次递归成分体系 , 第 3 节详述 ) 的适应范围 , 并探讨其完善的途径。另外 , 时间仓促给系统还带来一些问题 : EChA 的结构还不是很合理 , 算法有待于进一步优化 , 规则和算法还没能分开 , 在分析和综合的独立性上下了不少功夫 , 但还没有完全独立。尽管还有上述问题 , 然而按照设计要求 , 只要适当扩充词典 , 系统就有能力处理世界语的绝大多数语言现象。在中国近三十年的机器翻译研究历史中 , EChA 是第一个以世界语为研究对象的机译系统。在世界语跟机器翻译结合的过程中 , EChA 是一个成功的尝试和良好的开端。我们热切希望得到专家学者 , 世界语同志们的帮助和指导。 EChA 系统流程图 ______ 丨 ________ / 原文输入丨 /________________ 丨 _______________________ 丨 ______________________ 词丨 1. 削尾 , 查词典 ( 实词词典 , 虚词词典 , 成语词典 , 丨典丨词类词义区分表 ) 丨 ( 形态分析 ) 丨 ______________________________________________ 丨 ------------------- _______________________ 丨 _______________________ 句丨 2. 连词标点 , 切分 , 其他虚词丨法丨 ______________________________________________ 丨分 _______________________ 丨 _______________________ 析丨 3. 中间语言 CDC 的求解丨丨 ______________________________________________ 丨 ------------------- _______________________ 丨 _______________________ 丨 4. 多义词区分 ; 英语形态生成及汉语形态修辞 ; 查丨目丨英语不规则词词表丨标丨 ______________________________________________ 丨语 _______________________ 丨 _______________________ 生丨 5. 英语调序丨成丨 _______________________________________________ 丨 _______________________ 丨 _______________________ 丨 6. 汉语调序及其他修辞丨丨 _______________________________________________ 丨 _________ 丨 _________ 丨译文输出丨丨 __________________ 丨源语文句输入以后 , 作第一遍扫描。首先判定加工词长度是否大于三。若大于三 , 转子程序削尾后查实词词干词典 , 否则查虚词词典。因为世界语虚词 ( 无词尾变化 ) 大多短小 , 以三为界限最合理 , 可以大大减少虚查次数。词典查不着的作生词处理 , 削尾信息保留。查完词典及词表以后 , 把削尾信息和词典信息移到计算机内存中所开辟的句子加工场。句法分析确定源语文句的层次结构和句法关系。分析结果以一种高度形式化的层次递归成分体系 CDC 来体现。 CDC 是独立于目标语的机器翻译中间语言 , 这种独立性对于一对多机译系统是必要的。 CDC 由形态 , 成分 , 节点 , 分布 , 链号和层次几部分信息构成。它不但揭示了源语文句的正确的句法树 , 而且还包含了其它的有用的信息。事实上 , 它为建立多目标语的生成系统奠定了良好的基础。句法分析第一线处理虚词 , 中心任务是加工连词和标点 , 正确切分语段。原则上为每一个虚词编制一套分析规则。世界语虚词数量很有限 , 但用法较多 , 具有民族语功能词的类似的复杂性 , 是语言个性的集中表现 , 所以分别加工比较适宜 , 这也有利于规则跟规则分开。该线加工任务很重 , 特别是连词 KAJ 和 KE, 分析规则十分复杂。在很大程度上 , 虚词分析对了 , 句法关系也就清楚了。因此 , 集中力量编制一套完备的针对具体虚词的分析系统 , 对于世界语类型的机器翻译至关重要。该线正确处理了虚词个性现象 , 便可以保证下一线分析的充分抽象性和概括性 , 这样做对于象世界语这样的科学而规则的语言显得特别有利。句法分析第二线运用自顶而下的方法 , 从句子的谓语轴心 ( 第一层 ) 着手 , 一层一层往下递归加工 , 直到最末层 ( 终结节点层 ) 。加工过程就是不断递归调用各子程序的过程。其中以动词子程序为核心 , 它充分反映了世界语语法的基本内容及其高度规则性。分析完毕得出一条对应于源语文句的中间语言 CDC 的链。综合第一线做英语形态生成和汉语形态修辞。英语形态并不发达 , 所以世英的形态转换规则也不复杂。汉语缺乏形态 , 一般用适当的虚词 ( 助词 , 副词等 ) 来代替。我们把多义词区分规则也放在这一线 , 这是因为多义区分的条件至此已经具备。一般来说 , 根据多义词及其联系词的 CDC 成分和语义特征就可以得出该词的正确义项。综合第二线和第三线分别做英语调序和汉语调序。调序信息由 CDC 结合目标语语法规律得出 , 调序的方法是自底而上 , 层层归约 , 这样就不至于调乱。我们知道 , 世界语语序极为灵活自由 , 而汉语语序却很固定 , 所以生成汉语的主要任务是调序。对于英语 , 调序的任务较轻 , 主要是保证文句主干主谓宾次序不乱。英语名词没有主宾格的区分 , 所以关键是把前置宾语移到动词之后。世界语是印欧语系的一个合理化的公分母 , 与英语相似处毕竟很多 , 比如同一句法层次的定语或状语的内部调序 , 在译汉语时是一个难题 , 而在印欧系诸语言中则不是大问题。另外修辞加工的过程也可以免了。（世英转换中的成语和多义现象较之世汉转换也少得多。）总之 , 英语生成比汉语生成容易许多。 EChA 虽然是个不大的系统 , 但是内容比较丰富。它既有形态分析 , 又有形态生成 , 也有调序和修辞 , 还有自己的一套成分体系。我们在总体设计时 , 已经考虑到增加新的不同类型的目标语扩充该系统的需要。可以预计 , 如果增加两线俄语和法语的生成程序 ( 主要是形态生成 ), 分析部分稍作改动 ( 主要是充实与综合还没有完全独立开来的虚词分析规则 ), 就可以实现崐世到汉 / 英 / 法 / 俄的自动翻译。总之 , 实用机译系统所能遇到的问题 , EChA 几乎都已涉及 , 而且主体六线程序各个有自己的特色 , 是个有相当代表性的一对多全自动机译模型。【相关】硕士论文: 世界语到汉语和英语的自动翻译试验立委硕士论文：1. EChA概况立委硕士论文：2. 世界语: 语言学特点及其研究价值立委硕士论文：3. 层次递归成分体系立委硕士论文：4. EChA机器词典及词表立委硕士论文：5. 世界语形态分析立委硕士论文：6/7 世界语句法分析立委硕士论文：8. 英语形态生成立委硕士论文：9. 目标语调序立委硕士论文：10. EChA 试验结果的分析立委硕士论文【致谢】【参考书目】立委硕士论文全文（世界语版）《朝华午拾：shijie－师弟轶事（3）——疯狂世界语》灵感有如神授，巧夺岂止天工《立委随笔：一小时学会世界语语法》立委世界语文章 (1987): 《中国报道：通天塔必将建成》立委世界语论文（1986）: 《国际语到汉语和英语的自动翻译》立委（1988）《世界科技：世界语到汉语和英语的自动翻译试验》 DLT项目背景介绍立委硕士论文全文（世界语版） PhD Thesis: Morpho-syntactic Interface in CPSG (cover page) 【关于机器翻译】【置顶：立委NLP博文一览】《朝华午拾》总目录

个人分类: 世运资料|5523 次阅读|0 个评论

立委硕士论文：2. 世界语: 语言学特点及其研究价值

liwei999 2010-2-20 04:27

世界语到汉语和英语的自动翻译试验 --EChA 机器翻译系统概述第 7 页———————————————————————————————————————————————————— 2. 世界语 : 语言学特点及其研究价值在进入 EChA 系统的细节和探讨机器翻译的一般理论和方法之前 , 我们专列这一节讨论世界语本身 , 这对说明本系统的设计思想和具体方法是很必要的。毫无疑问 , 我们的讨论主要是从语言学角度着眼。世界语 (Esperanto) 是波兰的语言大师柴门霍夫博士 ( L.L.Zamenhof 1859.12.15 - 1917.4.14 ) 于 1887 年在印欧语系的基础上经过艰苦研究提出的一个人造语方案。由于其科学 , 简明 , 逻辑性强 , 由于日益增长的克服语言障碍的国际需要 , 也由于其维护世界和平 , 增进各民族相互了解 , 实现世界大同的崇高理想的感召 , 它逐渐为人们所接受。目前 , 世界上有 2000 多万人在学习和使用世界语。世界语早已脱尽了人造的斧痕 , 走上了自然发展的道路。它不但能写也能说 , 不但适于表达精密的科学思想 , 而且在文学上也取得了令人赞叹的成就。从莱勃尼茨的万国通用文字的设想开始 , 先后提出的人造语方案达 150 多种 , 唯有世界语经受住各种考验生存下来了。现在 , 越来越多的人认识到世界语作为国际辅助语的独特价值。有些国际性学术会议 ( 如控制论大会 ) 已经采用世界语作为工作语言。世界语中除数量有限的虚词外 , 其他词都有非常规则的形态变化 , 借以表现该词的词性、格、数、时态、语态、语式、分词形式等语法信息。另外还有一整套前缀后缀 , 用以表现词汇意义上的细微差别和修辞色彩。世界语是典型的黏着语 , 词尾和语缀的意义单一 , 可以叠加。这套词尾和语缀设计得非常巧妙 , 规则 , 特别容易掌握 , 而且也非常适合机器的递归加工。（ EChA 的削尾算法就体现了这种递归加工的优点 , 见本文第 5 节。）世界语没有语法同形词 , 句法关系一目了然 , 这不论对人还是对机器的识辨 , 都是一个极为有利的条件 ( 民族语机器翻译中同形判别的问题在这儿根本不存在了 ) 。同时 , 世界语的词类转换也特别灵活 , 只要逻辑上说得过去 , 不致引起误解 , 同一个词干可以根据句法需要 , 通过词尾变化随意改变词性。（我国古汉语词类活用也比较自由 , 在一定程度上具有类似的灵活性 , 可惜这种活用没有明确的形态标志 , 常常要靠逻辑语义的分析才能确定。）世界语的词尾形式并不很多 , 但却很完备 , 可以和形态发达的语言相媲美 , 这一点我们不能不为之惊叹。拿格来说 , 世界语只有普通格 ( 零形态 ) 和目的格 ( 加词尾 -N) 两种 , 但由于它把词性和格的用法巧妙地统一起来 , 再加上有介词这种分析形式的后备 , 表达起来跟形态丰富的语言一样灵活自由。俄语是现代形态最丰富的语言之一 , 它有六个格。粗略地说 , 它的一格 ( 主格 ) 跟世界语普通格对应 , 二格 ( 属格 ) 跟世界语形容词 -- 姑且叫做形容格吧 ( 加词尾 -A) 对应 , 三格 ( 与格 ) 在世界语中没有相应的屈折形式 , 一般用介词 AL 来代替。四格 ( 宾格 ) 对应于世界语的目的格。五格 ( 工具格 ) 跟世界语副词 -- 也姑且叫做状格吧相对应。六格是前置格 , 跟前置词 O,Ha,B 等搭配 , 它本身并不表示特定的语义关系。有意思的是 , 世界语介词后可以跟崐普通格和目的格两种 , 前者表示静态 , 后者表示动态 ( 方向 ) 。比较俄语的类似用法 , 世界语的简洁和完备的特点是很明显的。世界语基本语法规则共 16 条 , 原则上没有例外 . 由此人们也许会推断这门语言很简陋 , 刻板 , 缺乏表现力。这是一个极大的误解。这里涉及世界语的另一个非常突出的语言学特点 , 就是它兼有分析性语言和综合性语言的要素 ( 虚词和形态都比较丰富 ), 同一种语义既可以用分析形式 ( 借助于虚词 ), 又可以用综合形式 ( 借助于屈折变化 ) 来表示 ---- 当然 , 这两种形式并不等同 , 它们体现了不同的风格。由于这一特点 , 世界语兼容性强 , 文体多样 , 特别灵活 , 富于弹性和表现力。如果作为目标语 , 它最能维妙维肖地模仿原文的语言特色。它既可以反映语序自由 , 文体柔美的斯拉夫风格 , 又可以表现形态缺乏的语言 ( 如汉语和英语 ) 的单纯 , 严谨 , 密集的特点。下面我们举几个例子来看一下分析形式和综合形式在世界语中的兼容并存情况 : 分析形式综合形式 1. 时态 : Mi ESTAS skrib-ANTA. Mi skrib-AS. / Mi skrib-ANTAS. I AM writ-ING. 我在写字。 2. 语态 : Ghi ESTAS limig-ITA. Ghi limig-ITAS. / Ghi lim-IGHAS. It IS limit-ED. 它被限定了。 3. 词义 : Tio estas MALGRANDA (ETA) sekreto. Tio estas sekret-ETO. That is a LITTLE secret. 那是小秘密。 4. 介词与副词 ( 状格 ): Li parolas EN (PER) Esperanto. Li parolas esperant-E. Li parolas Esperant-ON. He speaks IN Esperanto. He speaks Esperanto. 他用世界语说话。他说世界语。 5. 介词与格 ( 目的格 ): Shi parolis POR 30 minutoj. Shi parolis 30 minut-OJN. She spoke FOR 30 minutes. 她说了 30 分钟 . 6. 分析形式向综合形式的转换 : LAU kutimo ...............LAU-kutim-E...kutim-E 这种分析形式和综合形式并存的情形在世界语中极其普遍 , 这一点跟民族语不一样。虽然没有绝对不用分析形式的综合性语言 , 也没有绝对不用综合形式的分析性语言 , 但是 , 每一个具体的民族语言总是以一种形式为主 , 而且在多数场合总是一种形式排斥另一种形式 , 一般不允许并存。总之 , 跟人们通常想象的正相反 , 世界语是高度灵活的 , 表达方式极其多样 , 且能互相转换。这种高度灵活性正好适应了人类思维模糊性的特点。灵活性与规则性的高度统一 , 这就是世界语的真正奇迹。人造语言的规则性容易为人理解。关于灵活性 , 再补充几点。由于篇幅关系 , 我们不打算展开 , 必要时辅以一两句例证。 1. 在世界语中动词的及物与不及物的界限模糊了。 Mi IRAS. / IRU vian propran VOJON! I GO. / GO your own WAY! 我行走。 / 走你自己的路 ! La tuta homaro PAROLOS nur unu LINGVON. / Mi PAROLAS esperante (en Esperanto, per Espernato). The whole mankind will SPEAK only one LANGUAGE. / I SPEAK in Esperanto. 全人类将说仅仅一种语言。 / 我用世界语说话。 2. 直接宾语 ( 所谓宾格 ) 与间接宾语 ( 所谓与格 ) 的界限模糊了。 informi ION al IU / informi IUN pri IO tell sth. to sb. / tell sb. about sth. 向某人告诉某事 / 告诉某人关于某事 3. 宾语与状语的界限模糊了。世界语语法规定 : 目的格 ( 即通常所谓宾格 ) 也可以表达某种状语意义 ( 参见基本法规第 14 和第 13 条 ) 。 Mi invitas vin VOJAGHI kun mi PEKINON. I invite you to TRAVEL with me TO PEKING. 我邀请你和我一起 “旅游北京”。 4. 词缀与词根的界限模糊了 , 从而派生词与合成词的界限模糊了。同时虚词与实词的界限也模糊了。 sekret-ET-o / ET-a sekreto JES, / mi JES-as vian opinion. little secret 小秘密 Yes, I agree with you. 是的 , 我同意你的意见。 ANTAU-vidi / Sinjorinoj ANTAU-as. Kred-IND-a / ne-IND-a , IND-igi , sen-IND-ulo foresee / Ladies first. believ-able / not worthy, make worthy, good-for-nothing 5. 万能介词 JE 的设置。人们在表达思想时 , 常常只意识到从属成分与中心成分有某种朦胧的修饰关系 , 但却说不出 , 往崐往也不必要说究竟是何种语义联系。为了适应人类思维的这种模糊特点 , 柴门霍夫引入介词 JE 。这是一个很有见识的创造。表达这种模糊关系还可用屈折形式的目的格或副词 ( 状格 ), 见基本法规第 14 条。 6. 词性与格在用法上的统一。词性和格都是根据词尾入句而后定的动态句法特征 , 都能表现比较抽象的语义关系 , 可以相互补充。（这跟分析形式的介词短语不同。介词除了上述 JE 外 , 一般用来表示较为具体和确定的语义关系。） Mi skribas plum-E. CF: ( 俄 ) ( 五格 ) 7. 极其灵活的词类转换。 La FLOR-OJ FLOR-AS. Li KANT-AS italan popolan KANT-ON. Mi estas GHOJ-A. Mi GHOJ-AS. The flowers blossom. He sang an Italian folk song. I am glad. 8. 词序的自由。 Mi amas vin. (106) / Mi vin amas. / Vin amas mi. (108) / Vin mi amas. (111) / Amas mi vin. Amas vin mi. I love you. 我爱你。 9. 构词的灵活。派生词 : 词缀的丰富及其黏合特点 ; 合成词 : 词根与词根的自由复合。 Shi rid-AS. Shi rid-ETAS. Shi estas rid-EMA. Shi estas rid-EMULO. Shi estas rid-EMULINO (rid-EMINO). Shi estas rid-EMULINETO (rid-EMINETO)....... 她笑。她微笑。她爱笑。她是爱笑的人。她是爱笑的女人。她是爱笑的小女孩儿 ...... 。 INTER-lingvo 中间语言 fonto-lingvo celo-lingvo ponto-lingvo naci-lingvo internaci-lingvo 源语目标语媒介语 ( 桥梁语言 ) 民族语国际语 10. 完善的时态语态系统和精巧的相关词表。世界语的时态语态系统和相关词表是两项绝妙的创造。它们是如此地精巧完善 , 富有逻辑的力量和美 , 每一个世界语者都象化学家欣赏元素周期表一样体验到这种美 , 并为此感到自豪。借助于唯一的一个助动词 ESTI, 世界语能表达各种复合时态语态。相关词表所能表达的语义的简洁和丰富更是无与伦比的。世界语的这些特点给人们的自由创造留下了很大的余地 , 为人们充分发挥自己的语言才能提供了最好的条件。这种灵活性并不影响作为世界语基础的 16 条基本法则的不可动摇的严格性。在这儿 , 自由和约束达到了完美的统一。在世界语国里 , 每个人都在不同程度上是创造者 , 每一个世界语者都体验到这种创造的乐趣。人们再也不是习惯的奴隶了。然而 , 不能不承认 , 世界语的灵活和自由给机器的自动处理带来了一定的困难。我们在研制 EChA 系统的过程中 , 深深感到 , 与民族语相比 , 以世界语为源语的机器翻译虽然有其容易的一面 , 也有其特有的难处 , 总之要比我们预料的要复杂得多。容易来自其高度规则性 , 困难则源于其高度灵活性。世界语作为人们唯一实际使用的人造语言自然有它独特的研究价值。拿它与民族语作对比研究 , 我们会得到很多有益的启示。由于其独特的地位 , 人们在研究思维与语言 , 民族与语言 , 社会与语言 , 个体与语言 , 信仰与语言等等的关系 , 以及探讨语言的共性 , 语言的本质 , 语言的前途 ( 未来社会的语言 ), 语言的形式和内容 , 语言的类型 , 语言的教学等问题时都可能在研究世界语的过程中获益。另外 , 世界语本身的发展也需要语言学者对它作科学的研究和总结 , 这不但有益于这门语言健康的发展 , 有助于世界语语言学理论体系的建立 , 同时也会丰富一般语言学的理论。语言学者对世界语的理论研究虽然早已开始 , 但还远远不够。对于机器翻译工作者 , 世界语还有一层特殊的意义 , 就是世界语作为民族语间机器翻译的媒介语的价值 . 这可以从两方面看 : 1) 按照机器特点对世界语作必要改造 , 定义一个作为媒介语的世界语子集 , 再辅以一套高度形式化的成分体系。这个设想我们在第一届中国世界语大会上提过。我们也确实设计过一个以世界语作为媒介语的英汉机器翻译规则系统。虽然由于时间等原因没有能上机试验 , 但我们相信该方案是可行的 , 也是值得尝试的。拿世界语或其子集作媒介语 , 尽管还远远不是最理想 , 但如果研制的是印欧语系间多语言自动翻译 , 或者是以这些语言为源语的多对一系统 ( 如英 / 法 / 德 / 俄 -- 汉系统 ), 相信会带来很多方便。 2) 虽然不直接采用世界语作媒介语 , 但在设计机译媒介语时 , 认真吸取世界语的优点 , 可以少走弯路。 __________________________________________________________________________ 附注 : 为便于查对 , 这里把世界语 16 条基本法规转抄如下 : (1) 不存在不定冠词 , 只存在定冠词 (LA), 其性数格不变。 (2) 名词词尾为 -O, 复数形式加词尾 -J 。只存在两个格 : 普通格和目的格 ; 后者由普通格加词尾 -N 构成。 (3) 形容词以 -A 收尾 , 其格数与名词同。比较级用 PLI 和连词 OL, 最高级用 PLEJ 。 (4) 基数词 ( 没有词尾变化 ) 是 : UNU 1, DU 2, TRI 3, KVAR 4, KVIN 5, SES 6, SEP 7, OK 8, NAU 9, DEK 10, CENT 100, MIL 1000 。几十和几百由数词简单合并而成。序数词加形容词词尾 ; 倍数加后缀 -OBL-, 分数加 -ON-, 集合数词加 -OP-, 分配意义用介词 PO 。此外 , 数词也可以有名词和副词形式。 (5) 人称代词 : MI, VI, LI, SHI, LI, GHI ( 代物件或动物 ), NI, VI, ILI 。其所有格形式加形容词词尾构成。数格的变化与名词同。 (6) 动词没有人称和数的变化。动词的各种形式 : 现在时用词尾 -AS; 过去时 -IS; 将来时 -OS; 假定式 -US; 命令式 -U; 不定式 -I 。分词 ( 有形容词和副词的意义 ): 主动现在式 -ANT-; 主动过去式 -INT-; 主动将来式 -ONT-; 被动现在式 -AT-; 被动过去式 -IT-; 被动将来式 -OT- 。被动语态的各种形式 , 都借助于 ESTI 的相应形式和所需要的动词的被动分词构成 ; 被动式所用的介词是 DE 。 (7) 副词以 -E 收尾 ; 各比较等级与形容词同。 (8) 所有介词都要求普通格。 (9) 每个词读写一致。 (10) 单词重音永远在倒数第二个音节上。 (11) 合成词由词与词简单合并而成 ( 主要的词放在后面 ); 语法词尾也被看作独立的词。 (12) 有其他否定词的时候 , 就不再用 NE 。 (13) 为了表示方向 , 单词加目的格词尾。 (14) 每个介词都有确定不变的意义。但是如果我们需要用一个介词 , 而从意义上看不出应该用哪一个 , 这时我们就用没有独立意义的介词 JE 。介词 JE 也可以用没有介词的目的格来代替。 (15) 所谓外来词 , 即大多数语言取自同一来源的词 , 在世界语里不加变化地应用 , 只需照世界语拼写法书写 ; 但如果一个词根派生几个不同的词时 , 最好只不加变化地采用那个基本词 , 并由此按照世界语的规则构造出其他的词来。 (16) 名词和冠词末尾的元音字母可以省略 , 用省略号 ' 来代替。请参看《巴贝尔通天塔必将建成》（刘涌泉李维 , 中国第一届世界语大会论文。其中第四节专门讨论了世界语作为机译媒介语的优点 , 缺点 , 可能和前景。）【相关】硕士论文: 世界语到汉语和英语的自动翻译试验立委硕士论文：1. EChA概况立委硕士论文：2. 世界语: 语言学特点及其研究价值立委硕士论文：3. 层次递归成分体系立委硕士论文：4. EChA机器词典及词表立委硕士论文：5. 世界语形态分析立委硕士论文：6/7 世界语句法分析立委硕士论文：8. 英语形态生成立委硕士论文：9. 目标语调序立委硕士论文：10. EChA 试验结果的分析立委硕士论文【致谢】【参考书目】立委硕士论文全文（世界语版）《朝华午拾：shijie－师弟轶事（3）——疯狂世界语》灵感有如神授，巧夺岂止天工《立委随笔：一小时学会世界语语法》立委世界语文章 (1987): 《中国报道：通天塔必将建成》立委世界语论文（1986）: 《国际语到汉语和英语的自动翻译》立委（1988）《世界科技：世界语到汉语和英语的自动翻译试验》 DLT项目背景介绍立委硕士论文全文（世界语版） PhD Thesis: Morpho-syntactic Interface in CPSG (cover page) 【关于机器翻译】【置顶：立委NLP博文一览】《朝华午拾》总目录

个人分类: 世运资料|5508 次阅读|0 个评论

立委硕士论文：3. 层次递归成分体系

liwei999 2010-2-20 04:27

世界语到汉语和英语的自动翻译试验 --EChA 机器翻译系统概述第 13 页———————————————————————————————————————————————————— 3. 层次递归成分体系在给出层次递归成分体系 (CDC) 的定义之前 , 我们先说说该体系的来源及其理论依据。 CDC 体系是机器翻译的一种中间语言 , 我们试图提供一套更加合乎独立分析独立综合要求的机器翻译抽象文法。 CDC 是 EChA 系统的关键 , 它体现了我们对语言结构的看法和对机器翻译的认识。 CDC 是直接从导师们的中介成分体系脱胎而来的 , 它保留了中介成分的形式 , 继承和改造了它的内容 , 其思想基础是有向直接联系理论 ( 或轴心词理论 ) 。体现在 CDC 中的要点是 : 1) 句子的最顶层是主句谓语 , 它是全句的最大联系中心 ( 主轴心 ), 所以谓语是全句的代表。一个完整的句子的最简单也是最典型的形式 , 就是独词祈使句。如 : Venu! Come! 来 ! 任何其他句子 ( 无谓句是不完整句 , 除外 ) 都是从上面的简单形式一层一层推衍出来的 : Venu! ... La studento venu chi tien! ... La studento, kiu parolis, venu chi tien! ...... Come! Let the student come here! Let the student, who spoke, come here! 反过来说 , 对一个无论怎样复杂的句子层层归约 , 归约的顶层必然是主句动词谓语 : VENU / \ \ studento tien (!) / \ / la parolis chi / / \ (,) kiu (,) 2) 一个词只能跟另外的一个词发生直接联系 , 但一个词可以带 N 个 ( N=0 ) 直接联系词。这就是句子结构的有向直接联系观点 . 带直接联系词的词叫轴心词 , 当 N0 时 , 它是非终结节点词。直接联系词本身也常常是低一层次的轴心词。 3) 主句谓语 ( 主轴心 ) 处在第一层。与主句谓语发生直接联系的词位于第二层。与第二层词直接联系的词在第三层。这样一环扣一环 , 组成句子的每一个词都处在某一个层次上。理论上说 , 句子的层次可以是无限的。 4) “虚词不虚。”虚词 ( 或者叫功能词 , 结构词 ) 较之实词包含更多的句法结构信息。有些虚词同样可以充当轴心词。比如 : 在介 + 名结构中 , 介词是轴心词。主从连词如 SE (IF), KVANKAM (ALTHOUGH) 等也充当轴心词 , 作为从句的代表 , 它跟主句谓语发生直接联系 , 它所带的下位直接联系词是从句谓语。 5) 作为源语文句的中间语言映射 , 层次递归成分应该 , 也可以落实到每个词上。所谓词 , 从机器角度来看 , 就是两空之间的字符串 ( 汉语另当别论 ) 。严格地说 , 标点符号也是词 ( 虚词 ), 也要参与文句的分析和归约。建立 CDC 体系的两项基本原则是 : 1. 层次递归原则 : 有多少层次反映多少层次 , 而且层次是递归的。层次的递归性表现在 : (1) 对文句可以自底而上层层归约 ( 参见 EChA 系统的目标语生成算法 ); (2) 对文句可以自顶而下层层分析（参见 EChA 的源语分析算法）。 2. 词本位原则 : 词到句子 ( 以主句谓语为代表 ) 是一个动态递归过程的两极 , 其间的各个环节就是所谓层次。贯彻词本位原则的实质 , 就是在一切层次上都把成分 (CDC) 落实到词。句子是 , 也仅仅是由句素组成的。而每一个大大小小的句素（词组、短语、从句等）按照我们的看法 , 总是以一个轴心词来代表的。现在 , 我们给出层次递归成分体系的形式化定义 : 层次递归成分体系是层次递归成分的集合层次递归成分是这样一个六元信息组 : 丨形态信息 | 结构关系信息 | 节点信息 | 分布信息 | 层号信息 | 链号信息丨形态信息 ::= { 词性 , 格 , 数 , 时态 , 语态 , 语式 , 非谓语形式 , 体 , 人称 , ... } 词性 ::= { N, V, A, F, P, Z, C, K, B } N= 名词 , V= 动词 , A= 形容词 , F= 副词 , P= 介词 , Z= 助动词 , C= 并列连词 , K= 主从连词 , B= 标点符号格 ::= { 非格 , 普通格 , 目的格 } 数 ::= { 非数 , 单数 , 复数 } 时态 ::= { 非时态 , 现在时 , 过去时 , 将来时 } 语态 ::= { 非语态 , 主动语态 , 被动语态 } 语式 ::= { 非语式 , 陈述语式 , 命令语式 , 虚拟语式 } 非谓语形式 ::= { 非非谓语形式 , 分词 , 不定式 , 名动词 } 体 ::= { 非体 , 进行体 , 完成体 , 将来体 } 人称 ::= { 非人称 , 第一人称 , 第二人称 , 第三人称 } 结构关系信息 ::= { S, W, O, D, F, B, T, I, C, L, M, A, Z, V, R } S= 主语 , W= 谓语 , O= 宾语 , D= 定语 , F= 状语 , B= 补语 , T= 同位语 , I= 独立成分 C= 同等连词或标点 , L= 从句起始标点 , M= 从句末标点 ,A= 插入成分起始标点 ,Z= 插入成分末标点 V= 非结构意义标点 , R= 句末标点节点信息 ::= { J, 非终结节点 } J= 终结节点非终结节点 ::= { S, O, D, B, K, X, Y } S= 主语从句节点 , O= 宾语从句节点 , D= 定语从句节点 , B= 补语从句节点 , K= 一般从句节点 X= 动词性非终结节点 , Y= 其他非终结节点分布信息 ::= { Q, H, G } Q= 位于轴心词前 , H= 位于轴心词后 , G= 轴心层号信息 ::= { 非层号 , 自然数 } 自然数 ::= { 1, 2, 3, ... } 链号信息 ::= { 左链号 , 右链号 } 左链号 ::= { 非左链号 , 99, N } N= 大于句首号小于句末号的自然数右链号 ::= { 非右链号 , N } 左链号的设置是为了处理同等成分的方便。我们把同等成分的最右元素认作整个成分的代表 ( 落脚点 , 轴心 ) 。左链号 99 是同等成分最左元素的标志。有了左链号 , 消除了后顾之忧 , 同等成分就可以和其他句素一样 , 参加文句的分析和归约。下面是用这套成分体系作分析的例句 (004): CDC 中形态信息略去 , 余下依次是 : 关系 / 节点 / 分布 / 层号 / 左链 / 右链 , 例如 : FJQ 05 00 02 --- 状语 / 终结节点 / 位于其轴心词之前 / 处于第 5 层 / 没有左链 (00 是非左链号 )/ 右链号为 02 Pli poste , kiam la sciodisketoj 英语 : More later , when the knowledge-disks 汉语 : 更以后，当 (... 时 ) 微型知识磁盘 CDC 链 : FJQ 05 00 02 FYQ 04 00 17 LJQ 05 00 04 FKQ 04 00 17 DJQ 07 00 06 SYQ 06 00 07 estis eltrovitaj , la plenan indikaron had been found out , the full indication 被发明了 , 全套指令集合 WBH 05 00 04 BJH 06 00 07 MJH 05 00 04 DJQ 05 00 12 DJQ 05 00 12 OYQ 04 00 17 , endiskigitan , oni metis en , endisked , people put into , 所写入磁盘的 , 人们放到 (... 里面 ) AJQ 06 00 14 DYH 05 00 12 ZJH 06 00 14 SJQ 04 00 17 WXG 03 99 20 BYH 04 00 17 mashinojn kaj ili tiamaniere povis en machines and they therefore could in 机器它们这样能在 (... 里面 ) OJH 05 00 18 CJQ 02 17 23 SJQ 02 00 23 FJQ 02 00 23 WXG 01 20 00 FYQ 03 00 27 si mem akumuli sciencan stokon , them- selves accumulate scientific stock , 自己本身积累科学贮蓄 , BYH 04 00 24 BJH 05 00 25 BXH 02 00 23 DJQ 04 00 29 OYH 03 00 27 VJQ 05 00 32 pli grandan ol la homa cerbo more great than the man's brain 更大比人的头脑 FJQ 05 00 32 DYH 04 00 29 FYH 05 00 32 DJQ 07 00 36 DJQ 07 00 36 BYH 06 00 33 层次递归成分实质上就是不同层次的词之间直接联系关系的一种反映。它揭示了文句结构的正确的句法树。根据文句的 CDC 链 , 我们很容易画出该句的句法树。实验证明 , 作为体现独立分析结果的机器翻译中间语言 , 层次递归成分体系是比较有效的。现在 , 越来越多的专家呼吁建立能充分体现对源语分析的结果 , 正确揭示文句的层次结构和语义信息的媒介语 , 或类似媒介语的东西。许多文章论证了分析和综合独立的必要性。原语分析依赖译语 , 或译语综合依赖原语 , 使分析和综合都不能深入 , 而且难免捉襟见肘。当然 , 层次递归成分体系还处于草创时期 , 必然存在不少问题 , 有待于在实践中不断检验 , 改进和完善。通过时间的考验和我们的努力 , 也许它最终能成为一个比较得心应手的机译工具 , 而为人们乐于采用 , 这当然是我们所希望的。也许它不是一个好的方案 , 很快便被淘汰了。但无论如何 , 总是一次有益的尝试。这套体系的不足之处是 , 它不大能够反映有向直接联系的语义性质 , 而这对于高质量的机器翻译是比较关键的信息。人类语言不管怎样千差万别 , 总有某些共同的东西。例如 , 句素间的层次结构及其直接联系关系就具有很强的普遍性。正是这些语言共性才使翻译成为可能 , 从而它成为语言转换的基础。句素与句素之间的逻辑语义联系 , 也是重要的语言共性之一。逻辑语义的确定 , 将大大有助于生成地道的目标语。在 CDC 体系中 , 结构关系一项基本上是传统语法中句法成分的继承 , 反映的是句子表层结构的关系 ( 主谓宾定状补等 ) 。看来 , 有必要扩充 CDC, 再加一个逻辑语义元 : 逻辑语义信息 ::= { Ag, Sb, Ob, Vb, Pl, Tl, Mn, Pp, Rs, Fr, Rg, Dg, Tm, Pr, Cl, Fn, Ms, Pm, Cd, Nb, Pt, Mt, Ps, Tg, Cs, Ex, Dt, Ct, Cn, Cc, Cp, Tw, Xx } Ag= 施事 (Agent), Sb= 主体 (Subject), Ob= 受事 (Object), Vb= 行为 (Verb), Pl= 地点 (Place) Tl= 工具 (Tool), Mn= 方式 (Manner), Pp= 目的 (Purpose), Rs= 结果 (Result), Fr= 频率 (Frequency) Rg= 范围 (Range), Dg= 程度 (degree), Tm= 时点 (Time), Pr= 时段 (Period), Cl= 颜色 (Colour) Fn= 功能 (Function), Ms= 尺寸 (Measurement), Pm= 后饰 (Post-modifier), Cd= 条件 (Condition) Nb= 数量 (Number), Pt= 属性 (Property), Mt= 质料 (Material), Ps= 领属 (Possession) Tg= 对象 (Target), Cs= 原因 (Cause), Ex= 说明 (Explanation), Dt= 限定 (Determiner) Ct= 环境 (Circumstance), Cn= 内容 (Content), Cc= 让步 (Concession), Cp= 比较 (Comparison) Tw= 同位 , Xx= 非语义 ( 或不定语义 ) Xx 是所有无法确定 , 或没有必要确定的成分的逻辑语义。机器翻译跟自然语言理解不同 , 并不一味要求分析得越具体越透彻越好。机器翻译过程中的中间信息究竟要深入到怎样的程度 , 应根据充分必要的原则来决定。少则影响效果 ( 质量 ), 多则白费功夫。 __________________________________________________________________________ 附注 : 关于中介成分体系 , 参见 : 刘涌泉 , 刘倬 , 高祖舜俄汉机器翻译规则系统新旧方案比较 ( 中国语文 1962.2 ) 刘涌泉外汉机器翻译中的中介成分体系 ( 中国语文 1982.2 ) 刘倬三次机器翻译试验 ( 第一次机器翻译学术会议论文 , 1980.9 ) 关于有向直接联系理论 , 参见 : 刘涌泉 , 刘倬 , 高祖舜俄汉机器翻译规则系统新旧方案比较 ( 同上 ) 刘涌泉 , 刘倬 , 高祖舜机器翻译中的词序问题 ( 中国语文 1965.3 ) 并请参阅特斯尼埃的结构句法基础简介 ( 张烈材 , 国外语言学 1985.2 ) 参见 : 刘涌泉词 ( 1984 年机器翻译及自然语言处理学术讨论会论文 , 1984.9 ) 参见 : 冯志伟当前机器翻译的一些新特点 ( 情报学刊 1982. Vol 1 No.2 ) 参见 : 董振东逻辑语义及其在机译中的应用 ( 中国的机器翻译 pp.25-45 ) 【相关】立委硕士论文：目标语调序《朝华午拾：shijie－师弟轶事（3）——疯狂世界语》灵感有如神授，巧夺岂止天工《立委随笔：一小时学会世界语语法》立委世界语文章 (1987): 《中国报道：通天塔必将建成》立委世界语论文（1986）: 《国际语到汉语和英语的自动翻译》立委（1988）《世界科技：世界语到汉语和英语的自动翻译试验》 DLT项目背景介绍立委硕士论文全文（世界语版） PhD Thesis: Morpho-syntactic Interface in CPSG (cover page) 【关于机器翻译】【置顶：立委NLP博文一览】《朝华午拾》总目录

个人分类: 世运资料|5078 次阅读|0 个评论

立委硕士论文：4. EChA机器词典及词表

liwei999 2010-2-20 04:27

世界语到汉语和英语的自动翻译试验 --EChA 机器翻译系统概述第 19 页———————————————————————————————————————————————————— 4. EChA 机器词典及词表 EChA 所有词典词表都是随机数据文件 , 并且各配有一套修改和扩充的外围维护程序 , 这给系统的改进提供了方便。下面分别介绍各词典词表的定义。 1) 实词词干词典格式 : _______________________________________________________________________________ 丨词干丨逻辑类丨及物性丨带不定式丨支配词丨支配词汉义码丨汉义丨汉义特征丨英义丨丨 _____ 丨 ______ 丨 _______ 丨 ________ 丨 _______ 丨 ____________ 丨 _____ 丨 _________ 丨 _____ 丨 ________________________________________________ 丨英义特征丨语义特征丨词类词义区分表记录号丨备用项丨丨 _______ 丨 _________ 丨 ___________________ 丨 _______ 丨逻辑类 ::= { N, V, A, F, P, C, K, T, R, S, W, E, D, X } N= 名词 , V= 动词 , A= 形容词 , F= 副词 , P= 介词 , C= 连词或标点 , K=K 类相关词 , T=T 类相关词 , R= 其他相关词 , S= 数词 , W= 人称代词 , E= 系词 , D= 冠词 , X= 万能词逻辑类用来表明词的静态词性。世界语实词的语法词性是动态随机的 , 只能由削尾决定。但每个词一般具有一个基本词性 , 这是单词的深层的逻辑特征。语法词性不过是由它通过加词尾派生的表层的句法特征。汉义特征 ::= { ... 以后 , ... 的 , 使 ..., 把 ..., 给 ..., ... 下 , ... 上 , ... 里 , ... 时 , 多义词特征 , 构成成语特征 , ... } 汉义特征揭示了该词汉义的结构特性 , 也给出了汉语生成的修辞信息。英义特征 ::= { 不规则变化特征 , 双写特征 , 形式不变特征 , ... } 英义特征给出该词的英语形态生成方式信息。支配词汉义 ::= { 零义 , 给 , 以 , 到 , ... } 支配词汉义标示该词所支配的词 ( 通常是介词 ) 的汉义。语义特征 ::= { HM, LK, TM, FX, ... } HM= 人类特征 , LK= 地点特征 , TM= 时间特征 , FX= 方向特征 2) 虚词词典虚词词典除包含实词词典的各项信息外 , 还揭示了部分 CDC 信息 , 如词性 , 格 , 数 , 关系 , 分布 , 节点等。分析之前就能在词典里给出某些动态信息 , 这是由虚词特点决定的。例如 : 介词永远处于非终结节点 ( 节点 Y) 上 , 原副词和万能词一般是不扩展的 , 所以总处于终结节点 ( 节点 J) 上。万能词 ECH (EVEN) 永远位于其轴心词之前 ( 分布 Q) 。原副词 JAM (ALREADY) 永远做状语 ( 关系 F) 。从属连词 KE (THAT) 总是引导名词性从句 ( 词类 K, 节点 K), 而且总位于其轴心词之后 ( 分布 H) 。冠词 LA 永远做定语 ( 关系 D), 位于轴心词前 ( 分布 Q), 处于终结节点上 ( 节点 J) 。 3) 成语词典机器翻译界所谓的成语 , 比其通常的意义要宽泛得多。凡是常用的比较固定的词组都可收作成语。世界语中纯粹的不可分析的习惯表达法较少 , 所以成语词典容量相对不大。成语词典的收词范围 , 还在很大程度上决定于原语和译语的对比差异。亲属关系相近的表达方法类似 , 可以少收或不收成语。在 EChA 中 , 就没有设立世英成语词典 , 只有一部世汉成语词典。 EChA 成语例释 : MALFERMA(JN) AUTO(JN) ----- 敞蓬汽车 ( CF: OPEN CAR(S) ) SOMERA(JN) FERIO(JN) ----- 暑假 ( CF: SUMMER HOLIDAY(S) ) LA ANGLA(N) LINGVO(N) ---- 英语 ( CF: THE ENGLISH LANGUAGE ) INSTRUA(JN) LIBRO(JN) ---- 教科书 ( CF: TEACHING BOOK(S) ) LA GRANDA(N) MURO(N) ---- 长城 ( CF: THE GREAT WALL ) HOMA(N) SVARMO(N) ---- 人群 ( CF: MAN'S SWARM ) FACILA(N) VENTO(N) ---- 顺风 (CF: EASY WIND ) 4) 词类词义区分表建立该词表对于世界语作为源语的机器翻译很必要 , 可以大大减轻综合时多义区分的负担。凡是随着词性和逻辑类的不同 , 目标语的义项也相应不同 , 而这种改变并不遵循形态转换规律 , 这样的单词就收入区分表。例如 : MATEMATIK-A(JN) 必须收入 , 而 HOM-A(JN) 就不必收 , 因为前者的英义是 MATHEMATICAL ( 不是 MATHEMATICS' ), 而后者只要按规律从源语形容格 ( 形容词性 ), 生成目标语所有格的词尾 -'S 或助词的 ( MAN-'S / 人 - 的 ) 就可以了。我们在实词词典中对要入区分表的词 , 都给出了查表记录号 ( 随机文件地址 ), 所以系统只要按地址取记录就行了。用 BASIC 编程时 , 拿随机文件记录号作为单词内部代码 , 是值得推荐的。词类词义区分表例释 : 实词词典词类词义区分表 ATING-I: ACHIEVE / 达到 ATING-O: ACHIEVEMENT / 成就 EKZEMPL-O: EXAMPLE / 例子 EKZEMPL-E: FOR EXAMPLE / 例如 KOMENC-I: BEGIN / 开始 KOMENC-E: AT BEGINNING / 开始时 MEZUR-I: MEASURE / 测量 MEZUR-O: MEASUREMENT / 尺寸 OKAZ-I: HAPPEN / 发生 OKAZ-O: OCCASION / 场合 SCI-I: KNOW / 知道 SCI-O: KNOWLEDGE / 知识 TIP-O: TYPE / 型号 TIP-A: TYPICAL / 典型的 5) 英语不规则词表这个词表跟一般英语词典附录中列的不规则表没什么两样 , 不过为了简便 , 我们把动词形式的不规则变化和名词复数的不规则变化放在一个表内。不规则词表是供英语形态生成查用的。英语不规则词表原形过去时过去分词名词复数 BEAT BEAT BEATEN BECOME BECAME BECOME ... ... ... ... CHILD CHILDREN ... ... ... ... 最后我们给出 EChA 句子加工场的格式 : __________________________________________________________________________ 丨目标语序号丨实词词典各项丨 CDC 信息丨已加工特征丨虚词特征丨目标语调序信息丨目标语位移序号丨丨 ________ 丨 __________ 丨 _______ 丨 ________ 丨 ______ 丨 ____________ 丨 ___________ 丨 1. 目标语序号用来在综合阶段自底而上归约加工时给同号。 2. 目标语位移序号用来在用搬家法作虚拟调序时代表整个词条。用序号代替整个词条位移的虚拟调序 , 比纯粹用搬家法效率高 , 大约跟拉链法相仿。鉴于 BASIC 不能处理组合项变量 , 如果采用搬家法调序 , 只能一项一项位移 , 这种虚拟调序的技术更显出优越性。但须注意 , 跟位移序号一起移动的 , 还必须包括该词的自然顺序号 , 用它标示原词条位置 , 这样查问时才无后顾之忧。【相关】硕士论文: 世界语到汉语和英语的自动翻译试验立委硕士论文：1. EChA概况立委硕士论文：2. 世界语: 语言学特点及其研究价值立委硕士论文：3. 层次递归成分体系立委硕士论文：4. EChA机器词典及词表立委硕士论文：5. 世界语形态分析立委硕士论文：6/7 世界语句法分析立委硕士论文：8. 英语形态生成立委硕士论文：9. 目标语调序立委硕士论文：10. EChA 试验结果的分析立委硕士论文【致谢】【参考书目】立委硕士论文全文（世界语版）《朝华午拾：shijie－师弟轶事（3）——疯狂世界语》灵感有如神授，巧夺岂止天工《立委随笔：一小时学会世界语语法》立委世界语文章 (1987): 《中国报道：通天塔必将建成》立委世界语论文（1986）: 《国际语到汉语和英语的自动翻译》立委（1988）《世界科技：世界语到汉语和英语的自动翻译试验》 DLT项目背景介绍立委硕士论文全文（世界语版） PhD Thesis: Morpho-syntactic Interface in CPSG (cover page) 【关于机器翻译】【置顶：立委NLP博文一览】《朝华午拾》总目录

个人分类: 世运资料|5342 次阅读|0 个评论

立委硕士论文：5. 世界语形态分析

liwei999 2010-2-20 04:26

世界语到汉语和英语的自动翻译试验 --EChA 机器翻译系统概述第 23 页—————————————————————————————————————————————— 5. 世界语形态分析源语文句分析大体可以分形态分析和句法分析两大类。前者研究的对象小于等于词 , 而后者的对象大于等于词 ( 句素 ) 。分析的终极目的就是求解词的正确的 CDC 成分。本节先讨论形态分析问题。我们把构词分析的讨论也放在这一节。世界语形态分析的主体是消尾算法的建立。世界语没有形态同形现象 , 所以只要削尾正确 , 形态分析也就完成。下面给出 EChA 的削尾算法。应该说 , 该算法是比较完备和合理的 , 完全能够满足世界语自动分析实用系统的要求。世界语削尾算法 (1) 若该词最末字母为 -O 取名词 / 普通格 / 单数的结论 , 该词削尾后查实词词干词典 , 转下一步 (2), 否则步骤 (12) 。 (2) 若查词典成功 , 取词典信息到加工场 , 该词加工完毕 , 否则下一步 (3) 。 (3) 若该词最末二字母为 -AD 取 AD 词的结论 , 该词削尾后查实词词干词典 , 转下一步 (4), 否则步骤 (5) 。 (4) 若查词典成功 , 取词典信息到加工场 , 该词加工完毕 , 否则步骤 (11) 。 (5) 若该词最末三字母为 -ANT 取分词 / 进行式 / 主动式的结论 , 该词削尾后查实词词干词典 , 转步骤 (4), 否则下一步 (6) 。 (6) 若该词最末三字母为 -INT 取分词 / 完成式 / 主动式的结论 , 该词削尾后查实词词干词典 , 转步骤 (4), 否则下一步 (7) 。 (7) 若该词最末三字母为 -ONT 取分词 / 将来式 / 主动式的结论 , 该词削尾后查实词词干词典 , 转步骤 (4), 否则下一步 (8) 。 (8) 若该词最末二字母为 -AT 取分词 / 进行式 / 被动式的结论 , 该词削尾后查实词词干词典 , 转步骤 (4), 否则下一步 (9) 。 (9) 若该词最末二字母为 -IT 取分词 / 完成式 / 被动式的结论 , 该词削尾后查实词词干词典 , 转步骤 (4), 否则下一步 (10) 。 (10) 若该词最末二字母为 -OT 取分词 / 将来式 / 被动式的结论 , 该词削尾后查实词词干词典 , 转步骤 (4), 否则下一步 (11) 。 (11) 该词取生词的结论 , 保留削尾结论 , 在加工场的目标语语义项里复制该词 , 该词加工完毕。 (12) 若该词最末字母为 -' 取名词 / 普通格 / 单数的结论 , 该词削尾后查实词词干词典 , 转步骤 (2), 否则下一步 (13) 。 (13) 若该词最末字母为 -A 取形容词 / 普通格 / 单数的结论 , 该词削尾后查实词词干词典 , 转步骤 (2), 否则下一步 (14) 。 (14) 若该词最末字母为 -E 取副词 / 普通格的结论 , 该词削尾后查实词词干词典 , 转步骤 (2), 否则下一步 (15) 。 (15) 若该词最末字母为 -J 取普通格 / 复数的结论 , 该词削尾后转下一步 (16), 否则步骤 (18) 。 (16) 若该词最末字母为 -O 取名词的结论 , 该词削尾后查实词词干词典 , 转步骤 (2), 否则下一步 (17) 。 (17) 若该词最末字母为 -A 取形容词的结论 , 该词削尾后查实词词干词典 , 转步骤 (2), 否则步骤 (11) 。 (18) 若该词最末字母为 -N 取目的格的结论 , 该词削尾后转下一步 (19), 否则步骤 (23) 。 (19) 若该词最末字母为 -J 取复数的结论 , 该词削尾后转步骤 (16), 否则下一步 (20) 。 (20) 若该词最末字母为 -O 取名词 / 单数的结论 , 该词削尾后查实词词干词典 , 转步骤 (2), 否则下一步 (21) 。 (21) 若该词最末字母为 -A 取形容词 / 单数的结论 , 该词削尾后查实词词干词典 , 转步骤 (2), 否则下一步 (22) 。 (22) 若该词最末字母为 -E 取副词的结论 , 该词削尾后查实词词干词典 , 转步骤 (2), 否则步骤 (11) 。 (23) 若该词最末字母为 -S 转下一步 (24), 否则转步骤 (30) 。 (24) 若该词最末二字母为 -AS 取现在时的结论 , 该词削尾后转步骤 (28), 否则下一步 (25) 。 (25) 若该词最末二字母为 -IS 取过去时的结论 , 该词削尾后转步骤 (28), 否则下一步 (26) 。 (26) 若该词最末二字母为 -OS 取将来时的结论 , 该词削尾后转步骤 (28), 否则下一步 (27) 。 (27) 若该词最末二字母为 -US 取虚拟式的结论 , 该词削尾后转步骤 (29), 否则步骤 (32) 。 (28) 取陈述式的结论 , 转下一步 (29) 。 (29) 取动词 / 谓语 / 主动语态的结论 , 查实词词干词典 , 转步骤 (2) 。 (30) 若该词最末字母为 -I 取动词 / 不定式的结论 , 该词削尾后查实词词干词典 , 转步骤 (2), 否则下一步 (31) 。 (31) 若该词最末字母为 -U 取命令式的结论 , 该词削尾后转步骤 (29), 否则下一步 (32) 。 (32) 查虚词词典 ( 因该词无尾可削 ) 。若成功取词典信息到加工场 , 该词加工完毕 , 否则取名词 / 专有名词的结论 , 返回步骤 (11) 。世界语基本法规第 16 条说 : 名词和冠词末尾的元音字母可以省略 , 用省略号 ' 来代替。这种现象多出现在诗歌里 , 如 MOND'(103) 。我们在步骤 (12) 对它作了处理 ( 冠词是长度小于 3 的虚词 , 直接查虚词词典 , 不入削尾一线 , 故不予考虑 ) 。我们谈谈构词分析问题 , 这包括两个方面 : 1. 关于建立削缀算法 ( 派生词处理 ) 的讨论 ; 2. 关于拆离合成词的讨论。在现行的 EChA 系统中 , 这两个问题都回避了。我们建立的词典 , 是以词干 ( 包括合成词词干 ) 作存贮单位的 , 加工词只要削去语法词尾 , 就可以查到。但是 , 应该指出 , 这样做 , 对于世界语这种构词特别灵活的语言并不合理。以词干存词 , 在做小型实验时还可应付 , 如果是实用系统 , 就会出现存不胜存的情况。我们主张实词词典既存词根也存词干 , 同时建立一个完全的世界语削缀算法和合成词拆离算法 , 以便对付生词。（世界语除国际性的专业词汇外 , 基本词根很有限。所谓生词 , 一般都是由基本词根及几十个词缀随机组合的派生词或合成词。因此 , 只要切分正确 , 生词便不 “生”。 ) 世界语后缀可以叠加 ( 理论上无限 ), 但前缀通常只能有一个。这样词典一线的加工路径应该是 : 削缀与削尾不同 , 并非有缀必削。对于削尾 , 机器是先削后查 , 而对于削缀 , 则是先查词典 , 查不着的生词再去削缀。这样处理便于我们根据设计要求 ( 实验型还是实用型 , 对于翻译速度 , 质量 , 成本的要求等等 ) 和机器条件 ( 内存容量 , 运算速度等 ) 决定实词词典收词干的标准。现在 , 由于计算机技术的发展 , 机器功能 ( 存贮 , 速度 ) 越来越强 , 而成本急遽下降。因此机器翻译界如今有人提倡存贮单位宜大不宜小 ( 如尽量多收成语的主张 ), 以海量存贮和快速查找来减轻分析的负担。这是很有见地的认识。单位越大 , 确定性就越强 , 对分析综合 ( 机器智能 ) 的要求就越低 , 研制的难度相对减轻 , 而译文的质量会大大提高。机器翻译是实用性很强的学科 , 这种主张就显得更有价值。当然 , 单位也不是越大越好 , 因为单位每大一级 ( 从词根到词干 , 从词干到词 , 从词到词组 , 从词组到语句 ), 其组合的可能性呈指数增长 . 如果推向极端 , 以句子为存贮单位 , 则完全不需要分析和综合 , 只要对号入座即可输出译文。这时候 , 人工智能的程度等于零 , 翻译质量却可以达到最佳 ( 如果以人工水平为最佳 ) 。可惜 , 硬件技术无论怎样发达 , 其存贮容量和查找速度也总有限 , 不可能对付无穷的句子。（但为了某种特殊的需要在有限的范围内 , 这种办法是可行的 , 如旅游翻译机。这到底还算不算机器翻译 ? 应该算的 , 只是它不是人工智能意义下的机器翻译。）机器翻译的另一极是以词素 ( 词根 , 词缀 , 词尾 ) 为分析单位 , 它所需要的词典容量 ( 只存词根 ) 最小 , 人工智能的水平最高 , 不但有句法分析和综合 , 还要有构词分析和综合。但费了好大劲儿 , 质量却最不能保证 , 因为一个句子掰得太碎 ( 原文分析 ), 捏拢来总难免有些难看的痕迹 ( 译文综合 ) 。所以 , 现行的机译系统 , 一般都是在这两极中根据具体条件和设计者的观点取某个中值。我们认为 , 一个优秀的实用系统应该有两手 , 既能分析得很透彻 , 又能对常用词组 ( 成语 ) 囫囵儿处理。该细的地方细得下去 , 该粗的地方粗得起来。一般来说 , 对于常用的 , 固定的 , 个性的可枚举现象粗一点比较有利 , 而对于规律性的随机现象 , 则适宜较细致的分析。所以 , 对于以世界语为分析对象的实用机译系统 , 我们既主张尽可能多收成语和带缀词干 , 也充分肯定建立一个完备的削缀算法的必要性。那么 , 世界语实词词典收多少派生词词干比较合理呢 ? 对于独立型机器翻译 : (1) 如果是小型实验系统 , 目的是在有限的材料内试验系统的句法分析和综合能力 , 那就词干全收 ; 否则 : (2) 凡是常用的派生词词干一律收进词典 , 而不再入削缀子程序 ---- 常用性 ( 出现频率高 ) 是根本标准 ; (3) 有助于区别同形多义的派生词词干 , 应该收 ; (4) 可收可不收的 , 主张收 ; (5) 在刚开始设计实用系统的机器词典时 , 由于世界语词缀的极端灵活性和随机性 , 很难一次收入许多带缀的词干 , 这样 , 削缀算法就显得更重要。削下缀来 , 虽然表义不是很确切 , 甚至有时在目标语综合时 , 还需要辅以说明性注释 ( 见后面例释 ), 但总比直接打出生词来 ( 信息量为零 ) 强出百倍。随着系统的不断扩充和完善 , 收的词干自然会越来越多。如果是具有特定的目标语的相关型机器翻译 : (1) 收多少派生词词干应该考虑目标语的构词特点及词汇状况； (2) 在目标语中作为一个完整概念 , 而不是词根和词缀意义简单相加所能反映的词干 , 应该收入词典。如 : DOM-EGO 楼房 , 大厦（而不是一般的“大 - 房子”）； (3) 如果以汉语为目标语 , 削缀更多一些 , 因为世汉构词法很相似 , 汉族人的心理本能地习惯于理解词素与词素的组合。（这种民族偏爱心理在引进外来词时表现的很明显 , 如德律风为电话取代 , 莱塞为激光取代等。）可以举出很多世汉构词神似的例子。而且也有许多世界语派生词如 DOM-ACHO 虽然整个儿译作陋室更雅一些 , 但也不妨用统一的削缀合成法组成新词鬼 - 房子 , 与原义相去也不远。特别是有些缀与汉字 ( 词素 ) 有很多一致性 , 如 VIC-/ 副 - ， -IN-/ 女 - ， -EBL-/ 可 - 等等 , 就更有理由作削缀处理。世汉构词对比例释 (1): 派生词 BO- 姻 - : BO-PATRO 姻 - 父亲 ( 岳父或公公 ) , BO-FILO 姻 - 儿子 ( 女婿 ) , BO-FRATO 姻 - 兄弟 ( 内弟 ) ; (1) GE- ( 男女 )- : GE-AMIKOJ ( 男女 )- 朋友们 , GE-KAMARADOJ ( 男女 )- 同志们 , GE-AKTOROJ ( 男女 )- 演员们 ; (2) EKS- 前 - : EKS-OFICISTO 前 - 职员 , EKS-MINISTRO 前 - 部长 , EKS-INSTRUISTO 前 - 教师 ; (3) MAL- : MAL-BONA 好 ( 坏 ) , MAL-AMIKO 朋友 ( 敌人 ) , MAL-SAGHE 聪明 ( 愚苯 ) ; MAL- 是世界语中用得最广 , 随机性最强的前缀之一 , 具有极强的造词能力 , 可惜 , 中文没有对应的词素。如果系统遇到某个 MAL- 型生词 , 削下前缀后给出这样的说明性标识 , 也还可以使人理解。 (4) VIC- 副 - : VIC-PREZIDANTO 副 - 主席 , VIC-ESTRO 副 - 队长 , VIC-CHEFMINISTRO 副 - 总理 ; (5) FI- 坏 - : FI-INSEKTO 坏 - 虫 , FI-KOMERCISTO 坏 - 商人 ( 奸商 ) , FI-KUTIMO 坏 - 习惯 ( 恶习 ) ; (6) SEN- 1. 若词根逻辑类为名词则无 - : SEN-GUSTA 无 - 味的 , SEN-SENCA 无 - 意义的 ; 2. 若词根逻辑类为动词则不 - : SEN-MORTA 不 - 死的 ( 不朽的 ) , SEN-ATENTA 不 - 注意的 ; NE- 若词根逻辑类为名词则非 - 否则不 - : NE-ESPERANTISTO 非 - 世界语者 , NE-BONA 不 - 好的 ; (7) 介词性前缀 : 1. SUR- - 上 : SUR-TABLE 桌子 - 上 ; 2. APUD- - 旁 : APUD-VOJA 路 - 旁的 ; 3. EN- - 内 : EN-LANDE 国 - 内 ; 4. LAU- 按 -: LAU-VICE 按 - 次序 ; 5. DE- 从 -: DE-NOVE 从 - 新 ; -ACH- 鬼 - : DOM-ACHO 鬼 - 房子 ( 陋室 ) , KNAB-ACHO 鬼 - 男孩 ( 捣蛋鬼 ) , VETER-ACHO 鬼天气 ; (8) -AN- - 成员 : KLUB-ANO 俱乐部 - 成员 , KURS-ANO 讲习班 - 成员 , KOMUNUM-ANO 公社 - 成员 ; (9) -UL- - 者 : BON-ULO 好 - 者 , KAR-ULO 亲爱 - 者 , JUN-ULO 年青 - 者 , LONG-KRUR-ULO 长 / 腿 - 者 ; (10)-IN- 女 - : KAMARAD-INO 女 - 同志 , INSTRUIST-INO 女 - 教师 , OFICIST-INO 女 - 职员 , AKTOR-INO , 女 - 演员 ; (11)-EBL- 可 - : VID-EBLA 可 - 见的 , MANGH-EBLA 可 - 吃的 , UZ-EBLA 可 - 用的 , NE-ATING-EBLA 不 - 可 - 达到的 ; (12)-EC- - 性 : CERT-ECO 确实 - 性 , NECES-ECO 必要 - 性 , KLAR-ECO 清楚 - 性 , LIBER-ECO 自由 - 性 ; (13)-EM- 爱 - : LABOR-EMA 爱 - 工作的 ( 勤劳的 ) , PAROL-EMA 爱 - 说话的 , MENSOG-EMA 爱 - 撒谎的 ; (14)-IND- 值得 - : LERN-INDA 值得 - 学习的 , LAUD-INDE 值得 - 称赞 , LEG-INDA 值得 - 读的 , AM-INDA 值得 - 爱的 ; (15) -ON- 1. 若 -ONO 则 - 分之一 : DU-ONO 二 - 分之一 , TRI-ONO 三 - 分之一 , KVAR-ONO 四 - 分之一 ; 2. 若 X+Y-ONOJ 则 Y- 分之 X: TRI DEK-ONOJ 十 - 分之三 , KVIN OK-ONOJ 八 - 分之五。合成词 ( 词根 + 词根 ) 也是一样。比较固定的 , 应该整个儿存入词典 , 随机组合的 , 应该拆开。但这儿有一个困难 , 世界语语法为了方便使用者 , 即便对完全随机组合的合成词 , 也不作加连字符的规定。那么怎么拆呢 ? 词根的数量与词缀不能比 , 长度也变化很大 , 一个字母一个字母地削查比较 , 显然不是办法。如果坚持不要译前编辑 , 还找不到一个合理的解决办法。目前可以考虑先对中间有连字符的合成词作拆词加工。我们提倡除比较固定常用的合成词外 , 世界语者在运用随机合成词时，为读者的省力和机器的识辨计加上连字符。鉴于世界语构词法与汉语构词法惊人的一致 ( 组合方式及其高度随机性都很类似 ), 对于世汉机器翻译这一倡议更加必要。世汉构词对比例释 (2): 合成词 (1) AKVO-FONTO 水 / 源 ; (2) VARM-ENERGIO 热 / 能 ; (3) ARBO-BRANCHO 树 / 枝 ; (4) VAPOR-SHIPO 汽 / 船 ; (5) SURD-MUT-ULO 聋 / 哑 - 者 ; (6) BLANK-HARA 白 / 发的 ; (7) NUD-PIEDA 光 / 脚的 ; (8) FISH-KAPTI 捕 / 鱼 __________________________________________________________________________________________ 附注 : 参见 : 刘涌泉中国的机器翻译 ( 情报科学 1980, 3 ) 王广义机器翻译中的固定词组和固定结构问题 ( 语言和计算机 (1), 1982 ) 参看 : 叶蜚声 , 徐通锵语言学纲要第二章第二节 1. 语言的层级体系 , PP.34-36 ( 北京大学出版社 , 1981 ) 【相关】硕士论文: 世界语到汉语和英语的自动翻译试验立委硕士论文：1. EChA概况立委硕士论文：2. 世界语: 语言学特点及其研究价值立委硕士论文：3. 层次递归成分体系立委硕士论文：4. EChA机器词典及词表立委硕士论文：5. 世界语形态分析立委硕士论文：6/7 世界语句法分析立委硕士论文：8. 英语形态生成立委硕士论文：9. 目标语调序立委硕士论文：10. EChA 试验结果的分析立委硕士论文【致谢】【参考书目】立委硕士论文全文（世界语版）《朝华午拾：shijie－师弟轶事（3）——疯狂世界语》灵感有如神授，巧夺岂止天工《立委随笔：一小时学会世界语语法》立委世界语文章 (1987): 《中国报道：通天塔必将建成》立委世界语论文（1986）: 《国际语到汉语和英语的自动翻译》立委（1988）《世界科技：世界语到汉语和英语的自动翻译试验》 DLT项目背景介绍立委硕士论文全文（世界语版） PhD Thesis: Morpho-syntactic Interface in CPSG (cover page) 【关于机器翻译】【置顶：立委NLP博文一览】《朝华午拾》总目录

个人分类: 世运资料|4676 次阅读|0 个评论

立委硕士论文：6/7 世界语句法分析

liwei999 2010-2-20 04:26

世界语到汉语和英语的自动翻译试验 --EChA 机器翻译系统概述第 29 页———————————————————————————————————————————————————— 6. 世界语句法分析 (1): 虚词处理虚词分析是世界语句法分析中最困难的部分。 EChA 的策略是分而治之 , 各个击破。每一个虚词的分析规则自成一体 , 互相独立 , 这样在充实或改进某一具体虚词的规则时 , 便不致于影响其他虚词的规则 , 这也就是规则和规则分开吧。语言规则和算法程序应该分开 , 大家已经说了许多 , 而规则和规则分开 , 似乎还没有引起足够的重视。 ( 不是指所有规则都分开 : 具有普遍意义的抽象语法规则集合 , 作为系统对于该语言充分形式化的逻辑描述 , 是自动分析的枢纽 , 本身就是一个可以做的很美的统一整体 , 谈不上分开。 ( 参考 EChA 句法分析第二线 , 见第 7 节 .) 一个优良的系统应该既能分得开 , 又能合得拢 .) 我们认为 , 规则和规则分开 , 对于研制实用性机译系统具有决定性意义。没有什么系统从一开始研制就可以足够完善 , 所以是否容易扩充和改进 , 在很大程度上决定了一个系统的前途。规则和算法分开 , 固然大大增强了系统的扩充能力 , 并且便于语言工作者和软件工作者充分合作。但这还不够。如果能实现规则和规则分开 , 不但有利于遵循具体问题具体分析原则 , 去解决语言这种特别复杂的现象中的许多个性问题 , 从而大大提高翻译质量 , 而且也为语言工作者和语言工作者的协作 , 创造了必要的条件 ---- 这种协作 , 对于研制大型实用系统是必不可少的。规则和规则分开的主要方式是 : 1) 词典语法化 : 以词为基本单位 , 把关于该词的各种用法及其分析规则 , 以数据的形式写入词典 ( 它建在外存贮器上 ) 。这样的机器词典 , 形式上很类似于我们案头的词典工具书 , 如牛津 , 韦式 , LONGMAN 等 , 而且也较容易借鉴已有的这些词典的研究成果。我们建议首先把虚词和动词的条目语法化。 2) 语法词典化 : 在编写句法分析或综合程序 ( 它在内存贮器中 ) 时 , 把规则落实到具体词或小类上 , 并使这些规则独立开来。这两种方法形式有别 , 实质是一样的。我们在 EChA 中采用的是第二种方法。 ( 参见 EChA 虚词分析部分和 EChA 综合部分的多义词区分规则 .) 说到底 , EChA 分析第一线不过是一个带有分析规则的虚词大词典。当然 , 应该指出 , 规则和规则分开 , 必然使规则量成倍增长。然而 , 由于边界分明 , 这种增长并不影响系统结构上的逻辑清晰性 , 这跟以前语言和算法 , 规则和规则都没分开时的情形大不相同 , 那时的规则无限膨胀 , 只能致使系统最终报废。不过规则量的增长 , 涉及到机器的存贮容量问题。但这实际上也不成问题 , 因为现在的机器对于存贮节省的要求 , 已经不是那么苛刻了。即便是微型机 , 中高挡的内存容量就能达到 , 或很容易扩充到四兆到八兆字节。值得强调的是 , 规则量的增长 , 一般并不影响系统的工作效率 , 因为规则是附在具体的词或小类下 , 只有所译文句出现了某词 , 才会入该词一线。在 EChA 虚词分析一线中 , 我们把虚词的多义区分 , 甚至有些涉及虚词特点的目标语修辞 , 都一古脑纳入具体虚词的分析规则中。这样处理显然比较简便易行 , 也大大减轻了综合的困难。但是 , 正是在这儿 , EChA 违背了我们所极力赞同的分析和综合独立的原则。目前还想不出更好更合理的办法。不过 , 我们主张独立分析的本意 , 不外乎为了两点 : 1) 为了使分析深入以便提高机译质量 ; 2) 让同一个独立分析结果 , 能为多语综合所利用。考虑到虚词的分析和综合同步进行 , 有助于提高译文崐质量 , 而且由于虚词数量的有限及其分析规则的相互独立 , 在增加新的目标语时充实这些规则不会有很大困难 , 更不会影响整个系统的筋骨 , 因而我们目前的做法是有理由的 , 它并不违背我们的宗旨。 __________________________________________________________________________________________ 附注 : 这儿关于规则和规则分开的讨论 , 很大程度上得益于与刘倬老师的几次谈话。返回目录上一章节下一章节返回目录上一章节下一章节第 31 页———————————————————————————————————————————————————— 7. 世界语句法分析 (2) 分析第 (2) 线与目标语综合充分独立 , 逻辑性强 , 是一个相当完整的语言分析模型。它由一个主程序和几个以动词分析算法为核心的环环相扣的子程序构成。主程序主要用来确定各语段的范围 ( 前限后限 ) 及其加工次序 , 为它们进入动词子程序做好准备。它必须对各种类型的世界语文句作出正确 , 合理的处理 , 才能保证系统的充分概括性和适应性。从各类文句的试验结果看 , EChA 相当好地做到了这一点。我们把世界语文句的类型归纳如下 : 1. 无谓句 . 如 : Kia belega pejzagho ! (041) / What beautiful scenery ! 多么绝美的景色 ! 2. 谓语句 : 1) 简单句 : 全句只有一个谓语。如 : Skribu klare ! (033) / Write clearly ! 写清楚 ! 2) 扩展的简单句 : 全句至少有两个谓语 , 但只有一个主句 , 从句跟主句 ( 以主轴心为代表 ) 没有直接联系 , 即从句处于 2 层以外 ( 其层号 = 3 ) 。这类从句往往是定语从句或同位语从句。如 : La homon , pri kiu vi parolas , mi neniam vidis . (131) The man( 宾 ), about whom you speak , I never saw . 我从未见过你提到的人。 3) 主从句 : 全句至少有两个谓语 , 但只有一个主句 , 从句跟主句发生直接联系。如 : Se mi partoprenus en via amuza aktivado , mi estus tre ghoja . (050) If I should take part in your recreational activity , I would be very glad . 如果我参加你们的文娱活动 , 我会是很高兴的。 4) 并列句 : 全句至少有两个谓语 , 同时也至少有两个有并列关系的分句 , 并且其中一个是主轴心。如 : Mi miras , timas , tremas . (074) / I wonder, fear, tremble. 我惊奇 , 害怕 , 颤抖。 5) 交错句 : 以上四类句子交错组合而成的复杂句。如本文第 3 节举的例句 (004) 就是。 EChA 在对付这些不同类型的句子时 , 能够把复杂的句子分解成简单的句子处理。分析程序首先查找从句。如果查到 , 先入并列从句子程序分解 ( 若是光杆从句就放过 , 返主 ), 然后确定每一个从句的前后限 , 入动词子程序加工。加工完毕 , 做绝对放过标志。所有从句处理完毕 , 再行主句加工。这时候 , 句子呈或者简单句 , 或者并列句的形式。世界语中表示关系的从句 , 如有相应的 T 类相关词与之呼应 , 就是同位语从句。而当主句中 T 类相关词省略时 , 便与表示疑问的名词性从句同形 , 从而增加了识辨难度。对此本系统暂时不予考虑。这种省略虽然显得较干练 ( 成语警句中常用 ), 崐但不宜提倡 , 因为甚至人 ( 尤其是非印欧语系的人 ) 理解起来 , 也常常感到困难。 Bone ridas , KIU laste ridas . / Well smiles, WHO smiles at last. 谁笑得最后 , 笑得最好。 KIO pasis , ne revenos . / WHAT passed, will not return. 时不再来。（一去不复返。 ) CF: Nur TIU ne eraras, KIU neniam ion faras.(151) / Only THAT PERSON is not wrong, WHO never dose something. 仅仅从不做某事的那个人不犯错误。第二线的关键是动词子程序的建立。 ( 这儿所谓动词包括谓语动词 , 形动词 , 副动词和不定式 , 但不包括 -ADO 词 , 因为世界语的 -ADO 词已经完全名词化了 , 不再具有动词的特性 .) 如果说先从句后主句的加工过程 , 实际上是自下而上的方法 , 那么动词算法的路径正好反过来 , 是自上而下。动词子程序首先设三个开关。一是检验是否可以构成动词短语 VP 。若不能 , 如独词句及光杆的形动词 , 副动词或不定式 , 则给该词节点信息 J ( 终结节点 ), 该词加工完毕 , 退出。二是检验该词是否系词 , 若是 , 转系词子程序作适当处理 , 再回动词子程序递归加工。这是因为系动词有其特殊性 , 比如一般动词谓语简单句 , 只可能有一个前面没有介词的普通格名词 ( 它当然是主语 ), 而系词谓语句却可以有两个 ( 一主一表 ), 因而不能直接入动词子程序。最后一个开关检验该动词短语是否扩展的 VP, 若不是 , 即行分析。扩展的 VP 定义为该动词的间接成分层中 ( 所谓间接成分层是指其层号 = 动词轴心的层号 + 2 的层次 ), 至少又包含一个 VP 。对于扩展的动词短语 , 运用栈技术作递归加工。这样动词子程序真正的加工单位便是不扩展的各类 VP ( 简单句 , 形动词短语 , 副动词短语 , 不定式短语 ) 。动词子程序在工作期间 , 常常需要调用其他子程序。各子程序间的逻辑关系是十分清楚的。名词子程序也要设开关。扩展的 NP 定义为带有至少一个 VP 的 NP, 它必须回动词子程序递归加工。对于不扩展的动词短语 , 一般来说加工次序如下 : _________ ____________ ___________ ____________ 丨动词子程序丨 -------- 丨名词子程序丨 ------ 丨形容词子程序丨 ---- 丨副词子程序丨这形象地体现了自顶而下的分析思想。试验表明 , EChA 的两线分析程序 , 一具体一抽象 , 一个对付个性一个对付共性 , 一个面向虚词一个面向实词 , 一个尽量使句法分析词典化 , 一个则努力使分析过程逻辑化 , 二者相互配合 , 很有效地实现了各类世界语文句的自动分析。 EChA 输出的中间结果 158 条 CDC 链中只发现一处分析错误。它出现在第一首诗歌 LA ESPERO 的第三句 : Ne al glavo sangonsoifanta , ghi LA HOMAN tiras FAMILION . (102) Not to sword bloodthirsty , it THE MAN'S ( 目的格 ) pulls FAMILY ( 目的格 ). 为了节奏和韵律的关系 , 作者把形容词修饰语与其轴心词分开了 ( 当然仍同格同数 ), 中间插进一个动词谓语。于是系统误把二者都看作是动词谓语的宾语 , 因为冠词 + 形容词 ( 后不跟名词 ) 结构一般总是代替 NP 的 , 所以 EChA 也就这样分析了。幸运的是 , 这一分析错误没有导致译文错误 , 因为中英文综合都把前置宾语移至动词轴心之后 , 客观上恢复了修饰语与其中心词的正常词序 , 当然这只是巧合。【相关】硕士论文: 世界语到汉语和英语的自动翻译试验立委硕士论文：1. EChA概况立委硕士论文：2. 世界语: 语言学特点及其研究价值立委硕士论文：3. 层次递归成分体系立委硕士论文：4. EChA机器词典及词表立委硕士论文：5. 世界语形态分析立委硕士论文：6/7 世界语句法分析立委硕士论文：8. 英语形态生成立委硕士论文：9. 目标语调序立委硕士论文：10. EChA 试验结果的分析立委硕士论文【致谢】【参考书目】立委硕士论文全文（世界语版）《朝华午拾：shijie－师弟轶事（3）——疯狂世界语》灵感有如神授，巧夺岂止天工《立委随笔：一小时学会世界语语法》立委世界语文章 (1987): 《中国报道：通天塔必将建成》立委世界语论文（1986）: 《国际语到汉语和英语的自动翻译》立委（1988）《世界科技：世界语到汉语和英语的自动翻译试验》 DLT项目背景介绍立委硕士论文全文（世界语版） PhD Thesis: Morpho-syntactic Interface in CPSG (cover page) 【关于机器翻译】【置顶：立委NLP博文一览】《朝华午拾》总目录

个人分类: 世运资料|4922 次阅读|0 个评论

立委硕士论文：8. 英语形态生成

liwei999 2010-2-20 04:26

世界语到汉语和英语的自动翻译试验 --EChA 机器翻译系统概述第 34 页———————————————————————————————————————————————— 8. 英语形态生成加尾算法跟削尾算法正好是逆过程。建立一个完全的 , 符合实用系统要求的英语加尾算法并不困难 , 因为英语的形态比较简单。 EChA 把汉语形态修辞与英语形态生成放在一处进行。原语和译语的对比差异是建立语言转换规则的依据。这种对比差异可以归纳为下面五种情况 : 1) 一一对应 ; 2) 此一彼多 ; 3) 此多彼一 ; 4) 此有彼无 ; 5) 此无彼有。我们以世界语到英语的形态转换分别举例如下 : 1) 一一对应世界语派生副词 ( 由逻辑类为形容词的词干加 -E 尾构成 ) --------- 英语相应形容词加 -LY 尾。例 : diligent-E ---- diligent-LY ; serioz-E ---- serious-LY ; sincer-E ---- sincere-LY. (063) 例外 : bon-E ---- well (045) ( 不是 good-LY, 这种情况在词典一线入词类词义区分表处理。 ) 显然 , 一一对应的情形最好办。 2) 此一彼多世界语不定式 -------- 英语动词原形或 TO + 动词原形世界语条件句 ( 谓语动词以 -US 收尾 ) -------- 英语三种形式（过去、现在、将来 ) 。例 : 1. Se mi sci-US hierau, mi certe ven-US. ---- If I HAD KNOWN yesterday, I certainly SHOULD HAVE COME. ( 与过去事实相反的假设 ) 2. Se vi est-US mi, kion vi far-US? ---- If you WERE me, what WOULD you do? ( 与现在事实相反 ) 3. Se vi ven-US morgau, vi shin vid-US. ---- If you SHOULD come tomorrow, you WOULD see her. ( 与将来事实相反 ) 这种情况最麻烦。机器翻译中的多义现象盖源于此。如果上例没有明确的时间状语 , 那只能靠跨句上下文去推测 , 这对机器实在太难了。 EChA 遇到这种情况 , 就干脆一律用 WOULD 代替 -US (050), 这虽然不大符合英语语语法规范 , 暂时也只能这样了。好在这样转换并不造成误解。此一彼多另一个常见的例子是 , 世界语现在时简单式 (-AS 尾 ) 对应于英语一般现在时和现在进行时两种。虽然世界语复合时态有与英语现在进行时对应的形式 ( ESTAS x-ANTA ), 但是世界语的节约原则要求人们尽可能少用复杂形式。我们一时还找不出足够可靠的形式规则 , 来决定 -AS 究竟何时译作一般时态 , 何时译作进行时态。 EChA 目前一律以一般现在时译之 , 这使得部分译文不是很确切 , 但并不造成误解或费解。如 : Kien vi ir-RA? (158) ---- To where DO you go? ( CF: Where ARE you GOING? ) Chu kredas, ke mia koro flam-AS? (110) ---- Do believe, that my heart burn-S? ( CF: Do you believe that my heart IS BURNING? ) 3) 此多彼一世界语形动词或副动词的各种形式 -------- 英语分词的相应形式。 -ANTA 和 -ANTE ---- -ING ; -INTA 和 -INTE ---- HAVING+ 过去分词 ; -OTA 和 -OTE ---- TO BE+ 过去分词 ; 等等。 KURANTE sur la strato, li falis. (091) ---- RUNNING on the street, he fell. Laboristoj estas KONSTRUANTAJ fabrikon. (015) ---- Workers are BUILDING factory. 这种情况好办。世界语形态比较丰富 , 而现代英语形态不发达 , 所以世英形态转换中最经常出现的 , 就是此多彼一或此有彼无的情形 , 这对建立比较完全的 EChA 英语形态生成 ( 加尾 ) 算法是很有利的条件。 4) 此有彼无世界语将来将来时 ( ESTOS x-ONTA(J) ) -------- 英语 ? Mi ESTOS LEGONTA la libron kiam shi venos. (023) ---- I WILL ( 或 : WILL BE GOING TO ) read the book when she comes. 这种情况看上去似乎很不利 , 实际上并不难处理。因为现今存在的各种语言 , 作为人们千百年来交流思想的工具 , 一般都能够表达各种细微的语义差别。虽然乙语言也许缺乏甲语言的某个特定的表达手段 , 但如果必要 , 它总可以找到代替的表达方式。如上例 ESTOS LEGONTA 通常译作 WILL READ 已经足够 , 如果一定要强调将来的将来 , 也不妨译作 WILL BE GOING TO READ 这样繁冗的形式。再如汉语缺乏形态 , 但如果需要 , 总可以用适当的助词或副词等来代替 , 这就是所谓的形态修辞。 5) 此无彼有世界语 ? -------- 英语完成进行时 Mi atend-AS vin chi tie du horojn. ---- I HAVE BEEN WAITING here for you for two hours. CF: I WAIT here for you for two hours. I AM WAITING here for you for two hours. 此所无彼所有的 , 如果在彼也是可有可无的 , 或并不太影响语义 , 那还好办 , 如上例。再如 , 英语的不定冠词 , 世界语就没有 , EChA 对此干脆不管 , 也没造成严重的后果 , 只是译文显得有些不顺 : Is your friend (*) doctor? (039) This is (*) green star, and that is (*) red star. (152) ( * 处本应有不定冠词 A ) 最头痛的是此所无彼必有。从完全没有冠词的语言 ( 如汉语和俄语 ) 译入有冠词的语言在很多情况下就是这样。上述归纳在机器翻译的转换生成中具有普遍意义。最困难的是此一彼多和此所无彼必有两种情况 , 一般要通过精密的句法和语义的对比和分析来解决。比如通过分析不定式所直接联系的英语轴心词的句型特征 , 就可以决定该不定式采用带 TO 还是不带 TO 的形式。实在不得已 , 只好把几种可能的选择同时打印出来 , 由用户自己决定 ---- 这当然是权宜之计 , 但常常比编制一套不可靠的区分规则 , 客观上更有利一些。机器模拟人的智能 , 在一定的阶段总还有某些局限。上面的做法 , 实际上就是把机器暂时还不具有的智能 , 交还给人发挥 , 特别是那些很难形式化 , 但人凭经验和直感却很容易判断的部分。然而 , 人工智能的使命决定了 , 人们应该尽最大努力提高机器智能化程度。条件允许却不去努力是设计者的懒惰和失职。在 EChA 形态生成一线 , 还有词典化了的多义区分程序段 ( 它在形态生成前执行 ), 用 BASIC 写起来很容易。现举例介绍如下 : 1) LUDI 玩 / 打 ( 各类球 ) / 拉 ( 提琴 , 胡琴 ) / 弹 ( 钢琴 ) / 吹 ( 口琴 ) 2120 IF VT$(GC)1 THEN 2160 ( 若该词不及物则保留词典基本义项玩 , 该词多义区分毕 , 转 2160. ) 2130 IF HY$(ZC)= 胡琴 OR RIGHT$(HY$(ZC),4)= 提琴 THEN HY$(GC)= 拉 : GOTO 2160 ( 若找到词为胡琴 , 或找到词的后两字为提琴 ( 包括大提琴 , 小提琴 , 中音提琴等 ), 则该词取汉义拉 , 该词毕 , 转 2160. ) 2140 IF HY$(ZC)= 钢琴 THEN HY$(GC)= 弹 : GOTO 2160 2145 IF HY$(ZC)= 口琴 THEN HY$(GC)= 吹 : GOTO 2160 2150 IF RIGHT$(HY$(ZC),2)= 球 THEN HY$(GC)= 打 2160 GC=GC+1: GOTO 1830 ( 放过该词 , 取后一词 , 转 1830. ) 2) BATI 打 / ( 心 ) 跳动 1990 IF VT$(GC)=1 AND (RIGHT$(HY$(ZC),2)= 心 OR HY$(ZC)= 心脏 ) THEN HY$(GC)= 跳动 2000 GOTO 2160 3) OKAZI 进行 / 发生 / 召开 2450 IF RIGHT$(HY$(ZC),2)= 事 THEN HY$(GC)= 发生 :GOTO 2160 2460 IF RIGHT$(HY$(ZC),2)= 会 THEN HY$(GC)= 召开 :YY$(GC)=BE HELD: YTZ$(GC)=8: XX$(GC)=1 2470 GOTO 2160 3) RIGARDI: LOOK AT / LOOK / WATCH (TV) / SEE (FILM) 2830 IF VT$(GC)1 THEN YY$(GC)=LOOK: GOTO 2160 2840 IF YY$(ZC)=TELEVISION OR YY$(ZC)=TV THEN YY$(GC)=WATCH: GOTO 2160 2850 IF YY$(ZC)=FILM THEN YY$(GC)=SEE: YTZ$(GC)=1 2860 GOTO 2160 4) NENIAM 从不 / 从未 3070 IF ST$(ZC)=2 THEN HY$(GC)= 从未 : HY$(ZC)=HY$(ZC)+ 过 : JG$(ZC)=9 3080 GOTO 2160 【相关】硕士论文: 世界语到汉语和英语的自动翻译试验立委硕士论文：1. EChA概况立委硕士论文：2. 世界语: 语言学特点及其研究价值立委硕士论文：3. 层次递归成分体系立委硕士论文：4. EChA机器词典及词表立委硕士论文：5. 世界语形态分析立委硕士论文：6/7 世界语句法分析立委硕士论文：8. 英语形态生成立委硕士论文：9. 目标语调序立委硕士论文：10. EChA 试验结果的分析立委硕士论文【致谢】【参考书目】立委硕士论文全文（世界语版）《朝华午拾：shijie－师弟轶事（3）——疯狂世界语》灵感有如神授，巧夺岂止天工《立委随笔：一小时学会世界语语法》立委世界语文章 (1987): 《中国报道：通天塔必将建成》立委世界语论文（1986）: 《国际语到汉语和英语的自动翻译》立委（1988）《世界科技：世界语到汉语和英语的自动翻译试验》 DLT项目背景介绍立委硕士论文全文（世界语版） PhD Thesis: Morpho-syntactic Interface in CPSG (cover page) 【关于机器翻译】【置顶：立委NLP博文一览】《朝华午拾》总目录

个人分类: 世运资料|5574 次阅读|0 个评论

立委硕士论文：9. 目标语调序

liwei999 2010-2-20 04:26

世界语到汉语和英语的自动翻译试验 --EChA 机器翻译系统概述返回目录上一章节下一章节第 38 页 9. 目标语调序在前面的虚词一线和形态生成一线 , 已经做了一些局部调序并给了同号。如 : CHIO ( 一切 ) CHI ( 这 ) ---- 这一切 (012); DOKTORO ( 博士 ) ZAMENHOF ( 柴门霍夫 ) ---- 柴门霍夫博士 (134) 英语疑问句和否定句所需要的调序 , 就放在形态生成的同时进行。如 : NE (NOT) ESTIS (WERE) ---- WERE NOT (008) CHU VIA (YOUR) AMIKO (FRIEND) ESTAS (IS) KURACISTO (DOCTOR) ? ---- IS YOUR FRIEND DOCTOR ? (039) 从综合第二线开始 , 系统从句子整体着眼 , 自底而上分别做各目标语的归约调序。有了 CDC 和调序子程序 , 建立目标语的归约生成算法就很简单了。其基本思路是 : (1) 由句首至句末依次取词 , 放过已加工和非终结节点。 (2) 若该词层号为一 , 右链为零 , 说明已经归约到顶层主轴心 , 该句加工完毕。 (3) 若该词需要调序 , 入调序子程序。 (4) 该词做已加工特征 , 并视情况决定是否给该词以轴心词同号。 (5) 入子程序检查该词的姐妹词是否也都已加工。 (6) 若是 , 则该词及其所有姐妹词给以轴心词同号 , 轴心词做终结节点特征。 (7) 返回第 (1) 步。对于英语 , 问题特别简单 , 只有一种情况需要调序 , 即及物谓语所带的前置宾语和后置主语。（不及物谓语句中的后置主语无需调序。）汉语的问题就复杂得多 , 主要规则有 : (1) 存在有 (ESTI) 的主语应后置。除此以外 , 后置主语 ( 包括多数主语从句 ) 一律前移。 (2) 要求带把 , 使等的汉语及物动词做谓语的句子 , 其宾语在加上把 , 使等以后 , 应置于谓语前。除此以外 , 前置宾语一律后移。 (3) 后置定语从句在两种情况下不需前移 : 1. ESTAS + X, KIU 型强调句式 ; 2. 长 15 词以上的定语从句。其余的所有后置定语一律前移。各姐妹定语的相对位置主要由它们的语义特征决定 , 具体是通过调序时给或不给同号来实现。 (4) 状语从句一般原位不动（但后置时间状语从句最好前移）。其余后置状语一律前移。各姐妹状语相对位置的处理原则同上。返回目录上一章节下一章节

个人分类: 世运资料|4961 次阅读|0 个评论

立委硕士论文：10. EChA 试验结果的分析

liwei999 2010-2-20 04:26

世界语到汉语和英语的自动翻译试验 --EChA 机器翻译系统概述第 39 页———————————————————————————————————————————————————— 10. EChA 试验结果分析总的来说 , 这次试验结果相当令人满意。译文不但可读 , 多数都很通顺。由于比较重视修辞 , 机器味儿也不浓。当然 , 这毕竟是小范围的实验 , 虽然我们尽量照顾到各种可能出现的语言现象 , 但也难说在今后的扩大试验中会出现什么问题 , 好在该系统比较容易维护和改进。第二首诗中有两处 (110)(111) 把疑问句错译成英语强调句 : CHU kredas la vorton pure karan: vin mi amas! (111) DO BELIEVE the word purely dear: I love you! Cf: 相信纯粹地亲爱的词吗 : 我爱你 ! 这是因为原诗句为了节奏的需要 , 承前省略了主语 VI (YOU) 。有意思的是 , 译成强调句于诗意没有什么损害。在 EChA 上机伊始 , 我们由于专心于检验方案主体的可行性和合理性 , 而忽略了修辞。初期译文 (1985.12) 显得较粗糙 , 比较后期结果 (1986.2), 译文的改进是明显的。例如 : 1. 形式主语 IT 的增加 (007)(012)(077)(122)(125)(133): Sed chio chi ankorau okazis sub homa gvidado kaj PLEJ GRAVE ESTIS, KE chio chi bazighis sur la homa scio. (012) 1) But all this still happened under man's guiding and MOST IMPORTANT WAS, THAT all this was based on the man's knowledge. 2) But all this still happened under man's guiding and IT WAS MOST IMPORTANT, THAT all this was based on the man's knowledge. 2. 不定式带 TO 跟不带 TO 的区分 (004)(019)(072)(078)(083)(084)(088)(089)(092)(095)(132)(142)(146): LABORI estas necese.(072) 1) (TO) WORK is necessary. 2) TO WORK is necessary. 工作是必要的 . 3. 双宾语 (128)(143)(144): Donu AL mi iom da kafo! (128) 1) Give TO me a little coffee! 2) Give me a little coffee! 给我一点咖啡 ! 表示存在的 ESTI 译有和 THERE TO BE (049)(157): En unu jaro ESTAS kvar sezonoj: printempo, somero, autuno kaj vintro. (049) 1) In one year ARE four seasons: spring, summer, autumn and winter. 在一年里面是四季节 : 春季 , 夏季 , 秋季和冬季。 2) In one year THERE ARE four seasons: spring, summer, autumn and winter. 在一年里面有四季节 : 春季 , 夏季 , 秋季和冬季 . 。 5. 目标语词义的选择 (059)(067)(081)(046)(098)(013)(014)(027)(118)(130): ELMETU viajn opiniojn pri nia laboro! (059) 1) 输出你们的关于我们的工作的意见 ! 2) 提出你们的关于我们的工作的意见 ! OUTPUT your opinions about our work! Chu mi FARIS multajn erarojn en mia hejmtasko? (081) 1) Did I DO a lot of mistakes in my homework? 我在我的家庭作业里面做了许多错误吗 ? 2) Did I MAKE a lot of mistakes in my homework? 我在我的家庭作业里面犯了许多错误吗 ? La partio TRE zorgas la vivon de la popolamaso. (046) 1) The party VERY cares for the life of the masses. 2) The party VERY MUCH cares for the life of the masses. 党很关心人民群众的生活。 La suno levighas CHE oriento. (013) 1) The sun rises AT east. 2) The sun rises IN THE east. 太阳在东方升起。 POST unu monato komencighos la someraj ferioj. (014) 1) AFTER one month will begin the summer's holidays. 2) IN one month will begin the summer's holidays. 暑假在一月以后将开始。 La eksperimento pri mashina tradukado ANKORAU NE estas finita. (027) 1) The experiment about machine's translating STILL has been NOT finished. 关于机器的翻译的试验仍然没有被完成。 2) The experiment about machine's translating has been NOT finshed YET. 关于机器的翻译的试验还没有被完成。 Ni esperas, ke li GAJNU championecon en la konkurso. (118) 1) We hope, that he WIN championship in the competition. 2) We hope, that he WILL WIN championship in the competition. 我们希望 , 让他在比赛里面赢得冠军。 Prenu la lingvon neutralan KIEL la bazon. (130) 1) Take the language neutral AS the base. 2) Take the language neutral FOR the base. 拿中立的语言作为基础。通过 EChA 试验 , 我们深深体会到 , 同一语系中的语言转换较之不同语系容易许多。亲属关系越近 , 机器翻译对自动分析的精度要求也就越低 , 因而越容易推向实用。英语和汉语都是分析型语言 , 有很多类似的语言特点 , 即便如此 , 世英转换比世汉还是简单得多。只要建立一部世英自动词典 , 再加上一套形态转换算法 , 甚至无需进行层次和句法的分析 , 就可以实现词对词世英机器翻译。这样的译文尽管粗糙 , 但在相当程度上是可用的。我们对 ECHA 综合第一线 ( 形态转换 ) 输出的未经调序 * 的中间译文作了统计 , 以不引起误解为标准 , 英语正确率为 95% (150/158) 左右 , 费解的有八句 (003)(010)(075)(095)(102)(108)(111)(141), 汉语正确率为 72% (113/158) 左右。排除形态转换中利用了句法分析结果的部分 , ( 但不排除第一线的虚词分析和转换 ), 英语正确率也在 80% 以上。如果在输出译文时 , 对前置宾格名词加上标识符 , 则可懂度还可提高。当然 , 我们试验的这 158 句总有一定的局限 , 所以上述统计也只具有相对意义。中国的机器翻译 , 从一开始研究的就是印欧和汉臧这两个没有亲属关系的语系间语言的自动转换 , 难度很大。这恐怕是我们的实用系统迟迟不能问世的重要原因之一。所以 , 崐中国机器翻译工作者肩上的担子更重 , 任务更艰巨 , 更需要独创和献身精神。这种不利的条件也有它的另一面 : 机器翻译与汉语结合带来的许多特别的问题 , 客观上使我们的研究比较深入。我国的机译研究就没有象欧美那样经历词对词翻译的第一代 , 而是直接从第二代句对句翻译开始 , 起点较高 , 并且在很短时间内 (60 年代初期 ) 就赶上了当时的世界先进水平。这显然与我们所研究的特定对象 ( 俄 - 汉 , 英 - 汉等 ) 的要求有关。现在谈谈另一个问题 : 文学作品可不可以由机器翻译 ? 我们说完全可以 , 不过很困难。要把人在翻译文学作品时所遵循的规则 ( 其中很多是下意识的 ) 形式化算法化 , 显然不容易。即便做到了 , 经济上也不上算。所以 , 在相当长的时间内 , 除特别的实验需要外 , 人们一般不去花这个力气。 EChA 选译了两首诗歌 , 在这个方面做了粗浅的尝试 , 证明机器也可译诗。从译文看 , 英语比汉语美 , 保留了更多的节奏和韵律的特点 , 更象一首诗。汉语译文除了几句译得较好 ( 如 : 向永远战争着的世界 , / 它允诺神圣的和谐 ), 总体上看 , 更象一篇散文。这也难怪 , 因为 EChA 本来就不是专门为翻译诗歌而设计的。诗歌形式上的两个最大特点是节奏和尾韵。可以设想 , 诗歌机译系统的词典跟一般机器词典应有所不同 : 各词条的每一义项下集中了一批同义的目标语等价词。这些词长短不一 , 韵尾各异 , 供机器在诗歌综合时选用 , 正象人在写诗或译诗时常需要翻韵书一样。一提机器翻译 , 人们总爱问 : 机器能够翻译文学作品吗 ? 为什么不能 ? 离散是对连续的逼近 , 机器智能是对人的智能的模拟 , 二者之间并没有一道不可逾越的鸿沟。从功能上看 , 机器和人没有什么不同。机器不过是无机体的人罢了。只要人会的事情 , 机器迟早也能会。机器的不会并不是它不能 , 而是人没有使它会 , 这正如文盲不会写字是因为没人教他一样。不过 , 机器胃口很刁 , 不懂意会 , 只有言传 ( 通过计算机语言 ) 才能教会它。可惜 , 对很多事 , 人至今还是知其然 , 并不知其所以然 , 无法传授。可见 , 机器的无能全由于人的无能。可人今天不知其所以然的 , 并不说明将来总也不知 , 所以从发展的观点看 , 机器和人一样是无所不能的。事实上 , 机器目前已能代替医生 , 译员和作曲家做部分工作 , 而且比技术较差的人做得还象样些 , 因为它取法乎上。即便人 , 也只有很少一部分专家能够从事这些工作。机器已经闯进了万物之灵的神圣禁地。最后 , 一般地谈谈修辞问题。由于机器翻译至今多局限在实验室里 , 所以未予修辞而产生的阅读障碍 ( 包括心理障碍 ) 还不突出。但随着机器翻译的逐步实用化 , 修辞的必要性将越来越明显。前面所举的后期译文对初期译文的改进的实例 , 主要涉及的就是修辞。 1) 什么是机器翻译修辞 ? 机器翻译修辞是保证译文通顺的一个重要手段。它是机器语法之后译文综合的一部分 , 是自动翻译过程的最后一个环节。广义的修辞包括贯穿翻译全过程的 , 一切旨在促使译文通顺和美化的手段 , 譬如成语手段 ( 通过成语词典 ), 虚词分析 ( 通过虚词模块 ), 结构手段 ( 通过搭配关系 ) 等等。有些所谓多义区分 , 实际上也是一种修辞 , 例如 LUDI (PLAY) 可分为玩 , 打 ( 球 ), 演奏 ( 乐器 ) 等义项 , 但演奏义下具体选择拉 ( 提琴 , 胡琴 )(016), 弹 ( 钢琴 )(038) 还是吹 ( 口琴 ) 就属于修辞了。 EChA 对于涉及多义的修辞 , 即目标语合适对等词的选择 , 就把它当作多义问题解决 ( 见 EChA 虚词模块 , 词类词义区分表和多义区分模块 ) 。一般来说 , 跟具体的词汇或语法现象联系很紧的修辞 , 以及其他个性较强的特例修辞 , 应该放在相应的词典或语法部分同时处理 , 而可以归出类别的修辞 , 则由最后独立的修辞模块统一解决。机器翻译修辞具有某种超语言学的特征 , 属于翻译学范畴。我们知道 , 根据原语和译语的语言学角度的对比差异 , 就可以对所译文句实现转换 ( 主要是句型转换 ), 这是我们目前机器翻译的主体工作。但这样直接转换的句子不能保证其通顺 , 甚至也不能保证其正确 ( 即不被误解 ), 因为语言间 ( 尤其是没有亲属关系的语言间 ) 除了词汇语法等差异外 , 还有超语言学 ( 表达习惯 , 思维方式等等 ) 的差异存在 , 即翻译学角度的对比差异。例如 : nun DE LOKO flugu ghi AL LOKO (now FROM PLACE let it fly TO PLACE) (101) / 现在从一个地方让它飞到另一个地方吧 ( 从地方到地方不符合汉语表达习惯 ) 。修辞主要是为消除这种差异而设置的。因此 , 只有翻译学角度的语言对比差异 , 才是修辞的根本依据。 2) 修辞的分类可分作两大类 : 必要修辞和美修辞。必要修辞是保证译文正确可懂所必需的修辞 , 它是修辞的初级阶段。美修辞则是保证译文通顺畅达 , 甚至产生某种美感或帮助形成译文风格所要求的修辞 , 它是修辞的高级阶段。机器翻译修辞首先是作为必要修辞提出来的。必要修辞是基础 , 具有更大的迫切性 , 是所有实用系统的必要组成部分 , 如形态修辞。这部分修辞数量很有限 , 一定量的研究就可以穷尽它。美修辞可以说是锦上添花。它是为机器译文不断提高质量 , 使之朝成熟 , 完美方向发展 , 以期赶上人工翻译的手段。可见 , 美修辞是无限发展的 , 它本身具有许多层次和侧面。修修补补远不能满足美修辞发展的需要。它要求体系和方法上的不断革新。就机器翻译的前景来说 , 美修辞的比重将逐渐变大。从严格的意义上讲 , 只有美修辞才真正体现修辞本身的特点和规律 , 因为必要修辞在一定的意义上不过是语法的推广 , 即可以算作广义的语法。它的手段跟机器语法没有根本的不同。在现行的 EChA 系统中 , 必要修辞就常常跟语法混在一起。关于美修辞 , EChA 只是做了一点尝试。应该指出 , 机器翻译的美有自己的侧重点 , 它最推崇通顺流畅 , 合乎习惯和简洁自然 , 其次是译文风格的形成。我们认为 , 机器译文的风格逐步形成 , 是完全可能的。因为从形式上看 , 风格的承担者主要是词汇 , 尤其是小词 ( 语气词 , 结构词 ), 其次 , 语法形式也有些不同。不同风格的形式特点 , 是可以为机器识辨和接受的。具体做法可以吸收计算风格学 (Computational stylistics) 的研究成果 , 去设计不同风格的译语修辞模型。风格可以有正规体 , 典雅体和口语体等等。正规体格式规范 , 清楚简单 , 给人的印象是客观公正 , 不假藻饰。典雅体的特点是虚词多用古字 ( 如则 , 即 , 乃 , 便 , 故 , 且 , 其 , 及等 ), 成语用的也较多 , 显得简洁古雅。口语体则比较松散自由 , 带有更多的语气词 ( 如吗 , 呢 , 可不 , 是吗 , 啊等 ) 。 _________________________________________________________________________________ 附注 : 参见刘涌泉中国的机器翻译 ( 情报科学 1980, 3 ) 研制世界语类型的机器翻译系统 , 从一开始就得到刘涌泉老师的热情支持 , 从方案主体到具体问题的处理 , 他都给以认真指导。在程序设计和上机调试的的过程中 , 刘倬老师也多次给予指导 , 有些基本操作的算法也是刘倬老师提供的。在 EChA 系统取得初步成果的时候 , 笔者向他们表示深切的感谢。另外 , 还要特别感谢机房韩老师的多方协助。没有她提供的方便 , EChA 系统根本不可能在这么短时间试验成功。第 45 页—————————————————————————————————————————————— 1. Heinz Dieter MAAS Automata Tradukado en kaj el Esperanto ( Lingvo-kibernetiko kaj aliaj internacilingvaj aktoj de la IX-a Internacia Kongreso de Kibernetiko, pp 75-81, 1982 Gunter Narr Verlag Tubingen ) 2. 机器翻译论文选辑 ( 科学技术文献出版社 , 1979 ) 3. Kalocsay-Waringhien Plena Analiza Gramatiko de Esperanto ( 中国世界语出版社 , 1984 ) 4. 刘涌泉等著中国的机器翻译 ( 知识出版社 , 1984 ) 5. 刘涌泉 , 高祖舜 , 刘倬著机器翻译浅说 ( 科学普及出版社 , 1964 ) 6. 刘涌泉 , 李维巴贝尔通天塔必将建成 ( 中国第一届世界语大会论文 , 1985.8 ) 7. 刘倬三次机器翻译试验 ( 第一次机器翻译学术会议论文 , 1980.9 ) 论机器翻译规则系统的编制方法 ( 1982.3 上海 ) JFY 型英汉机器翻译系统的研制和试验 ( 语言学会第二届年会论文 , 1983.4 ) 8. 乔毅开展语言的计算机处理和世界语类型的机器翻译 ( 中国第一届世界语大会论文 , 1985.8 ) 9. 魏原枢 , 徐文琪编世界语语法 ( 上海外语教育出版社 , 1982 ) 10. 叶蜚声 , 徐通锵著语言学纲要 ( 北京大学出版社 , 1981 ) 11. 语言和计算机 (1) ( 中国社会科学出版社 , 1982 ) 12. 语言和计算机 (2) ( 中国社会科学出版社 , 1985 ) 13. 张道真编著实用英语语法 ( 商务印书馆 , 1984 ) 第 46 页———————————————————————————————————————————————————— EChA 试验结果 (1) LA ORIGINALA TEKSTO / THE ORIGINAL TEXT / 世界语原文 (001) TIEL EVOLUIGHIS PLI KAJ PLI LA PLANADO PER MASHINOJ . (002) TIUJ MASHINOJ KOMENCE NUR ELKALKULIS LA DIKTITAJN MATEMATIKAJN PROBLEMOJN , KONFORME AL LA ENPROGRAMIGO . (003) LA ELEKTRONIKAN PROGRAMIGON PRETIGIS HOMOJ . (004) PLI POSTE , KIAM LA SCIODISKETOJ ESTIS ELTROVITAJ , LA PLENAN INDIKARON , ENDISKIGITAN , ONI METIS EN MASHINOJN KAJ ILI TIAMANIERE POVIS EN SI MEM AKUMULI SCIENCAN STOKON , PLI GRANDAN OL LA HOMA CERBO . (005) KAJ SE TEMIS EKZEMPLE PRI LA PLANADO DE ELEKTROMOTORO , ONI ENMETIS LA SHABLONDISKETON DE LA ELEKTROMOTOR-PLANADO , DONIS LA INDIKOJN DE LA DEZIRATA MOTORO ( KILOVATO , TENSIO , ROTACIO , TIPO , KTP ) , (006) POST KIO LA MASHINO MEM PROGRAMIGIS SIN KAJ FARIS LA KALKULOJN . POST KELKAJ MINUTOJ GHI JAM PRETE ELDONIS LA MEZUROJN : LA DIAMETRON DE LA ROTACIA PARTO , GHIAN LONGON, LA MEZUROJN DE LA KANELOJ , DRATOJ , LA VOLVONOMBRON , ENTUTE CHION BEZONATAN . (007) ECH PLI : BALDAU ESTIS ATINGITE , KE LA MASHINO FARIS LA TUTAN DESEGNON KAJ TRANSDONIS GHIN AL LA FABRIKO . (008) KOMPRENEBLE TIUJ DESEGNOJ NE ESTIS IDENTAJ KUN NIAJ PAPERDESEGNOJ . (009) ILI ESTIS DISKETOJ , KIUJ ENTENIS CHIUN DETALON . (010) TIAMANIERE LA PLANADON KAJ FABRIKADON DE LA MASHINOJ JAM PLENUMIS SAME MASHINOJ . (011) ILI PLANIS LA MENDITAN MASHINON , FABRIKIS , ECH KONTROLPROVIS GHIN KAJ LA FUSHAN FORJHETIS . (012) SED CHIO CHI ANKORAU OKAZIS SUB HOMA GVIDADO KAJ PLEJ GRAVE ESTIS , KE CHIO CHI BAZIGHIS SUR LA HOMA SCIO . LA TEKSTO TRADUKITA EN LA ANGLAN / THE TEXT TRANSLATED INTO ENGLISH / 英语译文 (001) SO DEVELOPED MORE AND MORE THE PLANNING BY MACHINES . (002) THOSE MACHINES AT BEGINNING ONLY CALCULATED OUT THE DICTATED MATHEMATICAL PROBLEMS , ACCORDING TO THE PROGRAMMING . (003) MEN PREPARED THE ELECTRONIC PROGRAMMING . (004) MORE LATER , WHEN THE KNOWLEDGE-DISKETTES HAD BEEN FOUND OUT , PEOPLE PUT THE FULL INDICATION , ENDISKED , INTO MACHINES AND THEY THEREFORE COULD IN THEMSELVES ACCUMULATE SCIENTIFIC STOCK , MORE GREAT THAN THE MAN'SBRAIN . (005) AND IF IT CONCERNED FOR EXAMPLE ABOUT THE PLANNING OF ELECTRIC MOTOR , PEOPLE INPUT THE SAMPLE DISKETTE OF THE MOTOR PLANNING , GAVE THE INDICATIONS OF THE DESIRED MOTOR ( KILOWATT , VOLTAGE , ROTATION , TYPE , ETC ) , AFTER WHICH THE MACHINE ITSELF PROGRAMMED ITSELF AND DID THE CALCULATIONS . (006) AFTER SEVERAL MINUTES IT ALREADY READILY GAVE OUT THE MEASUREMENTS : THE DIAMETER OF THE ROTARY PART ,ITS LENGTH , THE MEASUREMENTS OF THE GROOVES , WIRES , THE WINDING NUMBER , IN TOTAL ALL REQUIRED . (007) EVEN MORE : SOON IT HAD BEEN ACHIEVED , THAT THE MACHINE DID THE TOTAL DESIGN AND OVERHANDED IT TO THE FACTORY . (008) OF COURSE THOSE DESIGNS WERE NOT IDENTICAL WITH OUR PAPERDESIGNS . (009) THEY WERE DISKETTES , WHICH CARRIED ALL DETAIL . (010) THEREFORE MACHINES ALREADY FULFILED THE PLANNING AND MANUFACTURING OF THE MACHINES SAMELY . (011) THEY PLANNED THE ORDERED MACHINE , MANUFACTURED , EVEN EXAMINED IT AND THREW AWAY THE USELESS . (012) BUT ALL THIS STILL HAPPENED UNDER MAN'S GUIDING AND IT WAS MOST IMPORTANT , THAT ALL THIS WAS BASED ON THE MAN'S KNOWLEDGE . LA TEKSTO TRADUKITA EN LA CHINAN / THE TEXT TRANSLATED INTO CHINESE / 汉语译文 (001) 这样用机器设计越来越发展了。 (002) 那些机器开始时仅仅按照输入程序计算出所命令的数学问题。 (003) 人准备了电子程序设计。 (004) 更以后 , 当微型知识磁盘被发明了时 , 人们把所写入磁盘的全套指令集合放到机器里面 , 他 ( 它 ) 们这样能在自己本身里面积累比人的头脑更大的科学贮蓄。 (005) 如果涉及例如关于电动机的设计 , 人们输入了电动机设计的微型样品磁盘 , 给了所希望的电动机的指标 ( 千瓦 , 电压 , 运转 , 型号 , 等等 ), 在此以后机器本身把自己程序化了 , 做了计算。 (006) 在几分钟以后它已经就能给出尺寸 : 运转部分的直径 , 它的长度 , 槽纹 , 导线的尺寸 , 圈数 , 总之所需要的一切。 (007) 甚至更 : 很快达到了 , 机器做了整个图样 , 把它转交到工厂。 (008) 当然那些图样与我们的图纸不是一样的。 (009) 他 ( 它 ) 们是储有所有细节的微型磁盘。 (010) 这样机器已经同样地完成了机器的设计和制造。 (011) 他 ( 它 ) 们设计了所定购的机器 , 制造了 , 甚至检验了它 , 把废的抛弃了。 (012) 但是这一切仍然在人的指导下进行 , 最重要的是 , 这一切以人的知识作为基础 . (2) DIVERSAJ FRAZOJ / VARIOUS SENTENCES / 各类文句 (016) KIAM MI ESTIS LUDANTA VIOLONON , MIA ONKLO VIZITIS NIAN HEJMON . WHEN I WAS PLAYING VIOLIN , MY UNCLE VISITED OUR HOME . 当我 ( 当时 ) 正在拉小提琴时 , 我的叔叔访问了我的家。 (020) MI ESTOS FININTA LA EKSPERIMENTON PRI MASHINA TRADUKADO POST KELKAJ MONATOJ . I WILL HAVE FINISHED THE EXPERIMENT ABOUT MACHINE'S TRANSLATING IN SEVERAL MONTHS. 我在几月以后将已经完成关于机器的翻译的实验。 (028) BABELO NE ESTIS ELKONSTRUITA. BABEL HAD NOT BEEN BUILT UP . 巴贝尔塔没有被建成。 (029) NEPRE ESTOS ELKONSTRUITA LA NOVA BABELO . ABSOLUTELY WILL HAVE BEEN BUILT UP THE NEW BABEL . 新巴贝尔塔必然地将被建成。 (040) KIAL VI LERNAS ESPERANTON ? WHY DO YOU LEARN ESPERANTO ? 为什么你学习世界语 ? (044) NE PROKRASTU LA HODIAUAN LABORON GHIS MORGAU . DON'T PUT OFF THE TODAY'S WORK TILL TOMORROW . 别把今天的工作推迟到明天。 (045) KIEL BONE PENTRAS LA KNABO ! HOW WELL THE BOY PAINTS ! 男孩多么好地画画啊 ! (048) KIU ESTAS LA AUTORO DE LA LIBRO , KIUN VI JHUS LEGIS ? WHO IS THE AUTHOR OF THE BOOK , WHICH YOU JUST READ ? 你刚刚读了的书的作者是谁 ? (050) SE MI PARTOPRENUS EN VIA AMUZA AKTIVADO , MI ESTUS TRE GHOJA . IF I WOULD TAKE PART IN YOUR RECREATIONAL ACTIVITY , I WOULD BE VERY GLAD . 如果我参加你 ( 们 ) 的文娱活动 , 我会是很高兴的 . (056) CHU VI MEMORAS LA TAGOJN , KIAM NI KUNE STUDIS EN LA UNIVERSITATO ? DO YOU REMEMBER THE DAYS , WHEN WE TOGETHER STUDIED IN THE UNIVERSITY ? 你记得我们在一起在大学里面学习的日子吗 ? (058) UNUIGHU PROLETOJ DE CHIUJ LANDOJ ! LET PROLETARIANS OF ALL COUNTRIES UNITE ! 让所有国家的无产者联合吧 ! (061) KIEL SAGHA VI ESTAS ! HOW WISE YOU ARE ! 你是多么聪明啊 ! (062) ESPERANTO ESTAS INTERNACIA HELPA LINGVO . ESPERANTO IS INTERNATIONAL HELP LANGUAGE . 世界语是国际辅助语言。 (067) LIA PROPONO ESTAS , KE NI CHIUJ LIBERE ELMETU NIAJN OPINIOJN . HIS PROPOSAL IS , THAT WE ALL FREELY OUTPUT OUR OPINIONS . 他的建议是 , 让我们所有人自由地提出我们的意见。 (068) MI NE SCIAS , KIAM KOMENCIGHOS NIAJ FERIOJ . I DON'T KNOW , WHEN WILL BEGIN OUR HOLIDAYS . 我不知道 , 我们的假日什么时候将开始。 (069) LA LIBRO , KIU KUSHAS SUR LA TABLO , ESTAS VERDA . THE BOOK , WHICH LIES ON THE TABLE , IS GREEN . 在桌子上躺的书是绿的。 (071) LA INFANO PLORAS , CHAR IU LIN BATIS . THE CHILD CRIES , BECAUSE SOMEBODY BEAT HIM . 小孩哭 , 因为某人打了他。 (078) LERNI ESPERANTON NE ESTAS MALFACILE . TO LEARN ESPERANTO IS NOT DIFFICULT . 学习世界语不是困难的。 (084) MI NE SCIAS , CHU VI POVAS PLENUMI TIUN CHI TASKON . I DON'T KNOW , WHETHER YOU CAN FULFIL THIS TASK . 我不知道 , 是否你能完成这个任务。 (086) MULTAJ DIVERSLANDAJ ESPERANTISTOJ CHEESTOS LA UNIVERSALAN KONGRESON DE ESPERANTO OKAZONTAN PEKINE . A LOT OF VARIOUS COUNTRY'S ESPERANTISTS WILL ATTEND THE UNIVERSAL CONGRESS OF ESPERANTO TO BE HELD IN BEIJING . 许多不同国家的世界语者将参加在北京将召开的世界语的国际大会。 (089) LIA PROPONO ELEKTI NOVAN PREZIDANTON NE ESTIS AKCEPTITA . HIS PROPOSAL TO ELECT NEW PRESIDENT HAD NOT BEEN ACCEPTED . 他的选举新总统的建议没有被接受。 (090) SHI ESTAS LA PLEJ BELA EL LA KNABINOJ . SHE IS THE MOST BEAUTIFUL OF THE GIRLS . 她在女孩里面是最漂亮的。 (092) FALINTE , LI NE POVIS RELEVIGHI . HAVING FALLEN , HE COULD NOT GET UP . 摔倒了 , 他不能重新起来。 (093) FORIRONTE , LI PREMIS MIAN MANON . TO GO AWAY , HE SHOOK MY HAND . 将要离去 , 他握了我的手。 (098) MI TRE AMAS ESPERANTON , MI PLI AMAS ESPERANTISTOJN , MI PLEJ AMAS LA IDEALON DE ESPERANTO . I VERY MUCH LOVE ESPERANTO , I MORE LOVE ESPERANTISTS , I MOST LOVE THE IDEAL OF ESPERANTO . 我很爱世界语 , 我更爱世界语者 , 我最爱世界语的理想。 (116) NI LUDU , CHU BONE ? LET'S PLAY , ALL RIGHT ? 让我们玩吧 , 好吗 ? (119) KIA MIRAKLO TIO ESTAS , KE NIAJ ANTIKVULOJ KONSTRUIS LA GRANDAN MURON NUR PER SIAJ DU MANOJ ! WHAT MIRACLE IT IS , THAT OUR ANCESTORS BUILT THE GREAT WALL ONLY BY THEIR TWO HANDS ! 我们的祖先仅仅用自己的两手建造了长城 , 这是怎样的奇迹啊 ! (121) FORPASIS UNU TAGO , FORPASIS ANKAU LA DUA . PASSED AWAY ONE DAY , PASSED AWAY ALSO THE SECOND . 一天过去了 , 第二也过去了。 (122) CHU ESTAS EBLE , KE VI NENION SCIAS ? IS IT POSSIBLE , THAT YOU KNOW NOTHING ? 你不知道任何事 , 这是可能的吗 ? (131) LA HOMON , PRI KIU VI PAROLAS , MI NENIAM VIDIS . I NEVER SAW THE MAN , ABOUT WHOM YOU SPEAK . 我从未看见过你提到的人。 (132) NI , ESPERANTISTOJ , DEVAS LABORI PLI ENERGIE OL IAM . WE , ESPERANTISTS , MUST WORK MORE HARD THAN EVER . 我们 , 世界语者 , 应该比任何时候更努力工作。 (133) SOMERE ESTAS TRE VARME . IN SUMMER IT IS VERY HOT . 夏天是很热的。 (134) DOKTORO ZAMENHOF NASKIGHIS LA 15-AN DE DECEMBRO EN 1859 . DOCTOR ZAMENHOF WAS BORN ON THE 15TH OF DECEMBER IN 1859 . 柴门霍夫博士 1859 年十二月的 15 号出生。 (135) SE VI SCIUS , KIU LI ESTAS , VI LIN PLI ESTIMUS . IF YOU WOULD KNOW , WHO HE IS , YOU MORE WOULD ESTEEM HIM . 如果你知道 , 他是谁 , 你更会尊敬他。 (136) CENTOJ DA MALFERMAJ AUTOJ NIN PORTIS AL LA CENTRA LENIN-STADIONO , MALRAPIDE MOVIGHANTE TRA LA HOMA SVARMO . HUNDREDS OF OPEN CARS CARRIED US TO THE CENTRAL LENIN STADIUM , SLOWLY MOVING THROUGH THE MAN'S SWARM . 成百敞篷汽车把我们带到中央列宁运动场 , 缓慢地通过人群运动。 (137) MI VIDIS , KE LI FALIS KAJ LIA VESTO MALPURIGHIS . I SAW , THAT HE FELL AND HIS CLOTHES BECAME DIRTY . 我看见了 , 他摔倒了 , 他的衣服弄脏了。 (139) MI SCIIS , KE LI NE FAROS , KION LI PROMESIS . I KNEW , THAT HE WOULD NOT DO WHAT HE PROMISED . 我知道 , 他将不做他允诺的。 (140) ESTAS PAULO , KIU ARANGHIS LA AFERON . IT IS PAULO THAT ARRANGED THE AFFAIR . 是 PAULO 安排了事情。 (142) KUREGIS LA KNABO PER SIA TUTA FORTO , SED LI NE POVIS ATINGI LA PAPILION . RAN THE BOY BY HIS TOTAL STRENGTH , BUT HE COULD NOT ACHIEVE THE BUTTERFLY . 男孩用自己的整个力量狂奔 , 但是他不能达到蝴蝶。 (144) LI DONIS AL MI MULTAJN INSTRUAJN LIBROJN . HE GAVE ME A LOT OF TEACHING BOOKS . 他给了我许多教科书。 (145) CHU VI PAROLAS CHINE AU JAPANE ? DO YOU SPEAK IN CHINESE OR IN JAPANESE ? 你用中文还是用日文说话 ? (151) NUR TIU NE ERARAS , KIU NENIAM ION FARAS . ONLY THAT PERSON IS NOT WRONG , WHO NEVER DOES SOMETHING . 仅仅从不做某事的那个人不犯错误。 (155) ESPERANTO ESTAS CHIES PROPRAJHO . ESPERANTO IS EVERYBODY'S PROPERTY . 世界语是所有人的财产。 (156) MI MEMORAS CHIUN , KIUN MI VIDIS . I REMEMBER ALL , WHOM I SAW . 我记得我看见了的所有人。 (157) ESTAS NENIU EN LA CHAMBRO . THERE IS NOBODY IN THE ROOM . 在房间里面没有任何人。第页———————————————————————————————————————————————————— (3) DU POEMOJ / TWO POEMS / 两首诗歌 (099) LA ESPERO : ESPERANTISTA HIMNO ( POEMO FAR ZAMENHOF ) . (100) EN LA MONDON VENIS NOVA SENTO , TRA LA MONDO IRAS FORTA VOKO ; (101) PER FLUGILOJ DE FACILA VENTO , NUN DE LOKO FLUGU GHI AL LOKO . (102) NE AL GLAVO SANGONSOIFANTA , GHI LA HOMAN TIRAS FAMILION ; (103) AL LA MOND' ETERNE MILITANTA , GHI PROMESAS SANKTAN HARMONION . (099) THE HOPE : ESPERANTIST'S HYMN ( POEM BY ZAMENHOF ) . (100) INTO THE WORLD CAME NEW FEELING , OVER THE WORLD GOES STRONG VOICE ; (101) BY WINGS OF EASY WIND , NOW FROM PLACE LET IT FLY TO PLACE . (102) NOT TO SWORD BLOODTHIRSTY , IT PULLS THE MAN FAMILY ; (103) TO THE WORLD EVER FIGHTING , IT PROMISES SACRED HARMONY . (099) 希望 : 世界语者的颂歌 ( 柴门霍夫所作的诗歌 ) 。 (100) 新感觉来到了世界 , 有力的声音走遍世界 ; (101) 用顺风的翅膀 , 现在让它从一个地方飞到另一个地方吧。 (102) 它不把人的家庭引到渴血的刀剑 ; (103) 向永远战争着的世界 , 它允诺神圣的和谐。 (104) AL NIA KARA LINGVO ( FAR IU NOVA ESPERANTISTO ) . (105) LA LINGVO GRACIA , KARA MIA , GHIS KIAM VI VENIS AL MI FINE FIN ? (106) ATENDIS SOIFE MI , ETERNE VIA , MI AMAS VIN ! (107) MI AMAS VIN VERE , PRUVU DIO , KAJ MIA BON-KORO BATAS NUR POR VI ; (108) NE PLU SEKRETETO ESTAS TIO : VIN AMAS MI ! (109) CHU KREDAS VI MIAN AMON MARAN ? (110) CHU KREDAS , KE MIA KORO FLAMAS ? (111) CHU KREDAS LA VORTON PURE KARAN : VIN MI AMAS ! (104) TO OUR DEAR LANGUAGE ( BY SOME NEW ESPERANTIST ) . (105) THE LANGUAGE GRACEFUL , MY DEAR , TILL WHEN YOU CAME TO ME AT LAST ? (106) WAITED LONGINGLY I , EVER YOURS , I LOVE YOU ! (107) I LOVE YOU TRUELY , LET GOD PROVE , AND MY GOOD HEART BEATS ONLY FOR YOU ; (108) NO LONGER THAT IS LITTLE SECRET : I LOVE YOU ! (109) DO YOU BELIEVE MY LOVE LIKE SEA ? (110) DO BELIEVE , THAT MY HEART BURNS ? (111) DO BELIEVE THE WORD PURELY DEAR : I LOVE YOU ! (104) 献给我们的亲爱的语言 ( 某新世界语者所作 ) 。 (105) 优美的语言 , 我的亲爱的 , 到什么时候你最后来到了我这儿 ? (106) 我渴望地等待 , 你的永远的 , 我爱你 ! (107) 我真实地爱你 , 让上帝证明吧 , 我的善良的心仅仅为了你跳动 ; (108) 那已经不再是小秘密 : 我爱你 ! (109) 你相信我的大海一样的爱吗 ? (110) 相信 , 我的心燃烧吗 ? (111) 相信纯粹地亲爱的词吗 : 我爱你 ! 第 57 页———————————————————————————————————————————————————— 世界语摘要 Automata Tradukado el Esperanto en la Chinan kaj Anglan Lingvojn --pri EChA Mashintraduka Sistemo EChA (el Esperanto en la Chinan kaj Anglan Lingvojn) estas esperimenta mashintraduka sistemo, kiu ricevas Esperanton kiel fontolingvon kaj elmetas fine la chinan kaj anglan lingvojn kiel celolingvojn. Ghi estas fraz-al-fraza traduksistemo, en kiu la analizo de la fontolingvo kaj la sintezo de la celolingvoj sendependas unu de alia. La traduka procezo de EChA tute automatas, nebezonante antau-redakton kaj post-redakton. La tuta peniga laboro dauris unu jaron. La sistemo EChA establighis sur la mikro-komputero IBM-PC/XT kaj la progamiga komputero-lingvo estas BASIC (D 2.00). EChA estas subtenata de la CCDOS sistemo (t.e. PC DOS 2.10 kun la tenejode china ideografiajho). La chefa parto de EChA konsistas el 6 linioj da analiza-sinteza programo. Krome, en la sistemo ankau fondighis 3 mashinvortaroj kaj 2 vortotabeloj kune kun la programoj por ilin establi, konsulti, ekspansiigi kaj protekti. La tuta sistemo programighis je ch. 10,000 BASIC-frazoj. En chi tiu eksperimento ni ricevis el EChA la mashintradukajhon de pli ol 150 frazoj kun diversaj lingvistikaj trajtoj inkluzive 2 poemojn (la unua estas La Espero far Zamenhof). La tradukajho en la china kaj angla celolingvoj estas sufiche prava kaj facile komprenebla. ( Vd. la apendicon ) La originala materialo elektighis el: 1. Mashinmondo far Sandor Szhatmari; 2. Gramatiko de Esperanto (Wei Yuanshu kaj Xu Wenqi, 1982). En la sistemo EChA spegulighas la enhavo de la tuta baza gramatiko de Esperanto kun chefaj fraztipoj, tial ghi povas ghuste trakti plejmulton da fenomenoj en Esperanto. Tamen, bedaurinde, limigite de tempo kaj la kondicho de komputero, la kuranta sistemo estas ankorau malgranda, la mashinvortaroj ege limigitas. Kompreneble, la sistemo bezonas ekspansiighon kaj plibonighon. Dekiam disvolvighis la esploro pri mashina tradukado en Chinio en 1957, EChA estas la unua sistemo por prilabori Esperanton. En majo de 1986 la sistemo trapasos la cezuron de la diploma komitato, pro kio la projektoro ricevos sian magistron. ___________ 丨 ___________ Enmeto de fontolingvo ----------------------- ____________________________________ 丨 ____________________________________ 1. Fortranchi gramatikajn finajhojn; konsulti la vortarojn ( Vortaro pri fleksaj vortoj, vortaro pri senfleksaj vortoj, vortaro pri vortogrupoj kaj vortotabelo por diferencigi la signon lau vortospeco ) ( VORTAROJ ) --------------------------------------------------------------------------- ____________________________________ 丨 _____________________________________ ANALIZO DE 2. Prilabori konjunkciojn kaj interpunkciojn, forigi la frazon en partojn FONTOLINGVO kaj trakti aliajn senfleksajn vortojn -------------------------------------------------------------------------- ____________________________________ 丨 ____________________________________ 3. Formighi CDC chenoj ( la interlingvo en EChA ) -------------------------------------------------------------------------- ____________________ ____________________________________ 丨 ____________________________________ 4. Produkti gramatikajn finajhojn por la angla lingvo kaj inserti helpajn vortojn por la china lingvo; diferencigi plursignifojn; konsulti la tabelon en la angla lingvo por senregulaj vortoj ------------------------------------------------------------------------- SINTEZO DE ___________________________________ 丨 ____________________________________ CELOLINGVOJ 5. Vicigi la vortordon por la angla lingvo ------------------------------------------------------------------------- ___________________________________ 丨 ____________________________________ 6. Vicigi la vortordon kaj beligi la frazon por la china -------------------------------------------------------------------------- ___________ 丨 __________ Elmeto de celolingvoj EChA sistemo konsistas el 3 subsistemoj: 1) Mashinvortaroj inter la fontolingvo kaj la celolingvoj En tiu chi subsistemo trovighas 5 vortaroj (tabeloj) kun la algoritmo por fortranchi gramatikajn finajhojn en Esperanto. La unua estas vortaro pri fleksaj vortoj, la dua pri senfleksaj vortoj kaj la tria estas por trakti vortogrupojn. La subsistemo liveras chiujn necesajn elementajn informojn al la frazkampo, kio bone bazighas por la postaj analizo kaj sintezo. 2) Analizo de la fontolingvo En chi tiu etapo la subsistemo decidas la strukturajn tavolojn kaj semantikajn interrilatojn de la prilaborata frazo. La rezulto enkorpighas en iu alte formala interlingvo CDC. La analiza procezo iras tute sendepende de ajna celolingvo, kio tre necesas kaj facile kompreneblas char la sistemo ne prenas iun certan lingvon kiel sian celon. Fakte la projektoro planas elekti la francan kaj la rusan kiel la trian kaj kvaran celolingvojn por la ekspansiota EChA. CDC estas la shlosilo al la sistemo EChA. Kiel mashintraduka interlingvo entenanta la rezulton de sendependa analizo pri fontolingvo, ghi konsistas el la informoj morfologia, sintaksa, situa, noda, tavola kaj chena. CDC ne nur priskribas prave la arbostrukturon de la prilaborata frazo, sed ankau enhavas en si utilajn aliajn informojn. Praktike, ghi bone bazighas por la plurlingvo-sinteza subsistemo. La unua linio de programo chefe celas la senfleksajn vortojn, speciale la konjunkciojn kaj interpunkciojn. Principe oni devas establi unu aron da analizareguloj por unu senfleksa vorto. En Esperanto ekzistas nur fiksa nombro da senfleksaj vortoj, sed ili estas tre kompleksaj en uzado, ghuste simile al la funkciaj vortoj en nacilingvoj. Fakte, ili chefe reflektas la lingvan individuecon, tial bezonas respektivan prilaboron. En chi tiu linio trovighas multe da malfacilajhoj, ekzemple pri la vortoj KAJ kaj KE. Ghenerale senfleksvortoj enhavas pli da gramatikaj signifoj. Tial la tasko chi tie eksterordinare gravas al la esperantofronta automate analiza sistemo. En la dua linio, la analizo multe pli abstraktas. La prilabora procezo estas cirkule voki la subprogramojn, kies kerno estas la verbosubprogramo kiu fakte estas matematika modelo de esperantogramatiko. Post la analizo rezultatas CDC-cheno responda al la fontofrazo. 3) Sintezo de la celolingvoj En la unua linio de chi tiu etapo inkluzivas ankau la regulojn por diferencigi plursignifojn kaj elekti 妅 onvenan esprimon en la celolingvoj lau la semantikaj trajtoj, la CDC kaj la semantike transferaj reguloj de la prilaborata vorto. En la kazo pri la sintezo de la china lingvo, la chefa tasko estas reordigi la prilaboratan frazon, char la vortordo en Esperanto estas tre libera kaj en la china lingvo tre mallibera. La reordiga informo dependas de kaj la chingramatikaj reguloj kaj la CDC interlingva cheno. Post la reordigo estas ankau necese plibonigi kaj beligi la tradukajhon precipe koncerne la inserton de la chinaj helpaj vortoj kiuj povas transporti etajn signifojn pri tempo, vocho kaj modo kaj aliajn nuancojn. Kiel chiuj scias, la china estas senfleksa lingvo, en kiu gramatikaj finajhoj tute mankas. Pri la lingvo angla, la sinteza kondicho fore favoras. La substantivoj en la angla ne sindistingeblas inter nominativo kaj akuzativo, tial la reordiga pasho chi tie celas certigi la frazon lau la tipa vortordo Subjekto-Predikato-Objekto (S-P-O). La alia grava tasko estas produkti finajhojn por la angla lingvo. Efektive, la morfologiaj transferaj reguloj inter la du lingvoj ne estas kompleksaj. Kvankam EChA estas nur eksperimenta malgranda sistemo, tamen ghi riche enhavas. EChA ne nur faras analizon morfologian (pri la fontolingvo Esperanto) sed ankau produkas finajhojn morfologiajn (pri la celoligvo angla). Ghi ankorau enkalkulas la regulojn vicigan (pri la china kaj angla) kaj beligan (pri la china). Krome, EChA havas sian interlingvon CDC, kiu pruvighas tre efika. Unuvorte, EChA tushas almenau chiujn problemojn por praktika sistemo, tial ghi vere estas tipa, tute automata modelo al unu-al-plurlingva praktika traduksistemo. ______________________________________________________________________________________________ Mi deziras chi tie eksprimi mian koran dankon al Profesoro Liu Yongquan kaj Profesoro Liu Zhuo. Sen ilia gvidado, mi tute ne povis plenumi mian eksperimenton pri EChA sistemo. Dekomence Profesoro Liu Yongquan subtenas entuziasme mian projekton pri EChA kaj donis multe da gvidaj konsiloj dum mia eksperimentado. Profesoro Liu Zhuo liveris al mi kelkajn algoritmojn de la elementaj operacioj pri mashina tradukado. Dankon ankau al Sinjorino Han pro shia helpo en la komputerochambro. BIBLIOGRAFIO 1. Liu Yongquan, Gao Zushun kaj Liu Zhuo, Enkonduko de Mashina Tradukado ( Eldonejo Kexuepuji, 1964 ) 2. Liu Yongquan k.a. La Mashina Tradukado en Chinio ( Eldonejo Zhishi, 1984 ) 3. La Elektita Traktataro pri Mashina Tradukado ( Eldonejo Kexuejishuwenxian, 1979 ) 4. Lingvo kaj Komputero (1) ( Eldonejo Zhongguoshehuikexue, 1982 ) 5. Lingvo kaj Komputero (2) ( Eldonejo Zhongguoshehuikexue, 1985 ) 6. Wei Yuanshu kaj Xu Wenqi, Gramatiko de Esperanto ( Eldonejo Shanghaiwaiyujiaoyu, 1982 ) 7. Kalocsay-Waringhien, Plena Analiza Gramatiko de Esperanto ( Eldonejo Zhongguoshijieyu, 1984 ) 8. Zhang Daozhen, Praktika Gramatiko de la Angla Lingvo ( Eldonejo Shangwu, 1984 ) 9. Ye Feisheng kaj Xu tongqiang, Skeleto de Lingvistiko ( Eldonejo Beijingdaxue, 1981 ) 10.Liu Yongquan kaj Li Wei, Nepre Estos Konstruita la Nova Babelo, 1985, akademia traktato por la Unua China Kongreso de Esperanto 11.Liu Zhuo, Tri Eksperimentoj pri Mashina Tradukado, 1980, akademia traktato por la Unua China Kongreso de Mashina Tradukado 12.Heinz Dieter MAAS, Automata Tradukado en kaj el Esperanto ( Lingvo-kibernetiko kaj aliaj internacilingvaj aktoj de la IX-a Internacia Kongreso de Kibernetiko pp. 75-81, 1982 Gunter Narr Verlag Tubingen ) 13.J. Chiau, Lingvojn Komputere Prilaboru kaj Esperanton Mashine Tradukadu, 1985, akademia traktato por la Unua China Kongreso de Esperanto 【相关】硕士论文: 世界语到汉语和英语的自动翻译试验立委硕士论文：1. EChA概况立委硕士论文：2. 世界语: 语言学特点及其研究价值立委硕士论文：3. 层次递归成分体系立委硕士论文：4. EChA机器词典及词表立委硕士论文：5. 世界语形态分析立委硕士论文：6/7 世界语句法分析立委硕士论文：8. 英语形态生成立委硕士论文：9. 目标语调序立委硕士论文：10. EChA 试验结果的分析立委硕士论文【致谢】【参考书目】立委硕士论文全文（世界语版）《朝华午拾：shijie－师弟轶事（3）——疯狂世界语》灵感有如神授，巧夺岂止天工《立委随笔：一小时学会世界语语法》立委世界语文章 (1987): 《中国报道：通天塔必将建成》立委世界语论文（1986）: 《国际语到汉语和英语的自动翻译》立委（1988）《世界科技：世界语到汉语和英语的自动翻译试验》 DLT项目背景介绍立委硕士论文全文（世界语版） PhD Thesis: Morpho-syntactic Interface in CPSG (cover page) 【关于机器翻译】【置顶：立委NLP博文一览】《朝华午拾》总目录

个人分类: 世运资料|7672 次阅读|0 个评论

立委硕士论文【致谢】【参考书目】

liwei999 2010-2-20 04:25

世界语到汉语和英语的自动翻译试验 --EChA 机器翻译系统概述返回目录上一章节下一章节第 44 页研制世界语类型的机器翻译系统 , 从一开始就得到刘涌泉老师的热情支持 , 从方案主体到具体问题的处理 , 他都给以认真指导。在程序设计和上机调试的的过程中 , 刘倬老师也多次给予指导 , 有些基本操作的算法也是刘倬老师提供的。在 EChA 系统取得初步成果的时候 , 笔者向他们表示深切的感谢。另外 , 还要特别感谢机房韩老师的多方协助。没有她提供的方便 , EChA 系统根本不可能在这么短时间试验成功。返回目录上一章节下一章节第 45 页 1. Heinz Dieter MAAS Automata Tradukado en kaj el Esperanto ( Lingvo-kibernetiko kaj aliaj internacilingvaj aktoj de la IX-a Internacia Kongreso de Kibernetiko, pp 75-81, 1982 Gunter Narr Verlag Tubingen ) 2. 机器翻译论文选辑 ( 科学技术文献出版社 , 1979 ) 3. Kalocsay-Waringhien Plena Analiza Gramatiko de Esperanto ( 中国世界语出版社 , 1984 ) 4. 刘涌泉等著中国的机器翻译 ( 知识出版社 , 1984 ) 5. 刘涌泉 , 高祖舜 , 刘倬著机器翻译浅说 ( 科学普及出版社 , 1964 ) 6. 刘涌泉 , 李维巴贝尔通天塔必将建成 ( 中国第一届世界语大会论文 , 1985.8 ) 7. 刘倬三次机器翻译试验 ( 第一次机器翻译学术会议论文 , 1980.9 ) 论机器翻译规则系统的编制方法 ( 1982.3 上海 ) JFY 型英汉机器翻译系统的研制和试验 ( 语言学会第二届年会论文 , 1983.4 ) 8. 乔毅开展语言的计算机处理和世界语类型的机器翻译 ( 中国第一届世界语大会论文 , 1985.8 ) 9. 魏原枢 , 徐文琪编世界语语法 ( 上海外语教育出版社 , 1982 ) 10. 叶蜚声 , 徐通锵著语言学纲要 ( 北京大学出版社 , 1981 ) 11. 语言和计算机 (1) ( 中国社会科学出版社 , 1982 ) 12. 语言和计算机 (2) ( 中国社会科学出版社 , 1985 ) 13. 张道真编著实用英语语法 ( 商务印书馆 , 1984 ) 返回目录上一章节下一章节世界语到汉语和英语的自动翻译试验 --EChA 机器翻译系统概述

个人分类: 世运资料|4790 次阅读|0 个评论

立委履历

liwei999 2010-2-19 05:28

立委履历（一）工作经历 2006.11-至今首席科学家架构师，自然语言平台和核心技术设计者所设计研发的自然语言平台支持新一代搜索引擎，用于企业市场，主要搜索互联网上的商业情报，包括产品技术信息，客户反馈，等。该产品为多家财富500强的研究部门和市场部门采用，证明了它提供的价值是其他搜索引擎和工具难以取代的。 1997／11 至 2006／03 Cymfony 公司，研究开发部，美国纽约州水牛城（Buffalo, New York）主研究员(Principal Research Scientist) 自然语言处理副总裁(Vice President，NLP) （1999始）撰写研究基金申请计划，先后赢得18项美国政府”小企业创新研究基金”（SBIR: Small Business Innovative Research），担任其课题负责人(PI: Principal Investigator or co-PI)，研究开发新一代基于自然语言处理（NLP: Natural Language Processing）的信息抽取（IE: Information Extraction）技术。该技术集中体现在 Cymfony 公司所开发的 InfoXtract(TM) 软件系列，包括 InfoXtract NLP/IE 引擎，组建技术，词典语法资源，有限状态转录机工具箱（Finite State Transducer Toolkit），机器自动学习工具箱（Machine Learning Toolkit）及开发平台。在此基础上开发的软件产品 Brand Dashboard 和 Digital Consumer Insight，实时扫描处理数千种媒体报道，自动抽取品牌报道关键信息，过滤整合，分析数据全面反映品牌走势，为大企业创保作为无形资产的名优品牌提供决策参考，达到人工分析难以企及的广度及统计学意义上的精度。 2000 年帮助成功引进华尔街高科技风险基金一千一百万，使Cymfony由有两三个员工的从事互联网一般业务的公司发展成为具有70多员工，设立三处办公楼（美国波士顿，布法罗，和印度孟买分公司），引进专业管理人员及制订信息技术（IT: Information Technology）市场营销计划的高科技中小企业。 1999 年指导 Cymfony 研发部参与由美国国家标准技术局（NIST：National Institute of Standards and Technology）主持评判的第八届”文本检索大会”（TREC-8: Text Retrieval Conference）专项竞赛“自然语言问答系统”，获得第一名。 Cymfony 的技术及成长先后被多种媒体报道，包括《财富》，《华尔街日报》，《布法罗新闻》，及中文版《世界日报》。Cymfony 由于在一系列 SBIR 研究中成绩突出，被提名竞逐“2002 全美小企业最优合同项目年度奖”（2002 US Small Business Administration Prime Contractor of the Year Award）。 1987-1991 中国社会科学院语言研究所，北京助理研究员从事外汉机器翻译，自然语言处理及中文信息处理等领域的研究。 1988-1991 高立软件公司，北京高级工程师（兼职）从事高立英汉机器翻译系统 GLMT 的开发研究。主要工作有: 开发及调试八百条机器语法规则设计及实现系统的语义模块背景知识库培训及指导八人小组建立并开发有六万多词条的机器翻译词典及具有上万词典规则的专家词典规则库的开发推动高立公司将 GLMT 1.0 产品化（1992）该机译技术成功转化到香港韦易达公司袖珍电子词典系列产品中 GLMT于1992年1月在北京新技术产业开发试验区通过鉴定，先后获得北京市科技进步奖、新加坡INFORMATICS’92国际博览会计算机应用软件银奖和92年第二届中国科技之光博览会电子行业金奖，被列入火炬计划。 1988 承接荷兰 BSO 软件公司合同项目，撰写为多语种机器翻译服务的“汉语依从关系形式句法”，获得好评。（二）教育经历 2001年获加拿大 Simon Fraser University 计算语言学专业博士学位学位论文 “汉语短语结构文法中的词法句法接口研究” （The Morpho-syntactic Interface in a Chinese Phrase Structure Grammar）该汉语形式文法成功运用于英汉双向机器翻译系统的实验，证明同一部文法可以用于双向系统的汉语分析和综合。攻读博士期间，多次担任计算机系自然语言实验室（Natural Language Lab）助研（Research Assistant）及语言学系助教（Teaching Assistant）或临时讲师（Sessional Instructor） 1991-1992年英国曼彻斯特理工大学计算语言学中心（CCL/UMIST）博士候选人 1986年获中国社会科学院研究生院语言学系机器翻译专业硕士学位学位论文”从世界语到英语和汉语自动翻译”：这是国内少有的一对多机器翻译系统的研究探索。 1982年安庆师范学院外语系英语专业学士学位（三）获奖 2001年获本系杰出成就奖（Outstanding Achievement Award）, Department of Linguistics,　Simon Fraser University (award given to the best PhD graduates from the department) 1995-1997获加拿大卑诗省科学委员会 G.R.E.A.T. 奖学金 (G.R.E.A.T. Award, Scienc Council, B.C. CANADA), 旨在促进应用性博士课题与当地高科技企业的结合 1997年获校长研究资助（President’s Research Stipend） 1996年获新加坡 ICCC 大会特别旅行资助，宣讲论文 1995年获研究生奖学金（Graduate Fellowship） 1992年与傅爱平合作的机器翻译数据库应用程序获中国社会科学院软件二等奖 1991年获中英友好奖学金（中国教育部，英国文化委员会及包玉刚基金会联合提供）赴英深造（四）其他专业活动 2002－2005，担任新加坡《中文和计算杂志》国际编委 1998-2004 担任企业导师（Industrial Advisor），先后指导20多位博士或硕士侯选人从事有工业应用前景的暑期实习研究课题（实习生来自纽约州立大学布法罗分校计算机系或语言学系）（五）论文发表记录 Srihari, R, W. Li and X. Li, 2006. Question Answering Supported by Multiple Levels of Information Extraction, a book chapter in T. Strzalkowski S. Harabagiu (eds.), Advances in Open- Domain Question Answering. Springer, 2006, ISBN:1-4020-4744-4. Srihari, R., W. Li, C. Niu and T. Cornell. 2006. InfoXtract: A Customizable Intermediate Level Information Extraction Engine. Journal of Natural Language Engineering, 12(4), 1-37, 2006. Niu,C., W. Li, R. Srihari, and H. Li. 2005. Word Independent Context Pair Classification Model For Word Sense Disambiguation. Proceedings of Ninth Conference on Computational Natural Language Learning (CoNLL-2005). Srihari, R., W. Li, L. Crist and C. Niu. 2005. Intelligence Discovery Portal based on Corpus Level Information Extraction. Proceedings of 2005 International Conference on Intelligence Analysis Methods and Tools. Niu, C., W. Li and R. Srihari. 2004. Weakly Supervised Learning for Cross-document Person Name Disambiguation Supported by Information Extraction. In Proceedings of ACL 2004. Niu, C., W. Li, R. Srihari, H. Li and L. Christ. 2004. Context Clustering for Word Sense Disambiguation Based on Modeling Pairwise Context Similarities. In Proceedings of Senseval-3 Workshop. Niu, C., W. Li, J. Ding, and R. Rohini. 2004. Orthographic Case Restoration Using Supervised Learning Without Manual Annotation. International Journal of Artificial Intelligence Tools, Vol. 13, No. 1, 2004. Niu, C., W. Li and R. Srihari 2004. A Bootstrapping Approach to Information Extraction Domain Porting. AAAI-2004 Workshop on Adaptive Text Extraction and Mining (ATEM), California. Srihari, R., W. Li and C. Niu. 2004. Corpus-level Information Extraction. In Proceedings of International Conference on Natural Language Processing (ICON 2004), Hyderabad, India. Li, W., X. Zhang, C. Niu, Y. Jiang, and R. Srihari. 2003. An Expert Lexicon Approach to Identifying English Phrasal Verbs. In Proceedings of ACL 2003. Sapporo, Japan. pp. 513-520. Niu, C., W. Li, J. Ding, and R. Srihari 2003. A Bootstrapping Approach to Named Entity Classification using Successive Learners. In Proceedings of ACL 2003. Sapporo, Japan. pp. 335-342. Li, W., R. Srihari, C. Niu, and X. Li. 2003. Question Answering on a Case Insensitive Corpus. In Proceedings of Workshop on Multilingual Summarization and Question Answering - Machine Learning and Beyond (ACL-2003 Workshop). Sapporo, Japan. pp. 84-93. Niu, C., W. Li, J. Ding, and R.K. Srihari. 2003. Bootstrapping for Named Entity Tagging using Concept-based Seeds. In Proceedings of HLT/NAACL 2003. Companion Volume, pp. 73-75, Edmonton, Canada. Srihari, R., W. Li, C. Niu and T. Cornell. 2003. InfoXtract: A Customizable Intermediate Level Information Extraction Engine. In Proceedings of HLT/NAACL 2003 Workshop on Software Engineering and Architecture of Language Technology Systems (SEALTS). pp. 52-59, Edmonton, Canada. Li, H., R. Srihari, C. Niu, and W. Li. 2003. InfoXtract Location Normalization: A Hybrid Approach to Geographic References in Information Extraction. In Proceedings of HLT/NAACL 2003 Workshop on Analysis of Geographic References. Edmonton, Canada. Li, W., R. Srihari, C. Niu, and X. Li 2003. Entity Profile Extraction from Large Corpora. In Proceedings of Pacific Association for Computational Linguistics 2003 (PACLING03). Halifax, Nova Scotia, Canada. Niu, C., W. Li, R. Srihari, and L. Crist 2003. Bootstrapping a Hidden Markov Model for Relationship Extraction Using Multi-level Contexts. In Proceedings of Pacific Association for Computational Linguistics 2003 (PACLING03). Halifax, Nova Scotia, Canada. Niu, C., Z. Zheng, R. Srihari, H. Li, and W. Li 2003. Unsupervised Learning for Verb Sense Disambiguation Using Both Trigger Words and Parsing Relations. In Proceedings of Pacific Association for Computational Linguistics 2003 (PACLING03). Halifax, Nova Scotia, Canada. Niu, C., W. Li, J. Ding, and R.K. Srihari 2003. Orthographic Case Restoration Using Supervised Learning Without Manual Annotation. In Proceedings of the Sixteenth International FLAIRS Conference, St. Augustine, FL, May 2003, pp. 402-406. Srihari, R. and W. Li 2003. Rapid Domain Porting of an Intermediate Level Information Extraction Engine. In Proceedings of International Conference on Natural Language Processing 2003. Srihari, R., C. Niu, W. Li, and J. Ding. 2003. A Case Restoration Approach to Named Entity Tagging in Degraded Documents. In Proceedings of International Conference on Document Analysis and Recognition (ICDAR), Edinburgh, Scotland, Aug. 2003. Li, H., R. Srihari, C. Niu and W. Li 2002. Location Normalization for Information Extraction. In Proceedings of the 19th International Conference on Computational Linguistics (COLING-2002). Taipei, Taiwan. Li, W., R. Srihari, X. Li, M. Srikanth, X. Zhang and C. Niu 2002. Extracting Exact Answers to Questions Based on Structural Links. In Proceedings of Multilingual Summarization and Question Answering (COLING-2002 Workshop). Taipei, Taiwan. Srihari, R. and W. Li. 2000. A Question Answering System Supported by Information Extraction. In Proceedings of ANLP 2000. Seattle. Srihari, R., C. Niu and W. Li. 2000. A Hybrid Approach for Named Entity and Sub-Type Tagging. In Proceedings of ANLP 2000. Seattle. Li. W. 2000. On Chinese parsing without using a separate word segmenter. In Communication of COLIPS 10 (1). pp. 19-68. Singapore. Srihari, R. and W. Li. 1999. Information Extraction Supported Question Answering. In Proceedings of TREC-8. Washington Srihari, R., M. Srikanth, C. Niu, and W. Li 1999. Use of Maximum Entropy in Back-off Modeling for a Named Entity Tagger, Proceedings of HKK Conference, Waterloo, Canada W. Li. 1997. Chart Parsing Chinese Character Strings. In Proceedings of the Ninth North American Conference on Chinese Linguistics (NACCL-9). Victoria, Canada. W. Li. 1996. Interaction of Syntax and Semantics in Parsing Chinese Transitive Patterns. In Proceedings of International Chinese Computing Conference (ICCC’96). Singapore W. Li and P. McFetridge 1995. Handling Chinese NP Predicate in HPSG, Proceedings of PACLING-II, Brisbane, Australia Uej Li. 1991. Lingvistikaj trajtoj de la lingvo internacia Esperanto. In Serta gratulatoria in honorem Juan Régulo, Vol. IV. pp. 707-723. La Laguna: Universidad de La Laguna Z. Liu, A. Fu, and W. Li. 1989. JFY-IV Machine Translation System. In Proceedings of Machine Translation SUMMIT II. pp. 88-93, Munich. 刘倬，傅爱平，李维 (1992). 基于词专家技术的机器翻译系统，”机器翻译研究新进展”，陈肇雄编辑，电子工业出版社，第 231-242 页，北京李维，刘倬 (1990). 机器翻译词义辨识对策，《中文信息学报》，1990年第一期，第 1-13 页，北京刘倬，傅爱平，李维 (1989), JFY-IV 机器翻译系统概要,《中文信息学报》，1989年第四期，第 1-10 页，北京李维 (1988). E-Ch/A 机器翻译系统及其对目标语汉语和英语的综合，《中文信息学报》，1988年第一期，第 56-60 页，北京其他发表（略）

个人分类: 立委其人|6435 次阅读|2 个评论

DLT项目背景介绍

liwei999 2010-1-12 03:23

［DLT项目背景介绍］ BSO公司当时是荷兰第二大软件公司，总部在离阿姆斯特丹两个小时车程的 Utrecht 城。1982-1983年，由 Toon Witkam 先生牵头，在欧洲共同体资助下，完成了一项利用世界语作为媒介语（又称中间语言，interlingua）的多语言自动翻译的可行性研究报告。传统的机器翻译多采取转换式（transfer），需要针对每一对源语和目标语编制专门的规则系统。这种转换法用于多语自动翻译，随着语言对的增加，存在一个组合爆炸的问题：n 种语言需要编制 n**2 套转换子系统，而采用媒介语则只需要 n(n-1)/2 套子系统。以欧洲共同体常用的8种语言计算，共有28个语言对，传统的系统需要开发出64套转换式规则系统，而采用媒介语则只需要16套子系统（8套翻译成媒介语，8套从媒介语译出）。这是简单的算术，所以媒介语方案对于多语系统的经济性早已成为共识，学者们争论的主要是究竟采取什么样的媒介语合适。另外一项共识是，自然语言（比如英语、汉语或俄语）作为媒介语是不合适的，因为自然语言普遍存在歧义和不规则的惯用法。理想的媒介语应该是规则而没有歧义的，所以很多学者认为应该人造一套形式系统作为媒介语（比如当年由日本牵头的东亚各国合作的一项多语翻译开发系统使用的就是设计者自己定义的形式系统作为媒介语）。Witkam 不同意这种看法，主要论点是形式系统作为媒介语往往失之简陋，毕竟象语言这样复杂的系统，不是一蹴而就的形式系统能够涵括的。不仅如此，形式系统虽然适合机器处理，可是作为中间表达，不如人类语言那样易读，不利于语言工作者调试系统。这样看来，世界语这种有了100年发展历史的人造语比较合适，因为原则上它的语法是不允许有例外的。不过，跟所有实际使用的人类语言一样，世界语仍然存在歧义现象。因此，可行性研究中，他们还是对世界语做了控制，尽量排除其歧义，以适应机器处理的需要。其中有一项设计很巧妙，用来区分结构歧义。在自然语言处理领域，结构歧义的典型例子有所谓 PP attachment 的问题，即名词宾语后面的介词短语究竟修饰前面的名词还是谓语动词。比如：I saw the girl with telescope，如果是修饰名词，应该翻译成我看见了带望远镜的姑娘，如果是修饰动词，则应翻译成我用望远镜看到了那个姑娘。Witkam 小组提出的区别结构歧义的表达方法是，用介词跟前面的名词的空格数来决定：如果只有一个空格，那么机器就认为是修饰名词，如果是两个空格，则认为它修饰动词。这种表达方法的巧妙在于它用书面语的线性方式表达了需要三维的结构关系，方便了机器的还原处理。更绝的是这种表达不影响中间语言的自然性，毕竟人眼对于一个空格和两个空格是不做区分的，读起来跟普通世界语没有不同。上述可行性研究在1984年赢得了荷兰政府经济部的资助，BSO 公司补足另一半，开始了六年的DLT (Distributed Language Translation) 分布式语言翻译的项目。所谓分布式，是设想该系统应用在电脑网络的环境下，源语到世界语的系统和世界语到目标语的系统分别在两端进行：在源语输入端遇到歧义，系统会直接提问作者以确定其含义，然后翻译成中间语言世界语，这是用所谓半自动交互式机器翻译来解决自然语言分析中最困难的歧义区分问题。（这个思路跟这几年流行的 semantic web 异曲同工，都是力求在源头上解决问题。）网络之间传输的是已经消除了歧义的世界语，各接收端根据需要，调用从世界语翻译生成目标语的程序，即用即调（on-the-fly），这个阶段是全自动的。这种分布式应用环境的设想似乎有点超前，如果推后五年，在网络热中寻找巨额投资是不困难的。可惜当年（1990）网络经济的概念还只是萌芽阶段。有人和，却没有天时地利。 DLT研究组在六年期间做出了原型系统（prototype），发表了详细介绍系统的理论和实践、印制精美的系列丛书，主持召开了一次机器翻译国际研讨会，与各国世界语者和语言学家合作，在统一的依存关系的框架下，编制了20多种主要语言的形式句法，应该说工作是卓有成效的。迄今，这一项目由于其描述之详尽，不少教授列为计算语言学课程的辅助材料。 BSO的这个DLT项目由于有 Victor Sadler 这样的世界语元老级人物的参与和宣传，在国际世界语界影响很大，引起了各国世界语者的关注，大家（包括笔者）对它的期许很高，希望借助世界语和世界语者的支持，为大规模解决语言问题提供一个切实可行的技术方案。世界语在系统的轴心地位也满足了很多世界语者的心愿，自愿为这个系统服务的各国世界语者很多，如果系统真到了大规模商业开发阶段，管理得当，这是一个不小的资源优势。记得当年听 BBC 中文广播电台，就有中国世界语者去信询问世界语的机器翻译问题，广播节目就特别介绍了荷兰科学家正在进行的 DLT 项目。可惜，1990年前后，他们在国际国内寻找后续资金的努力终于失败，研究组不得不解散，结束了这段世界语和机器翻译的蜜月期，令人扼腕。（不过，多年来，一直有人主张利用世界语机做器翻译做媒介语的方案。美国有一家公司 Unikom 做类似的尝试已经多年，不过也一直没有找到大笔资金做商业开发。其负责人跟我和Dan一直保持着联系。）要想进一步了解媒介语和机器翻译的学术背景，可以参见我的机器翻译的介绍文章。 Comments (7) xfliu 12月 17th, 2008 at 12:18 pm edit 我的一个直觉是，语言的表达是模糊的，如果每次翻译的准确度为x%,那么以世界语作为中介两次翻译后准确度为x^2%。除非是技术文档，两次翻译后的文字可能是结构清晰，但是句子语义很别扭，甚至不能表达原意。相反，一对一的直接翻译，可以在模式化的翻译过程中，强加一些特殊的修饰或处理，让翻译的句子易读。不知立委如何高见。（又注：你的机器翻译的介绍文章还没有细看。）曾子后 12月 18th, 2008 at 2:06 am edit 语言的表达是模糊的，尤其是文学著作，可以是天马行空、飘逸朦胧，甚至反讽隐喻等等。。。。所以翻译被认为是再创作。。。。而现在结构的电脑是一个完整意义的机器，其优势体现在运算、速度、记忆、逻辑等能力，，，，，，而思考、创新、模糊判断与决策、学习等能力及其有限。。。。所以我对机器翻译研究工作完全持否定态度。。。 liwei 12月 18th, 2008 at 3:07 am edit 机器翻译面对的是资料，而不是文学作品。谁要读机器翻译的文学作品呢？除非为了搞笑。 xfliu 的说法是有道理的，通过世界语作为媒介语做翻译，是转手两次，质量会受到影响，总体不如源语到目标语转换基础上的翻译。用媒介语纯粹是为多语翻译开发的经济上的考量，而不是因为质量优越与双语转换法。有人做过实验，就是勤勤恳恳的复印机，复印 n 次（n 足够大）也会模糊一片。曾子后 12月 18th, 2008 at 3:25 am edit 资料该如何定义？曾子后 12月 18th, 2008 at 3:28 am edit 我承认我所举的文学作品的例子太过偏颇，，但我坚持认为研究机器翻译是徒劳。。期待被博主说服:-)) liwei 12月 18th, 2008 at 4:32 am edit 资料该如何定义？非文学的文字。极端的例子包括天气预报。事实上，机器翻译50－60年的研究历史上，公认的最成功的机器翻译的应用，就是加拿大的在英语法语之间做天气预报翻译的系统 Meteo. 由于领域的限制，翻译质量已经达到人工的水平。机器翻译不是徒劳，已经是现实。如果网上的翻译系统让你感觉失望，至少你必须承认，如果你对某网页的语言一无所知的话，利用机器翻译，你可以获得信息，对该网页的内容有了一个大概的了解。如果是欧洲语言之间，其翻译质量是很可以接受的，有可读性。当然，也有很多生硬、别扭或者误译的地方。机器翻译历史上，1966年（正好是中国文革开始，一切研究中断的时候），美国政府曾经对机器翻译项目做了一个评定，其结论与你说的一致，对机器翻译持基本否定的态度（史称黑皮书），断定机器翻译在可预见的未来是没有前景的。这个黑皮书使得美国50－60年代对机器翻译研究的大规模资助几乎全部冻结，机器翻译研究在美国和中国同时进入了寒冬。现在，已经很少有人完全否认机器翻译的研究和作用了。曾子后 12月 18th, 2008 at 5:01 am edit 谢谢博主提供的信息，，我会去学习一下，，先保留我自己的看法。。 http://www.de-sci.org/blogs/liwei/archives/12461

个人分类: 世运资料|5110 次阅读|0 个评论

2010-NSFC重点项目指南—— 与NLP相关的部分

timy 2009-12-17 13:06

资料来自小木虫： http://emuch.net/bbs/viewthread.php?tid=1735264fpage=1 2010-NSFC重点项目指南中，和自然语言处理相关的有1个优先资助重点领域、2个科学处资助重点领域（可能和NLP有关系），列出如下：（注：2009年度信息科学部发布50个重点项目领域和一个重点项目群，共收到重点项目申请154项，共有46个重点项目获得资助，资助经费共9 400万元，平均资助强度204万元/项。 2010年度信息科学部发布47个申请资助领域，其中科学部优先资助重点领域4个；拟资助48～55个重点项目，平均资助强度约250万元/项。）科学部优先资助重点领域 1．多民族文档分析识别、机器翻译及应用研究（F010205，拟资助重点项目2～3项）研究我国民族文字印刷及手写文档识别及机器翻译的理论和方法，探索基于语义本体的多语知识的获取、表达等理论方法及关键技术，旨在提高民族文字信息化处理水平与应用能力。研究内容可涉及蒙古文、藏文、维吾尔文等文字的识别、文档图像分析、机器翻译。科学处资助重点领域 19．网络信息融合与知识服务的模型和方法（F0205） 30．基于云计算的海量数据挖掘（F0305）博主注1：上次在南京开第五届全国机器翻译研讨会时，最后有个讨论环节，当时有专家传达了一个信息是：国家对语言信息处理方面的投入已经很多了，可能今后不会再强化资助。但实际情况是，无论是理论还是技术，目前仍需要继续强化资助。看来，NLP专家们的努力没有白费。课题指南中（多民族文档分析识别、机器翻译及应用研究），研究课题更加贴近语言信息处理的中文化特色，包括蒙古文、藏文、维吾尔文等文字的识别、文档图像分析、机器翻译。语义本体方面，由于EU主导的Global WordNet已经涉及到50余种语言，但没有藏文、维吾尔等语言，而现在国家如果立项做蒙古文、藏文、维吾尔文在内的中文的语言学本体的话，显然对这些语言的信息化处理起到极大的推动作用。博主注2：拟重点资助的两个可能和NLP有关的项目（网络信息融合与知识服务的模型和方法、基于云计算的海量数据挖掘），这是因为网络环境下，大规模的多语言的文本资源的获取、加工、挖掘、服务等，是一个难以回避的问题，除非研究的是一个理论或者计算模型。当然，这要看研究者从哪个角度进行研究，比如研究Web挖掘或文本挖掘的，一般会考虑将NLP技术作为基础之一。

个人分类: 科学评论|4481 次阅读|1 个评论

【立委科普：机器翻译】

liwei999 2009-12-13 04:09

MACHINE TRANSLATION By Wei Li liwei999 AT gmail.com (In GB code) 本文是作者应约为科技辞书写的辞条, 现略加修改, 力求深入浅出, 既反映本学科的最新发展水平, 又能让一般读者容易理解。立委一九九六年六月二十五日于加拿大温哥华 ------------------------------------------------------------------------------- 机器翻译立委又称自动翻译, 是按照规定的算法由电子计算机进行语言翻译。它是计算语言学的主要研究领域之一。机器翻译通常由机器词典和语言规则库支持, 其对象为自然语言。机器翻译是一种自然语言处理应用软件。与此相对应, 还有一种系统软件, 专门用于把用计算机语言编写的程序自动翻译成可执行的机器代码, 这在计算机科学中叫编译器或解释器。编译理论和技术已经相当成熟, 它与自然语言的机器翻译有相通之处。与计算机语言相比, 自然语言有两个明显的特点: 首先, 自然语言普遍存在同形多义现象。在词汇层, 一词多义, 词类同形等现象随处可见, 而且越是常用的词其意义和用法越多; 在句法层, 结构同形也相当普遍, 同一种结构也可能表达多种含义和关系。因此, 区分同形和多义成为机器翻译的首要任务。其次, 自然语言是规则性和习惯性的矛盾统一体。自然语言中, 几乎没有一条语法规则没有例外。然而, 如果把语言规则组织成从具体到抽象的层级体系, 区别个性规则和共性规则的层次, 建立个性和共性的联系方式, 就为解决这一矛盾创造了条件。因此, 在设计机器翻译系统的算法时, 如何把握和处理个性与共性的关系, 在很大程度上决定了系统的前途。机器翻译通常包括五个环节: 源语输入; 源语分析; 源语到目标语的转换; 目标语生成; 目标语输出。源语到目标语的转换 (1) 源语输入 ============================ 目标语输出 I 形态分析 ====================== 形态生成 II 句法分析 ============= 句法生成 III 语义分析 ===== 语义生成语用加工 , 知识推理 (2) 元语言对于书面语, 输入和输出是纯技术性环节。语音机器翻译则还必须赋予计算机以听和说的能力, 这是语音识别和语音合成所研究的课题。源语分析的结果用某种中间形式表示。转换包括词汇转换和结构转换, 它反映源语和目标语的对比差异。生成是分析的逆过程。可见, 只有转换才必须同时涉及两种语言, 源语分析和目标语生成可以相互独立。这种设计思想称作转换法, 是当前机器翻译系统的主流。当然, 也可以把转换放到分析或生成中, 用所谓直接法进行自动翻译。直接法和转换法各有其优缺点。运用直接法的系统结构紧凑, 翻译过程比较直观,规则的编制易于参照现成的双语词典、对比语法以及前人长期积累的翻译经验。其主要缺点是, 由于分析和生成不能独立, 使得分析和生成都难以深入; 另外, 对于多种语言之间的自动翻译, 直接法是不适合的。转换法也有缺点: 尽管可以分析得比较深入, 但多了一个环节, 多了许多接口信息, 处理不好反而影响译文质量; 另外, 在不同语系的语言之间, 要想得到较高质量的翻译, 其转换模块(主要是词汇转换)势必很大, 大到与分析和生成模块不相称的地步, 这差不多等于回到了直接法。看来, 对两个差别比较大的语言进行自动翻译, 直接法还是很有效的。究竟分析到哪一步实施转换, 是由系统的设计目标, 加工对象和研究深度等条件决定的。从上图可以看出, 分析越深入, 转换便越少, 最终达到没有转换。分析一下两极的情形是很有意思的, 即: (1) 只有转换的翻译; (2) 没有转换的翻译。只有转换的翻译是一一对应的翻译, 不需要分析和生成。翻译只是机械的数据库查询和匹配过程, 谈不上任何理解。需要指出的是, 对于语言中纯粹的成语和习惯表达法, 这种翻译方法不仅是有效的, 往往也是必需的。机器翻译的另一极是建立在充分理解基础上, 毋须转换的自动翻译, 这是从实质上对人的翻译过程的模拟。这时候, 源语分析才是真正的自然语言理解, 机器翻译才真正属于人工智能。然而, 这里遇到两个难题: 一是知识处理问题; 二是所谓元语言问题。考察人的翻译活动, 可以发现, 人是靠丰富的知识在理解的基础上从事翻译的。这些知识既包括语言知识, 也包括世界知识(常识、专业知识等)。如何组织这些包罗万象的百科全书一样的知识, 以便适应机器处理和运用的需要, 是人工智能所面临的根本性课题。另一方面, 人类可以用语言交流思想, 语言可以相互翻译, 必定有某种共同的东西作为基础, 否则一切交流和翻译都是不可思议的。概念, 或者更准确地说, 概念因子(即构成各种概念的元素)是全人类一致的。概念与概念间所具有的逻辑关系和结构也是全人类共同的。如果人们可以把这种共同的东西研究清楚, 把它定义成元语言, 源语分析以元语言作为其终极表达, 目标语生成也以元语言作为出发点, 就不需要任何转换了。这时候, 源语分析和目标语生成便完全独立, 每一种语言只需要一套针对元语言的分析和生成系统, 就可以借助于它自动翻译成任何其他语言。研究元语言是认知科学中的一个难题, 有待于语言学家, 逻辑学家, 心理学家, 数学家和哲学家的共同努力。有意义的是, 研究机器翻译的学者们设计过种种近似元语言的方案, 作为多种语言之间自动翻译的媒介语, 取得了一定的成果和经验。总之, 虽然机器翻译的最终出路在于人工智能的理论和技术的突破, 但在条件不成熟的时候过份强调机器翻译的人工智能性质, 一味追求基于知识和理解的自动翻译, 对于应用型机器翻译系统的研制, 往往没有益处。除了上述的两极, 人们根据转换所处的层次, 把机器翻译系统大致分为三代: 第I代是词对词的线性翻译, 其核心是一部双语词典, 加上简单的形态加工(削尾和加尾)。I代系统不能重新安排词序, 不能识别结构同形, 更谈不上多义词区分。第II代系统强调句法分析, 因此能够求解出句子的表层结构及元素间的句法关系 (分析结果通常表现为带有节点信息的结构树), 从而可以根据源语和目标语的对比差异进行句法结构的转换和词序调整, 这就从线性翻译飞跃到有结构层次的平面翻译。然而, 在没有语义的参与下, 虽然可以识别句法结构的同形, 但却不能从中作出合适的选择; 多义词区分问题也基本上无法解决。第III代系统以语义分析为主, 着重揭示语句的深层结构及元素间的逻辑关系,可以解决大部分结构同形和多义词区分问题。目前, 多数机器翻译系统处于II代,或II代和III代之间。纯粹以语义分析为核心的III代系统只做过小规模的实验(Wilks, 1971), 但也取得了令人瞩目的成就。从工程和实用考虑, 大型商品化机译系统的研制, 采用句法分析与语义分析相结合的方法, 是比较切合目前的研究水平和实际需要的。从方法上看, 语言规则和算法分开是自动翻译技术上的一大进步, 算法从而成为系统的控制器和规则的解释器。早期的机器翻译系统并没有专门的语言规则库, 而是把规则编在程序中, 这带来三个严重的缺陷: 第一, 规则的每一点修改都要牵涉程序的变动; 第二, 无法提高机器翻译算法的抽象度, 从而影响了语言处理的深度和效率; 第三, 不利于语言学家和计算机专家的分工合作。值得强调的是, 规则与算法分开以后, 只是从形式上为规则的增删修改提供了方便, 真正的方便取决于规则的结构体系, 具体地说, 就是规则与规则的相互独立程度。如果规则彼此依赖, 牵一发而动全身, 就谈不上修改规则的自由。这样的网状规则系统在规则数达到一定限量以后, 就无法改进了: 往往改了这条, 影响那条, 越改越糟, 最终可能导致系统的报废。因此, 在规则和算法分开以后, 有必要强调规则与规则分开。随着信息社会的到来, 人工翻译的低效率已远远不能满足社会的需求, 迫切需要计算机帮助人们翻译。目前, 世界上已有一批机器翻译系统投放市场或投入运用, 更多的系统正在积极研制中。而英汉机器翻译也已有高科技产品问市。在大陆，继“译星”一鸣惊人后, 近年又有两套英汉系统分别投放市场, 一套为中国社会科学院语言研究所和北京高立电脑公司所研制开发,另一套是中国科学院的863项目，竞争日趋激烈。机器翻译经过40多年的发展, 对语言的认识逐步深入, 发展了许多行之有效的语言处理技术。其前景是令人乐观的。寄自加拿大姐妹篇：【立委科普：信息抽取】: http://www.starlakeporch.net/bbs/read.php?45,20654 何人可12月 6th, 2008 at 5:18 pm 贤弟十二年前的旧作今天读来仍有不少新意，如基于语义分析的机译，和语言规则的独立性的重要。这些年我一直在关注NLP和MT的进展，但机器翻译的出路是在哪儿呢？我认为基于概念的机器翻译是个方向，不知你是否有所涉及，有何心得？ liwei12月 6th, 2008 at 7:08 pm 何兄謬爱。我其实已经离开这个领域不少时间了，知识陈旧了。从应用上看，由于海量双语对照文库的存在，由 IBM 研究人员等开端的统计一派现在成为业界主流，基于对等翻译单位（translation unit, 可以是词，词组或成语）的统计信息的系统已经达到实用开发的程度。这实际上是词汇转换（lexical transfer）路线的翻版，直接在源语和目标语之间建立联系，跳过显性的概念手段。所谓基于概念的翻译原理上没有问题。概念从最低处说包括从词到概念的转换，涉及多义词区分（word sense disambiguation）的难题（从概念转换到目标语的词原则上不是难题，即便一个概念对应多个目标词，选错了也不影响整体意义，影响的是翻译的地道程度）。WSD本身是NLP中最艰难的问题之一。如果基于概念进一步包括“表层结构”到深层逻辑结构的转换的话，那么基于概念的翻译也就是我文中所说的基于理解的翻译了，真正属于人工智能的范畴了。【姐妹篇】【立委随笔：机器翻译万岁】《立委科普：自然语言处理领域中的语义路线及其代表人物》【置顶：立委科学网博客NLP博文一览（定期更新版）】

个人分类: 立委科普|9852 次阅读|0 个评论

转发报告通知：机器翻译技术研究

timy 2009-11-9 16:43

题目：机器翻译技术研究报告人：张玉洁博士日本国立信息通信研究机构研究员时间：2009年11月11日（星期三）下午2：00 地点：中信所五层548会议室（北京海淀区复兴路15号中央电视台西门）张玉洁博士简历： 1986年从中国科学院计算技术研究所获得硕士学位，1986年1992年在中国科学院计算技术研究所从事８６３项目机器翻译的研究以及英中机器翻译系统的研发，获得国家科学技术进步一等奖。1999年从日本电气通信大学获得博士学位，博士论文的研究课题是日语依存结构解析中统计信息利用方法的研究。之后在日本国际电气通信基础研究所从事翻译技术的研究与开发工作，曾参加了新闻领域的日英机器翻译项目以及旅游观光领域的中日口语翻译项目。自2002年起在日本国立信息通信研究机构从事日中、中日机器翻译的研发,包括基于第三语言的译语自动获取技术以及日中平行语料库中单词自动对齐技术，40万条日中电子翻译辞典和4万句对的日中平行语料库的建设以及相关手工辅助标注工具的开发。2005年开始参加科学技术论文的日中、中日机器翻译项目。2007年-2008年完成了面向北京奥运及观光的中日机器翻译系统的开发，这个系统在通过第三方的技术评测后，被集成到北京奥运的观众信息服务平台中。2005年2006年参加了中国863评测项目中的日中机器翻译评测的组织工作，包括评测技术的研发、评测标准的制定以及评测数据的提供。到目前为止，在期刊上发表过12篇论文，在国际会议上发表过20多篇有审查的论文，获得过两项专利。（个人主页： http://mastarpj.nict.go.jp/~yujie/ ）报告提纲：在报告中张玉洁博士首先讲述机器翻译研究的发展历史，然后详细介绍机器翻译的主要方法及其相关基础技术。在此基础之上，张玉洁博士还将根据其工作经验介绍机器翻译系统的开发技术和具体应用，以及机器翻译研发在日本的最新发展状况。如果您对计算语言学、机器翻译感兴趣，可以来此与张博士一起交流和讨论。欢迎所内外各界人士踊跃参加！信息技术支持中心学术委员会二○○九年十一月九日

个人分类: 自然语言处理|4476 次阅读|0 个评论

全国第五届机器翻译会议观感

gothere 2009-10-17 22:39

转眼之间，南京大学承办的第五届机器翻译会议闭幕了。这次会议汇聚了国内主要的机器翻译研究机构的大牛们，会议报告和讨论都十分有激情。会议上，参与今年机器翻译评测的各机构讨论总结了机器翻译及评测的若干问题。我自己并不怎么搞机器翻译，只能就自己的理解总结如下： 1 国内自己举办的评测，直接推动了国内同行的交流和共同进步。由于评测方是中国人，更能体会评测中存在的问题，这样能更好地敢追甚至超越国际同行。 2 统计机器翻译方法占据了绝对主流。包括SYSTRAN，虽然主干是几十年来一贯的规则系统，但也增加了很多统计方法，优化翻译结果。 3 MOSES成为基本平台。酷似SIGHAN的比赛，各支参赛队都用上了摩西系统（http://www.statmt.org/moses/），或直接利用，或修改或重写代码。几天的报告下来，摩西成了最高频的词语。连董振东老师都评价道：你们说参加评测的哪个系统最成功？我看是摩西。 4 语言知识的利用进一步加强。句法分析的引入，使得SMT效果有了一定的提升。句法信息，作为一种结构化的启发性知识，应该可以提升效果。句法分析的质量对提升度也基本成正比。那么下一步需要什么样的语言知识，成为与会者关注的话题。毕竟这不是一个简单的问题，google的大牛就说，SMT中的语言知识是有害的。 5 机器翻译的产学研一体化还有很长的路要走。由于目前的机器翻译质量很不理想，难以应用到直接的翻译领域，但作为辅助翻译还是有市场的。沈阳的格微软件就推出了国内第一款辅助机译系统。 6 机器翻译遇到严冬还是春天？机译系统的低性能，多年来的慢进展，使得国家投入也萎靡不振。即使奥巴马政府的白皮书支持美国的MT，也没办法让SMT在十年内达到全新的高度。美国的聪明人很多，语言学家也很多，机器翻译的真正提高，目前还是靠语言资源的增加（比如谷歌的海量数据）。没有新的语言理论，机器翻译不管投入多少钱，不管社会多需要，都不可能达到较为理想的地步。所以，我同意没钱不好做事情，但对有钱就一定可以持保留意见。好了，从语言和计算的角度谈谈自己的看法。我关心的是可计算的语言知识的构建，现有的语言知识库，大都处于唯物主义的范畴，几乎不顾及语言的主观性，所以是僵化的系统。这样的知识并不是语言知识，而是世界知识或常识。语言知识是什么，就拿汉语的语气词来说，呢有多种用法，这些用法与什么客观的东西都不相干，而是表达的说话人的不同意图、认识。不从根本上重建基于认知的心理的语言知识库，就没法给机器翻译或其他的NLP带来真正的帮助。

个人分类: NLP|5982 次阅读|0 个评论

帐号		自动登录	找回密码
密码			注册

关闭安全验证

标签: 机器翻译

相关帖子

相关日志

关闭 安全验证

标签: 机器翻译

相关帖子

相关日志

关闭安全验证