世界语到汉语和英语的自动翻译试验 --EChA 机器翻译系统概述 第 39 页———————————————————————————————————————————————————— 10. EChA 试验结果分析 总的来说 , 这次试验结果相当令人满意。译文不但可读 , 多数都很通顺。由于比较重视修辞 , 机器味儿也不浓。当然 , 这毕竟是小范围的实验 , 虽然我们尽量照顾到各种可能出现的语言现象 , 但也难说在今后的扩大试验中会出现什么问题 , 好在该系统比较容易维护和改进。 第二首诗中有两处 (110)(111) 把疑问句错译成英语强调句 : CHU kredas la vorton pure karan: vin mi amas! (111) DO BELIEVE the word purely dear: I love you! Cf: 相信纯粹地亲爱的词吗 : 我爱你 ! 这是因为原诗句为了节奏的需要 , 承前省略了主语 VI (YOU) 。有意思的是 , 译成强调句于诗意没有什么损害。 在 EChA 上机伊始 , 我们由于专心于检验方案主体的可行性和合理性 , 而忽略了修辞。初期译文 (1985.12) 显得较粗糙 , 比较后期结果 (1986.2), 译文的改进是明显的。例如 : 1. 形式主语 IT 的增加 (007)(012)(077)(122)(125)(133): Sed chio chi ankorau okazis sub homa gvidado kaj PLEJ GRAVE ESTIS, KE chio chi bazighis sur la homa scio. (012) 1) But all this still happened under man's guiding and MOST IMPORTANT WAS, THAT all this was based on the man's knowledge. 2) But all this still happened under man's guiding and IT WAS MOST IMPORTANT, THAT all this was based on the man's knowledge. 2. 不定式带 TO 跟不带 TO 的区分 (004)(019)(072)(078)(083)(084)(088)(089)(092)(095)(132)(142)(146): LABORI estas necese.(072) 1) (TO) WORK is necessary. 2) TO WORK is necessary. 工作是必要的 . 3. 双宾语 (128)(143)(144): Donu AL mi iom da kafo! (128) 1) Give TO me a little coffee! 2) Give me a little coffee! 给我一点咖啡 ! 表示存在的 ESTI 译 有 和 THERE TO BE (049)(157): En unu jaro ESTAS kvar sezonoj: printempo, somero, autuno kaj vintro. (049) 1) In one year ARE four seasons: spring, summer, autumn and winter. 在一年里面 是 四季节 : 春季 , 夏季 , 秋季和冬季。 2) In one year THERE ARE four seasons: spring, summer, autumn and winter. 在一年里面 有 四季节 : 春季 , 夏季 , 秋季和冬季 . 。 5. 目标语词义的选择 (059)(067)(081)(046)(098)(013)(014)(027)(118)(130): ELMETU viajn opiniojn pri nia laboro! (059) 1) 输出 你们的关于我们的工作的意见 ! 2) 提出 你们的关于我们的工作的意见 ! OUTPUT your opinions about our work! Chu mi FARIS multajn erarojn en mia hejmtasko? (081) 1) Did I DO a lot of mistakes in my homework? 我在我的家庭作业里面 做 了许多错误吗 ? 2) Did I MAKE a lot of mistakes in my homework? 我在我的家庭作业里面 犯 了许多错误吗 ? La partio TRE zorgas la vivon de la popolamaso. (046) 1) The party VERY cares for the life of the masses. 2) The party VERY MUCH cares for the life of the masses. 党很关心人民群众的生活。 La suno levighas CHE oriento. (013) 1) The sun rises AT east. 2) The sun rises IN THE east. 太阳在东方升起。 POST unu monato komencighos la someraj ferioj. (014) 1) AFTER one month will begin the summer's holidays. 2) IN one month will begin the summer's holidays. 暑假在一月以后将开始。 La eksperimento pri mashina tradukado ANKORAU NE estas finita. (027) 1) The experiment about machine's translating STILL has been NOT finished. 关于机器的翻译的试验 仍然没有 被完成。 2) The experiment about machine's translating has been NOT finshed YET. 关于机器的翻译的试验 还没有 被完成。 Ni esperas, ke li GAJNU championecon en la konkurso. (118) 1) We hope, that he WIN championship in the competition. 2) We hope, that he WILL WIN championship in the competition. 我们希望 , 让他在比赛里面赢得冠军。 Prenu la lingvon neutralan KIEL la bazon. (130) 1) Take the language neutral AS the base. 2) Take the language neutral FOR the base. 拿中立的语言作为基础。 通过 EChA 试验 , 我们深深体会到 , 同一语系中的语言转换较之不同语系容易许多。亲属关系越近 , 机器翻译对自动分析的精度要求也就越低 , 因而越容易推向实用。英语和汉语都是分析型语言 , 有很多类似的语言特点 , 即便如此 , 世英转换比世汉还是简单得多。只要建立一部世英自动词典 , 再加上一套形态转换算法 , 甚至无需进行层次和句法的分析 , 就可以实现词对词世英机器翻译。这样的译文尽管粗糙 , 但在相当程度上是可用的。我们对 ECHA 综合第一线 ( 形态转换 ) 输出的未经调序 * 的中间译文作了统计 , 以不引起误解为标准 , 英语正确率为 95% (150/158) 左右 , 费解的有八句 (003)(010)(075)(095)(102)(108)(111)(141), 汉语正确率为 72% (113/158) 左右。排除形态转换中利用了句法分析结果的部分 , ( 但不排除第一线的虚词分析和转换 ), 英语正确率也在 80% 以上。如果在输出译文时 , 对前置宾格名词加上标识符 , 则可懂度还可提高。当然 , 我们试验的这 158 句总有一定的局限 , 所以上述统计也只具有相对意义。中国的机器翻译 , 从一开始研究的就是印欧和汉臧这两个没有亲属关系的语系间语言的自动转换 , 难度很大。这恐怕是我们的实用系统迟迟不能问世的重要原因之一。所以 , 崐中国机器翻译工作者肩上的担子更重 , 任务更艰巨 , 更需要独创和献身精神。这种不利的条件也有它的另一面 : 机器翻译与汉语结合带来的许多特别的问题 , 客观上使我们的研究比较深入。我国的机译研究就没有象欧美那样经历词对词翻译的第一代 , 而是直接从第二代句对句翻译开始 , 起点较高 , 并且在很短时间内 (60 年代初期 ) 就赶上了当时的世界先进水平。这显然与我们所研究的特定对象 ( 俄 - 汉 , 英 - 汉等 ) 的要求有关。 现在谈谈另一个问题 : 文学作品可不可以由机器翻译 ? 我们说完全可以 , 不过很困难。要把人在翻译文学作品时所遵循的规则 ( 其中很多是下意识的 ) 形式化算法化 , 显然不容易。即便做到了 , 经济上也不上算。所以 , 在相当长的时间内 , 除特别的实验需要外 , 人们一般不去花这个力气。 EChA 选译了两首诗歌 , 在这个方面做了粗浅的尝试 , 证明机器也可译诗。从译文看 , 英语比汉语美 , 保留了更多的节奏和韵律的特点 , 更象一首诗。汉语译文除了几句译得较好 ( 如 : 向永远战争着的世界 , / 它允诺神圣的和谐 ), 总体上看 , 更象一篇散文。这也难怪 , 因为 EChA 本来就不是专门为翻译诗歌而设计的。诗歌形式上的两个最大特点是节奏和尾韵。可以设想 , 诗歌机译系统的词典跟一般机器词典应有所不同 : 各词条的每一义项下集中了一批同义的目标语等价词。这些词长短不一 , 韵尾各异 , 供机器在诗歌综合时选用 , 正象人在写诗或译诗时常需要翻韵书一样。 一提机器翻译 , 人们总爱问 : 机器能够翻译文学作品吗 ? 为什么不能 ? 离散是对连续的逼近 , 机器智能是对人的智能的模拟 , 二者之间并没有一道不可逾越的鸿沟。从功能上看 , 机器和人没有什么不同。机器不过是无机体的人罢了。只要人会的事情 , 机器迟早也能会。机器的不会并不是它不能 , 而是人没有使它会 , 这正如文盲不会写字是因为没人教他一样。不过 , 机器胃口很刁 , 不懂 意会 , 只有 言传 ( 通过计算机语言 ) 才能教会它。可惜 , 对很多事 , 人至今还是知其然 , 并不知其所以然 , 无法传授。可见 , 机器的无能全由于人的无能。可人今天不知其所以然的 , 并不说明将来总也不知 , 所以从发展的观点看 , 机器和人一样是无所不能的。事实上 , 机器目前已能代替医生 , 译员和作曲家做部分工作 , 而且比技术较差的人做得还象样些 , 因为它 取法乎上 。即便人 , 也只有很少一部分专家能够从事这些工作。机器已经闯进了万物之灵的神圣禁地。 最后 , 一般地谈谈修辞问题。由于机器翻译至今多局限在实验室里 , 所以未予修辞而产生的阅读障碍 ( 包括心理障碍 ) 还不突出。但随着机器翻译的逐步实用化 , 修辞的必要性将越来越明显。前面所举的后期译文对初期译文的改进的实例 , 主要涉及的就是修辞。 1) 什么是机器翻译修辞 ? 机器翻译修辞是保证译文通顺的一个重要手段。它是机器语法之后译文综合的一部分 , 是自动翻译过程的最后一个环节。广义的修辞包括贯穿翻译全过程的 , 一切旨在促使译文通顺和美化的手段 , 譬如成语手段 ( 通过成语词典 ), 虚词分析 ( 通过虚词模块 ), 结构手段 ( 通过搭配关系 ) 等等。有些所谓多义区分 , 实际上也是一种修辞 , 例如 LUDI (PLAY) 可分为 玩 , 打 ( 球 ), 演奏 ( 乐器 ) 等义项 , 但 演奏 义下具体选择 拉 ( 提琴 , 胡琴 )(016), 弹 ( 钢琴 )(038) 还是 吹 ( 口琴 ) 就属于修辞了。 EChA 对于涉及多义的修辞 , 即目标语合适对等词的选择 , 就把它当作多义问题解决 ( 见 EChA 虚词模块 , 词类词义区分表和多义区分模块 ) 。一般来说 , 跟具体的词汇或语法现象联系很紧的修辞 , 以及其他个性较强的特例修辞 , 应该放在相应的词典或语法部分同时处理 , 而可以归出类别的修辞 , 则由最后独立的修辞模块统一解决。 机器翻译修辞具有某种超语言学的特征 , 属于翻译学范畴。我们知道 , 根据原语和译语的语言学角度的对比差异 , 就可以对所译文句实现转换 ( 主要是句型转换 ), 这是我们目前机器翻译的主体工作。但这样直接转换的句子不能保证其通顺 , 甚至也不能保证其正确 ( 即不被误解 ), 因为语言间 ( 尤其是没有亲属关系的语言间 ) 除了词汇语法等差异外 , 还有超语言学 ( 表达习惯 , 思维方式等等 ) 的差异存在 , 即翻译学角度的对比差异。例如 : nun DE LOKO flugu ghi AL LOKO (now FROM PLACE let it fly TO PLACE) (101) / 现在从 一个 地方让它飞到 另一个 地方吧 ( 从地方到地方 不符合汉语表达习惯 ) 。修辞主要是为消除这种差异而设置的。因此 , 只有翻译学角度的语言对比差异 , 才是修辞的根本依据。 2) 修辞的分类 可分作两大类 : 必要修辞和美修辞。必要修辞是保证译文正确可懂所必需的修辞 , 它是修辞的初级阶段。美修辞则是保证译文通顺畅达 , 甚至产生某种美感或帮助形成译文风格所要求的修辞 , 它是修辞的高级阶段。机器翻译修辞首先是作为必要修辞提出来的。必要修辞是基础 , 具有更大的迫切性 , 是所有实用系统的必要组成部分 , 如形态修辞。这部分修辞数量很有限 , 一定量的研究就可以穷尽它。美修辞可以说是锦上添花。它是为机器译文不断提高质量 , 使之朝成熟 , 完美方向发展 , 以期赶上人工翻译的手段。可见 , 美修辞是无限发展的 , 它本身具有许多层次和侧面。修修补补远不能满足美修辞发展的需要。它要求体系和方法上的不断革新。就机器翻译的前景来说 , 美修辞的比重将逐渐变大。从严格的意义上讲 , 只有美修辞才真正体现修辞本身的特点和规律 , 因为必要修辞在一定的意义上不过是语法的推广 , 即可以算作广义的语法。它的手段跟机器语法没有根本的不同。在现行的 EChA 系统中 , 必要修辞就常常跟语法混在一起。 关于美修辞 , EChA 只是做了一点尝试。应该指出 , 机器翻译的美有自己的侧重点 , 它最推崇 通顺流畅 , 合乎习惯和简洁自然 , 其次是译文风格的形成。我们认为 , 机器译文的风格逐步形成 , 是完全可能的。因为从形式上看 , 风格的承担者主要是词汇 , 尤其是小词 ( 语气词 , 结构词 ), 其次 , 语法形式也有些不同。不同风格的形式特点 , 是可以为机器识辨和接受的。具体做法可以吸收计算风格学 (Computational stylistics) 的研究成果 , 去设计不同风格的译语修辞模型。风格可以有正规体 , 典雅体和口语体等等。正规体格式规范 , 清楚简单 , 给人的印象是客观公正 , 不假藻饰。典雅体的特点是虚词多用古字 ( 如 则 , 即 , 乃 , 便 , 故 , 且 , 其 , 及 等 ), 成语用的也较多 , 显得简洁古雅。口语体则比较松散自由 , 带有更多的语气词 ( 如 吗 , 呢 , 可不 , 是吗 , 啊 等 ) 。 _________________________________________________________________________________ 附注 : 参见 刘涌泉 中国的机器翻译 ( 情报科学 1980, 3 ) 研制世界语类型的机器翻译系统 , 从一开始就得到刘涌泉老师的热情支持 , 从方案主体到具体问题的处理 , 他都给以认真指导。在程序设计和上机调试的的过程中 , 刘倬老师也多次给予指导 , 有些基本操作的算法也是刘倬老师提供的。在 EChA 系统取得初步成果的时候 , 笔者向他们表示深切的感谢。另外 , 还要特别感谢机房韩老师的多方协助。没有她提供的方便 , EChA 系统根本不可能在这么短时间试验成功。 第 45 页—————————————————————————————————————————————— 1. Heinz Dieter MAAS Automata Tradukado en kaj el Esperanto ( Lingvo-kibernetiko kaj aliaj internacilingvaj aktoj de la IX-a Internacia Kongreso de Kibernetiko, pp 75-81, 1982 Gunter Narr Verlag Tubingen ) 2. 机器翻译论文选辑 ( 科学技术文献出版社 , 1979 ) 3. Kalocsay-Waringhien Plena Analiza Gramatiko de Esperanto ( 中国世界语出版社 , 1984 ) 4. 刘涌泉等著 中国的机器翻译 ( 知识出版社 , 1984 ) 5. 刘涌泉 , 高祖舜 , 刘倬著 机器翻译浅说 ( 科学普及出版社 , 1964 ) 6. 刘涌泉 , 李维 巴贝尔通天塔必将建成 ( 中国第一届世界语大会论文 , 1985.8 ) 7. 刘倬 三次机器翻译试验 ( 第一次机器翻译学术会议论文 , 1980.9 ) 论机器翻译规则系统的编制方法 ( 1982.3 上海 ) JFY 型英汉机器翻译系统的研制和试验 ( 语言学会第二届年会论文 , 1983.4 ) 8. 乔毅 开展语言的计算机处理和世界语类型的机器翻译 ( 中国第一届世界语大会论文 , 1985.8 ) 9. 魏原枢 , 徐文琪编 世界语语法 ( 上海外语教育出版社 , 1982 ) 10. 叶蜚声 , 徐通锵著 语言学纲要 ( 北京大学出版社 , 1981 ) 11. 语言和计算机 (1) ( 中国社会科学出版社 , 1982 ) 12. 语言和计算机 (2) ( 中国社会科学出版社 , 1985 ) 13. 张道真编著 实用英语语法 ( 商务印书馆 , 1984 ) 第 46 页———————————————————————————————————————————————————— EChA 试验结果 (1) LA ORIGINALA TEKSTO / THE ORIGINAL TEXT / 世界语原文 (001) TIEL EVOLUIGHIS PLI KAJ PLI LA PLANADO PER MASHINOJ . (002) TIUJ MASHINOJ KOMENCE NUR ELKALKULIS LA DIKTITAJN MATEMATIKAJN PROBLEMOJN , KONFORME AL LA ENPROGRAMIGO . (003) LA ELEKTRONIKAN PROGRAMIGON PRETIGIS HOMOJ . (004) PLI POSTE , KIAM LA SCIODISKETOJ ESTIS ELTROVITAJ , LA PLENAN INDIKARON , ENDISKIGITAN , ONI METIS EN MASHINOJN KAJ ILI TIAMANIERE POVIS EN SI MEM AKUMULI SCIENCAN STOKON , PLI GRANDAN OL LA HOMA CERBO . (005) KAJ SE TEMIS EKZEMPLE PRI LA PLANADO DE ELEKTROMOTORO , ONI ENMETIS LA SHABLONDISKETON DE LA ELEKTROMOTOR-PLANADO , DONIS LA INDIKOJN DE LA DEZIRATA MOTORO ( KILOVATO , TENSIO , ROTACIO , TIPO , KTP ) , (006) POST KIO LA MASHINO MEM PROGRAMIGIS SIN KAJ FARIS LA KALKULOJN . POST KELKAJ MINUTOJ GHI JAM PRETE ELDONIS LA MEZUROJN : LA DIAMETRON DE LA ROTACIA PARTO , GHIAN LONGON, LA MEZUROJN DE LA KANELOJ , DRATOJ , LA VOLVONOMBRON , ENTUTE CHION BEZONATAN . (007) ECH PLI : BALDAU ESTIS ATINGITE , KE LA MASHINO FARIS LA TUTAN DESEGNON KAJ TRANSDONIS GHIN AL LA FABRIKO . (008) KOMPRENEBLE TIUJ DESEGNOJ NE ESTIS IDENTAJ KUN NIAJ PAPERDESEGNOJ . (009) ILI ESTIS DISKETOJ , KIUJ ENTENIS CHIUN DETALON . (010) TIAMANIERE LA PLANADON KAJ FABRIKADON DE LA MASHINOJ JAM PLENUMIS SAME MASHINOJ . (011) ILI PLANIS LA MENDITAN MASHINON , FABRIKIS , ECH KONTROLPROVIS GHIN KAJ LA FUSHAN FORJHETIS . (012) SED CHIO CHI ANKORAU OKAZIS SUB HOMA GVIDADO KAJ PLEJ GRAVE ESTIS , KE CHIO CHI BAZIGHIS SUR LA HOMA SCIO . LA TEKSTO TRADUKITA EN LA ANGLAN / THE TEXT TRANSLATED INTO ENGLISH / 英语译文 (001) SO DEVELOPED MORE AND MORE THE PLANNING BY MACHINES . (002) THOSE MACHINES AT BEGINNING ONLY CALCULATED OUT THE DICTATED MATHEMATICAL PROBLEMS , ACCORDING TO THE PROGRAMMING . (003) MEN PREPARED THE ELECTRONIC PROGRAMMING . (004) MORE LATER , WHEN THE KNOWLEDGE-DISKETTES HAD BEEN FOUND OUT , PEOPLE PUT THE FULL INDICATION , ENDISKED , INTO MACHINES AND THEY THEREFORE COULD IN THEMSELVES ACCUMULATE SCIENTIFIC STOCK , MORE GREAT THAN THE MAN'SBRAIN . (005) AND IF IT CONCERNED FOR EXAMPLE ABOUT THE PLANNING OF ELECTRIC MOTOR , PEOPLE INPUT THE SAMPLE DISKETTE OF THE MOTOR PLANNING , GAVE THE INDICATIONS OF THE DESIRED MOTOR ( KILOWATT , VOLTAGE , ROTATION , TYPE , ETC ) , AFTER WHICH THE MACHINE ITSELF PROGRAMMED ITSELF AND DID THE CALCULATIONS . (006) AFTER SEVERAL MINUTES IT ALREADY READILY GAVE OUT THE MEASUREMENTS : THE DIAMETER OF THE ROTARY PART ,ITS LENGTH , THE MEASUREMENTS OF THE GROOVES , WIRES , THE WINDING NUMBER , IN TOTAL ALL REQUIRED . (007) EVEN MORE : SOON IT HAD BEEN ACHIEVED , THAT THE MACHINE DID THE TOTAL DESIGN AND OVERHANDED IT TO THE FACTORY . (008) OF COURSE THOSE DESIGNS WERE NOT IDENTICAL WITH OUR PAPERDESIGNS . (009) THEY WERE DISKETTES , WHICH CARRIED ALL DETAIL . (010) THEREFORE MACHINES ALREADY FULFILED THE PLANNING AND MANUFACTURING OF THE MACHINES SAMELY . (011) THEY PLANNED THE ORDERED MACHINE , MANUFACTURED , EVEN EXAMINED IT AND THREW AWAY THE USELESS . (012) BUT ALL THIS STILL HAPPENED UNDER MAN'S GUIDING AND IT WAS MOST IMPORTANT , THAT ALL THIS WAS BASED ON THE MAN'S KNOWLEDGE . LA TEKSTO TRADUKITA EN LA CHINAN / THE TEXT TRANSLATED INTO CHINESE / 汉语译文 (001) 这样用机器设计越来越发展了。 (002) 那些机器开始时仅仅按照输入程序计算出所命令的数学问题。 (003) 人准 备了电子程序设计。 (004) 更以后 , 当微型知识磁盘被发明了时 , 人们把所写入磁盘的全套指令集合放到机器里面 , 他 ( 它 ) 们这 样能在自己本身里面积累比人的头脑更大的科学贮蓄。 (005) 如果涉及例如关于电动机的设计 , 人们输入了电动机设计的微 型样品磁盘 , 给了所希望的电动机的指标 ( 千瓦 , 电压 , 运转 , 型号 , 等等 ), 在此以后机器本身把自己程序化了 , 做了计算。 (006) 在几分钟以后它已经就能给出尺寸 : 运转部分的直径 , 它的长度 , 槽纹 , 导线的尺寸 , 圈数 , 总之所需要的一切。 (007) 甚至更 : 很 快达到了 , 机器做了整个图样 , 把它转交到工厂。 (008) 当然那些 图样 与我们的图纸不是一样的。 (009) 他 ( 它 ) 们是储有所 有细节的微型磁盘。 (010) 这样机器已经同样地完成了机器的设计和制造。 (011) 他 ( 它 ) 们设计了所定购的机器 , 制造了 , 甚 至检验了它 , 把废的抛弃了。 (012) 但是这一切仍然在人的指导下进行 , 最重要的是 , 这一切以人的知识作为基础 . (2) DIVERSAJ FRAZOJ / VARIOUS SENTENCES / 各类文句 (016) KIAM MI ESTIS LUDANTA VIOLONON , MIA ONKLO VIZITIS NIAN HEJMON . WHEN I WAS PLAYING VIOLIN , MY UNCLE VISITED OUR HOME . 当我 ( 当时 ) 正在拉小提琴时 , 我的叔叔访问了我的家。 (020) MI ESTOS FININTA LA EKSPERIMENTON PRI MASHINA TRADUKADO POST KELKAJ MONATOJ . I WILL HAVE FINISHED THE EXPERIMENT ABOUT MACHINE'S TRANSLATING IN SEVERAL MONTHS. 我在几月以后将已经完成关于机器的翻译的实验。 (028) BABELO NE ESTIS ELKONSTRUITA. BABEL HAD NOT BEEN BUILT UP . 巴贝尔塔没有被建成。 (029) NEPRE ESTOS ELKONSTRUITA LA NOVA BABELO . ABSOLUTELY WILL HAVE BEEN BUILT UP THE NEW BABEL . 新巴贝尔塔必然地将被建成。 (040) KIAL VI LERNAS ESPERANTON ? WHY DO YOU LEARN ESPERANTO ? 为什么你学习世界语 ? (044) NE PROKRASTU LA HODIAUAN LABORON GHIS MORGAU . DON'T PUT OFF THE TODAY'S WORK TILL TOMORROW . 别把今天的工作推迟到明天。 (045) KIEL BONE PENTRAS LA KNABO ! HOW WELL THE BOY PAINTS ! 男孩多么好地画画啊 ! (048) KIU ESTAS LA AUTORO DE LA LIBRO , KIUN VI JHUS LEGIS ? WHO IS THE AUTHOR OF THE BOOK , WHICH YOU JUST READ ? 你刚刚读了的书的作者是谁 ? (050) SE MI PARTOPRENUS EN VIA AMUZA AKTIVADO , MI ESTUS TRE GHOJA . IF I WOULD TAKE PART IN YOUR RECREATIONAL ACTIVITY , I WOULD BE VERY GLAD . 如果我参加你 ( 们 ) 的文娱活动 , 我会是很高兴的 . (056) CHU VI MEMORAS LA TAGOJN , KIAM NI KUNE STUDIS EN LA UNIVERSITATO ? DO YOU REMEMBER THE DAYS , WHEN WE TOGETHER STUDIED IN THE UNIVERSITY ? 你记得我们在一起在大学里面学习的日子吗 ? (058) UNUIGHU PROLETOJ DE CHIUJ LANDOJ ! LET PROLETARIANS OF ALL COUNTRIES UNITE ! 让所有国家的无产者联合吧 ! (061) KIEL SAGHA VI ESTAS ! HOW WISE YOU ARE ! 你是多么聪明啊 ! (062) ESPERANTO ESTAS INTERNACIA HELPA LINGVO . ESPERANTO IS INTERNATIONAL HELP LANGUAGE . 世界语是国际辅助语言。 (067) LIA PROPONO ESTAS , KE NI CHIUJ LIBERE ELMETU NIAJN OPINIOJN . HIS PROPOSAL IS , THAT WE ALL FREELY OUTPUT OUR OPINIONS . 他的建议是 , 让我们所有人自由地提出我们的意见。 (068) MI NE SCIAS , KIAM KOMENCIGHOS NIAJ FERIOJ . I DON'T KNOW , WHEN WILL BEGIN OUR HOLIDAYS . 我不知道 , 我们的假日什么时候将开始。 (069) LA LIBRO , KIU KUSHAS SUR LA TABLO , ESTAS VERDA . THE BOOK , WHICH LIES ON THE TABLE , IS GREEN . 在桌子上躺的书是绿的。 (071) LA INFANO PLORAS , CHAR IU LIN BATIS . THE CHILD CRIES , BECAUSE SOMEBODY BEAT HIM . 小孩哭 , 因为某人打了他。 (078) LERNI ESPERANTON NE ESTAS MALFACILE . TO LEARN ESPERANTO IS NOT DIFFICULT . 学习世界语不是困难的。 (084) MI NE SCIAS , CHU VI POVAS PLENUMI TIUN CHI TASKON . I DON'T KNOW , WHETHER YOU CAN FULFIL THIS TASK . 我不知道 , 是否你能完成这个任务。 (086) MULTAJ DIVERSLANDAJ ESPERANTISTOJ CHEESTOS LA UNIVERSALAN KONGRESON DE ESPERANTO OKAZONTAN PEKINE . A LOT OF VARIOUS COUNTRY'S ESPERANTISTS WILL ATTEND THE UNIVERSAL CONGRESS OF ESPERANTO TO BE HELD IN BEIJING . 许多不同国家的世界语者将参加在北京将召开的世界语的国际大会。 (089) LIA PROPONO ELEKTI NOVAN PREZIDANTON NE ESTIS AKCEPTITA . HIS PROPOSAL TO ELECT NEW PRESIDENT HAD NOT BEEN ACCEPTED . 他的选举新总统的建议没有被接受。 (090) SHI ESTAS LA PLEJ BELA EL LA KNABINOJ . SHE IS THE MOST BEAUTIFUL OF THE GIRLS . 她在女孩里面是最漂亮的。 (092) FALINTE , LI NE POVIS RELEVIGHI . HAVING FALLEN , HE COULD NOT GET UP . 摔倒了 , 他不能重新起来。 (093) FORIRONTE , LI PREMIS MIAN MANON . TO GO AWAY , HE SHOOK MY HAND . 将要离去 , 他握了我的手。 (098) MI TRE AMAS ESPERANTON , MI PLI AMAS ESPERANTISTOJN , MI PLEJ AMAS LA IDEALON DE ESPERANTO . I VERY MUCH LOVE ESPERANTO , I MORE LOVE ESPERANTISTS , I MOST LOVE THE IDEAL OF ESPERANTO . 我很爱世界语 , 我更爱世界语者 , 我最爱世界语的理想。 (116) NI LUDU , CHU BONE ? LET'S PLAY , ALL RIGHT ? 让我们玩吧 , 好吗 ? (119) KIA MIRAKLO TIO ESTAS , KE NIAJ ANTIKVULOJ KONSTRUIS LA GRANDAN MURON NUR PER SIAJ DU MANOJ ! WHAT MIRACLE IT IS , THAT OUR ANCESTORS BUILT THE GREAT WALL ONLY BY THEIR TWO HANDS ! 我们的祖先仅仅用自己的两手建造了长城 , 这是怎样的奇迹啊 ! (121) FORPASIS UNU TAGO , FORPASIS ANKAU LA DUA . PASSED AWAY ONE DAY , PASSED AWAY ALSO THE SECOND . 一天过去了 , 第二也过去了。 (122) CHU ESTAS EBLE , KE VI NENION SCIAS ? IS IT POSSIBLE , THAT YOU KNOW NOTHING ? 你不知道任何事 , 这是可能的吗 ? (131) LA HOMON , PRI KIU VI PAROLAS , MI NENIAM VIDIS . I NEVER SAW THE MAN , ABOUT WHOM YOU SPEAK . 我从未看见过你提到的人。 (132) NI , ESPERANTISTOJ , DEVAS LABORI PLI ENERGIE OL IAM . WE , ESPERANTISTS , MUST WORK MORE HARD THAN EVER . 我们 , 世界语者 , 应该比任何时候更努力工作。 (133) SOMERE ESTAS TRE VARME . IN SUMMER IT IS VERY HOT . 夏天是很热的。 (134) DOKTORO ZAMENHOF NASKIGHIS LA 15-AN DE DECEMBRO EN 1859 . DOCTOR ZAMENHOF WAS BORN ON THE 15TH OF DECEMBER IN 1859 . 柴门霍夫博士 1859 年十二月的 15 号出生。 (135) SE VI SCIUS , KIU LI ESTAS , VI LIN PLI ESTIMUS . IF YOU WOULD KNOW , WHO HE IS , YOU MORE WOULD ESTEEM HIM . 如果你知道 , 他是谁 , 你更会尊敬他。 (136) CENTOJ DA MALFERMAJ AUTOJ NIN PORTIS AL LA CENTRA LENIN-STADIONO , MALRAPIDE MOVIGHANTE TRA LA HOMA SVARMO . HUNDREDS OF OPEN CARS CARRIED US TO THE CENTRAL LENIN STADIUM , SLOWLY MOVING THROUGH THE MAN'S SWARM . 成百敞篷汽车把我们带到中央列宁运动场 , 缓慢地通过人群运动。 (137) MI VIDIS , KE LI FALIS KAJ LIA VESTO MALPURIGHIS . I SAW , THAT HE FELL AND HIS CLOTHES BECAME DIRTY . 我看见了 , 他摔倒了 , 他的衣服弄脏了。 (139) MI SCIIS , KE LI NE FAROS , KION LI PROMESIS . I KNEW , THAT HE WOULD NOT DO WHAT HE PROMISED . 我知道 , 他将不做他允诺的。 (140) ESTAS PAULO , KIU ARANGHIS LA AFERON . IT IS PAULO THAT ARRANGED THE AFFAIR . 是 PAULO 安排了事情。 (142) KUREGIS LA KNABO PER SIA TUTA FORTO , SED LI NE POVIS ATINGI LA PAPILION . RAN THE BOY BY HIS TOTAL STRENGTH , BUT HE COULD NOT ACHIEVE THE BUTTERFLY . 男孩用自己的整个力量狂奔 , 但是他不能达到蝴蝶。 (144) LI DONIS AL MI MULTAJN INSTRUAJN LIBROJN . HE GAVE ME A LOT OF TEACHING BOOKS . 他给了我许多教科书。 (145) CHU VI PAROLAS CHINE AU JAPANE ? DO YOU SPEAK IN CHINESE OR IN JAPANESE ? 你用中文还是用日文说话 ? (151) NUR TIU NE ERARAS , KIU NENIAM ION FARAS . ONLY THAT PERSON IS NOT WRONG , WHO NEVER DOES SOMETHING . 仅仅从不做某事的那个人不犯错误。 (155) ESPERANTO ESTAS CHIES PROPRAJHO . ESPERANTO IS EVERYBODY'S PROPERTY . 世界语是所有人的财产。 (156) MI MEMORAS CHIUN , KIUN MI VIDIS . I REMEMBER ALL , WHOM I SAW . 我记得我看见了的所有人。 (157) ESTAS NENIU EN LA CHAMBRO . THERE IS NOBODY IN THE ROOM . 在房间里面没有任何人。 第 页———————————————————————————————————————————————————— (3) DU POEMOJ / TWO POEMS / 两首诗歌 (099) LA ESPERO : ESPERANTISTA HIMNO ( POEMO FAR ZAMENHOF ) . (100) EN LA MONDON VENIS NOVA SENTO , TRA LA MONDO IRAS FORTA VOKO ; (101) PER FLUGILOJ DE FACILA VENTO , NUN DE LOKO FLUGU GHI AL LOKO . (102) NE AL GLAVO SANGONSOIFANTA , GHI LA HOMAN TIRAS FAMILION ; (103) AL LA MOND' ETERNE MILITANTA , GHI PROMESAS SANKTAN HARMONION . (099) THE HOPE : ESPERANTIST'S HYMN ( POEM BY ZAMENHOF ) . (100) INTO THE WORLD CAME NEW FEELING , OVER THE WORLD GOES STRONG VOICE ; (101) BY WINGS OF EASY WIND , NOW FROM PLACE LET IT FLY TO PLACE . (102) NOT TO SWORD BLOODTHIRSTY , IT PULLS THE MAN FAMILY ; (103) TO THE WORLD EVER FIGHTING , IT PROMISES SACRED HARMONY . (099) 希望 : 世界语者的颂歌 ( 柴门霍夫所作的诗歌 ) 。 (100) 新感觉来到了世界 , 有力的声音走遍世界 ; (101) 用顺风的翅膀 , 现在让它从一个地方飞到另一个地方吧。 (102) 它不把人的家庭 引到渴血的刀剑 ; (103) 向永远战争着的世界 , 它允诺神圣的和谐。 (104) AL NIA KARA LINGVO ( FAR IU NOVA ESPERANTISTO ) . (105) LA LINGVO GRACIA , KARA MIA , GHIS KIAM VI VENIS AL MI FINE FIN ? (106) ATENDIS SOIFE MI , ETERNE VIA , MI AMAS VIN ! (107) MI AMAS VIN VERE , PRUVU DIO , KAJ MIA BON-KORO BATAS NUR POR VI ; (108) NE PLU SEKRETETO ESTAS TIO : VIN AMAS MI ! (109) CHU KREDAS VI MIAN AMON MARAN ? (110) CHU KREDAS , KE MIA KORO FLAMAS ? (111) CHU KREDAS LA VORTON PURE KARAN : VIN MI AMAS ! (104) TO OUR DEAR LANGUAGE ( BY SOME NEW ESPERANTIST ) . (105) THE LANGUAGE GRACEFUL , MY DEAR , TILL WHEN YOU CAME TO ME AT LAST ? (106) WAITED LONGINGLY I , EVER YOURS , I LOVE YOU ! (107) I LOVE YOU TRUELY , LET GOD PROVE , AND MY GOOD HEART BEATS ONLY FOR YOU ; (108) NO LONGER THAT IS LITTLE SECRET : I LOVE YOU ! (109) DO YOU BELIEVE MY LOVE LIKE SEA ? (110) DO BELIEVE , THAT MY HEART BURNS ? (111) DO BELIEVE THE WORD PURELY DEAR : I LOVE YOU ! (104) 献给我们的亲爱的语言 ( 某新世界语者所作 ) 。 (105) 优美的语言 , 我的亲爱的 , 到什么时候你最后来到了我这儿 ? (106) 我渴望地等待 , 你的永远的 , 我爱你 ! (107) 我真实地爱你 , 让上帝证明吧 , 我的善良的心仅仅为了你跳动 ; (108) 那已经不再是小秘密 : 我爱你 ! (109) 你相信我的大海一样的爱吗 ? (110) 相信 , 我的心燃烧吗 ? (111) 相信纯粹地亲爱的词吗 : 我爱你 ! 第 57 页———————————————————————————————————————————————————— 世界语摘要 Automata Tradukado el Esperanto en la Chinan kaj Anglan Lingvojn --pri EChA Mashintraduka Sistemo EChA (el Esperanto en la Chinan kaj Anglan Lingvojn) estas esperimenta mashintraduka sistemo, kiu ricevas Esperanton kiel fontolingvon kaj elmetas fine la chinan kaj anglan lingvojn kiel celolingvojn. Ghi estas fraz-al-fraza traduksistemo, en kiu la analizo de la fontolingvo kaj la sintezo de la celolingvoj sendependas unu de alia. La traduka procezo de EChA tute automatas, nebezonante antau-redakton kaj post-redakton. La tuta peniga laboro dauris unu jaron. La sistemo EChA establighis sur la mikro-komputero IBM-PC/XT kaj la progamiga komputero-lingvo estas BASIC (D 2.00). EChA estas subtenata de la CCDOS sistemo (t.e. PC DOS 2.10 kun la tenejode china ideografiajho). La chefa parto de EChA konsistas el 6 linioj da analiza-sinteza programo. Krome, en la sistemo ankau fondighis 3 mashinvortaroj kaj 2 vortotabeloj kune kun la programoj por ilin establi, konsulti, ekspansiigi kaj protekti. La tuta sistemo programighis je ch. 10,000 BASIC-frazoj. En chi tiu eksperimento ni ricevis el EChA la mashintradukajhon de pli ol 150 frazoj kun diversaj lingvistikaj trajtoj inkluzive 2 poemojn (la unua estas La Espero far Zamenhof). La tradukajho en la china kaj angla celolingvoj estas sufiche prava kaj facile komprenebla. ( Vd. la apendicon ) La originala materialo elektighis el: 1. Mashinmondo far Sandor Szhatmari; 2. Gramatiko de Esperanto (Wei Yuanshu kaj Xu Wenqi, 1982). En la sistemo EChA spegulighas la enhavo de la tuta baza gramatiko de Esperanto kun chefaj fraztipoj, tial ghi povas ghuste trakti plejmulton da fenomenoj en Esperanto. Tamen, bedaurinde, limigite de tempo kaj la kondicho de komputero, la kuranta sistemo estas ankorau malgranda, la mashinvortaroj ege limigitas. Kompreneble, la sistemo bezonas ekspansiighon kaj plibonighon. Dekiam disvolvighis la esploro pri mashina tradukado en Chinio en 1957, EChA estas la unua sistemo por prilabori Esperanton. En majo de 1986 la sistemo trapasos la cezuron de la diploma komitato, pro kio la projektoro ricevos sian magistron. ___________ 丨 ___________ Enmeto de fontolingvo ----------------------- ____________________________________ 丨 ____________________________________ 1. Fortranchi gramatikajn finajhojn; konsulti la vortarojn ( Vortaro pri fleksaj vortoj, vortaro pri senfleksaj vortoj, vortaro pri vortogrupoj kaj vortotabelo por diferencigi la signon lau vortospeco ) ( VORTAROJ ) --------------------------------------------------------------------------- ____________________________________ 丨 _____________________________________ ANALIZO DE 2. Prilabori konjunkciojn kaj interpunkciojn, forigi la frazon en partojn FONTOLINGVO kaj trakti aliajn senfleksajn vortojn -------------------------------------------------------------------------- ____________________________________ 丨 ____________________________________ 3. Formighi CDC chenoj ( la interlingvo en EChA ) -------------------------------------------------------------------------- ____________________ ____________________________________ 丨 ____________________________________ 4. Produkti gramatikajn finajhojn por la angla lingvo kaj inserti helpajn vortojn por la china lingvo; diferencigi plursignifojn; konsulti la tabelon en la angla lingvo por senregulaj vortoj ------------------------------------------------------------------------- SINTEZO DE ___________________________________ 丨 ____________________________________ CELOLINGVOJ 5. Vicigi la vortordon por la angla lingvo ------------------------------------------------------------------------- ___________________________________ 丨 ____________________________________ 6. Vicigi la vortordon kaj beligi la frazon por la china -------------------------------------------------------------------------- ___________ 丨 __________ Elmeto de celolingvoj EChA sistemo konsistas el 3 subsistemoj: 1) Mashinvortaroj inter la fontolingvo kaj la celolingvoj En tiu chi subsistemo trovighas 5 vortaroj (tabeloj) kun la algoritmo por fortranchi gramatikajn finajhojn en Esperanto. La unua estas vortaro pri fleksaj vortoj, la dua pri senfleksaj vortoj kaj la tria estas por trakti vortogrupojn. La subsistemo liveras chiujn necesajn elementajn informojn al la frazkampo, kio bone bazighas por la postaj analizo kaj sintezo. 2) Analizo de la fontolingvo En chi tiu etapo la subsistemo decidas la strukturajn tavolojn kaj semantikajn interrilatojn de la prilaborata frazo. La rezulto enkorpighas en iu alte formala interlingvo CDC. La analiza procezo iras tute sendepende de ajna celolingvo, kio tre necesas kaj facile kompreneblas char la sistemo ne prenas iun certan lingvon kiel sian celon. Fakte la projektoro planas elekti la francan kaj la rusan kiel la trian kaj kvaran celolingvojn por la ekspansiota EChA. CDC estas la shlosilo al la sistemo EChA. Kiel mashintraduka interlingvo entenanta la rezulton de sendependa analizo pri fontolingvo, ghi konsistas el la informoj morfologia, sintaksa, situa, noda, tavola kaj chena. CDC ne nur priskribas prave la arbostrukturon de la prilaborata frazo, sed ankau enhavas en si utilajn aliajn informojn. Praktike, ghi bone bazighas por la plurlingvo-sinteza subsistemo. La unua linio de programo chefe celas la senfleksajn vortojn, speciale la konjunkciojn kaj interpunkciojn. Principe oni devas establi unu aron da analizareguloj por unu senfleksa vorto. En Esperanto ekzistas nur fiksa nombro da senfleksaj vortoj, sed ili estas tre kompleksaj en uzado, ghuste simile al la funkciaj vortoj en nacilingvoj. Fakte, ili chefe reflektas la lingvan individuecon, tial bezonas respektivan prilaboron. En chi tiu linio trovighas multe da malfacilajhoj, ekzemple pri la vortoj KAJ kaj KE. Ghenerale senfleksvortoj enhavas pli da gramatikaj signifoj. Tial la tasko chi tie eksterordinare gravas al la esperantofronta automate analiza sistemo. En la dua linio, la analizo multe pli abstraktas. La prilabora procezo estas cirkule voki la subprogramojn, kies kerno estas la verbosubprogramo kiu fakte estas matematika modelo de esperantogramatiko. Post la analizo rezultatas CDC-cheno responda al la fontofrazo. 3) Sintezo de la celolingvoj En la unua linio de chi tiu etapo inkluzivas ankau la regulojn por diferencigi plursignifojn kaj elekti 妅 onvenan esprimon en la celolingvoj lau la semantikaj trajtoj, la CDC kaj la semantike transferaj reguloj de la prilaborata vorto. En la kazo pri la sintezo de la china lingvo, la chefa tasko estas reordigi la prilaboratan frazon, char la vortordo en Esperanto estas tre libera kaj en la china lingvo tre mallibera. La reordiga informo dependas de kaj la chingramatikaj reguloj kaj la CDC interlingva cheno. Post la reordigo estas ankau necese plibonigi kaj beligi la tradukajhon precipe koncerne la inserton de la chinaj helpaj vortoj kiuj povas transporti etajn signifojn pri tempo, vocho kaj modo kaj aliajn nuancojn. Kiel chiuj scias, la china estas senfleksa lingvo, en kiu gramatikaj finajhoj tute mankas. Pri la lingvo angla, la sinteza kondicho fore favoras. La substantivoj en la angla ne sindistingeblas inter nominativo kaj akuzativo, tial la reordiga pasho chi tie celas certigi la frazon lau la tipa vortordo Subjekto-Predikato-Objekto (S-P-O). La alia grava tasko estas produkti finajhojn por la angla lingvo. Efektive, la morfologiaj transferaj reguloj inter la du lingvoj ne estas kompleksaj. Kvankam EChA estas nur eksperimenta malgranda sistemo, tamen ghi riche enhavas. EChA ne nur faras analizon morfologian (pri la fontolingvo Esperanto) sed ankau produkas finajhojn morfologiajn (pri la celoligvo angla). Ghi ankorau enkalkulas la regulojn vicigan (pri la china kaj angla) kaj beligan (pri la china). Krome, EChA havas sian interlingvon CDC, kiu pruvighas tre efika. Unuvorte, EChA tushas almenau chiujn problemojn por praktika sistemo, tial ghi vere estas tipa, tute automata modelo al unu-al-plurlingva praktika traduksistemo. ______________________________________________________________________________________________ Mi deziras chi tie eksprimi mian koran dankon al Profesoro Liu Yongquan kaj Profesoro Liu Zhuo. Sen ilia gvidado, mi tute ne povis plenumi mian eksperimenton pri EChA sistemo. Dekomence Profesoro Liu Yongquan subtenas entuziasme mian projekton pri EChA kaj donis multe da gvidaj konsiloj dum mia eksperimentado. Profesoro Liu Zhuo liveris al mi kelkajn algoritmojn de la elementaj operacioj pri mashina tradukado. Dankon ankau al Sinjorino Han pro shia helpo en la komputerochambro. BIBLIOGRAFIO 1. Liu Yongquan, Gao Zushun kaj Liu Zhuo, Enkonduko de Mashina Tradukado ( Eldonejo Kexuepuji, 1964 ) 2. Liu Yongquan k.a. La Mashina Tradukado en Chinio ( Eldonejo Zhishi, 1984 ) 3. La Elektita Traktataro pri Mashina Tradukado ( Eldonejo Kexuejishuwenxian, 1979 ) 4. Lingvo kaj Komputero (1) ( Eldonejo Zhongguoshehuikexue, 1982 ) 5. Lingvo kaj Komputero (2) ( Eldonejo Zhongguoshehuikexue, 1985 ) 6. Wei Yuanshu kaj Xu Wenqi, Gramatiko de Esperanto ( Eldonejo Shanghaiwaiyujiaoyu, 1982 ) 7. Kalocsay-Waringhien, Plena Analiza Gramatiko de Esperanto ( Eldonejo Zhongguoshijieyu, 1984 ) 8. Zhang Daozhen, Praktika Gramatiko de la Angla Lingvo ( Eldonejo Shangwu, 1984 ) 9. Ye Feisheng kaj Xu tongqiang, Skeleto de Lingvistiko ( Eldonejo Beijingdaxue, 1981 ) 10.Liu Yongquan kaj Li Wei, Nepre Estos Konstruita la Nova Babelo, 1985, akademia traktato por la Unua China Kongreso de Esperanto 11.Liu Zhuo, Tri Eksperimentoj pri Mashina Tradukado, 1980, akademia traktato por la Unua China Kongreso de Mashina Tradukado 12.Heinz Dieter MAAS, Automata Tradukado en kaj el Esperanto ( Lingvo-kibernetiko kaj aliaj internacilingvaj aktoj de la IX-a Internacia Kongreso de Kibernetiko pp. 75-81, 1982 Gunter Narr Verlag Tubingen ) 13.J. Chiau, Lingvojn Komputere Prilaboru kaj Esperanton Mashine Tradukadu, 1985, akademia traktato por la Unua China Kongreso de Esperanto 【相关】 硕士论文: 世界语到汉语和英语的自动翻译试验 立委硕士论文:1. EChA概况 立委硕士论文:2. 世界语: 语言学特点及其研究价值 立委硕士论文:3. 层次递归成分体系 立委硕士论文:4. EChA机器词典及词表 立委硕士论文:5. 世界语形态分析 立委硕士论文:6/7 世界语句法分析 立委硕士论文:8. 英语形态生成 立委硕士论文:9. 目标语调序 立委硕士论文:10. EChA 试验结果的分析 立委硕士论文【致谢】【参考书目】 立委硕士论文全文(世界语版) 《朝华午拾:shijie-师弟轶事(3)——疯狂世界语 》 灵感有如神授,巧夺岂止天工 《立委随笔:一小时学会世界语语法》 立委世界语文章 (1987): 《中国报道:通天塔必将建成》 立委世界语论文(1986): 《国际语到汉语和英语的自动翻译》 立委(1988)《世界科技:世界语到汉语和英语的自动翻译试验》 DLT项目背景介绍 立委硕士论文全文(世界语版) PhD Thesis: Morpho-syntactic Interface in CPSG (cover page) 【关于机器翻译】 【置顶:立委NLP博文一览】 《朝华午拾》总目录
立委履历 (一)工作经历 2006.11-至今 首席科学家 架构师,自然语言平台和核心技术设计者 所设计研发的自然语言平台支持新一代搜索引擎,用于企业市场,主要搜索互联网上的商业情报,包括产品技术信息,客户反馈,等。该产品为多家财富500强的研究部门和市场部门采用,证明了它提供的价值是其他搜索引擎和工具难以取代的。 1997/11 至 2006/03 Cymfony 公司,研究开发部,美国纽约州水牛城(Buffalo, New York) 主研究员(Principal Research Scientist) 自然语言处理副总裁(Vice President,NLP) (1999始) 撰写研究基金申请计划,先后赢得18项美国政府”小企业创新研究基金”(SBIR: Small Business Innovative Research),担任其课题负责人(PI: Principal Investigator or co-PI),研究开发新一代基于自然语言处理(NLP: Natural Language Processing)的信息抽取(IE: Information Extraction)技术。 该技术集中体现在 Cymfony 公司所开发的 InfoXtract(TM) 软件系列,包括 InfoXtract NLP/IE 引擎,组建技术,词典语法资源,有限状态转录机工具箱(Finite State Transducer Toolkit),机器自动学习工具箱(Machine Learning Toolkit)及开发平台。 在此基础上开发的软件产品 Brand Dashboard 和 Digital Consumer Insight,实时扫描处理数千种媒体报道,自动抽取品牌报道关键信息,过滤整合,分析数据全面反映品牌走势,为大企业创保作为无形资产的名优品牌提供决策参考,达到人工分析难以企及的广度及统计学意义上的精度。 2000 年帮助成功引进华尔街高科技风险基金一千一百万,使Cymfony由有两三个员工的从事互联网一般业务的公司发展成为具有70多员工,设立三处办公楼(美国波士顿,布法罗,和印度孟买分公司),引进专业管理人员及制订信息技术(IT: Information Technology)市场营销计划的高科技中小企业。 1999 年指导 Cymfony 研发部参与由美国国家标准技术局(NIST:National Institute of Standards and Technology)主持评判的第八届”文本检索大会”(TREC-8: Text Retrieval Conference)专项竞赛“自然语言问答系统”,获得第一名。 Cymfony 的技术及成长先后被多种媒体报道,包括《财富》,《华尔街日报》,《布法罗新闻》,及中文版《世界日报》。Cymfony 由于在一系列 SBIR 研究中成绩突出,被提名竞逐“2002 全美小企业最优合同项目年度奖”(2002 US Small Business Administration Prime Contractor of the Year Award)。 1987-1991 中国社会科学院语言研究所,北京 助理研究员 从事外汉机器翻译,自然语言处理及中文信息处理等领域的研究。 1988-1991 高立软件公司,北京 高级工程师(兼职) 从事高立英汉机器翻译系统 GLMT 的开发研究。主要工作有: 开发及调试八百条机器语法规则 设计及实现系统的语义模块背景知识库 培训及指导八人小组建立并开发有六万多词条的机器翻译词典及具有上万词典规则的专家词典规则库的开发 推动高立公司将 GLMT 1.0 产品化(1992) 该机译技术成功转化到香港韦易达公司袖珍电子词典系列产品中 GLMT于1992年1月在北京新技术产业开发试验区通过鉴定,先后获得北京市科技进步奖、新加坡INFORMATICS’92国际博览会计算机应用软件银奖和92年第二届中国科技之光博览会电子行业金奖,被列入火炬计划。 1988 承接荷兰 BSO 软件公司合同项目,撰写为多语种机器翻译服务的“汉语依从关系形式句法”,获得好评。 (二)教育经历 2001年 获加拿大 Simon Fraser University 计算语言学专业博士学位 学位论文 “汉语短语结构文法中的词法句法接口研究” (The Morpho-syntactic Interface in a Chinese Phrase Structure Grammar) 该汉语形式文法成功运用于英汉双向机器翻译系统的实验,证明同一部文法可以用于双向系统的汉语分析和综合。 攻读博士期间,多次担任计算机系自然语言实验室(Natural Language Lab)助研(Research Assistant)及语言学系助教(Teaching Assistant)或临时讲师(Sessional Instructor) 1991-1992年 英国曼彻斯特理工大学计算语言学中心(CCL/UMIST)博士候选人 1986年 获中国社会科学院研究生院语言学系机器翻译专业硕士学位 学位论文”从世界语到英语和汉语自动翻译”:这是国内少有的一对多机器翻译系统的研究探索。 1982年 安庆师范学院外语系英语专业学士学位 (三)获奖 2001年获本系杰出成就奖(Outstanding Achievement Award), Department of Linguistics, Simon Fraser University (award given to the best PhD graduates from the department) 1995-1997获加拿大卑诗省科学委员会 G.R.E.A.T. 奖学金 (G.R.E.A.T. Award, Scienc Council, B.C. CANADA), 旨在促进应用性博士课题与当地高科技企业的结合 1997年获校长研究资助(President’s Research Stipend) 1996年获新加坡 ICCC 大会特别旅行资助,宣讲论文 1995年获研究生奖学金(Graduate Fellowship) 1992年与傅爱平合作的机器翻译数据库应用程序获中国社会科学院软件二等奖 1991年获中英友好奖学金(中国教育部,英国文化委员会及包玉刚基金会联合提供)赴英深造 (四)其他专业活动 2002-2005,担任新加坡《中文和计算杂志》国际编委 1998-2004 担任企业导师(Industrial Advisor),先后指导20多位博士或硕士侯选人从事有工业应用前景的暑期实习研究课题(实习生来自纽约州立大学布法罗分校计算机系或语言学系) (五)论文发表记录 Srihari, R, W. Li and X. Li, 2006. Question Answering Supported by Multiple Levels of Information Extraction, a book chapter in T. Strzalkowski S. Harabagiu (eds.), Advances in Open- Domain Question Answering. Springer, 2006, ISBN:1-4020-4744-4. Srihari, R., W. Li, C. Niu and T. Cornell. 2006. InfoXtract: A Customizable Intermediate Level Information Extraction Engine. Journal of Natural Language Engineering, 12(4), 1-37, 2006. Niu,C., W. Li, R. Srihari, and H. Li. 2005. Word Independent Context Pair Classification Model For Word Sense Disambiguation. Proceedings of Ninth Conference on Computational Natural Language Learning (CoNLL-2005). Srihari, R., W. Li, L. Crist and C. Niu. 2005. Intelligence Discovery Portal based on Corpus Level Information Extraction. Proceedings of 2005 International Conference on Intelligence Analysis Methods and Tools. Niu, C., W. Li and R. Srihari. 2004. Weakly Supervised Learning for Cross-document Person Name Disambiguation Supported by Information Extraction. In Proceedings of ACL 2004. Niu, C., W. Li, R. Srihari, H. Li and L. Christ. 2004. Context Clustering for Word Sense Disambiguation Based on Modeling Pairwise Context Similarities. In Proceedings of Senseval-3 Workshop. Niu, C., W. Li, J. Ding, and R. Rohini. 2004. Orthographic Case Restoration Using Supervised Learning Without Manual Annotation. International Journal of Artificial Intelligence Tools, Vol. 13, No. 1, 2004. Niu, C., W. Li and R. Srihari 2004. A Bootstrapping Approach to Information Extraction Domain Porting. AAAI-2004 Workshop on Adaptive Text Extraction and Mining (ATEM), California. Srihari, R., W. Li and C. Niu. 2004. Corpus-level Information Extraction. In Proceedings of International Conference on Natural Language Processing (ICON 2004), Hyderabad, India. Li, W., X. Zhang, C. Niu, Y. Jiang, and R. Srihari. 2003. An Expert Lexicon Approach to Identifying English Phrasal Verbs. In Proceedings of ACL 2003. Sapporo, Japan. pp. 513-520. Niu, C., W. Li, J. Ding, and R. Srihari 2003. A Bootstrapping Approach to Named Entity Classification using Successive Learners. In Proceedings of ACL 2003. Sapporo, Japan. pp. 335-342. Li, W., R. Srihari, C. Niu, and X. Li. 2003. Question Answering on a Case Insensitive Corpus. In Proceedings of Workshop on Multilingual Summarization and Question Answering - Machine Learning and Beyond (ACL-2003 Workshop). Sapporo, Japan. pp. 84-93. Niu, C., W. Li, J. Ding, and R.K. Srihari. 2003. Bootstrapping for Named Entity Tagging using Concept-based Seeds. In Proceedings of HLT/NAACL 2003. Companion Volume, pp. 73-75, Edmonton, Canada. Srihari, R., W. Li, C. Niu and T. Cornell. 2003. InfoXtract: A Customizable Intermediate Level Information Extraction Engine. In Proceedings of HLT/NAACL 2003 Workshop on Software Engineering and Architecture of Language Technology Systems (SEALTS). pp. 52-59, Edmonton, Canada. Li, H., R. Srihari, C. Niu, and W. Li. 2003. InfoXtract Location Normalization: A Hybrid Approach to Geographic References in Information Extraction. In Proceedings of HLT/NAACL 2003 Workshop on Analysis of Geographic References. Edmonton, Canada. Li, W., R. Srihari, C. Niu, and X. Li 2003. Entity Profile Extraction from Large Corpora. In Proceedings of Pacific Association for Computational Linguistics 2003 (PACLING03). Halifax, Nova Scotia, Canada. Niu, C., W. Li, R. Srihari, and L. Crist 2003. Bootstrapping a Hidden Markov Model for Relationship Extraction Using Multi-level Contexts. In Proceedings of Pacific Association for Computational Linguistics 2003 (PACLING03). Halifax, Nova Scotia, Canada. Niu, C., Z. Zheng, R. Srihari, H. Li, and W. Li 2003. Unsupervised Learning for Verb Sense Disambiguation Using Both Trigger Words and Parsing Relations. In Proceedings of Pacific Association for Computational Linguistics 2003 (PACLING03). Halifax, Nova Scotia, Canada. Niu, C., W. Li, J. Ding, and R.K. Srihari 2003. Orthographic Case Restoration Using Supervised Learning Without Manual Annotation. In Proceedings of the Sixteenth International FLAIRS Conference, St. Augustine, FL, May 2003, pp. 402-406. Srihari, R. and W. Li 2003. Rapid Domain Porting of an Intermediate Level Information Extraction Engine. In Proceedings of International Conference on Natural Language Processing 2003. Srihari, R., C. Niu, W. Li, and J. Ding. 2003. A Case Restoration Approach to Named Entity Tagging in Degraded Documents. In Proceedings of International Conference on Document Analysis and Recognition (ICDAR), Edinburgh, Scotland, Aug. 2003. Li, H., R. Srihari, C. Niu and W. Li 2002. Location Normalization for Information Extraction. In Proceedings of the 19th International Conference on Computational Linguistics (COLING-2002). Taipei, Taiwan. Li, W., R. Srihari, X. Li, M. Srikanth, X. Zhang and C. Niu 2002. Extracting Exact Answers to Questions Based on Structural Links. In Proceedings of Multilingual Summarization and Question Answering (COLING-2002 Workshop). Taipei, Taiwan. Srihari, R. and W. Li. 2000. A Question Answering System Supported by Information Extraction. In Proceedings of ANLP 2000. Seattle. Srihari, R., C. Niu and W. Li. 2000. A Hybrid Approach for Named Entity and Sub-Type Tagging. In Proceedings of ANLP 2000. Seattle. Li. W. 2000. On Chinese parsing without using a separate word segmenter. In Communication of COLIPS 10 (1). pp. 19-68. Singapore. Srihari, R. and W. Li. 1999. Information Extraction Supported Question Answering. In Proceedings of TREC-8. Washington Srihari, R., M. Srikanth, C. Niu, and W. Li 1999. Use of Maximum Entropy in Back-off Modeling for a Named Entity Tagger, Proceedings of HKK Conference, Waterloo, Canada W. Li. 1997. Chart Parsing Chinese Character Strings. In Proceedings of the Ninth North American Conference on Chinese Linguistics (NACCL-9). Victoria, Canada. W. Li. 1996. Interaction of Syntax and Semantics in Parsing Chinese Transitive Patterns. In Proceedings of International Chinese Computing Conference (ICCC’96). Singapore W. Li and P. McFetridge 1995. Handling Chinese NP Predicate in HPSG, Proceedings of PACLING-II, Brisbane, Australia Uej Li. 1991. Lingvistikaj trajtoj de la lingvo internacia Esperanto. In Serta gratulatoria in honorem Juan Régulo, Vol. IV. pp. 707-723. La Laguna: Universidad de La Laguna Z. Liu, A. Fu, and W. Li. 1989. JFY-IV Machine Translation System. In Proceedings of Machine Translation SUMMIT II. pp. 88-93, Munich. 刘倬,傅爱平,李维 (1992). 基于词专家技术的机器翻译系统,”机器翻译研究新进展”,陈肇雄编辑,电子工业出版社,第 231-242 页,北京 李维,刘倬 (1990). 机器翻译词义辨识对策,《中文信息学报》,1990年第一期,第 1-13 页,北京 刘倬,傅爱平,李维 (1989), JFY-IV 机器翻译系统概要,《中文信息学报》,1989年第四期,第 1-10 页,北京 李维 (1988). E-Ch/A 机器翻译系统及其对目标语汉语和英语的综合,《中文信息学报》,1988年第一期,第 56-60 页,北京 其他发表 (略)