科学网 › 标签 › 掌故

标签: 掌故

相关帖子	版块	作者	回复/查看	最后发表

没有相关内容

相关日志

杭州西泠印社: 热度 2 Mech 2018-7-31 10:09; 西泠印社创建于 1904 年 ( 光绪三十年 ) 。几位篆刻名家结社于孤山南麓西泠桥畔，“人以印集、社以地名”，取名“西泠印社”。以“保存金石、研究印学，兼及书画”为宗旨。现在也是旅游景点。去年两次游西泠印社。第二次看得比较仔细。努力把各处都走到。入门有一池，称为莲池，又名莲泉、小方壶。 1876 年 ( 光绪二年 ) 丁申、丁丙兄弟移建竹阁时掘筑。 1953 年被填埋， 1979 年重新疏浚。我 1980 年游玩时应该见过。莲池畔有竹阁和柏堂。竹阁相传是白居易所建，他写有《宿竹阁诗》，谈玄论道，“巧未能胜拙，忙应不及闲。” 1546 年 ( 嘉靖二十四年 ) 太守陈一贯重建，以祭祀白居易。 1876 年 ( 光绪二年 ) 丁氏兄弟重建。柏堂是西泠印社最重要的建筑。相传源于陈朝广化寺两株柏树，由僧人志佺建于宋朝。现存的也是丁氏兄弟重建。内有西泠印社历史的展示。竹阁柏堂往山上走。过前山石坊，立于 1923 年。路旁有石交亭，金石结交之意，为 1912 年西泠印社初创时所建。山腰有仰贤亭 ( 建于 1905 年 ) 和宝印山房 ( 建于 1913 年 ) ，长廊相通。继续上行有石阶雪鸿径 ( 建于 1913 年 ) ，取自苏东坡诗，“人生到处知何似，应似飞鸿踏雪泥”。遁庵还在修整中。前山石坊石交亭仰贤亭宝印山房雪鸿径遁庵建于 1921 年的汉三老石室，内藏迄今为止浙江省最古的《汉三老讳字忌日碑》及自汉魏以来至明清各代的原始石碑十多块。 \0 \0 西泠印社地标性的建筑是华严经塔，又名西林塔、西泠印社石塔，建于 1924 年。另一个有佛教背景的建筑是阿弥陀经幢，建于 1923 年。 \0 阿弥陀经幢山腰还有观乐楼，建于 1920 年，吴昌硕 1927 年曾住，现在为吴昌硕纪念馆。 \0 \0 观乐楼山顶有四照阁，重建于 1914 年，现在为营业场所。最高处有题襟馆，建于 1914 年。还有剔藓亭，迁建于 1915 年，语出韩愈《石鼓歌》“剜苔剔藓露节角，安置妥帖平不颇。”山顶可以远眺西湖，可惜是日天气不佳。从小龙泓洞下山。过了后山石坊，就算离开西泠印社了。四照阁题襟馆 \0 \0 剔藓亭远眺西湖 \0 \0 小龙泓洞·缶龛后山石坊; 个人分类: 风光过眼|4627 次阅读|5 个评论

【朝华点滴：百万架构图幻灯片的演进】: liwei999 2018-1-28 22:58; 以前提过这个 million-dollar slide 的故事，今天找出来几张旧图，回看一路风尘留下的足迹，思绪不由飘向漫天风雪的水牛城，我旅美生涯的起点。美国是个伟大的国度，它为一个赤手空拳游离主流之外的异国流浪者提供了一个舞台，终使其跨越世纪的科研美梦成真。说的是克林顿当政时期的 2000 前，美国来了一场互联网科技大跃进，史称 .com bubble，一时间热钱滚滚，各种互联网创业公司如雨后春笋。就在这样的形势下，老板决定趁热去找风险投资，嘱我对我们实现的语言系统原型做一个介绍。我于是画了下面这么一张三层的NLP体系架构图，最底层是parser，由浅入深，中层是建立在parsing基础上的信息抽取，最顶层是几类主要的应用，包括问答系统。连接应用与下面两层语言处理的是数据库，用来存放信息抽取的结果，这些结果可以随时为应用提供情报。话说架构图一大早由我老板寄送给华尔街的天使投资人，到了中午就得到他的回复，表示很感兴趣。不到两周，我们就得到了第一笔100万美金的天使投资支票。投资人说，这张图太妙了，this is a million dollar slide，它既展示了技术的门槛，又显示了该技术的巨大潜力。这个体系架构自从我1997-1998年提出以后，就一直没有大的变动，虽然细节和图示都已经改写了不下100遍了，下面的两张架构图示大约是前20版中的，此版只关核心引擎（后台），没有包括应用（前台）。 1999 版 2000 版 2003 版 2003 版之二 2004 版下面两个版本是天使或A轮投资人帮助美化来吸引其他投资人的：九九归一，天变不变道恒不变，最终的架构图反映在我的【立委科普：自然语言系统架构简说】中的四张NLP联络图上：【相关】【立委科普：自然语言系统架构简说】【美梦成真】《朝华午拾：创业之路》《立委流浪图》【语义计算：李白对话录系列】【置顶：立委NLP博文一览】《朝华午拾》总目录; 个人分类: 立委科普|5473 次阅读|0 个评论

【生涯花絮：1989年的老照片】: 热度 1 liwei999 2017-6-26 14:36; 1989 年荷兰董老师、立委访问 BSO 机器翻译组，组长 Witkam 请客并合影董振东老师翻出来一张老照片，让我想起往事。说话快30年了。1989，我不过是刚入行两年的初生牛犊，而董老师已经完成了中国第一个实用MT【译星】产品的研发，风华正茂。 “出道之初的上世纪80年代，我为一家荷兰的多语机器翻译BSO项目，参照英文依存文法，设计过一个【中文依存文法】（Li, W. 1989. “A Dependency Syntax of Contemporary Chinese”, BSO/DLT Research Report, the Netherlands），概括了几乎所有的重要句型，纸上谈兵地画过无数的中文依存关系句法树。那应该是中文依存关系形式化研究的真正开拓期，如此说来 yours truly 也可以算是中文处理研究的化石级元老了。现在回看当年的图画，对照最近在机器上实现的依存句法分析器（dependency parser），一脉相承，感慨万千。年轻时就有绿色的梦，那么喜欢树，欣赏树，着迷画树，好像在画天堂美景一样体验着绿之美，梦想某一天亲手栽培这颗语言学之树，为信息技术创造奇迹。如今终于看到了实现的曙光，天时地利人和，研发的辛苦与享受已然合一，这是何等美妙的体验。” 摘自《中文之心，如在吾庐》 “1989年夏天，我和导师刘倬去德国慕尼黑应参加第二次国际机器翻译最高级会议。此前，我跟荷兰BSO（Buro voor Systeemontwikkeling BV）公司的机器翻译研究组一直有联络，应约为他们的以世界语作为媒介语的多语机器翻译系统 DLT ，编写了一部现代汉语依从关系的形式句法。他们听说我们要来欧洲，就邀请我和我的导师，还有中国机器翻译界知名人物董老师，会后顺道访问他们的实验室一周，做学术交流，共同讨论汉语句法里的一些疑难问题。这次活动，他们称作 Chinese Week. “我们是应慕尼黑机器翻译峰会的召集人，西门子公司的S先生特邀，提交论文，介绍我们的JFY英汉系统。这是我第一次出国，一切陌生而新鲜。大会在大酒店的拱圆形讲演大厅举行，气派豪华。我的导师是俄语出身，所以派我上台宣讲论文。初生牛犊不怯场，我报告完后，回答了两个问题下场，正赶上中场休息时间。大概东方面孔的报告人很少，慕尼黑电台的记者现场采访了我，询问我的观感，还好没有涉及64的问题（当时64刚过，风声很紧，我们办到一半的出国手续，又重新审查一遍，险些泡汤）。 “游览阿姆斯特丹后，我们按计划去Utrecht的BSO公司访问一周。DLT 项目研究组十几个人，一半是语言学家，一半是工程师，看得出来，这是个气氛融洽的团队。德国世界语者 Klaus Schubert 博士是系统枢纽“依存关系句法”（dependency grammar）的设计人，在项目第二阶段继 Witkam 成为项目组长。71届大会后招进来的美国世界语者 Dan Maxwell 博士，负责东方语言的句法项目的承包、质询和验收，是我的直接领导（十年河东，十年河西，后来我成为他的 boss，这是后话，见《朝华午拾：水牛风云》）。Dan一看就是老实人，照顾我们客人殷勤有加。我看到他早上骑自行车来上班，笑着跟他说：“我在北京上班跟你一样”。 “研究组的骨干还有国际世界语协会的财务总监，知名英国籍世界语者 Victor Sadler 博士，我在71届国际世界语大会上跟他认识。作为高级研究员，他刚刚完成一项研究，利用 parsed （自动语法分析）过的双语对照的语料库(BKB, or Bilingual Knowledge Base)的统计信息，匹配大小各异的翻译单位（translation unit）进行自动翻译，这一项原创性研究比后来流行的同类研究早了5－10年。显然，大家都看好这一新的进展，作为重点向我们推介。整个访问的中心主题，仍然是解答他们关于汉语句法方面一些疑难问题。他们当时正在接洽欧洲和日本的可能的投资人，预备下一步大规模的商业开发，汉语作为不同语系的重要语言，其可行性研究对于寻找投资意义重大。 “期间，Victor以世界语朋友身份，请我到他家吃晚饭。他住在离公司不远的一栋公寓里，太太来开门，先跟丈夫轻吻，然后招呼我进来。太太也是世界语者，忘了哪国人了，总之是个典型的世界语之家，家庭用语是世界语。Victor告诉我，太太实际上会一些英语，但是用英语对她不公平啊。太太很和善，跟我说，他们俩非常平等，她做饭，Victor洗碗。我说，这跟我家的分工一样，我最爱洗碗这种简单劳动。她笑着说，“Victor, vi havas helpanton hodiau (你今天有帮手了)”。饭后Victor洗碗，并没有让我插手，我站在旁边陪他聊天，一边看他倒进大把的洗涤液，满是泡沫把餐具拿出来，用干布擦干。我告诉他们，这跟我的做法不同，我们总是怀疑化学制品有毒或副作用，最后必须用清水涮净才好。太太不解地问：“洗涤液如果有毒，厂家怎么能生产呢？” 这倒把我问住了。Victor夫妇和蔼可亲，我感觉在老朋友家一样，饭后一边吃甜点和水果，一边闲聊，尽兴而归。” 摘自《朝华午拾：欧洲之行》 30多年前，我在社科院硕士报考专业上填写了“ 机器翻译 ”四个大字，内心充满了敬畏和神秘感。刚入行的时候做的是外汉机器翻译，一直不大敢碰汉外，原因是汉语语法不好形式化，感觉太难了。把酒话桑麻，再泡一壶茶，白头老机译，闲坐说研发，说一点儿机器翻译的掌故吧。曾几何时，机器翻译处于手工业研发时期，每个语言对（language pair）要手工开发两套系统，A 到 B 一套，B 到 A 一套，语言对一多就有一个类似系统数组合爆炸的问题。于是，怎样实现多套语言之间的相互翻译成为机器翻译领域的经典话题之一。各种探索和方案都有提出，主要有两类：一类是所谓基于媒介语的设计思想；另一类是合一文法（unification grammar，又叫 constraint－based grammar）支持的方案。第一种方案很动听，因为如果有一种比较中性可以表达意义的媒介语，那么每个语言只要编制两套针对媒介语的互译系统，就可以实现通过媒介语而成的任意语言对的翻译。这幅图画是如此美妙，为老一辈机器翻译宣传家门所津津乐道。由此而来又引发了媒介语设计和选择的种种争论和探索，有主张全新设计一套基于逻辑的形式语言（日本曾经联合亚洲其他国家实施过这个方案），有主张利用或者改造世界语（Esperanto，立委出道当年也曾著文鼓吹过世界语作为媒介语，荷兰一家公司BSO也曾尝试过），还有研究者坚持认为只有采用自然语言（譬如英语，或者简化版英语）做媒介语才现实可行。第二类合一文法的研究在理论上也很诱人，它的兴起伴随着新型计算机语言 Prolog 问世：合一运算是 Prolog 语言的内置特性。所谓合一文法，就是排除蕴含在传统计算文法（computational grammar）里面的语言分析和生成的过程性，在合一文法的旗下出现过一系列以后缀G（gammar）命名的形式化系统方案（formalisms），如 GPSG，HPSG（立委的博士课题就是在HPSG这个框架下做的机器翻译实验）等。因为语言规则不再具有单向性，那么分析文法和生成文法就可以是同一套语法，由这套文法支持的系统是做分析还是做生成，是在文法资源被调用的时候才得以确定。理论上，A 语言翻译为 B 语言，与 B 语言翻译为 A 语言，在语言资源上归一以后，开发系统的工程就节省了一半，对于多语互译的效率虽然不如媒介语方案高，省工一半也还是非常诱人的。长话短说，这两类方案都是传统的基于规则的系统，虽然都做过相当程度的研究探索，但最终由于局限于手工规则系统难以 scale up 而没成大气候，最终修成正果的还是后起的统计型机器翻译（statistical MT）。多语翻译的问题因此转化为海量双语对照语库的资源问题。同一个架构和算法，原则上只需要同一个双语对照语库对互译的两个方向训练两次即可生成两套机译系统，近几年也有对于缺乏对照翻译数据的语言对，通过语料更丰富的语言作为媒介语绕个弯的做法。机器翻译（MT）是自然语言处理（NLP）领域历史最悠久的应用方向，从上个世纪50年代初发轫，承载了中外几代不知道多少人的青春和梦想，也包括青年时代的立委。如今，梦想化为现实，嵌入式机器翻译在互联网无孔不入，已经成为普罗大众手中招之即来挥之即去的便捷工具，每时每刻在默默服务着千百万互联网用户。女儿学汉语用它，学西班牙语用它，去日本动漫网页也用它，用到对它熟视无睹，把机器翻译视为理所当然。只在翻译错得离谱的时候才意识到它的存在，不时报以嘲讽：真笨。可机器翻译呢，谦谦君子，玉树临风，虚怀若谷，任劳任怨。对于已经天然成为女儿这代人生活一部分的机器翻译，我满腹机器翻译的历史和掌故，却不知如何给她诉说。耳濡目染，她从我断续的话语中似乎隐隐觉得机器翻译对于她父亲的一生具有特别的意义，可是我还是无法象对同辈人那样娓娓道来，如数家珍，传达出我内心深处的机器翻译所蕴含的那份厚重和神圣。不仅仅是一般意义上的代沟，是技术的跨越式发展造成了两代人迥然不同的视角，让人欣慰更感慨。摘自《机器翻译万岁》 “学自然语言的人如果入行做的就是规则机器翻译，那是上天的赐福。新一辈这种人没有了，所以很多入行多年的人，看到的语言世界，还是一线天。如果你在没有平台支持下被逼着去做规则机器翻译，你有福了。你必须从头开始做词典、做 tokenization，做 POS，做短语，做 SVO 句法，你还要做双语结构转换、WSD 词义消歧，最后还有目标语的生成，包括形态生成、调序，修辞上的一些 final touches。总之，从语言分析到语言生成，方方面面你必须全部做到。如果没有平台没有专用语言像我们做硕士论文那样用 general purpose language （COBOL，ALGOL，BASIC，甚至汇编）做，那就是在太上老君八卦炉里炼，没得不炼成火眼金睛。现在的 CL 硕士博士呢，动不动就下载一个软件包，瞅准一个子任务譬如切词，譬如 sentiment，譬如WSD，哪怕是做 MT，也不用涉及那么多的层次和模块。 “索性把怀旧进行到底《朝华午拾：一夜成为万元户》：这是我为这个DLT项目所做的 Chinese Dependency Grammar 的故事。这篇汉语形式文法的原始版本有链接可以下载：Li, W. 1989. “ A Dependency Syntax of Contemporary Chinese ”, BSO/DLT Research Report, the Netherlands. 我的工作应该是中国做依存关系最早最完整的作品了。所谓【美梦成真】就是这么个来历，跨越近 30 年，纸上谈兵的 syntax 终于化为现实的 deep parser。刚才一边吃晚饭，一边琢磨这段MT外传，觉得还是有几点可以总结的，笔记如下。（1）荷兰这个多语 MT 计划本来是规则系统起家，用世界语作为媒介语，用的是依存关系文法的框架，实现的机制是 ATN （Augmented Transition Network），技术领头是德国语言学家舒伯特。（2）可是做着做着，剑桥出身的 Victor 博士想出了统计的路线，定义了一个在句法分析基础上、根据统计和记忆决定的可大可小的 Translation Unit （有点像我们用的“句素”的概念），做了实验验证了这条路线的创新，把整个项目在收尾阶段翻了个个儿。而这时候（1989年），其他的MT研究虽然也有 IBM 等开始的统计 MT，但没有一个达到这样的深度。（3）事实上，直到今天，回顾这个科研创新可以看出，根据 parsed 以后的双语数据库的平行对比，从统计去找 Translation Units，比起后来多数缺乏结构、本质上是 ngram 记忆的 SMT，还是远高出一筹。（当然现如今的深度学习对MT的革命性推进，虽然仍然没有利用显式的语言结构，但真正海量数据的深度学习似乎有效弥补了结构的不足，不像此前的 SMT 那样捉襟见肘。）（4）在 SMT 中加入 parsing 并不是每个人都有这个条件，DLT 赶巧是先做 parser 做了四五年，有了这个基础。现在和今后的方向从宏观上来看是，SMT和NMT 可以重温类似 BKB 双语parsed平行语料库的尝试，走带入结构的道路。深度神经是一种训练的算法，与语言的结构深度没有必然联系。事实上迄今为止对于 text NLP 的深度神经的尝试，除了专门做中间件 parsing 的 research 如 SyntaxtNet 外，对于 NLP 应用方面的任务，基本上还是在语言浅层端对端进行。” 摘自《河东河西》【相关】【立委科普：机器翻译】【立委随笔：机器翻译万岁】【谷歌NMT，见证奇迹的时刻】《朝华午拾：欧洲之行》《朝华午拾：一夜成为万元户》【美梦成真】 Li, W. 1989. “ A Dependency Syntax of Contemporary Chinese ”, BSO/DLT Research Report, the Netherlands. DLT项目背景介绍【置顶：立委NLP博文一览】《朝华午拾》总目录; 个人分类: 立委其人|4424 次阅读|0 个评论

【泥沙龙笔记：弃暗投明，明在何方】: liwei999 2016-12-7 10:06; 我: just had a small talk with Tanya on US election , she was super angry and there was a big demonstration against Trump in her school too 行: @wei 在我们这个群里，我们都见证了立委清晰的预测了川普对希拉里的领先优势。与传统媒体相比，这次社交网络所反映的民意更准确。也许更为重要的是分析整个选举过程中与时间相关的一些关键变量。不过有一个问题和缺点，这个分析没有反映美国的选举人制度，事实上希拉里克林顿所取得的选票高于川普。如果能有回缩的地域分析，特别是，摇摆州的地域分析，比如说佛罗里达等的回溯我: 是的。这次其实是千载难逢的机会，因为太多人关注，太多人 bet，应该认真当成一个项目去做，精心设计。利: 不光是美国人关注，我们在国内也非常关注行: 证明了新工具的力量。这也是这次川普当选的最正面的事件。我: 我这种票友性质地玩，只是显示了大数据里面的确有名堂但不是震撼性的。利: 我跟美国的朋友们说：不管谁赢得了总统，都是大数据分析赢了行: 等我有钱了，我来投你。毛: 对，我也想过这个事，难点恐怕在于网上的信息恐怕难以分清出自何地？我: 票友性质不是说的技术：技术是deep，靠谱和专业的，我从来都不小看自己；票友是说我对 domain （政治、大选）是票友，到现在对选举人制度还是模模糊糊，它到底怎么工作的行: lP地址不是相对能反映地域吗？我: 推特是最大最动态的数据源，我们有推特的地理，应该大体足够从地理上区分了我们也有种族，还有年龄和性别等信息。行: 强烈建议回溯一下摇摆州。挖矿！非常值得进一步挖掘。我: 没那个精力和兴趣了，公司缩水，也没有几个兵了，日常的琐务也要做大数据不好赚钱。烧钱倒是哗哗的。行: 需要设计出一个能赚钱的商业模式。技术是根本，但不是全部。毛: 如果能把地理年龄这些结合进去，那你的系统大有前景。 Nick: 同意，伟哥可以写本书： how is a presidential election won or stolen？把选举人票考虑进去我: 有兵的时候，鸡毛蒜皮我不管，我爱怎么玩怎么玩，到头来连兵都保不住，还玩个球啊。一个教训，不要把技术开发得过头。小公司的构建内，任何一个部门都不宜超前太多，超前了，就意味着末路的来临。 Nick: @wei 早就叫你弃暗投明我: 弃暗投明倒有个明啊一厢情愿哪里行。技术并不是越深入越先进越好，by nature 作为科学家，我们总是想越深越好结果是产品来不及消化，技术总吃不饱，最后最先裁剪的就是技术呵呵反正也消化不了全部，你再优秀也没价值其实是有前车之鉴的：《朝华午拾 – 水牛风云》。十几年再来一次，仿佛时光倒转。一个机构作为一个整体，必须保证大体相称的发展水平，才可相谐。一个部门太出色，overperforming，其他部门无法消化，也就成了目标。譬如研发，要质量我给你最好的质量，超过“世界第一” ，要广度我给你整出20个世界主要语言的深度分析 (deep parsing)，cover 语言数据的 90+%，要领域化可以在两周内 deliver 一个 domain 所需的情报单位（一种关系，或一个事件），只要定义明确，产品的情报挖掘的瓶颈永远不在这个自然语言研发部门。结果呢，部门需要为部门的太好表现付出代价。这个世界就是这样诡异。话说回来，一套技术在同一个公司挥洒了10年还没走人，对我这样害怕变动的人，公司也已经相当不易了。对得起我，我也对得起它了。当年没有我的技术，公司早死翘翘了。如今有了技术不能起飞，也怪不得我，公司从上到下，在这一点是共识：论技术和由此而来的数据质量，我们绝对领先对手。市场做不起来，打败不了对手，是技术以外的因由，我无能为力。另一方面也可以说，市场不成熟，技术变钱不是那么简单 market economy 决定的。白 : NLP部门因为表现太好而不受欢迎，听起来是天方夜谭，如果不是伟哥亲历，谁信呀…… 我: 反正我信。我们吃不饱有日子了。一直都是我们催产品经理，而不是相反：求求你，给我们一个任务吧。产品经理说：就根据客户反馈小修小补吧。我们的数据质量已经行业领先很久了，一直是领先。白: 用嘴投票还是用脚投票，这是一个问题我: 新的 specs，或者出不来，或者出来了，我们 deliver 了，产品却实施不了。严: @wei 还是觉得公司产品方向太窄了，这么好的技术被局限在这么窄的应用范围。董事会老是要Focus。邓: 听起来CEO应该负很大的责任啊我: 据说是市场太小了，或饱和了。产品在一个 niche market，这个社会媒体大数据挖掘的market一度被疯狂追捧和夸大。几年下来发现，价值得到验证，市场也确实存在，但是就是不够大。拓展其他 market 需要有眼光的产品老总。对于“高新技术”，有眼光的产品老总比熊猫还稀少。高新技术比较适合做大公司的花瓶，其价值在于花瓶的股市效应。或者，适合一个巨大平台，帮助连接顾客和厂家：这个可以产生真正的价值，譬如 Facebook。高新技术对于创业其实很难，第一缺乏资源（不能吃一辈子VC），第二缺乏平台（连大数据都要花大价钱购买，更甭提顾客与厂家的network了），第三缺乏熊猫。好不容易都凑齐了，最佳的出路也就是有幸被巨头看重收购了事。这个概率不到十分之一吧。也就是说，你哪怕有再牛的技术，你这辈子活过了三个人的寿命，有机会创业10次，你可能创业成功，如果成功是以被收购作为标准的话。如果成功是以上市成为独角兽作为标准，那么你需要的机会数是下一个量级，五年一个轮回，你大概需要活500岁才可撞上狗屎运。老总的眼光各有自己的局限，譬如，原来一直做 b2b saas 的就一直沿着以前的经验和熟悉的领域想技术的用场。超出经验领域之外是很难的。产品创新不再是技术的创新，而是产品层面不断加 features，越加越多。为了讨好不同的客户。结果是 90% features 基本没人用，产品也因此变得让人眼花缭乱了。为什么 agency 喜欢这样的产品？因为他们是 power users， features 越多，他们越爽。其他客户面对众多 features，只会晕菜，反而起反作用。 NLP 的真正威力是把数据转为情报，如果一个产品只需要一种情报，譬如舆情，无法消化其他可能有用的情报，NLP 就处于语义落地吃不饱的地位。你吃不饱，你的价值就丧失。洪诗人有空可以为nlp写一首挽歌，为nlp超出产品一叹。悟: 李氏唐朝西游记维度无穷NLP录立宪定法三权六委身侍主天地合 @wei 我先抛砖引玉, 见笑了我: 这砖抛的，狂赞。【相关】 Final Update of Social Media Sentiment Statistics Before Election Trump sucks in social media big data in Spanish Did Trump’s Gettysburg speech enable the support rate to soar as claimed? Pulse：tracking US election, live feed，real time！【大数据跟踪美大选每日更新，希拉里成功反击，拉川普下水】【社煤挖掘：大数据告诉我们，希拉里选情告急】【社煤挖掘：川普的葛底斯堡演讲使支持率飙升了吗？】【社煤挖掘：为什么要选ta而不是ta做总统？】 Big data mining shows clear social rating decline of Trump last month Clinton, 5 years ago. How time flies … 【社媒挖掘：川大叔喜大妈谁长出了总统样？】【川普和希拉里的幽默竞赛】【大数据舆情挖掘：希拉里川普最近一个月的形象消长】欧阳峰：论保守派该投票克林顿【立委科普：自动民调】【关于舆情挖掘】《朝华午拾》总目录【关于立委NLP的《关于系列》】【置顶：立委NLP博文一览】【立委NLP频道】; 个人分类: 立委科普|2784 次阅读|0 个评论

【关于NLP掌故】: liwei999 2016-7-2 06:38; 【文傻和理呆的世纪悲剧（romance tragedy）】【 IT风云掌故：金点子起家的　AskJeeves 】【今天的Ask.com 】《语义三巨人》一个人对抗一个世界，理性主义大师 Lenat 教授《泥沙龙笔记：再谈 cyc》围脖：格语法创始人菲尔墨（Charles J. Fillmore）教授千古！【泥沙龙笔记：从机器战胜人类围棋谈开去】【说说科研立项中的大跃进】百度大脑从谷歌大脑挖来深度学习掌门人 Andrew Ng 冯志伟老师以及机器翻译历史的一些事儿《立委随笔：微软收购PowerSet》【 NLP 历史上最大的媒体误导：成语难倒了电脑】【立委推荐：乔姆斯基】巧遇语言学上帝乔姆斯基【随记：湾区的年度 NLP BBQ 】【女怕嫁错郎，男怕入错行，专业怕选错方向】【据说，神奇的NLP可以增强性吸引力，增加你的信心和幽会成功率】 MT 杀手皮尔斯（翻译节选） ALPAC 黑皮书 1/9：前言泥沙龙笔记微博议摘要【把酒话桑麻，MT 产品落地史话】泥沙龙笔记：把酒话桑麻，聊聊 NLP 工业研发的掌故把酒话桑麻，再泡一壶茶，白头老机译，闲坐说研发看望导师刘倬先生，中国机器翻译的开山鼻祖之一遭遇脸书的 Deep Text 【创业故事：技术的力量和技术公司的命运】【关于 NLP 以及杂谈】【关于NLP体系和设计哲学】【关于NLP方法论以及两条路线之争】【关于 parsing 】【关于中文NLP】【关于信息抽取】【关于舆情挖掘】【关于大数据挖掘】【关于NLP应用】【关于人工智能】【关于我与NLP】【关于NLP掌故】《朝华午拾》总目录【关于立委NLP的《关于系列》】【置顶：立委NLP博文一览（定期更新版）】【立委NLP频道】; 个人分类: 立委科普|3763 次阅读|0 个评论

【关于我与NLP】: liwei999 2016-7-2 06:21; 【朝华午拾集锦：立委流浪图】【立委随笔：流浪的概念网络】《朝华午拾：“数小鸡”的日子》《朝华午拾：一夜成为万元户》《朝华午拾：世界语之恋》《朝华午拾：欧洲之行》《朝华午拾：我的考研经历》【征文参赛：美梦成真】【立委科普：美梦成真的通俗版解说】《朝华午拾：创业之路》《朝华午拾 - 水牛风云》《朝华午拾：用人之道》《朝华午拾：在美国写基金申请的酸甜苦辣》【朝华午拾：安娜离职记】《知识图谱的先行：从 Julian Hill 说起》《朝华午拾：今天是个好日子》【朝华午拾：那天是个好日子】 10 周年入职纪念日有感【科研笔记：开天辟地的感觉真好】泥沙龙笔记：创新，失败，再创新，再失败，直至看上去没失败【 80年代在国内，社科院的硕士训练使我受益最多】《立委随笔：语言学家是怎样炼成的》【把酒话桑麻，MT 产品落地史话】泥沙龙笔记：把酒话桑麻，聊聊 NLP 工业研发的掌故把酒话桑麻，再泡一壶茶，白头老机译，闲坐说研发看望导师刘倬先生，中国机器翻译的开山鼻祖之一巧遇语言学上帝乔姆斯基欧阳锋：巧遇语言学新锐　－　乔姆斯基【科普小品：伟哥的关键词故事】立委随笔：Chomsky meets Gates 遭遇脸书的 Deep Text 【不是那根萝卜，不做那个葱】【女怕嫁错郎，男怕入错行，专业怕选错方向】【创业故事：技术的力量和技术公司的命运】《眼睛一眨，来了王子，走了白马》职业随想曲：语言学万岁钩沉：《中国报道》上与导师用世界语发表的第一篇论文钩沉：《中国报道》上用世界语发表的第二篇论文【泥沙龙笔记：机器 parsing 洪爷，无论打油或打趣】老革命遇到新问题，洪爷求饶打油翁我要是退休了，就机器 parse 《离骚》玩儿【关于 NLP 以及杂谈】【关于NLP体系和设计哲学】【关于NLP方法论以及两条路线之争】【关于 parsing 】【关于中文NLP】【关于信息抽取】【关于舆情挖掘】【关于大数据挖掘】【关于NLP应用】【关于人工智能】【关于我与NLP】【关于NLP掌故】《朝华午拾》总目录【关于立委NLP的《关于系列》】【置顶：立委NLP博文一览（定期更新版）】【立委NLP频道】; 个人分类: 立委科普|4377 次阅读|0 个评论

【把酒话桑麻，MT 产品落地史话】: 热度 1 liwei999 2016-6-14 10:28; 本来是要对比NLP（自然语言处理）落地的几个方面的，一不留神追踪到了MT（机器翻译）的早期历史以及最初的落地。意识流效应，还是思路别断，接着讲吧。“资深” 的坏处就是所见所闻太多，容易思维发散收不住，但收得太早太快，口传历史也就绝种了，不利于后学。昨天说 NLP 的前多半历史就是 MT的历史，就是这样。只有到近20多年，才发展出了信息抽取、知识图谱、舆情挖掘、问答系统、自动文摘、智能助理等，此前的自然语言研究一切围绕 MT，甚至 NLP 成为独立领域和术语之前，所有的践行者（ practitioners）都是 MTers （AI 人工智能符号派早期的玩具系统，在逻辑推理之外用到一点自然语言理解NLU技术，但那是另一条线和另一班人，是两个不同的传统和传承，不在 MT-NLP 的主线上）。 30年前我入行的时候，MT 还基本是象牙塔里研究人员的玩具，但是已处于面临应用落地的前夕。在国外，Systran 已经产品化。早期的故事是其设计者卖了个大价钱，人就从 community 蒸发了，后来发现他隐居到澳大利亚，买了个庄园优哉游哉了。这大概是靠前IT时代的“IT技术”发迹的先驱了，所以后来 Facebook 的共同创始人发横财为逃税躲到新加坡花天酒地，微软共同创始人买个足球队啥的，其实都是有榜样在前的。当时在国内大家隐隐感觉这玩意儿可以应用，但是这些议论和呼吁多在口头上，日常研发仍大多囿于研究界老牛慢车的惯性，十年磨一剑，闭门造车，各自为政。这时候，出现了一个奇迹，那就是董老师的实用型MT系统【科研一号】。这个群的小一辈如果不知道这段历史的，都应该起立，给董老师鞠躬致敬！董老师是我一辈子特别景仰的前辈，不仅是他的NLP学问，MT功底，他的HowNet，更在于他的敏锐和见识。话说当年董老师从黑龙江调到了军事科学院，继续 MT 的研发，表面上看与其他几个团队无异。当时的团队有我们语言所、科学院计算所、广东黄老师、哈尔滨，好像还有西安、上海交大，全国大约有不到一打的大小团队在做（传统的）规则MT，大家一年见个面，开一次油印论文的全国会议切磋，座谈会一般。 1986年常州会议是我第一次跟导师参加这样的机器翻译全国会议。董老师的惊艳之处在于，他第一个走出实验室而且有自己的具体步骤，就是大规模的开放测试。当时多数团队还是在几百个句子的封闭集里面绕不出来，只见树木不见森林。磨啊磨，总觉得这里不对那里不对，不弄顺拿不出手。董老师第一个测试“大数据集”（当然没办法与现在的大数据比，当时的大数据也就是万这个级别吧），然后从大测试的高度看系统应该如何改进才能最快达到可用。这么一来，董老师心里就比较有数了，原来不管这个系统还有多少缺陷，但数据大了就发现，现象是不均匀的，值得下力的地方是频繁出现的有限的现象，把这些现象磨圆，就是钢用在刀刃上，然后系统开放就不怕了。于是，军科院开了个鉴定会，请来国内MT专家，系统开放给专家随机测试。第一次看到了 MT 从封闭真正走向开放，大家的震惊可想而知。圈子里叫了多年的走出实验室，这一下眼见为实了。后来的产品落地的故事细节我不了解（董老师有空自己给讲一讲最好了，作为NLP应用的pioneer的心路历程），但大体脉路是，军科院虽然名气大待遇好，当时对董老师及其技术也非常推崇，但毕竟不是做产品的环境。于是董老师出山，加入中软，把在军科院研制的“科研一号”MT 落地为中国第一个MT软件产品“译星”（TranStar），这是中国 NLP 历史的重要里程碑。其实董老师不是当时唯一NLP落地的。与董老师前后脚的还有一位老先生，当然不像 TranStar 那样名震江湖。这一位没闹出啥响声来，算是野史了，如果不讲，也就湮没了。这一位老先生叫刘孝叔，不知道董老师是不是还记得他。我与他当年有过一些私交，了解这个故事的前前后后。刘孝叔老先生是一个电子硬件工程师，喜欢用汇编编点程序。几乎完全不懂语言学，业余爱好只有这么一项，就是MT，不是一般的爱好，而是一辈子的痴迷。他业余做 MT 夜以继日，非常起劲，做了很多年，但大多游离在主流之外（当时的“主流” 就是董老师还有我的导师刘倬刘涌泉先生这些中国NLP/ MT的开山人物）。相比之下，老先生看起来多少有些“民科” 的味道，所以他不大能卷入“我们主流”的圈子来，虽然我知道他为此做过相当的努力。 Anyway，他就一个老工程师，会编程，外语不错，但不懂语言学，他就从查词典开始，慢慢在程序里面写了一些规则，结果就做出了一个特别短小精悍的 MT 系统来，最大的特点是速度和鲁棒，垃圾进垃圾出。大概是当年最紧凑快速的系统了，每个字节的存贮都精打细算，整个流程也不深，他一切凭着感觉走做系统，并没有啥宏观的语言学路线，自己创造了一个 test-driven 的路子，就是计算翻译出来的译文要经过几次编辑操作（增、删、调位）才可读，然后一切努力就在减少这个编辑劳动量，以此作为系统的 benchmarking，鞭策自己前进。在董老师产品化的前后脚，他到处联系看哪家愿意代售他的MT系统。与多数实验室系统不同，他是工程师，从一开始就是朝着开放运用的角度做。结果是有一家小的软件公司门面愿意代售，算是也落地为产品了，也确实卖了一些，但没法与董老师的比。到我与他有交往的时候，他还住在东四附近一个非常狭窄的小屋子与老伴一起。转不开身的屋子里面一台电脑，每天做 MT。老人非常和蔼可亲，爱琢磨。记得当时他最头疼的是介词的翻译，问我有啥招儿。我当年钻研过介词，跟他说介词要分而治之（见《机器翻译词义辨识对策》）。介词介词，是介于两词之间，前一词是其父节点动词、形容词或名词，后一词是介宾 NP。动词形容词名词的 subcat 里面可以吃掉一批介词，翻译就随那些词的 patterns 走就很地道，譬如 translate NP1 into NP2, 随着 translate pattern，translate into 就翻译成“翻译成”。剩下的介词主要看后面的名词种类来决定如何翻译，所以名词必须分细类，譬如 down the street 翻译成“沿着街道”。这两边都没照顾到的，那就给一个默认的宽泛译法，譬如 in 翻译成“在...里”。他虽然不懂什么是 subcat，但对我的建议特别兴奋，说这下子好了，可是“ 我的数据结构根本就没有空间去存放这些子类信息呢”。后来他改变了捉襟见肘的数据结构，过两个月再见面时候，高兴得手舞足蹈像个老小孩似地说，介词的翻译质量果然大幅度提高。回到NLP产品落地这个话题。我问他上架后卖得怎么样？他说卖不动，有些零星的买卖，他自己实际受益甚微，但一直放在柜台上，有当无吧。这边译星卖得怎样，细节不知道，但是当时动静很大，我一个小老乡在四通还倒腾过几套译星的买卖，跟我说，是有市场的，但也不是很容易就找到批量的客户，都是一户一户地推销出去的。回头看中国NLP或MT历史上的这第一波产品落地，比较清楚的是，这个不是技术的问题，而是商业模式的问题。当时的技术和质量虽然无法与现在比，可当时也没有免费的百度翻译或谷歌翻译可以利用啊，而专职翻译的需求是一直存在的。MT 质量再不济，至少省了很多手工查词典的时间，如果人机配合得好，可以节省人工翻译的成本。从这个角度看，市场肯定是存在的。但是这种市场不成规模。因此这台产品落地的戏也就唱不大。说到这里，可以谈谈同时期台湾同胞的MT落地努力。台湾MT的先驱人物之一是苏教授，老NLPers大概都记得他，当年很活跃的，他与董老师也交往甚密。这位仁兄最津津乐道的是他几乎是唯一得到了清华大学教授职务但自己主动辞职去创业的。把无数人羡慕的金饭碗扔在一边，不仅仅是他的创业理想和寻求自由的精神，还因为据说他有一个做生意的哥哥愿意资助他创业。于是他就开了一家翻译公司。话说苏教授开办翻译公司的事儿，也是与董老师产品化TranStar同时期的事件，印象还略早一点儿。苏教授比董老师晚半辈的样子，不过也已经小有名气，风生水起的样子。当时刚刚开放台湾同胞入境，苏是第一批来访的台胞学者。记得他天安门转了一圈后，来语言所拜见我导师刘倬先生，一口一个老前辈，毕恭毕敬。董老师跟我说过，不能做封闭系统，老在一个小数据里面绕；你看人家苏克毅，系统做出来就开办了公司，招来一批译后编辑，被培训去与机器合作。接来一个翻译任务，先让机器跑一遍，然后让人工编辑加工。这不就产品落地，把生意做起来了吗。这是早期NLP落地的一个有意义的尝试。不过苏教授毕竟是书生，他把自己的公司当成一个科研与工业结合的机构去经营。到北京访问语言所的时候，正是 Prolog 和 unification grammars 热门的时候，苏教授一口一个 GPSG，CFG，把我们给绕晕了，后来他自己说还请过 HPSG 的人到过他的公司指导。潮流他跟得蛮紧。其实这些个 Gs 都不是接地气的技术，他就是不甘心只做生意，要显得高大上一些。教授经商，十有九伤。我后来听说，他其实一直没法赚钱，更不用说做大了。 MT 真正落地的转机是电子词典的兴起，而不是 MT 作为一个单独的软件去卖。这个故事说起来很有意思，其中也有刘孝叔老先生的传奇。前面提到，不务正业的老先生一直被“主流”不自觉地漠视，在国内当年的主流聚会或交流中他挤不进来。我与他的交往说起来有些 by accident，在与他成为“忘年交”之前，早就听说过这位老“民科”。说有这么一位痴迷MT的人，自己在家瞎鼓捣MT很多年，到处展示自己的系统，多次想到语言所来交流，总之大多是负面的传闻。但这引起了我的好奇心。老先生愿意接近我，现在看来，也是把我当成主流里面的后生，接近主流大牛不成，接近一个后生也不错。第一次怎么接头的，我忘记了，总之是我们相互都很愿意了解对方，我对他的系统到底与我们做的有啥不同，也充满好奇。老人家非常 nice，典型的老知识分子，我很喜欢。后来我就成了他家的常客。当时他用英语在国外发表了几篇他的MT系统的文章。现在看来，他的系统没大前途，但是有短小紧凑的特点，这在当年是一个很大的长处。到了长沙会议，大概是1988年吧，那次开会老先生倒是带着中文论文来了，算是侪入国内主流的边缘，还与我的导师刘倬老师有不少互动。刘倬老师很严肃的人，又是领域一面大旗，本来是不容易亲近的。我很惊讶这次主流和民科在一起相互都很客气和融洽。我觉得刘倬老师一来是看老先生岁数大，二来多少为他锲而不舍的精神所触动，对他态度很客气，虽然谈不上有多少学术上的交流。我与老先生此前交往就多，所以长沙经常一起上街逛和闲聊，当时他整天琢磨的就是怎样联系电子词典公司。那时电子词典刚上市不久，全国英语热也持续发酵，为该产品的火热预示了前景。长沙大街上，我陪同他去过一些门店，询问电子词典的销售以及如何联络电子词典厂商寻求合作的事儿。老先生是第一批想要把 MT 嫁接到这个产品去的人，他商业嗅觉蛮敏锐，可惜还是人微言轻，他的努力没有成功。他的系统短小紧凑的特点可以弥补他的质量和深度的不足，本应是第一批进入电子词典的最佳候选。我看过他的MT展示，也比较过我们语言所的系统，他的是 instant，我们当时是 45 秒一个句子，没法与他比速度。结果，这个NLP落地历史的故事演化为中国NLP历史上的第二个里程碑，就是陈肇雄与香港一家电子词典快译通签订技术转让合同的一幕。其时我人已去国，流浪路上还是注意到当时媒体的沸沸扬扬，这是一个高技术落地的大事件，也成就了陈肇雄。报纸还专文 feature story，称陈肇雄是机器翻译的明日之星。描述他签合同的那个场面，栩栩如生，大笔一挥，有点惊天地泣鬼神的味道。回头看这个历史，说句实话，在当时的硬件条件下，MT 跑到电子词典去，因为不是主餐，而是副食，其实哪家的都差不多。是孝叔老先生的系统进去，还是陈肇雄的进去，差别不大，而系统的紧凑快速则绝对是电子词典的福音。作为副食，MT的要害不是技术和质量问题，因为当时用电子词典的人并不依仗那个 feature，那个句子翻译的 feature 更像是一个花哨，可以增加 marketing 的说辞，电子词典不仅仅是词典，而是人工智能的词典了（当年人工智能还没臭，与新近AI热一样为媒体所乐道）。这就好比 Siri, Siri 闹出那么大动静，绝大多数人在绝大多数的时候，也就是拿 Siri 当个玩具。但这个玩具对苹果的 marketing 有很大助益，就好比如今的Google Home 之类，都是这样的例子。是副食，不是主餐。老先生不应该算是民科，但长期被当成疑似民科，打不进圈子来。他欠缺专业功底，真地不懂语言学，subcat 之类他从没听说过。但是 MT 是一个应用的东西，不是科学 per se，因此作为工程师的他，凭着自己对语言翻译的感性认识，也是可以做出一个 working system，而且特别地速度快、存贮小，紧凑到无语。他最先想到却没能第一个打进电子词典的市场是一个遗憾。他的唯一机会是电子词典，而且有利于他落地的那个时间窗口也不大，因为他用汇编 hard-code 的MT系统的最大特点是紧凑和开销小，应该是最容易 integrated 到电子词典去，这个好处只有电子词典初期最合适，后来硬件的自然提升，时间优势就不在他那儿了。那时候如果哪家电子词典最先与他合作，估计就会搅糊了陈肇雄后来的好戏。刘老先生的系统后劲不足，随着硬件条件的跃升，是竞争不过主流的。但是长沙会议的时候电子词典刚出来，他满世界找合作，结果未果，是运气不佳，不是他的技术不硬。他跟我说，这硬件的发展总是超出他的需求。说刚开始做MT的时候可惨了，但也还是可做，螺蛳壳里做道场。说，到了必须加大或加速的时候，硬件就已经提升到 more than he needed and expected，说这话的时候他的笑特别天真，真地就是孩子一样。老先生虽然有热情有眼光有嗅觉，但没有影响力，词典厂家有眼无珠，否则市场本来可以早两三年推出带句子翻译功能的电子词典。这段历史的启示是，MT 技术作为主餐去卖，虽然有市场，但规模和用户有限，戏唱不大。救了 MT 的是作为副食进入的电子词典。最后救了 MT 的当然是搜索巨头，作为免费服务，为客户粘性贡献力量。道理就在，作为主食去单挑，落地为产品，那是硬碰硬，免不了客户横挑鼻子竖挑眼，除非对于少量的急切需要此类工具的人，对于大众，任何的不完善都是抱怨和发泄的对象和理由，市场很难做大。然而作为副食，或作为免费搭配，客户的视角就不同了，不吃白不吃，不用白不用，当然对不完美就可以容忍了。换句话说，你NLP落地为主食（譬如我们现在做的情报产品），客户的本性就是看到你的缺点，因为他花银子了啊。当你搭配为副食（一个 feature）或免费服务，客户看到的是优点，因为这是客户以前没想到的新的feature，或新的服务。他可以选择不用，不玩，一切还是原样。但他一旦用了，任何得益都归于高技术创新。高技术说到底就是半瓶水。你落地得好，客户看到的是里面的水。你落地得不好，客户看到的是空气，什么破烂玩意儿。当年对于电子词典的刚需是显然的。这个市场很大，竞争很激烈，因此厂商需要不断升级。而 MT 就被当做升级的一个主要的 feature ，顺理成章，它成就了 marketing 求大求高求时髦的要求。本来查词典就是 MT 中的一个低端的模块，单词或短语的翻译本来也只是句子翻译的一种简单形式。 MT 的真正难点和深度都是在句子的分析和调整上。可是落地的时候，乾坤大反转，词典成为主食，句子翻译成为门面，这是市场决定的。说到底，一个底层模块养活一个复杂系统，这就是市场，这就是生活。我们语言所也走过这个历程。一开始是跟着“译星”模式跑，要做“ 新一代”（专家词典）翻译软件的产品落地。于是刘老师牵头与中关村的高立公司合作，从清华大学招来一批学生，在中关村一个地下室开始了产品落地的研发，我是其中的主力，负责培训机器词典和规则的编写调试。后来董老师也加入了（不知道是刘老师还是高立把董老师拉进来的），我也有幸与董老师有了一段日常的接触并亲聆教诲。 1991 年出国前在中关村高立公司与刘倬导师（下左2）和董振东前辈 (下右1) 及高立同仁合影留念 from http://blog.sciencenet.cn/ blog-362400-673109.html 这一段落地的实践是出了产品，也卖了，据说也赚了一些钱，当然市场还是没做起来。高立不亏，因为有了高技术，带来了一些优惠政策，反正投入也不太大，后期还是小有所赚。据说公司最后的主食产品却是一个类似条形码的扫描器，部署到各大超市。在我们与它合作技术开发前，公司跟早期的其他中关村公司一样，就是靠攒机器卖钱，从南边进货部件，组装成电脑卖。我离开语言所以后，刘老师和傅大姐也借着电子词典热把MT落地了一次。那是陈肇雄快译通里程碑事件之后，有一家快译通的对手叫VTech与我们语言所的合作。 MT 进电子词典只是作为副食，其实质量不是关键，主要是不能没有这个 feature，而且这个 feature 的来头必须有说法，至少当年的语言所还是一个可以拿得出去炫耀的光环。怎么验收呢，我当时很好奇，后来听大姐说，商人有商人的办法，说，这样吧，你把《英语900句》都翻译好了，就算质量验收了。一个封闭的集合，但是的确是一个有代表性的集合，而且标准相对客观。于是傅大姐就出差到南方两个月，专门调试这 900 句，落笔成交。 MT 的最后落地，也不是主食，而是作为搜索巨头的噱头产品，慢慢转化为有实用价值的服务，但一直不改免费服务的本质。MT 这才真正地站住脚了。有意思的是，作为免费服务，客户虽然也没理由抱怨太多，但是日积月累，新一代人被训练成了用它作为习惯了，这就隐含着客户粘性，于是MT成为搜索离不开的一个技术了。由于竞争的存在，也还必须不断加强。最后的结果是，老牌的机器翻译公司 Systran 走向末路。作为主食的MT几乎宣告退出产品落地的舞台，虽然不排除有些专业性很强的特别领域的机器翻译的专项软件还会长期存在下去。搜索巨头MT的兴起和Systran的末路当然也可以从商业模式、主食副食以外的技术路线上来看，简单说，那就是统计对规则的胜利，是主流对前主流的胜利。但这个胜利还不能算干净彻底，因为很显然的，主流MT遭遇瓶颈，前主流有返潮或合流的迹象。这个董老师比我有发言权。归结到一句话，离开句法和结构的MT必然遭遇瓶颈。目前缺乏结构支持的主流MT产品或服务，必须要走与结构相结合的道路，无论这个结构来自于规则派还是统计派。把酒话桑麻的最后一个插曲是，当年看奥运会的新闻，偶然遇到一则百岁老人做奥运志愿翻译的新闻，一看原来是刘孝叔他老人家。奥运那年他整100岁，照片上看还精神抖擞的样子。老人家一辈子清贫，一辈子不务正业，一辈子痴迷MT，心态特别好，所以高寿。总结说就是，MT 作为 NLP 最悠久的应用，历史上看作为主食的产品落地一直没有做大过，而作为副食（产品的一个 feature 或免费服务）不仅在市场站住了，而且是市场离不开的东西了。因此，如果历史是未来的镜子，那么NLP作为主食的情报挖掘卖钱的行当也会有市场，但也做不大。真正能做大的是，把 NLP 落地为副食，一个竞争和marketing不可缺少的、逐渐转化为越来越大使用价值的副食。这样来看，NLP 做得再好，也还是当配角的料，而且这个配角会比当主角要鲁棒强大得多。不知道通过这个回顾反省可以不可以得出如下结论： B2C 企业消化和发挥 NLP 的舞台要比 B2B 的舞台大很多，因为后者是硬碰硬的主食，而前者是副食。作为副食，NLP 可以玩出很多花样，制造很多 noise or buzz，而且客户看到的是水，而不是空气。也有助于技术人的自我陶醉、欣赏、自大和圆满。【相关】【泥沙龙笔记：NLP 市场落地，主餐还是副食？】泥沙龙笔记：把酒话桑麻，聊聊 NLP 工业研发的掌故【 IT风云掌故：金点子起家的　AskJeeves 】泥沙龙笔记：创新，失败，再创新，再失败，直至看上去没失败【立委科普：从产业角度说说NLP这个行当】【从新版iPhone发布，看苹果和微软技术转化能力的天壤之别】【立委随笔：文傻和理呆的世纪悲剧（romance tragedy）】《朝华午拾：创业之路》【朝华午拾：安娜离职记】《朝华午拾：今天是个好日子》【朝华午拾：那天是个好日子】【置顶：立委科学网博客NLP博文一览（定期更新版）】《朝华午拾》总目录; 个人分类: 立委科普|5995 次阅读|1 个评论

把酒话桑麻，再泡一壶茶，白头老机译，闲坐说研发: 热度 1 liwei999 2012-11-12 15:44; 提上来：把酒话桑麻，再泡一壶茶，白头老机译，闲坐说研发这两天要写的话题太多，怕断了线。日期: 11/12/2012 01:41:12 把酒话桑麻，再泡一壶茶，白头老机译，闲坐说研发，说一点儿机器翻译的掌故吧。曾几何时，机器翻译处于手工业研发时期，每个语言对（language pair）要手工开发两套系统，A 到 B 一套，B 到 A 一套，语言对一多就有一个貌似系统数量组合爆炸的问题（n 个语言需要编制 n**2 套系统）。于是，怎样实现多套语言之间的相互翻译成为机器翻译领域的经典话题之一。各种探索和方案都有提出，主要有两类：一类是所谓基于媒介语的设计思想；另一类是合一文法（unification grammar，又叫 constraint－based grammar）支持的方案。第一种方案很动听，因为如果有一种比较中性可以表达意义的媒介语，那么每个语言只要编制两套针对媒介语的互译系统，就可以实现通过媒介语而成的任意语言对的翻译（采用媒介语，n 个语言只需要编制 n(n-1)/2 套系统）。媒介语这幅图画是如此美妙，为老一辈机器翻译宣传家门所津津乐道。由此而来又引发了媒介语设计和选择的种种争论和探索，有主张全新设计一套基于逻辑的形式语言（日本曾经联合亚洲其他国家实施过这个方案），有主张利用或者改造世界语（Esperanto，立委出道当年也曾著文鼓吹过世界语作为媒介语，荷兰一家公司BSO也曾尝试过），还有研究者坚持认为只有采用自然语言（譬如英语，或者简化版英语）做媒介语才现实可行。第二类合一文法的研究在理论上也很诱人，它的兴起与新型计算机语言 Prolog 紧密关联：合一运算是 Prolog 语言的内置特性。所谓合一文法，就是排除蕴含在传统计算文法（computational grammar）里面的语言分析和生成的过程性，把语言规则的条件表达为对于语言单位的不同features 的制约信息，这些 features 在语言的小单位逐渐组合成大单位的过程中不断融合，语言信息丰富起来，达成对语言的分析结论。在合一文法的旗下出现过一系列以后缀G（gammar）命名的形式化系统方案（formalisms），如 GPSG，HPSG（立委的博士课题就是在HPSG这个框架下做的机器翻译实验）等。因为语言规则不再具有单向性，那么分析文法和生成文法就可以是同一套语法，由这套文法支持的系统是做分析还是做生成，是在文法资源被调用的时候才得以确定。理论上，A 语言翻译为 B 语言，与 B 语言翻译为 A 语言，在语言资源上归一以后，开发系统的工程就节省了一半，对于多语互译的效率虽然不如媒介语方案高，省工一半也还是非常诱人的。长话短说，这两类方案都是传统的基于规则的系统，虽然都做过相当程度的研究探索，但最终由于局限于手工规则系统难以 scale up 而没成大气候，最终修成正果的还是后起的统计型机器翻译（statistical MT）。多语翻译的问题因此转化为海量双语对照语库的资源问题。同一个架构和算法，原则上只需要同一个双语对照语库对互译的两个方向训练两次即可生成两套机译系统。机器翻译是一个相当特别的 NLP 应用，特别之处就在于海量 labeled data，即人工翻译双语对照库的普遍存在。它不但成就了统计型机器翻译这个方向，也在机器学习和传统规则系统的消长方面起了作用。据说，微软NLP研发方面资源调配的转机也是由机器翻译触发的。微软的故事是这样的。在统计方法还没成熟的前机器学习时代，NLP 的主导自然是语言学家编制的规则系统，当时的争论和竞争不在用统计还是规则，机器学习还是手工编制，而是如何把规则与过程（算法）分开，因为早期的规则系统规则是直接编写到程序里面去的，非常不利于系统调试。当年做得最先进的规则系统之一是 IBM 的一帮（计算）语言学家，他们着重系统的鲁棒性，编制了一套 broad－coverage 的英语句法分析器（parser），并成功应用于对百科辞典中的定义的自动分析。具体细节忘了，总之是 IBM 的这些研究家的自动语言分析工作引起了比尔盖茨的兴趣和注意，当时微软正在处于爆炸增长期，野心勃勃，财力雄厚。于是盖茨把这个队伍挖过来成立了自然语言研究部。有微软帝国最高领袖的支持，这个部门大规模扩张，雄心勃勃开始了多语言并举的自动分析研究，正在加拿大攻读博士的立委当年也被 short-listed 去微软面试中文NLP研究的职位。这支队伍做出了一个非常具有观赏性质的语义表达系统，叫做 MindNet，该系统通过自然语言自动分析词典和百科全书的词条定义，挖掘出概念之间的种种语义关系，形成一个错综复杂概念网络，demo 起来令人印象深刻。可是，在很长一段时间，这个研究组没有找到利用 MindNet 解决实际问题的大规模应用，部分原因应该与 cyc 手工编制常识网络而无法应用的情形类似：overhead 大，功效却不大，因为用知识处理来支持智能系统的开发，相比把智能活动当成黑匣子的机器学习方法，既不够直接、鲁棒，又难以 scale up。总之 MindNet 没有大规模实用。另一方面，各语言的几年开发也都做出了自己的分析器（parsers），于是他们尝试利用这些分析器支持一些 NLP 应用，包括机器翻译，当然这些系统都还在实验室内，没有成熟到可以产品化的阶段。时光荏苒，话分两头，（待续）有意思的是，IBM 研究院的另一部分人是统计机器翻译的先驱，最早在实验室证明了统计机器翻译是可行的一个路子，当然当时的系统很粗糙，质量还是无法与传统的基于人工规则的机器翻译相比。 (未完，写了一半太困就睡了，后来没顾上后续: 今后续不续看情绪吧) http://blog.sciencenet.cn/home.php?mod=spaceuid=362400do=blogquickforward=1id=631290 【置顶：立委科学网博客NLP博文一览（定期更新版）】; 个人分类: 立委科普|5245 次阅读|1 个评论

更多...

帐号		自动登录	找回密码
密码			注册

关闭 安全验证

标签: 掌故

相关帖子

相关日志

关闭安全验证