科学网

 找回密码
  注册

tag 标签: 中文处理

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

【一日一parsing, 而山不加增,何苦而不平?】
liwei999 2016-8-22 13:14
终于冰箱安装到位了, 欣喜之余发现有点儿小问题, 就联系了店家, 店家主动帮助联系客服上门查看, 虽然最终没有解决问题, 心里有点儿遗憾, 但是因为不影响使用, 所以也就无所谓了. 这一句够复杂的,目前这样子的: “店家” 与 “主动帮助”在主语之外,语义中间件给做了逻辑宾语,是 overkill,以为帮助的 subcat 的宾语没有 saturated,但是 动词性宾语ObjV 也算宾语的,这个调整一下可以 fix 最后的错误是远距离,“虽然” 应该找到 “但是”的,是强搭配,但里面有几个小句挡路。“但是”前面的小句没关系,反正是强搭配,抽着鞭子跑马也不怕越位,可是“但是”后面又来了个“因为 。。。所以”,这个嵌套有点讨厌:“但是”的落脚点因此不在第一小句,而在第二小句“所以”上。换句话说,人的理解是,“虽然”引导的让步状语从句应该长距离落实在最后的“无所谓”上,才符合句法语义逻辑。社会媒体似乎是不经意写出来的句子,也有这种繁复的小句嵌套的长距离句法问题(贴帖的人大概是个知道分子老九,大老粗没那么多“因为所以”“虽然但是”的,而且嵌套)。最后,“联系客服上门查看”还有个 subcat 词典没到位的 bug,小 case 了,不难纠正。small bugs are de-ed: 白: 这问题问的 我: 这事儿做的。 这澡洗的。 这牛吹的。 这问题问的。那叫一个水平。 这日子过的。那叫一个窝心。 这戏演的,那叫一个烂。 这话说的,那叫一个高。 感慨或惊叹的口语句式,句法主谓,逻辑述宾:这OV的。默认似乎负面,但正面也不少见。 这OV的 --》瞧人家这OV的 --》【human】+这+OV+的+标点 底层结构应该是:human+V+O+V+得+【】(补语省略) 他问问题问得【那叫一个水平】 他过日子过得【那叫一个窝心】 他演戏演得【烂】 他说话说得【高】 【相关】 【 关于 parsing 】 【关于中文NLP】 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|4485 次阅读|0 个评论
【一日一parsing:汉语单音节动词的语义分析很难缠】
liwei999 2016-8-22 05:27
白: “她拿来一根漂亮的海草,围在身上做装饰物。” 我: “围” 与 “做” 的逻辑主语阙如。原因之一是这两个动词本身的subcat没有要求“她”【human】或“海草”【physical object】。语义中间件目前是保守策略,因为逻辑填坑是无中生有,宁缺毋滥,rather underkill than overkill,精度优先。 人的理解是怎么回事呢:单个儿的“围”不好说,但是VP【围在身上】从“身上”继承了【human】的未填之坑,正好让“她”填做逻辑主语。同理,“做”是万能动词,也没有特定语义要求的坑,但是VP【做装饰物】(act as NP)则挖了一个同位语的语义坑【physical object】,可以让“海草”来填:【human】“把”(“用”)【physical object】“围在身上”;【physical object】“做装饰物”。 “围在身上”的句法主语可以是【human】,也可以是【physical object】:“一根漂亮的海草围在身上”。但是背后的逻辑语义都是 【human】为逻辑主语。 白: 此例引自小学一年级水平的课外读物 围,属于具有“附着、固定”subcat的动词子类,如果做话题,可以单独表示起始动作完成后的遗留状态。话题化 被固定物做话题 我: 而“海草”可以看做【工具】(包括【材料】状语),也可以看做是 VP【围在身上】内部的“围“的【受事】 白: 是逻辑宾语 我: 这是层次不同造成的逻辑角色的不同。 实际上,对这一类汉语单音节动词做如此细致的语义分析,挑战性很大。它们太多义了,只有组成合成动词、甚至形成 VP 以后,才逐渐排除多义而收心。这个动态的 subcat 的确定和填写过程,相当繁难,if not impossible。 白: 房子盖在山上做行宫 我: “盖-房子”算合成词。 again “做” 的逻辑主语(深层同位语)没连上“房子”。 白: 他给你打了一副手镯当嫁妆 我: SVO 齐活了,主句的O却断了。这叫顾腚不顾头,需要好好debug一哈: 这个比较完美了。也把“打手镯”当成“打酱油”一样做进离合词了。这样处理很重要,因为“打”是个万能动词,不知道有多少词义(如果考虑搭配中的词义的话)。 【相关】 【 关于 parsing 】 【关于中文NLP】 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|5678 次阅读|0 个评论
【deep parsing (140/n)::句法语义的萝卜与坑】
liwei999 2016-7-11 19:28
白: 张三对李四的批评一针见血。 张三对李四的批评置若罔闻。 梁: 白老师,这个挑战绝了,第一个是,张三批评李四,第二个是李四批评张三。 我: 白老师这个 minimal pair 是语言学的绝配样例。顺着它,可以 illustrate 一车的“萝卜与坑”的语言学:subcat 怎样工作,如何竞争,以及句法句型的的逻辑语义落地。这是语言学的魅力。我们先来 parse 一下,然后尝试做解读。 谁一针见血,谁置若罔闻,都是张三(S)。我们先看两句的总体句子架构,然后再论内层的逻辑谓词“批评”的句法逻辑语义。“一针见血”是不及物动词,只有主语一个坑,可以是人 也可以是观点类抽象名词或动作类的语词;“置若罔闻”有主语宾语两个坑,但这个成语性的语词谓语,其宾语在汉语句法(subcat pattern)中要求PP(对),而不是后置NP,置若罔闻的主语坑必须是 human,最多推广到 法人(机构、公司等)。 “X 一阵见血”,无论 X 是人是物还是动作: “human 对 X 置若罔闻”, 置若罔闻的X无论是物(信息)还是人(指代的仍旧是信息,是指那个人说的话:此乃“闻”的常识语义 ontology 所规定,但为了鲁棒,不必在句法上做这样的语义限制,因为介词“对”已经是一个很好的类似于“格变”的语言显性形式手段了,对于填这个坑已经足够精准了): 后一句意思是,张三不把李四的话当话(e.g. 张三逆反)。 接着我们考察一下“批评”的SVO句型,看看S和O的坑在中文是怎样要求和被填的: 这算是“批评”的三个最基本的 subcat patterns,逻辑语义不变,尽管第二个变式中的表层句法是以PP做状语(Adv)的面貌(和位置)出现,但语义中间件根据变式2的规定可以很容易确认其逻辑宾语(O)的角色。 下面来看汉语中利用“的字结构”的SVO句型变式:e.g. S对O的V 这是指称性 arg structure,通常用“的”(“之”),于此对应的是英语的动名词NP: John's criticism of Peter vs John's criticism by Peter Peter's criticism towards/of John the criticism of John by Peter the criticism of John towards Peter 可见,英语的 of 几乎与汉语的 “的” 一个臭德行 充满歧义。by 和 towards 就规矩多了。再举几个指称性SVO的例句: 如果不是逻辑动词的“意见类”语词,就是 human 对/关于 thing 的 意见,广义的 thing 包含 human: 张三对李四的看法 张三关于时局的一点意见 雷: 这个人不是东西 我: 人不是东西 但可以当东西看 在语义限制的时候 除非特地标明 NOT human,白马是马非马 的辩证法:“张三对李四的意见”。“李四”不是东西 但在这个句型当东西看 因为“意见”没有human逻辑宾语的坑 只有关于万事万物的坑。 梁: 张三对李四的评价很好。--》 评价很好--》评价是主语。 张三对李四的评价无所谓。 ——》 张三无所谓 ——》 张三是主语。 “对”管到哪儿的问题。 我: 到了 意见 的同义词 “看法” 就有趣了:“张三对李四的看法”。 句法上 仍然是 【关于】 万事万物;词法上,这个外化到句法的 pp 实际上是逻辑动词语素 “看” 的逻辑宾语,只不过 在 “看” 与 “法” 合成为黑箱子的词典化过程中,这种深度搭配被遮掩了。必须词典化、黑箱化,因为此法非彼法。只有词典化,才能绑架 “法” 的语义。 “张三对李四的看法” 结构上是 “ 张三 看 李四 的 ‘法’ ” “法” 不是默认的 method 语义,而是引伸的 perspective 语义,相当于英语的 point 在 viewpoint 或 point of view 中。黑箱的好处是可以把引申语义绑架为本义,英语的 viewpoint 就是用的同一种绑架的招数,否则 point 本身也意义含混。 John's viewpoint about Peter structurally is equivalent to John's perspective of (John) viewing Peter 昨天说过 虽然黑箱化 但在段子里可以休眠唤醒为白箱子: tv 新看法 就是。 总结:今天调试开发了的 unit test 的句子如下,工作成效颇不坏: 张三对李四的批评一针见血。 张三对李四的批评置若罔闻。 张三的批评一针见血。 张三一针见血。 批评一针见血。 张三对批评置若罔闻。 张三对李四置若罔闻。 张三置若罔闻。 张三批评李四 张三对李四批评 张三对李四的批评 张三之批评李四,毫无道理。 张三被李四所批评 张三被李四批评 张三为李四所批评 张三的被批评 李四对他批评 李四对他的批评 张三对李四对他的批评置若罔闻。 李四对他的批评一针见血。 张三对王五对李四的批评置若罔闻。 【相关】 【 tv 新看法 】 【立委科普:语法结构树之美(之二)】 【 关于 parsing 】 【关于中文NLP】 【置顶:立委NLP博文一览】 《朝华午拾》总目录 立委NLP频道
个人分类: 立委科普|3729 次阅读|0 个评论
【deep parsing (100/n):其实 NLP 也没那么容易气死】
liwei999 2016-6-27 23:07
白: “严把个人商用房客户准入关” 我: 这个句子我人脑也费了半天劲才明白讲的啥(“严把个人商用房客户准入关”==对个人商用房客户应严把准入关”),尝试用parser也只好瞎碰了,果然乱得不是一处两处,甚至把 “准入关”词典化(拼音联想词组里面 还真有这个词条)也还是不行: 白: “严把个人商用房客户准入关” 严还是个姓,上下文清晰时,可以用裸姓指代全名 “入关”也是词 “把”作动词用不如作介词用的概率高 “房客”也是词 我: 幸亏 real world 这样的句子是极少数。不过人脑怎么 parse 的呢? 虽然也饶了几圈,backtracking ...... 白: 这个例子是银行发的正式文件里的 纵向不确定性比较丰富,导致结构貌似不稳 “个人”是定语 我: 这个“严” 做状语也不好掌控 因为更多是做谓语的 个人也有些难缠,词典不行 因为有 “n个人” 的存在,只好后面补救了。 个人的定语问题倒是可以解决,但还是搞不定这句: 算了,就当没看见。我投降。 白: “准入”是有坑的,“把关”是有坑的。当“准入”+“关”生成“准入关”的时候,坑也要有同步的调整。 我: 谁(被)准入; 为谁把关(把谁的关)? 白: 把什么事由的关。 我: 把VP的关 白: “皇军要当你的家”类似 我: “把学习英语的关” “英语学习的关真不好把” 白: “严把生猪进口质量关” 我: “要把好业务关” 这个事由的坑可以是 VP or (abstract)NP,逻辑语义大体是 about:关于什么事儿的关 白: “教室的地得扫了” 旅行的目的地得调整了 马: 气死NLP 的士的目的地得调整 我: 其实 NLP 也没那么容易气死 @马少平 马: 哈,强大 我: 当然不能指望 “世界第1”的谷歌NLP ,靠的是世界第0 的立氏NLP。毛主席保证,上面的句子是一次通过,没做任何工作(当然此前一定是有工作的)。 白: 扫地的离合词处理 目的地,长词优先,不用特意做什么 我: 幸好 real world 的句子也有貌似困难其实无根本挑战的 我们还有活路。 白: 反过来才有挑战性,看着是离合词,就是不该碰一块儿的。伟哥试试:“这地是这样地难扫。” 我: 哈哈哈哈 仰天大笑 李白曰过的: 我辈岂是蓬蒿人 白: 很好 舍近求远得真解 我: 不过我心内是把它当成狗屎运的,只不过狗屎运常光顾愚公似的人。以前说过n次, NLP 是力气活 。 白: 话说,离合词这个功能好像也没多久。 我: 两三月前?早就想做了 盘算很久了 实现是最近几个月的事儿。量词更近,才个把月。 白: 量词和本群有直接关系 我: 离合词的处理 直接源于我13年前做英语的 phrasal verbs:take it off / take off the coat / take the coat off 之类( Wei Li et al, An Expert Lexicon Approach to Identifying English Phrasal Verbs, ACL 2003 ) 对量词,的确是本群反复议论才被促上马的 因为没有量词搭配 90%+以上的场合无碍 以前一直拖着没做。 白: “蔡英文说得不好。” 我: 这种还是休眠吧,hidden ambiguity,跟 “难过” 类似。真做就唤醒,用 word driven 白: 和大语境有关 如果满篇都在说另一个蔡,就和蔡英文没啥关系了。 我: 是的,但是那种情形的处理需要在另外一个层面去做。discourse 的因素 trigger “蔡英文”-driven 的唤醒机制。 白: 分层不是单向,该交互时就交互 我: word driven 是可以想象的,因为“蔡英文”这个词对于我们来说,的确是既透明又黑箱的:黑箱是,只要不是文盲,基本上都知道蔡英文是一个人名;透明是,尽管知道这是一个人名,我们也仍然知道这个词的内部结构,以及这个词的句法可能性:蔡 -- 英文,Topic - S 的潜在性,单从这个词,我们就知道。 白: 一个上下文提供了所提及对象的“场”,重复出现可以增加“场强”,左右句法层面对部件的“抢夺”。 我: 不过这些可以想象的操作,大概很少有人去做,选择不做为多,因为还有很多可做的事儿还没做完呢。 白: 分场景。在游戏场景,上下文中的活跃对象“场”是至关重要的,不仅对其中的NLP,也对智能角色的动作规划。 我: 所有的 hidden ambiguity 都可以用 word driven 机制唤醒 如果我们真想做的话。 而 hidden ambiguity 一直公认为是中文切词的死穴。至少可以说,死穴不一定就死。换句话说,在休眠唤醒理论(见文末【相关】链接)正式提出之前,这个挑战很可能是被认为无解或极其困难的 白: 用于NLP是捎带脚 我: 但是,我们已经用 “难过” 在 sentiment 语义落地的实际工作中的实现,证明了还是有救。“小王很难过” vs “小桥很难过”,如今在我们的中文舆情系统中处理得如此漂亮!(重温 【 立委科普:歧义parsing的休眠唤醒机制再探 】) 白: 从一个包含NLP在内的更大系统视角来看,关键语境参数的实时刷新,受益者绝不仅仅是NLP。作者的观点和作者转述的他人观点,在极性上就是需要区别对待的。引述可能是为了反驳或反衬。所以,观点的主人是谁,就需要甄别。 我: 至少在知识图谱的工作中,discourse 内的实体aliasing 以及 anaphor 的工作,成为整合抽取信息的相对可靠的关键元素,这一步可以 leverage document-internal 的线索,这才为下一步的跨文本的 information fusion 打下了基础。 跳过 discourse 直接做 fusion 是不智的。 【相关】 《泥沙龙笔记:parsing 的休眠反悔机制》 【 立委科普:歧义parsing的休眠唤醒机制再探 】 【泥沙龙笔记:NLP hard 的歧义突破】 【立委科普:结构歧义的休眠唤醒演义】 《朝华午拾:我的考研经历》 【 NLP 是一个力气活:再论成语不是问题 】 【新智元笔记:巨头谷歌昨天称句法分析极难,但他们最强】 Wei Li et al, An Expert Lexicon Approach to Identifying English Phrasal Verbs, ACL 2003 【置顶:立委NLP博文一览(定期更新版)】 《朝华午拾》总目录
个人分类: 立委科普|3899 次阅读|0 个评论
【deep parsing (90/n):“雨是好雨,但风不正经”】
liwei999 2016-6-24 14:36
Deep parsing 每日一 fun: 雨是好雨,但风不正经 气象局通知~~~原约定今日凌晨来的暴雨,因半路上被堵,耽误了点时间,或许今天下午到夜间赶到。这场雨如果下大了肯定不小,下小了也肯定……不能大,请市民再耐心等待!具体情况等气象台会上研究后报给市民。气象台温馨提醒:今天如果不下雨,明天不下雨的话,这两天就没有雨了,等下暴雨再准确播报。 气象台郑重劝告美女们最近几天不要穿裙子,容易被撩,雨是好雨,但风不正经。 这是微信最近流行的段子。每日 parsing 一 fun: QUOTE: 说什么两条路线斗争 宗教门派之别 主流非主流 眼珠转与不转 这些都不是本质 本质就是鸡同鸭讲。隔行如隔山 同行也隔山。隔了山还讲个球。鸡犬之声相闻 老死不相往来。这就是计算语言学的尴尬。这是一个非常奇怪的交叉学科 两路完全不是一个类型的人 没有 chemistry 没有基本的共同背景、世界观和方法学 没有共同语言 兴趣迥异 无法正常对话 更甭提恋爱结婚 最简单的办法 就是一派灭了另一派 眼不见为净。结果就是虽然被扫地出门了 语言学对于多数的殿堂内人 依然是格格不入 而又回避不了。做了一辈子的某些主流 NLP 大牛 不懂语言学常识的 并不鲜见 这在任何其他学科都是不可思议的。 但是语言学比共产主义还更像一个幽灵,一直在殿堂徘徊。 【相关】 【立委科普:语法结构树之美(之二)】 【新智元:parsing 在希望的田野上】 【置顶:立委科学网博客NLP博文一览(定期更新版)】 《朝华午拾》总目录
个人分类: 立委科普|3033 次阅读|0 个评论
【李白对话录:你波你的波,我粒我的粒】
热度 1 liwei999 2016-5-20 23:20
白: 转: 老师:为什么520除以3除不尽? 学生甲:因为爱情是容不下小三的。 小明说:错!因为小三是永远除不尽的。 老师 : “都给我滚出去‘’ 520 / 3=173.3333333333333333333 前面1个妻后面全是小三 Qing: 白老师好雅兴啊 白: 除不尽……这不是NLP的好例子么 李: 哈 小明 切错了 白: “他拿走了这筐老乡送来的苹果。” “他带走了这位老乡送来的苹果。” 我: 刚看第一句,心里想这不是中规中矩的句子吗,白老师又在玩什么 catch 呢。接着看到第二句,原来还是量词。量词一个月前已经做进去了。 白: 筐这个,是多对多的搭配,不是一对多 李: 不就是容器做量词 白: 对,动用subcat “这间学生宿舍还没整理好” “这群学生宿舍还没整理好” “这帮学生宿舍还没整理好” 李: 当然。说解决了量词问题,当然不是只解决直接量的搭配,其中包括 subcat 里面有一系列从具体到抽象的量词搭配。 白: “我拒绝听从这帮学生的命令” “我拒绝逮捕这帮学生的命令” 李: 第二个错了。 两个 subcats? 拒绝逮捕 vs 拒绝命令? 白: 逮捕的逻辑宾语不能是抽象的。 李: 逮捕+human;拒绝+VP;拒绝+NP (拒绝+命令?) 被 subcats 弄得有点糊涂了。 到底“拒绝”的是一般的 N 还是直接量的“命令” 对,“命令”不能“逮捕”。 还有个好玩的:“拒绝逮捕” 实际上是 “拒绝 逮捕”。因此如果“逮捕”做了“拒绝”的宾语,那么“逮捕”自己就不能再有宾语,因为它是别人的隐含宾语。这套逻辑属于啥?应该是语言学内部的某种。 白: 命令属于没有提取功能的N,只能被饱和的定语从句修饰。当然如果动词是“执行”等硬搭配,例外。 李: 这个句子值得咀嚼。 命令是有human的坑的,因为有坑,因此让“这帮学生”与“命令”勾搭起来也就有了依据。没想到的是前面是“逮捕”,也有个 human 的坑,与命令不搭。于是麻烦来了:一个动词与一个动名词,一个从左一个从右,在争抢这个 human,典型的 triangle,情何以堪? 白: 哈 李: 以后这个句子是个保留的 test case,哪家中文做好了,就拿它考考。看深度神经是不是有更好的办法绕过它去。 白: 动名词的坑在竞争中处于劣势 李: 竞争劣势是普适吗? V1+V2+de+N 中,V1 胜过 V2,如果都符合坑的要求的话。这个 heuristic 有多大把握? 而且这句 V1+V2 恰好也符合 subcat,V2 也可以跳进 V1 的坑。 还是没弄清楚 为啥 V2 一跳进去就变成被动了,一般的带有动词的subcat,对于动词是没有约束的:V+VP,后面跟的是 VP,而不是一个明示或隐式的 passive V。为啥“拒绝”偏偏不同于众呢? 拒绝逮捕 == 拒绝被逮捕 but 拒绝离开 拒绝被离开 但似乎,拒绝洗礼 == 拒绝受洗? 可: 拒绝吃猪肉,拒绝看电影,拒绝谈朋友。。。这不都好好的 VP 吗?为啥“拒绝逮捕”不同?当然例外在语言学中是常态,不需要讲道理的,直接encode到词典subcat去即可。这种不同(拒绝+VP vs 拒绝+逮捕)是 subcat 的个性共性在这个词上的反映,约定俗成。那么也简单,就直接 encode 到 subcat 里面去。 然而,这样一来,这场 subcat 大战就超出了三角,这个case就更乱成一锅粥了。 “拒绝”要抢“逮捕”,比“拒绝”要“命令”,道理上似乎更强大,可这个case正好相反。 “拒绝”抢“逮捕”是直接量的 subcat,而且两个挨得那么近,所以应该是优先的,而“拒绝”与“命令”似乎不能算直接量的 subcat,而是一般及物动词带NP的一种,因此单单看这一对的subcat的强弱程度,搭配的力量对比上应该后者是抢不过的。 白老师能想出这个案例,也是醉了。里面太多的语言学纠缠了。 白: “我同意录取张三的决定” “我同意修改张三的决定” 李: 不知道是不是狗屎运。其实如果不仔细查看,我也不知道是不是运气,还是啥时教给它了,当然宁愿相信是天道酬勤,毕竟狗屎运是小概率。 其实做中文除了架构设计还有毛毛虫模型等战略高度的考量,90% 的时候就是一个苦力。不说别的,就说这词典,每次进去就感觉头皮发麻,哪里哪里都不顺眼。怎么有那么多工作量啊,简直感觉这一辈子搭进去也不见天日似的,吾生之有涯对无涯,大大地殆矣。 有人以为词典不就一个词表吗?到大数据扒拉一遍,要多少万给多少万,很多基于大词典的切词程序就是根据大数据 ngram 扒拉出来的。 可是要把语言学(包含subcat)融入词典,再把 ontology 带入,然后再考虑歧义词的某种特别标注,等等,够累死n头牛的。 我总觉得自己当年学《老三篇》,学得了愚公精神的精髓,以苦为乐,即便如此,有时还是免不了林彪元帅的天问:红旗到底要打多久? 有时候也想,如果深度神经真能把这些都一揽子搞定,只要给它喂 data,最好是原始的data,标注都不需要,语言学就自动学会了,那该是多么美妙啊。今后20年内能等到这一天么? 白: 用不了 李: 学习乐观主义(cf: 【泥沙龙笔记:学习乐观主义的极致,奇文共欣赏】 ),据说程序猿今后五年都要淘汰了。 白: 关键是找到规则和统计的正交坐标系,实现波粒二象性。 李: 白老师要是有这个信心,我愿意给你打下手,促成大业。你波你的波,我粒我的粒,按照你的设计哲学。 【相关】 【白硕- 穿越乔家大院寻找“毛毛虫”】 【李白对话录系列】 【泥沙龙笔记:学习乐观主义的极致,奇文共欣赏】 乔氏 X 杠杠理论 以及各式树形图表达法 【立委科普:美梦成真的通俗版解说】 【立委科普:结构歧义的休眠唤醒演义】 【立委科普:语法结构树之美】 【立委科普:语法结构树之美(之二)】 【新智元笔记:中文自动分析杂谈】 【置顶:立委科学网博客NLP博文一览(定期更新版)】 《朝华午拾》总目录
个人分类: 立委科普|6766 次阅读|2 个评论
【征文参赛:美梦成真】
热度 13 liwei999 2013-10-15 17:48
这是一个跨越1/4世纪科研美梦终成真的现实故事。故事的主人公做助理研究员的时候,满怀热情,不知天高地厚地为世界上最微妙的语言之一现代汉语,描绘了一幅自然语言理解(NLU)蓝图,其核心是对千变万化的中文文句施行自动语法分析。这幅蓝图距离现实太过遥远,其实现似乎遥遥无期,非人力可为。然而,1/4世纪之后,积累加机缘,天时和地利,主人公终于实现了这个理想,正在投入真实世界的大数据应用。The mission impossible accomplished. 二十五年了, 中文之心,如在吾庐,一日不曾忘记!拔高一点说,对于语言学家,中文之心可以说是梦萦魂牵的海外流浪人的中国心。 很多年了,由于工作的原因,一头扎进英语处理的海洋沉浮。直到近两年,英语已经无可再做,该做的差不多都做了,不该做的也神农尝草,遍历辛苦。大山大水已然身后,而且已经大数据 实用化了,应该可以放下。近几年来,随着白发的繁盛,岁月的流逝,忧虑之心油然而起。弹指一挥,逝者如斯,怕这辈子没有机会回到中文处理上来,那将抱憾终身。 都说中文是世界上最诡秘、最玄妙、最不讲逻辑,自然也是最难机器处理的语言。有人甚至声称中文无文法,中文理解全靠“意合”,是对机器自然语言理解和人工智能前所未有的挑战。目的地如此高远,而现状却相当悲惨,中文处理整个领域深陷在汉字串切词的浅层漩涡长达数十年不能自拔 。切词是什么?最多算万里长征的前十步而已。 25年了, 许多思考、想法,在头脑绕了很多年,一直未及实现,现在是时候了。这辈子不爬中文的珠穆朗玛,枉为华裔语言学博士。陶先生说:归去来兮,田园将芜胡不归? 喝令三山五岳开道,中文处理,我回来了! 出道之初的上世纪80年代,我为一家荷兰的多语机器翻译BSO项目,参照英文依存文法,设计过一个【 中文依存文法 】,涵盖了现代汉语几乎所有的重要句型,画过无数的中文依存关系句法树,看上去真地很美。但那只是纸上谈兵。虽然设计这套文法是为机器处理,真要实现起来谈何容易。事实上,在当时那只能是一场科研美梦。这一梦就是25年! 现在回看当年的蓝图,对照最近在机器上实现的依存句法分析器,一脉相承,感慨万千。年轻时就有绿色的梦,那么喜欢树,欣赏树,着迷画树,好像在画天堂美景一样 体验着绿之美 ,梦想某一天亲手栽培这颗语言学之树,为信息技术创造奇迹。如今终于迎来了实现的曙光,天时地利人和,研发的辛苦与享受已然合一,这是何等美妙的体验。 请欣赏青年立委当年“手绘”的粗糙又精致的句法树蓝图的几段截屏(可怜见地,当时只能用纯文本编辑器数着空格和汉字去“画树”,就如我年三十在机房数着字符描画山口百惠并用IBM-PC制成年历一样)。对照新鲜出炉的中文句法分析器全自动生成的婀娜树姿,我不得不说,美梦成真不再是一个传说。 (1) 25年前的蓝图( 美梦 ): 25年后的实现( 成真 ): (2) 25年前的蓝图( 美梦 ): 25年后的实现( 成真 ): (3)25年前的蓝图( 美梦 ): 25年后的实现( 成真 ): (4) 25年前的蓝图( 美梦 ): 25年后的实现( 成真 ): 但那时我在上海也有一个惟一的不但敢于随便谈笑,而且还敢于托他办点私事的人,那就是送书去给白莽的柔石。 (5) 25年前的蓝图( 美梦 ): 25年后的实现( 成真 ): (6)25年前的蓝图( 美梦 ): 25年后的实现( 成真 ): 胶合板是把原木旋切或刨切成单片薄板, 经过干燥、涂胶, 并按木材纹理方向纵横交错相叠, 在加热或不加热的条件下压制而成的一种板材。 初稿( 2012-10-13 ): 科学网—【立委随笔:中文之心,如在吾庐】 【相关篇什】 【 汉语依从文法: 维文钩沉(25年前旧作,浏览器下请选用国标码 GB 阅读以免乱码和图形失真) 】: ChineseDependencyGrammar1.txt ; ChineseDependencyGrammar2.txt ; ChineseDependencyGrammar3.txt 【 立委科普:语法结构树之美 (英文例示)】 【 立委科普:语法结构树之美 (中文例示)】 【立委科普:美梦成真的通俗版解说】 【立委科普:自然语言parsers是揭示语言奥秘的LIGO式探测仪】 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|9450 次阅读|28 个评论
台北演讲幻灯片上网(2/2)
liwei999 2013-4-6 06:58
Chinesemorphology syntax 字组词与词组句( or 短语): 1. 界限不清晰 2. 规则类似 3. compounding: small syntax, a BIG partof Chinese structures 4 . pipeline steps with adaptivedevelopment and patches can handle modulardevelopment is key for a complex system easyto debug and maintain System internal coordination : 1. 很多问题可以通过系统内部协调来解决:没有绝对对错,如何更合适 更好维护 e.g. two-subject phenomena 2. 大 体分层,局部 patch : 2major counter-arguments : inter-dependency errorpropagation 切词 与 POS 等因此无需一刀切 2-subject structures 我身体好 三星手机屏幕清晰,价格合理 Linguists different analyses: each hasits points/perspectives and is valid (1)S1+S2+Pred or Topic+Subj+Pred (2) NP1-modifier NP2 + P red ” = NP1+de+NP2 + Pred (3) NP1 + Pred (NP2+AP) : pred compounding analysis No need to argue, whichever analysis is convenient No absolute right or wrong, differentperspectives Largely system internal: parsing representation is not goal, IE is as long as tree is consistent andsupports IE 切词 vs 组词 切词是系统的有机部分: 1. 正确 率不是唯一的标准 : a real story 2. config 和 easy to debug 是最重要的 3. 不要本末倒置:负负也可以得正 , adaptive development vs.pipeline error propagation 大词典是根本对策: 1. 边界词典:越大越好 ( 虽然语言学词典是有限的 ) 2. 切词的目的之一是语义标注: HowNet 切词与组词相结合: 1. listable 2. open-ended 应该立法禁止切词研究 :=) 有待于汉语语法的理论突 破? 西 语分析的方法、工具: 1. 可用 2 . collocations: phrasal verbs at mopho -syntacticinterface 3. 需要扩充:譬如 reduplication unification 聊聊天;说说话 汉 语的所谓“意合性”: 1. 语 法比较弹性 2. 省略多: ( 1 ) 对于 这件事, 依 我的看法, 我们 应该听其自然。 ( 2 )这件事我的看法应该听其自然。 Parsing 的难度: 1. 中文这座山是陡 坡 : morefine-grained rules: POS, sub-POS, lexical feature, word-driven morelexical features needed: HowNet lazyman’s approach won’t work 2. 英 文的坡则比较平 缓 中文NLP迷思之三:中文处理的长足进步有待于汉语语法的理论突破 词义消歧( WSD )是 NLP 应用的瓶 颈 ?? No 结构歧义 ismore serious 1. Keep some non-deterministic path:following ambiguity untouched principle 2. Combine statistics with rule system NLP 迷思之四:词义消歧(WSD)是NLP应用的瓶颈 坚持四项基本原则,开发鲁棒性NLP系统 【科研笔记:NLP的词海战术】 BeyondPrecision Recall Bigdata redundancy help not only recall but also precision Instance-basedrecall at extraction level vs concept-based recall at mining level ( the latter matters to users ) 我们的语言系统每天阅读分析五千万个帖 子 , 15 亿词的处理 量 Community benchmarks vs industry benchmark Users’ experiences Sentiment Mining based on Chinese Parsing Thank You QA 台北讲演幻灯第一部分: http://blog.sciencenet.cn/blog-362400-677352.html 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|3209 次阅读|0 个评论
广而告之:科学网“双百”博主立委四月一日在北京演讲大数据挖掘
热度 11 liwei999 2013-3-20 19:57
UPDATE:立委愚人节北京讲演时间地点已经确认,感谢中文信息学会孙教授的邀请和安排,也感谢董振东前辈教授的建议和推举: The loacation is : Room 334, 3rd floor, building 5 Institute of Software, Chinese Academy of Sciences, No. Zhongguancun South 4th Street 10:00~12:00 It's better you take the subway. And the nearest subway station of line 13 is 知春路 虽然在四月一日路过北平,但不是愚人节玩笑 :=), 具体地点和活动细节待确认后随时update Sentiment Mining from Chinese Social Media in Big Data Age by Wei Li, Ph.D. Computational Linguistics In this information age of big data, social media such as WeiBo (Micro-Blog, or Chinese twitter) is more and more influential. The popularity of mobile devices such as smart phones makes it possible for anyone to share his/her observation, experiences, opinions and sentiments any time anywhere in the social network such as WeiXin (or WeChat). The social media big data from WeiBo, WeiXin, Customer Review sites, Blogs and Forums are like a gold mine of intelligence, yet to be mined. They are in the form of natural language (Chinese in this case) and contain intelligence of public opinions and consumer sentiments on any topics, brands and products. Automated sentiment mining via Natural Language Processing (NLP) is a must-do if we (or businesses) do not want to be overwhelmed by the information overload. Dr. Li's talk will present the design philosophy behind such a sentiment mining system which he has designed and led the team to develop. He will first discuss the value and scope of NLP in sentiment extraction and mining, pros and cons between the rule based system and learning based classification, and different levels of sentiment mining in response to the various information needs. He will then demonstrate a list of real life Chinese social media hot topics as mined by the system to show the value and future of big data and NLP, in areas like automatic survey and social media listening and monitoring for consumer insights. 大数据时代中文社会媒体的舆情挖掘 李维 博士 随着大数据时代的到来,社会媒体(譬如 微博)的影响力日益增强。智能手机等移动设备的普及,使得普罗百姓的见闻、意见和情绪可以随时随地传达(譬如利用微信)。微博、微信、博客、论坛这些社会媒体大数据好像一座座富含情报的金山,等待我们去挖掘。在大数据面前,如果不想被信息爆炸淹没,就必然需要使用自动手段,尤其是可以用来自动抽取挖掘舆情的自然语言技术。 李博士的报告基于他主持开发的客户舆情自动抽取挖掘系统。报告分两大部分。第一部分阐述自然语言技术在舆情抽取中的应用范围,比较统计分类方法与规则系统方法的利弊,以及舆情分析的层级体系。第二部分通过一系列社会媒体热点话题的实例,展示大数据挖掘的价值和前景。 Dear Prof, Li, ...... the title and abstract of your talk in Chinese or English. And a simple cv of you. How about 10:00~12:00am ? About Dr, Li A hands-on computational linguist with nearly 30 years of professional experience in Natural Language Processing (NLP), Dr. Li has a track record of making NLP work robust. He has built three large-scale NLP systems, all transformed into real-life, globally distributed products. He is now Chief Scientist for a fast-growing Silicon Valley company which serves global Fortune 500 companies for consumer insights and social media monitoring. 【相关活动: 台北学术讲演谈中文语法分析 】 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|4971 次阅读|24 个评论
小广告:My talk is 2013-03-29 10:00 資訊所新館106演講廳
热度 2 liwei999 2013-3-15 19:58
2013 學術演講 時間 主題 -- 主講人 地點 邀請人 2013-03-29 (Fri) 10:00 – 12:00 Towards robust large-scale Chinese parsing Wei Li 博士 資訊所新館106演講廳 陳克健 講 題: Towards robust large-scale Chinese parsing 講 者: Wei Li 博士 時 間: 2013-03-29 (Fri) 10:00 – 12:00 地 點: 資訊所新館106演講廳 邀請人: 陳克健 摘要: As a seasoned NLP practitioner with nearly 30 years of professional experience, Dr. Li has built a real-life robust Chinese parser to support sentiment mining from Chinese social media. In this talk, he will present the infrastructures and platform that are required to build a Chinese parser. He will discuss the architecture of the system, including the interface between word segmentation, shallow parsing and deep parsing. 我面对的研究员与我类似:我做了NLP 约30年,他们也做了 30 年。中文处理是他们的主攻方向,比我做得更多。 进了班门了。 上午演讲,下午参观与座谈。 Copyright © Institute of Information Science, Academia Sinica Tel: +886-2-27883799 【相关活动】 科学网“双百”博主立委四月一日在北京演讲大数据挖掘
个人分类: 立委科普|3324 次阅读|5 个评论
曙光在眼前,轻松过个年
热度 1 liwei999 2013-2-9 04:34
曙光在眼前,轻松过个年
QA(Quality Assurance 质量检测)表明,在下领导开发的中文系统质量优良 日期: 02/08/2013 13:38:01 比起我们业已成熟的英文系统,QA 表明: precision (查准率)已经基本达到英文系统的查准率水平; recall (查全率)达到英文查全率的三分之二左右。 要知道,英文系统开发了n年,英文本身处理难度比起博大繁难的中文也低一些,much more tractable. 我们做多语言,本来就是基于下列的 field feedback / assumption: 英文的系统及其data quality 是一个已经 sold 的 concept/product,无需再论证,因为客户已经接受,而且市场上找不到更好质量的。有别的方面暂时强于我们的,比如,content sources,比如应对网络垃圾,比如与结构数据或meta data整合,比如与企业解决方案的无缝连接,比如在某个特定 domain 里面的优化,等等,但是 data quality,老子天下第二(第一自然是上帝)。多语言项目上马就是要重复英语的成功。 而中文,我们遵循实用主义原则奋战快一年,已然接近英文质量了。照目前的研发速度, 保守的估计,到今年年底,中文系统质量会全面达到英文系统的水准。 中文社会媒体深度舆情挖掘不再是遥远的梦。 饮水思源,这一切首先归功于林彪元帅的教导。林元帅说的是: 要带着问题学,活学活用,急用先学,立竿见影,在用字上狠下功夫 。毕竟是不世出的天才元帅,说出来的话就是不同凡响。 再有就是 邓大人的影响。邓大人是实用主义大师,其猫论是一切实际工作的指南,是反对理论洁癖的利器。 遵循林元帅邓大人的教诲,就是胜利。 急用先做,立竿见影。一分耕耘,十分收获,实用主义万万岁。 过年罗,过大年罗。 立委名言:曙光就在前面,同志可以过年。 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|4530 次阅读|4 个评论
【立委随笔:中文之心,如在吾庐】
热度 1 liwei999 2012-10-13 23:51
【立委随笔:中文之心,如在吾庐】
借用盛传的霸王当年热恋时的妙句(“ 友人之心,如在吾庐”),我要说:二十五年了, 中文之心,如在吾庐,一日不曾忘记!拔高一点说,对于语言学家,中文之心可以说是梦萦魂牵的海外流浪人的中国心。 很多年了,由于工作的原因,一头扎进英语处理的海洋沉浮,直到近两年,英语已经无可再做,该做的差不多都做了,不该做的也神农尝草,遍历辛苦,再往后就是 incremental 的修补和维护了。大山大水已然身后,总之是 second to none,而且已经大数据(big data) 大规模 实用化了(Internet scale, with products globally distributed),应该可以放下。近几年来,随着白发的繁盛,岁月的流逝,忧虑之心油然而起。弹指一挥, 逝者如斯, 怕这辈子没有机会回到中文处理上来,那将抱憾终身。 都说中文是世界上最诡秘、最玄妙、最不讲逻辑,总之是最难机器处理的语言。有人甚至声称中文无文法,中文理解全靠“意合”(semantic coherence),非常识推理(common sense reasoning)不能,是对自然语言理解(NLU)和人工智能(AI)前所未有的挑战。目的地如此高远,而现状却非常悲惨,中文处理整个领域深陷在汉字串切词的浅层漩涡长达数十年不能自拔 。切词算什么?最多算万里长征的前十步而已(参见【立委随笔: 应该立法禁止分词研究 :=)】)。 我就不信这个邪,不可以走中间道路来曲线救国。 许多思考、想法,在头脑绕了很多年,一直未及实现,现在是时候了。 这辈子不爬中文的珠穆朗玛,白做中国人,枉为语言学博士,对不起NLP这个饭碗。陶先生说:归去来兮,田园将芜胡不归? 喝令三山五岳开道,中文处理,我回来了! 出道之初的上世纪80年代,我为一家荷兰的多语机器翻译BSO项目,参照英文依存文法,设计过一个【 中文依存文法 】(Li, W. 1989. “A Dependency Syntax of Contemporary Chinese”, BSO/DLT Research Report, the Netherlands),概括了几乎所有的重要句型,纸上谈兵地画过无数的中文依存关系句法树。那应该是中文依存关系形式化研究的真正开拓期,如此说来 yours truly 也可以算是中文处理研究的化石级元老了。现在回看当年的图画,对照最近在机器上实现的依存句法分析器(dependency parser),一脉相承,感慨万千。年轻时就有绿色的梦,那么喜欢树,欣赏树,着迷画树,好像在画天堂美景一样 体验着绿之美 ,梦想某一天亲手栽培这颗语言学之树,为信息技术创造奇迹。如今终于看到了实现的曙光,天时地利人和,研发的辛苦与享受已然合一,这是何等美妙的体验。 请欣赏立委当年“手绘”的粗糙又精致的句法树蓝图的几段截屏(可怜见地,当时只能用text editor 数着空格和汉字去“画树”,就如我年三十在机房数着character描画山口百惠并用IBM-PC制成年历一样)。对照新鲜出炉的句法分析器自动生成的婀娜树姿,我不得不说,美梦成真不再是一个传说。 25年前的蓝图( 美梦 ): 25年后的实现( 成真 ): 工作着是美丽的。绿色革命万岁。 【附录示例:更多的美梦,更多的成真】 但那时我在上海也有一个惟一的不但敢于随便谈笑,而且还敢于托他办点私事的人,那就是送书去给白莽的柔石。 胶合板是把原木旋切或刨切成单片薄板, 经过干燥、涂胶, 并按木材纹理方向纵横交错相叠, 在加热或不加热的条件下压制而成的一种板材。 【相关篇什】 【 汉语依从文法: 维文钩沉(25年前旧作,浏览器下请选用国标码 GB 阅读以免乱码和图形失真) 】: ChineseDependencyGrammar1.txt ; ChineseDependencyGrammar2.txt ; ChineseDependencyGrammar3.txt 【 立委科普:语法结构树之美 (英文例示)】 【 立委科普:语法结构树之美 (中文例示)】 【立委随笔: 应该立法禁止分词研究 】 【 中文处理的迷思之一:切词特有论 】 【 中文处理的迷思之二:词类标注是句法分析的前提】 【 中文NLP迷思之三:中文处理的长足进步有待于汉语语法的理论突破 】 【 坚持四项基本原则,开发鲁棒性NLP系统 】 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|7387 次阅读|1 个评论
《科研笔记:中文图灵试题?》
热度 1 liwei999 2012-10-12 11:23
Chinese Turing Tests?? Challenging my Chinese dependency parser with puns. The real thing is, structural ambiguity is detectable, but not easily decodable. As for puns, forget it! Do you remember the last time you yourself, as an intelligent being designed by almighty God, were puzzled by jokes of puns? RE: 立委,测试你分析工具的图灵试题来了 大学里有两种人不谈恋爱:一种是谁都看不上,另一种是谁都 看不上。 parse 后一看,居然 合一 (unify)了:真地歇菜了?? 作者: 立委 日期: 10/11/2012 17:55:00 但是,(镜子曰,世界上怕就怕但是二字),请注意同样的string “是谁都看不上” 是怎样分析的:分析出两种意义 【意义1】是这么断句的:【是谁】 【都看不上】:【谁】 是【是】的逻辑宾语(Undergoer) 【意义2】则是:【是】 【谁都看不上】:【谁】 是【看不上】的逻辑主语(Actor) 哈哈,不傻吧,my baby 当然,同样的string,在目前是无法指望机器输出不同结果的。 实用的 parsing 技术从来没有超出语句级别的 context 来解码句法结构。 据说,类似的中文“图灵试题”还有: 大学里有两种人最容易被甩:一种人不知道什么【叫做】爱,一种人不知道什么叫【做爱】。 这些人都是原先喜欢一个人,后来喜欢一个人。 老友说,最后一句的精彩之处不在分词,在重音位置。机器只能歇菜 当然这些都是戏谑性的 puns,连人都会被绕晕,根本不用做 real life 系统的人分心。实际语言现象中,有的是 low hanging food, 很多 tractable 的问题好多系统都未及涉及呢,教机器识别 puns 这样劳而无功的勾当,根本排不上号。 【维基: 图灵测试 】 http://en.wikipedia.org/wiki/Turing_test 《立委科普:机器可以揭开双关语神秘的面纱》 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|6339 次阅读|2 个评论
后生可畏,专业新人对《迷思》争论表面和稀泥,其实门儿清
liwei999 2011-12-31 05:19
“专业新人” (early stage researcher)也别被我的夸赞冲昏头脑。门道门道,有门有道。门儿清,不等于道儿清。做到门儿情,只要聪颖和悟性即可,而道儿清要的却是耐性、经验、时间,屡战屡败、屡败屡战的磨练,而且还要有运气。是为冰冻之寒也。 On Thu, Dec 29, 2011 G wrote: As you titled yourself early stage researcher, I'd recommend you a recent dialog on something related - http://blog.sciencenet.cn/ home.php?mod=spaceuid=362400 do=blogid=523458 . He has a point as an experienced practitioner. I quote him here as overall he is negative to what you are going to work on [注:指的是切词研究]. And agree with him that it's time to shift focus to parsing. 2011/12/29 G Continuation of the dialog, but with an early stage researcher. FYI as I actually recommended your blogs to him in place of my phd thesis :) On Dec 29, 2011, M wrote: Hi Dr. G, I just read the Liwei's posts and your comments. I partly agree with Liwei's arguments. I think It's just a different perspective to one of the core problem in NLP, disambiguation. Usually, beginners take the pipeline architecture as granted, i.e. segmentation--POS tagging--chunking--parsing, etc. However, given the ultimate goal is to predict the overal syntactical structures of sentences, the early stages of disambiguation can be considered as pruning for the exponential number of possible parsing trees. In this sense, Liwei's correct. As ambiguity is the enemy, it's the system designer's choice to decide what architecture to use and/or when to resolve it. I guess recently many other people in NLP also realized (and might even widely agreed on) the disadvantages of pipeline architectures, which explains why there are many joint learning of X and Y papers in past 5 years. In Chinese word segmentation, there are also attempts at doing word segmentation and parsing in one go, which seems to be promising to me. On the other hand, I think your comments are quite to the point. Current applications mostly utilize very shallow NLP information. So accurate tokenization/POS tagger/chunker have their own values. As for the interaction between linguistics theory and computational linguistics. I think it's quite similar to the relationship between other pairs of science and engineering. Basically, science decides the upper bound of engineering. But given the level of scientific achievements, engineering by itself has a huge space of possibilities. Moreover, in this specific case of our interest, CL itself may serve as a tool to advance linguistics theory, as the corpus based study of linguistics seems to be an inevitable trend. From: Wei Li Date: Fri, Dec 30, 2011 He is indeed a very promising young researcher who is willing to think and air his own opinions. I did not realize that the effect of my series is that I am against the pipeline architecture. In fact I am all for it as this is the proven solid architecture for engineering modular development. Of course, by just reading my recent three posts, it is not surprising that he got that impression. There is something deeper than that: a balance between pipeline structure and keeping ambiguity untouched principle. But making the relationship clear is not very easy, but there is a way of doing that based on experiences of adaptive development (another important principle). 【相关博文】 专业老友痛批立委《迷思》系列搅乱NLP秩序,立委固执己见 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|4332 次阅读|0 个评论
中文NLP迷思之三:中文处理的长足进步有待于汉语语法的理论突破
热度 2 liwei999 2011-12-29 00:27
严格说起来,这不能算是迷思,而应该算是放之四海而皆准的“多余的话”:任何学科的理论突破都可能引起应用层面的长足进步,不说也罢。其所以归类到这个迷思系列,是因为这样的高论在中文处理界常常甚嚣尘上,有严重误导青年学子的危害。其结果是喊了多年理论突破,理论并没有突破,反而造就了一批民科妄想家(只是指出这个现象而已,对事不对人,有对号入座者,后果自负)。单这个后果还不算要紧,要紧的是这一说法为应用家的无能提供了心理挡箭牌,使得他们多年来畏畏缩缩,裹足不前:不是我们无能,是汉语太“个别”了(国民党的败将的口头禅就是如此:不是国军无能,是中共太狡猾了)。 汉语语法与西文语法真地如此不同,以致现有的语言学理论对它束手无策或难以实行了么?这是一个可以永远争论下去,没有绝对答案的问题。然而从应用层面,我们可以回答的问题是:在西文的语言处理中所使用的各种形式化手段和机制(formalism, mechanism and devices)对于汉语是否适用? 立委集20年NLP经验,可以负责任地回答这个问题:西文处理的机制和手段对于中文处理大多是适用的、可行的,也许有不够用的时候,需要机制的拓展(not necessarily 理论的突破),但总体而言是用得不够,是不会用、不善用的问题。语法虽然因语言不同而不同,但NLP武器库里的轻重火器大多是独立于具体语言之上的(language independent)。俗话是语糙理不糙的:拉不出矢,不能怪茅坑。 拿英语处理与中文处理的比较为例。诚然,由于汉语比较灵活,语言表达对形式化手段倚赖较弱,总体而言处理起来确实比英语要难。英语表达的形式化手段除了功能词(介词等),还包括词尾(如:-ed,-ing,-s,-able,-er),汉语没有完全对应的词尾形式,只有一些功能小词(譬如:了,着,过,们),而且这些词还常常省略。尽管英语在欧洲语言里面词尾是非常少的了,但是别小看这几个词尾对于简化词法语法分析的作用。中文处理较少这种便利。回到功能词上看,譬如介词连词,虽然英语有的,汉语基本都有,但是汉语省略功能词的时候远远多于英语,这是有统计根据的,也符合我们日常的感觉:往坏里说,中国人比较偷懒,说话不严谨;往好里说是,中国人很懂低炭,能省则省,汉语很灵活。举一个例子,可见汉语的省略是普遍的: (1) 对于 这件事, 依 我的看法, 我们 应该听其自然。 (2)这件事我的看法应该听其自然。 上述句子(2)译成英语,省去功能词是难以想象的。 这种缺少形式化手段的所谓汉语的“意合”式表达方式确实使得中文的电脑处理比英语处理困难。 这只是问题的一个方面,是从量上考察,即汉语的表达比英语往往更省略,更不严谨,更需要上下文。问题的另一面是从难点的性质上来看,中文处理遇到的问题究竟有多少是英文处理中没有遇到过的?我的答案是:很少。很多歧义问题省略问题,英语同样存在,只是不如汉语那么普遍而已。既然问题的性质基本相同,处理问题的机制和手段就同样适用。逻辑的结论就是:英语处理领域积累的经验和手段在中文处理中大有可为。如果有核武器攻下了英语这个堡垒,就没有道理攻不下汉语。只要不做上帝(因为只有上帝才是完美的),就没有裹足不前静待理论突破的道理。 其实,真正做过西文处理也做过中文处理的同行应该不难认同上述看法。我说的是“真正”,对西文处理浅尝辄止的不算(浅尝辄止的包括NLP硕士课程中的语法形式化游戏:S: NP VP; NP: Det? Adj* NN+; VP: V NP?)。如果你比较深入地implement过一个英语分析器,针对的是大批量的真实语料,你会发现:英语的深入分析所遇到的难点需要调动很多手段,需要很细致的工作,而这些手段和工作也正是中文处理所需要的。我常常这样跟朋友说英语处理和中文处理的异同:如果你做硕士作业,导师给你一周做出一个语言处理系统能够处理50%以上的语言现象,在英语是可行的,在汉语是不可行的。因为你可以下载一个免费POS Tagger,在POS基础上编制一套粗糙的语法交差。然而,如果你要面对真实语料做一个实用的语言分析系统,如果英语需要开发N个月,调动 M 个手段,那么用同样的时间和手段,中文开发也大体可以到位。形象地说就是,中文这座山是陡坡,英文的坡则比较平缓,但是两座大山的高度其实是相差无几的。如果电脑爬坡只求到达山腰,在英文是比较容易的,在汉语则很难。然而, 如果电脑爬坡的目标是山高80%以上的地带,所需资源和手段相差并不大。 中文处理有没有特有的难点,甚至难以踰越的障碍,需要不需要理论突破?回答是肯定的,但是很多难点是可以绕着走的,个别难以企及的问题是可以搁置的,因为上帝允许不完美的系统。无论如何,中文处理不能长足进步,是我们应用学家的耻辱和失败,而决不能嫁祸到理论家的头上。 处理尚未成功,同志仍需努力,立委与工匠同仁共勉。 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|8056 次阅读|2 个评论
中文处理的迷思之一:切词特有论
热度 7 liwei999 2011-12-28 13:33
电脑的中文处理业界有很多广为流传似是而非的迷思。在今后的随笔系列中,准备提出来分别讨论。 迷思之一:切词(又叫分词,word segmentation)是中文(或东方语言)处理特有的前提,因为中文书写不分词。 切词作为中文处理的一个先行环节,是为了模块化开发的方便,这一点不错。但它根本就不特有。 任何自然语言处理都有一个先行环节,叫 tokenization,就是把输入的字符串分解成为词汇单位:无论何种书面语,没有这个环节,辞典的词汇信息就无以附着,在词汇类别的基础上的有概括性的进一步句法语义分析就不能进行。中文切词不过是这个通用的 tokenization 的一个案例而已,没有什么“特有”的问题。 有说:中文书写不分词,汉字一个挨一个,词之间没有显性标识,而西文是用 space(空白键)来分词的,因此分词是中文处理的特有难题。 这话并不确切,语言学上错误更多。具体来说: 1 单字词没有切分问题:汉语词典的词,虽然以多字词为多数,但也有单字词,特别是那些常用的功能词(连词、介词、叹词等)。对于单字词,书面汉语显然是有显性标志的,其标志就是字与字的自然分界(如果以汉字作为语言学分析的最小单位,语言学上叫语素,其 tokenization 极其简单:每两个字节为一个汉字),无需 space. 2 多字词是复合词,与其说“切”词,不如说“组”词:现代汉语的多字词(如:利率)是复合词,本质上与西文的复合词(e.g. interest rate)没有区别,space 并不能解决复合词的分界问题。事实上,多字词的识别既可以看成是从输入语句(汉字串)“切”出来的,也可以看成是由单字组合抱团而来的,二者等价。无论中西,复合词抱团都主要靠查词典来解决,而不是靠自然分界(如 space)来解决(德语的名词复合词算是西文中的一个例外,封闭类复合词只要 space 就可以了,开放类复合词则需要进一步切词,叫 decompounding)。如果复合词的左边界或者右边界有歧义问题(譬如:“天下” 的边界可能歧义, e.g. 今天 下 了 一 场 雨;英语复合副词 in particular 的右边界可能有歧义:e.g. in particular cases),无论中西,这种歧义都需要上下文的帮助才能解决。从手段上看,中文的多字词切词并无任何特别之处,英语 tokenization 用以识别复合词 People's Republic of China 和 in particular 的方法,同样适用于中文切词。 咱们换一个角度来看这个问题。根据用不用词典,tokenization 可以分两种。不用词典的tokenization一般被认为是一个比较trivial的机械过程,在西文是见space或标点就切一刀(其实也不是那么trivial因为那个讨厌的西文句点是非常歧义的)。据说汉语没有space,因此必须另做一个特有的切词模块。其实对英语第一种tokenization,汉语更加简单,因为汉字作为语素(morpheme)本身就是自然的切分单位,一个汉字两个字节,每两个字节切一刀即可。理论上讲,词法句法分析完全可以直接建立在汉字的基础之上,无需一个汉语“特有”的切词模块。Note that 多数西文分析系统在Tokenization和POS以后都有一个chunking的模块,做基本短语抱团的工作(如:Base NP)。中文处理通常也有这么一个抱团的阶段。完全可以把组字成词和组词成短语当作同质的抱团工作来处理,跳过所谓的切词。 Chunking of words into phrases are by nature no different from chunking of morphemes (characters) into words. Parsing with no “word segmentation” is thus possible. 当然,在实际操作层面上看,专设一个切词模块有其便利之处。 再看由词典支持的tokenization, 这种 tokenization 才是我们通常讲的切词,说它是中文处理特有的步骤,其实是误解,因为西文处理复合词也一样用到它。除了实验室的 toy system,很难想象一个像样的西文处理系统可以不借助词典而是指望抽象规则来对付所有的复合词:事实上,对于封闭类复合词,即便抽象的词法规则可以使部分复合词抱团,也不如词典的参与来得直接和有益,理由就是复合词的词典信息更少歧义,对于后续处理更加有利。汉语的复合词“利率”与英语的复合词 “interest rate” 从本质上是同样的基于词典的问题,并没有什么“特有”之处。 【相关博文】 《 立委科普: 应该立法禁止分词研究 :=) 》 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|13914 次阅读|11 个评论
突然有一种紧迫感:再不上中文NLP,可能就错过时代机遇了
热度 1 liwei999 2011-12-10 20:29
与业內老友的对话:在‘用’字上狠下功夫 耳边响起了林副主席关于系统开发的谆谆教导: Quote 带着问题做,活做活用,做用结合,急用先做,立竿见影,在‘用’字上狠下功夫。 from: http://blog.sciencenet.cn/home.php?mod=spaceuid=362400do=blogid=510567 这是从与朋友的内部交流中得来的。赶的是编造名人名言的时髦。 ~~~~~~~~~~~~ 在我发文【 坚持四项基本原则,开发鲁棒性NLP系统 】以后,有业内资深老友表示非常有意思,建议我把NLP方面的博文系列汇集加工,可以考虑出书: Quote A good 经验之谈. Somehow it reminds me this -- 带着问题学,活学活用,学用结合,急用先学,立竿见影,在‘用’字上狠下功夫。 You made a hidden preamble -- a given type of application in a given domain. A recommendation: expand your blog a bit as a series, heading to a book. My friend 吴军 did that quite successfully. Of course with statistics background. So he approached NLP from math perspective -- 数学之美 系列 You have very good thoughts and raw material. Just you need to put a bit more time to make your writing more approachable -- I am commenting on comments like 学习不了。 and 读起来鸭梨很大. I know you said: 有时候想,也不能弄得太可读了,都是多年 的经验,后生想学的话,也该吃点苦头。:=) But as you already put in the efforts, why not make it more approachable? The issue is, even if I am willing to 吃点苦头, I still don't know where to start 吃苦头, IF I have never built a real-life NLP system. For example, 词汇主义 by itself is enough for an article. You need to mention its opponents and its history to put it into context. Then you need to give some examples. 文章千古事,网上涂鸦岂敢出书?这倒不是妄自菲薄,主要是出书太麻烦,跟不上这个时代。 我回到: 吴军's series are super popular. When I first read one of his articles on the Google Blackboard, recommended by a friend, I was amazed how well he structured and carried the content. It is intriguing. (边注:当然,他那篇谈 Page Rank 的文章有偏颇,给年轻人一种印象,IT 事业的成功是由技术主宰的,而实际上技术永远是第二位的。对于所谓高技术企业,没有技术是万万不行的,但企业成功的关键却不是技术,这是显而易见的事实了。) For me, to be honest, I do not aim that high. Never bothered polishing things to pursue perfection although I did make an effort to try to link my stuffs into a series for the convenience of cross reference between the related pieces. There are missing links which I know I want to write about but which sort of depends on my mood or time slots. I guess I am just not pressed and motivated to do the writing part. Popularizing the technology is only a side effect of the blogging hobby at times. The way I prove myself is to show that I will be able to build products worth of millions, or even hundreds of millions of dollars. 网上的文字都是随兴之所至,我从来不写命题作文,包括我自己的命题。有时候兴趣来了,就说自己下一篇打算写什么什么,算是自我命题,算是动了某个话题的心思。可是过了两天,一个叉打过去,没那个兴致和时间了,也就作罢。 赶上什么写什么,这就是上网的心态。平时打工已经够累了,上网绝不给自己增加负担。 So far I have been fairly straightforward on what I write about. If there is readability issue, it is mainly due to my lack of time. Young people should be able to benefit from my writings especially once they start getting their hands dirty in building up a system. Your discussion is fun. You can see and appreciate things hidden behind my work more than other readers. After all, you have published in THE CL and you have almost terminated the entire segmentation as a scientific area. Seriously, it is my view that there is not much to do there after your work on tokenization both in theory and practice. I feel some urgency now for having to do Chinese NLP asap. Not many people have been through that much as what I have been, so I am in a position to potentially build a much more powerful system to make an impact on Chinese NLP, and hopefully on the IT landscape as well. But time passes fast . That is why my focus is on the Chinese processing now, day and night. I am keeping my hands dirty also with a couple of European languages, but they are less challenging and exciting. 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|6519 次阅读|2 个评论
立委履历
liwei999 2010-2-19 05:28
立委履历 (一)工作经历 2006.11-至今 首席科学家 架构师,自然语言平台和核心技术设计者 所设计研发的自然语言平台支持新一代搜索引擎,用于企业市场,主要搜索互联网上的商业情报,包括产品技术信息,客户反馈,等。该产品为多家财富500强的研究部门和市场部门采用,证明了它提供的价值是其他搜索引擎和工具难以取代的。 1997/11 至 2006/03 Cymfony 公司,研究开发部,美国纽约州水牛城(Buffalo, New York) 主研究员(Principal Research Scientist) 自然语言处理副总裁(Vice President,NLP) (1999始) 撰写研究基金申请计划,先后赢得18项美国政府”小企业创新研究基金”(SBIR: Small Business Innovative Research),担任其课题负责人(PI: Principal Investigator or co-PI),研究开发新一代基于自然语言处理(NLP: Natural Language Processing)的信息抽取(IE: Information Extraction)技术。 该技术集中体现在 Cymfony 公司所开发的 InfoXtract(TM) 软件系列,包括 InfoXtract NLP/IE 引擎,组建技术,词典语法资源,有限状态转录机工具箱(Finite State Transducer Toolkit),机器自动学习工具箱(Machine Learning Toolkit)及开发平台。 在此基础上开发的软件产品 Brand Dashboard 和 Digital Consumer Insight,实时扫描处理数千种媒体报道,自动抽取品牌报道关键信息,过滤整合,分析数据全面反映品牌走势,为大企业创保作为无形资产的名优品牌提供决策参考,达到人工分析难以企及的广度及统计学意义上的精度。 2000 年帮助成功引进华尔街高科技风险基金一千一百万,使Cymfony由有两三个员工的从事互联网一般业务的公司发展成为具有70多员工,设立三处办公楼(美国波士顿,布法罗,和印度孟买分公司),引进专业管理人员及制订信息技术(IT: Information Technology)市场营销计划的高科技中小企业。 1999 年指导 Cymfony 研发部参与由美国国家标准技术局(NIST:National Institute of Standards and Technology)主持评判的第八届”文本检索大会”(TREC-8: Text Retrieval Conference)专项竞赛“自然语言问答系统”,获得第一名。 Cymfony 的技术及成长先后被多种媒体报道,包括《财富》,《华尔街日报》,《布法罗新闻》,及中文版《世界日报》。Cymfony 由于在一系列 SBIR 研究中成绩突出,被提名竞逐“2002 全美小企业最优合同项目年度奖”(2002 US Small Business Administration Prime Contractor of the Year Award)。 1987-1991 中国社会科学院语言研究所,北京 助理研究员 从事外汉机器翻译,自然语言处理及中文信息处理等领域的研究。 1988-1991 高立软件公司,北京 高级工程师(兼职) 从事高立英汉机器翻译系统 GLMT 的开发研究。主要工作有: 开发及调试八百条机器语法规则 设计及实现系统的语义模块背景知识库 培训及指导八人小组建立并开发有六万多词条的机器翻译词典及具有上万词典规则的专家词典规则库的开发 推动高立公司将 GLMT 1.0 产品化(1992) 该机译技术成功转化到香港韦易达公司袖珍电子词典系列产品中 GLMT于1992年1月在北京新技术产业开发试验区通过鉴定,先后获得北京市科技进步奖、新加坡INFORMATICS’92国际博览会计算机应用软件银奖和92年第二届中国科技之光博览会电子行业金奖,被列入火炬计划。 1988 承接荷兰 BSO 软件公司合同项目,撰写为多语种机器翻译服务的“汉语依从关系形式句法”,获得好评。 (二)教育经历 2001年 获加拿大 Simon Fraser University 计算语言学专业博士学位 学位论文 “汉语短语结构文法中的词法句法接口研究” (The Morpho-syntactic Interface in a Chinese Phrase Structure Grammar) 该汉语形式文法成功运用于英汉双向机器翻译系统的实验,证明同一部文法可以用于双向系统的汉语分析和综合。 攻读博士期间,多次担任计算机系自然语言实验室(Natural Language Lab)助研(Research Assistant)及语言学系助教(Teaching Assistant)或临时讲师(Sessional Instructor) 1991-1992年 英国曼彻斯特理工大学计算语言学中心(CCL/UMIST)博士候选人 1986年 获中国社会科学院研究生院语言学系机器翻译专业硕士学位 学位论文”从世界语到英语和汉语自动翻译”:这是国内少有的一对多机器翻译系统的研究探索。 1982年 安庆师范学院外语系英语专业学士学位 (三)获奖 2001年获本系杰出成就奖(Outstanding Achievement Award), Department of Linguistics, Simon Fraser University (award given to the best PhD graduates from the department) 1995-1997获加拿大卑诗省科学委员会 G.R.E.A.T. 奖学金 (G.R.E.A.T. Award, Scienc Council, B.C. CANADA), 旨在促进应用性博士课题与当地高科技企业的结合 1997年获校长研究资助(President’s Research Stipend) 1996年获新加坡 ICCC 大会特别旅行资助,宣讲论文 1995年获研究生奖学金(Graduate Fellowship) 1992年与傅爱平合作的机器翻译数据库应用程序获中国社会科学院软件二等奖 1991年获中英友好奖学金(中国教育部,英国文化委员会及包玉刚基金会联合提供)赴英深造 (四)其他专业活动 2002-2005,担任新加坡《中文和计算杂志》国际编委 1998-2004 担任企业导师(Industrial Advisor),先后指导20多位博士或硕士侯选人从事有工业应用前景的暑期实习研究课题(实习生来自纽约州立大学布法罗分校计算机系或语言学系) (五)论文发表记录 Srihari, R, W. Li and X. Li, 2006. Question Answering Supported by Multiple Levels of Information Extraction, a book chapter in T. Strzalkowski S. Harabagiu (eds.), Advances in Open- Domain Question Answering. Springer, 2006, ISBN:1-4020-4744-4. Srihari, R., W. Li, C. Niu and T. Cornell. 2006. InfoXtract: A Customizable Intermediate Level Information Extraction Engine. Journal of Natural Language Engineering, 12(4), 1-37, 2006. Niu,C., W. Li, R. Srihari, and H. Li. 2005. Word Independent Context Pair Classification Model For Word Sense Disambiguation. Proceedings of Ninth Conference on Computational Natural Language Learning (CoNLL-2005). Srihari, R., W. Li, L. Crist and C. Niu. 2005. Intelligence Discovery Portal based on Corpus Level Information Extraction. Proceedings of 2005 International Conference on Intelligence Analysis Methods and Tools. Niu, C., W. Li and R. Srihari. 2004. Weakly Supervised Learning for Cross-document Person Name Disambiguation Supported by Information Extraction. In Proceedings of ACL 2004. Niu, C., W. Li, R. Srihari, H. Li and L. Christ. 2004. Context Clustering for Word Sense Disambiguation Based on Modeling Pairwise Context Similarities. In Proceedings of Senseval-3 Workshop. Niu, C., W. Li, J. Ding, and R. Rohini. 2004. Orthographic Case Restoration Using Supervised Learning Without Manual Annotation. International Journal of Artificial Intelligence Tools, Vol. 13, No. 1, 2004. Niu, C., W. Li and R. Srihari 2004. A Bootstrapping Approach to Information Extraction Domain Porting. AAAI-2004 Workshop on Adaptive Text Extraction and Mining (ATEM), California. Srihari, R., W. Li and C. Niu. 2004. Corpus-level Information Extraction. In Proceedings of International Conference on Natural Language Processing (ICON 2004), Hyderabad, India. Li, W., X. Zhang, C. Niu, Y. Jiang, and R. Srihari. 2003. An Expert Lexicon Approach to Identifying English Phrasal Verbs. In Proceedings of ACL 2003. Sapporo, Japan. pp. 513-520. Niu, C., W. Li, J. Ding, and R. Srihari 2003. A Bootstrapping Approach to Named Entity Classification using Successive Learners. In Proceedings of ACL 2003. Sapporo, Japan. pp. 335-342. Li, W., R. Srihari, C. Niu, and X. Li. 2003. Question Answering on a Case Insensitive Corpus. In Proceedings of Workshop on Multilingual Summarization and Question Answering - Machine Learning and Beyond (ACL-2003 Workshop). Sapporo, Japan. pp. 84-93. Niu, C., W. Li, J. Ding, and R.K. Srihari. 2003. Bootstrapping for Named Entity Tagging using Concept-based Seeds. In Proceedings of HLT/NAACL 2003. Companion Volume, pp. 73-75, Edmonton, Canada. Srihari, R., W. Li, C. Niu and T. Cornell. 2003. InfoXtract: A Customizable Intermediate Level Information Extraction Engine. In Proceedings of HLT/NAACL 2003 Workshop on Software Engineering and Architecture of Language Technology Systems (SEALTS). pp. 52-59, Edmonton, Canada. Li, H., R. Srihari, C. Niu, and W. Li. 2003. InfoXtract Location Normalization: A Hybrid Approach to Geographic References in Information Extraction. In Proceedings of HLT/NAACL 2003 Workshop on Analysis of Geographic References. Edmonton, Canada. Li, W., R. Srihari, C. Niu, and X. Li 2003. Entity Profile Extraction from Large Corpora. In Proceedings of Pacific Association for Computational Linguistics 2003 (PACLING03). Halifax, Nova Scotia, Canada. Niu, C., W. Li, R. Srihari, and L. Crist 2003. Bootstrapping a Hidden Markov Model for Relationship Extraction Using Multi-level Contexts. In Proceedings of Pacific Association for Computational Linguistics 2003 (PACLING03). Halifax, Nova Scotia, Canada. Niu, C., Z. Zheng, R. Srihari, H. Li, and W. Li 2003. Unsupervised Learning for Verb Sense Disambiguation Using Both Trigger Words and Parsing Relations. In Proceedings of Pacific Association for Computational Linguistics 2003 (PACLING03). Halifax, Nova Scotia, Canada. Niu, C., W. Li, J. Ding, and R.K. Srihari 2003. Orthographic Case Restoration Using Supervised Learning Without Manual Annotation. In Proceedings of the Sixteenth International FLAIRS Conference, St. Augustine, FL, May 2003, pp. 402-406. Srihari, R. and W. Li 2003. Rapid Domain Porting of an Intermediate Level Information Extraction Engine. In Proceedings of International Conference on Natural Language Processing 2003. Srihari, R., C. Niu, W. Li, and J. Ding. 2003. A Case Restoration Approach to Named Entity Tagging in Degraded Documents. In Proceedings of International Conference on Document Analysis and Recognition (ICDAR), Edinburgh, Scotland, Aug. 2003. Li, H., R. Srihari, C. Niu and W. Li 2002. Location Normalization for Information Extraction. In Proceedings of the 19th International Conference on Computational Linguistics (COLING-2002). Taipei, Taiwan. Li, W., R. Srihari, X. Li, M. Srikanth, X. Zhang and C. Niu 2002. Extracting Exact Answers to Questions Based on Structural Links. In Proceedings of Multilingual Summarization and Question Answering (COLING-2002 Workshop). Taipei, Taiwan. Srihari, R. and W. Li. 2000. A Question Answering System Supported by Information Extraction. In Proceedings of ANLP 2000. Seattle. Srihari, R., C. Niu and W. Li. 2000. A Hybrid Approach for Named Entity and Sub-Type Tagging. In Proceedings of ANLP 2000. Seattle. Li. W. 2000. On Chinese parsing without using a separate word segmenter. In Communication of COLIPS 10 (1). pp. 19-68. Singapore. Srihari, R. and W. Li. 1999. Information Extraction Supported Question Answering. In Proceedings of TREC-8. Washington Srihari, R., M. Srikanth, C. Niu, and W. Li 1999. Use of Maximum Entropy in Back-off Modeling for a Named Entity Tagger, Proceedings of HKK Conference, Waterloo, Canada W. Li. 1997. Chart Parsing Chinese Character Strings. In Proceedings of the Ninth North American Conference on Chinese Linguistics (NACCL-9). Victoria, Canada. W. Li. 1996. Interaction of Syntax and Semantics in Parsing Chinese Transitive Patterns. In Proceedings of International Chinese Computing Conference (ICCC’96). Singapore W. Li and P. McFetridge 1995. Handling Chinese NP Predicate in HPSG, Proceedings of PACLING-II, Brisbane, Australia Uej Li. 1991. Lingvistikaj trajtoj de la lingvo internacia Esperanto. In Serta gratulatoria in honorem Juan Régulo, Vol. IV. pp. 707-723. La Laguna: Universidad de La Laguna Z. Liu, A. Fu, and W. Li. 1989. JFY-IV Machine Translation System. In Proceedings of Machine Translation SUMMIT II. pp. 88-93, Munich. 刘倬,傅爱平,李维 (1992). 基于词专家技术的机器翻译系统,”机器翻译研究新进展”,陈肇雄编辑,电子工业出版社,第 231-242 页,北京 李维,刘倬 (1990). 机器翻译词义辨识对策,《中文信息学报》,1990年第一期,第 1-13 页,北京 刘倬,傅爱平,李维 (1989), JFY-IV 机器翻译系统概要,《中文信息学报》,1989年第四期,第 1-10 页,北京 李维 (1988). E-Ch/A 机器翻译系统及其对目标语汉语和英语的综合,《中文信息学报》,1988年第一期,第 56-60 页,北京 其他发表 (略)
个人分类: 立委其人|6435 次阅读|2 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-29 09:37

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部