科学网 › 标签 › 自动分析

标签: 自动分析

相关帖子	版块	作者	回复/查看	最后发表

没有相关内容

相关日志

【一日一parsing, 而山不加增，何苦而不平？】: liwei999 2016-8-22 13:14; 终于冰箱安装到位了, 欣喜之余发现有点儿小问题, 就联系了店家, 店家主动帮助联系客服上门查看, 虽然最终没有解决问题, 心里有点儿遗憾, 但是因为不影响使用, 所以也就无所谓了. 这一句够复杂的，目前这样子的： “店家” 与 “主动帮助”在主语之外，语义中间件给做了逻辑宾语，是 overkill，以为帮助的 subcat 的宾语没有 saturated，但是动词性宾语ObjV 也算宾语的，这个调整一下可以 fix 最后的错误是远距离，“虽然” 应该找到 “但是”的，是强搭配，但里面有几个小句挡路。“但是”前面的小句没关系，反正是强搭配，抽着鞭子跑马也不怕越位，可是“但是”后面又来了个“因为。。。所以”，这个嵌套有点讨厌：“但是”的落脚点因此不在第一小句，而在第二小句“所以”上。换句话说，人的理解是，“虽然”引导的让步状语从句应该长距离落实在最后的“无所谓”上，才符合句法语义逻辑。社会媒体似乎是不经意写出来的句子，也有这种繁复的小句嵌套的长距离句法问题（贴帖的人大概是个知道分子老九，大老粗没那么多“因为所以”“虽然但是”的，而且嵌套）。最后，“联系客服上门查看”还有个 subcat 词典没到位的 bug，小 case 了，不难纠正。small bugs are de-ed：白: 这问题问的我: 这事儿做的。这澡洗的。这牛吹的。这问题问的。那叫一个水平。这日子过的。那叫一个窝心。这戏演的，那叫一个烂。这话说的，那叫一个高。感慨或惊叹的口语句式，句法主谓，逻辑述宾：这OV的。默认似乎负面，但正面也不少见。这OV的 --》瞧人家这OV的 --》【human】+这+OV+的+标点底层结构应该是：human+V+O+V+得+【】（补语省略）他问问题问得【那叫一个水平】他过日子过得【那叫一个窝心】他演戏演得【烂】他说话说得【高】【相关】【关于 parsing 】【关于中文NLP】【置顶：立委NLP博文一览】《朝华午拾》总目录; 个人分类: 立委科普|4488 次阅读|0 个评论

【一日一parsing：汉语单音节动词的语义分析很难缠】: liwei999 2016-8-22 05:27; 白： “她拿来一根漂亮的海草，围在身上做装饰物。” 我: “围” 与 “做” 的逻辑主语阙如。原因之一是这两个动词本身的subcat没有要求“她”【human】或“海草”【physical object】。语义中间件目前是保守策略，因为逻辑填坑是无中生有，宁缺毋滥，rather underkill than overkill，精度优先。人的理解是怎么回事呢：单个儿的“围”不好说，但是VP【围在身上】从“身上”继承了【human】的未填之坑，正好让“她”填做逻辑主语。同理，“做”是万能动词，也没有特定语义要求的坑，但是VP【做装饰物】（act as NP）则挖了一个同位语的语义坑【physical object】，可以让“海草”来填:【human】“把”（“用”）【physical object】“围在身上”；【physical object】“做装饰物”。 “围在身上”的句法主语可以是【human】，也可以是【physical object】：“一根漂亮的海草围在身上”。但是背后的逻辑语义都是【human】为逻辑主语。白: 此例引自小学一年级水平的课外读物围，属于具有“附着、固定”subcat的动词子类，如果做话题，可以单独表示起始动作完成后的遗留状态。话题化被固定物做话题我: 而“海草”可以看做【工具】（包括【材料】状语），也可以看做是 VP【围在身上】内部的“围“的【受事】白: 是逻辑宾语我: 这是层次不同造成的逻辑角色的不同。实际上，对这一类汉语单音节动词做如此细致的语义分析，挑战性很大。它们太多义了，只有组成合成动词、甚至形成 VP 以后，才逐渐排除多义而收心。这个动态的 subcat 的确定和填写过程，相当繁难，if not impossible。白: 房子盖在山上做行宫我: “盖-房子”算合成词。 again “做” 的逻辑主语（深层同位语）没连上“房子”。白: 他给你打了一副手镯当嫁妆我: SVO 齐活了，主句的O却断了。这叫顾腚不顾头，需要好好debug一哈：这个比较完美了。也把“打手镯”当成“打酱油”一样做进离合词了。这样处理很重要，因为“打”是个万能动词，不知道有多少词义（如果考虑搭配中的词义的话）。【相关】【关于 parsing 】【关于中文NLP】【置顶：立委NLP博文一览】《朝华午拾》总目录; 个人分类: 立委科普|5688 次阅读|0 个评论

【离开皇冠上的明珠只有一步之遥的感觉】: 热度 1 liwei999 2016-8-21 19:28; parsing 是最好的游戏，而且实用。据说好玩的游戏都没用，有实用价值的东西做不成游戏。但是，对于AI人员，parsing 却是这么一个最好玩但也最有用的游戏。纵情于此，乐得其所，死得其所也。禹: 李老师parser有没有觉得太烧脑呢？做parser少了个做字。感觉上先是一个比较优雅的规则集，然后发现规则之外又那么多例外，然后开始调规则，解决冲突，然后'整理规则的事情还得亲力亲为，做好几年感觉会不会很烦？我: 不烦特别好玩。烦的是好做的语言做着做着没啥可做了那才叫烦。英语就有点做烦了。做中文不烦还有不少土地没有归顺夺取一个城池或山头就如将军打仗赢了一个战役似的特别有满足感。梁: 收复领地？我: 【打过长江去，解放全中国！】。parsing 是最好的游戏。先撒一个default的网，尽量楼。其实不能算“优雅的规则集”，土八路的战略，谈不上优雅。倒有点像原始积累期的跑马，搂到越多越好。然后才开始 lexicalist 的精度攻坚，这才是愚公移山。在 default 与 lexicalist 的策略之间，建立动态通信管道，一盘棋就下活了。譬如说吧，汉语离合词，就是一大战役。量词搭配，是中小战役。ABAB、AABB等重叠式是阵地战。定语从句界限不好缠，算是大战役。远距离填坑，反而不算大战役。因为远距离填坑在句法基本到位之后，已经不再是远距离了，而且填的逻辑SVO的坑，大多要语义相谐，变得很琐碎，但其实难度不大。（这就是白老师说的，要让大数据训练自动代替人工的语义中间件的琐碎工作。而且这个大数据是不需要标注的。白老师的RNN宏图不知道啥时开工，或已经开工？） parsing 是最好的游戏，一方面它其实不是愚公面对的似乎永无尽头的大山，虽然这个 monster 看上去还是挺吓人的。但大面上看，结构是可以见底的，细节可以永远纠缠下去。另一方面，它又是公认的世界级人类难题。不少人说，自然语言理解（NLU）是人工智能（AI）的终极难题，而 deep parsing 是公认的通向NLU的必由之路，其重要性可比陈景润为攀登哥德巴赫猜想之巅所做出的1+1=2. 我们这代人不会忘记30多年前迎来“科学的春天”时除迟先生的如花妙笔：“自然科学的皇后是数学。数学的皇冠是数论。哥德巴赫猜想，则是皇冠上的明珠。...... 现在，离开皇冠上的明珠，只有一步之遥了。”（作为毛时代最后的知青，笔者是坐着拖拉机在颠簸的山路回县城的路上读到徐迟的长篇报告文学作品【哥德巴赫猜想】的，一口气读完，兴奋不已。）不世出的林彪都会悲观主义，问红旗到底要打到多久。但做 deep parsing，现在就可以明确地说，红旗登顶在望，短则一年，长则三五年而已。登顶可以定义为 95% 左右的精度广度（f-score, near human performance）。换句话说，就是结构分析的水平已经超过一般人，仅稍逊色于语言学家。譬如，英语我们五六年前就登顶了。最有意义的还是因为 parsing 的确有用，说他是自然语言应用核武器毫不为过。有它没它，做起事来就大不一样。shallow parsing 可以以一当十，到了 deep parsing，就是以一当百+了。换句话说，这是一个已经成熟（90+精度可以认为是成熟了）、潜力几乎无限的技术。刘: @wei 对parsing的执着令人钦佩我: 多谢鼓励。parsing 最终落地，不在技术的三五个百分点的差距，而在有没有一个好的产品经理，既懂市场和客户，也欣赏和理解技术的潜力。刘: 任何技术都是这样的我: 量变引起质变。90以后，四五个百分点的差别，也许对产品和客户没有太大的影响。但是10多个百分点就大不一样了。譬如，社会媒体 open domain 舆情分析的精度，我们利用 deep parsing support 比对手利用机器学习去做，要高出近20个百分点。结果就天差地别。虽然做出来的报表可以一样花哨，但是真要试图利用舆情做具体分析并支持决策，这样的差距是糊弄不过去的。大数据的统计性过滤可以容忍一定的错误，但不能容忍才六七十精度的系统。当然也有客户本来就是做报表赶时髦，而不是利用 insights 帮助调整 marketing 的策略或作为决策的依据，对这类客户，精度和质量不如产品好用、fancy、便宜更能打动他们。而且这类客户目前还不在少数。这时候单单有过硬的技术，也还是使不上劲儿。这实际上也是市场还不够成熟的一个表现。拥抱大数据成为潮流后，市场的消化、识别和运用能力还没跟上来。从这个角度看市场，北美的市场成熟度比较东土，明显成熟多了。【相关】泥沙龙笔记：parsing 是引擎的核武器，再论NLP与搜索泥沙龙笔记：从 sparse data 再论parsing乃是NLP应用的核武器 It is untrue that Google SyntaxNet is the “world’s most accurate parser” 【立委科普：NLP核武器的奥秘】【关于 parsing 】【关于中文NLP】【置顶：立委NLP博文一览】《朝华午拾》总目录; 个人分类: 立委科普|5213 次阅读|1 个评论

【一日一parsing：”钱是没有问题”】: 热度 1 liwei999 2016-7-11 05:45; 雷: 2016年最佳语文组词能力: 钱是没有问题 ” 就这六个字的组词成句，可以变成不同意思的句子！哈哈，偉大的語文能力！钱是没有问题问题是没有钱有钱是没问题没有钱是问题问题是钱没有钱没有是问题钱有没有問题是有钱没问题是没钱有问题是钱没有问题有问题是没钱没问题是有钱没钱是有问题 @wei parsing请高: 显然字不一样我: 有少数不尽如意的 parses，但几乎每个 parse 都可以站得住，或说得出道理。是不是有点牛叉，我自己都有点吓倒了。哈。最后的两个断链的 parses 也有道理，因为那两个破句子，我作为 native speaker 都不知到底想说啥。就是玩弄文字游戏，排列组合汉字瞎凑合。雷: 牛白: 最后两个，我理解：没问题是有钱=没问题是因为有钱，没钱是有问题=没钱是因为有问题。所以用next是对的，用subj略勉强。但是如果说“没钱是有问题的”，就是subj了。我: 没钱是有问题 = 没钱的确有问题这个说法倒是听过。白: 语感有差异我: “没问题是有钱” 还是听着别扭，不知所云白老师的解读也有硬去揣摩的味道。白: 如果“是”重读，也会到“确实”那个含义我: “没问题，是有钱。” 这个可以，就是两个小句： == 没问题。（X）的确有钱。 “没问题是有钱” 如果中间没停顿没逗号就几乎可以说不合法了。法不法不论，就是不容易明白想说啥。陈: 立委最近发言不多了？我: @陈钱不是问题那啥是问题？我觉着，啥都不是问题，就钱是问题。陈: @wei 多来点parsing。。。我: 要多少有多少。吹牛谁不会 dolo: @wei 这个分析不错我: @dolo 我说了牛叉不是吹的吧。 ---- 其实还就是一个苦力，后面就是个力气活。到用了，就显灵了。【相关】【新智元：parsing 在希望的田野上】【置顶：立委NLP博文一览】《朝华午拾》总目录立委NLP频道; 个人分类: 旧文翻新|6306 次阅读|1 个评论

【语义计算群：带歧义或模糊前行，有如带病生存】: liwei999 2016-7-11 05:02; 众所周知，作为符号系统，自然语言与电脑语言的最大差异和挑战在于其歧义性，有两类，结构歧义（structural ambiguity）和一词多义（相应的消歧任务叫WSD，word sense disambiguation）。如果没有这些随处可见的歧义，自然语言的自动分析就会与电脑语言的编译一样做到精准无误。因此，一般认为，自然语言parsing和NLU（自然语言理解）的核心任务就是消歧。至少理论上如此。有意思的是，尽管自然语言一词多义极为普遍，结构歧义也颇常见，人类用语言交流却相当流畅，很多时候人根本就没有感觉到歧义的存在。只是到了我们做 parser 在计算机上实现的时候，这个问题才凸显。与宋老师的下列对话显示，计算语言学家模拟结构分析常遭遇歧义。宋: “张三对李四的批评咬牙切齿”，这是两可。 “張三对李四的批评不置一词”，这里有第三种可能。 “張三对李四的批评保持中立”，另一种两可。 “張三对李四的批评态度温和”，这是三可了。我: 宋老师我已经晕了。您是计算语言学家的敏感或敏锐，绝大多数 native speakers 是感觉不到这些句子之间的结构歧义及其不同之处的。目前的 parsing 结果，“保持中立” 的主语（S）是“批评”，这个解读不是不可能（批评意见的保持中立，可以间接指代给出这个批评的“张三”），但很勉强；多数人的解读应该是：“张三” 保持中立，“张三”不是“批评”的主语，“李四”是，不仅如此，“批评”隐含宾语回指到“张三”。第二句的parse倒显得更合理一些，关于这个“批评”（Topic），（其）“态度是温和的，指代的是“张三”，而“批评”“李四”的正是“张三”。宋: “张三对李四的批评”+谓语，就批评者和被批评者来讲，有3种填坑的可能：（1）批评者是张三，被批评者是李四。（2）批评者是李四，被批评者是张三。（3）批评者是李四，被批评者是第三者。 “置若罔闻”与“不置一词”不一样。对于这个V的主体A来说，一定是有一个评论，“置若罔闻”是说该评论是针对A的，而且是负面的；“不置一词”则没有这两条限制。我: 两个逻辑谓词（句末的谓语和前面的“批评”）抢同一个PP（对），计算上总会遇到 scope 纠缠。再加一个 “对（or 对于）” 歧义就没了。“张三【‘对于’【‘对’李四的批评】保持中立】。” 可是两个 “对” 听起来别扭，很少人这么用。结构歧义其实没有我们想象的可怕。如果目标是语义落地需要调整的不是追求落地前消灭一切歧义，而是反过来思维，如何让语义落地能够容忍歧义的保留，或者歧义的休眠，或者任意的某个 valid 的路径。其实人的理解和响应也不是在 ambiguity-free 的前提下进行。现代医学有一个概念，叫带病生存。语言理解也应该有一个概念，带歧义落地。适度的歧义作为常态来容忍。这是结构歧义，WSD 更是如此。绝大多数语义落地可以容忍或绕过 WSD 的不作为（【 NLP 迷思之四：词义消歧（WSD）是NLP应用的瓶颈】）。MT 可能是对 WSD 最敏感的一个语义落地的应用了。即便如此，也并非先做好 WSD 然后才能做好 MT 落地（MT中叫 “lexical transfer”）。有亲戚关系的语言对之间有很大的 keep ambiguity untouched 的空间自不必说。即便在不相关的语系之间，譬如英汉的MT中，实践证明，全方位的 WSD 也是不必要的。细线条的 WSD 则更不必要。细线条指的是词典里面的那些义项，或 WordNet 中 synsets，其中的很多本义和引申义的细微差别没有必要区分。还有那些那些 hidden 的逻辑语义，是不是要挖掘出来呢？迄今为止，我们在句法后的语义中间件中做了部分这样的工作，但一直没有全力以赴去做全，虽然因为句法结构树已经提供了很好的条件了，这个工作并不是高难度的。今天思考的结果是，其实很多 hidden links 没有必要整出来。如果一个 hidden link 本身就很模糊或歧义，那就更应该置之不理。自然语言带有相当程度的模糊性，语言本身也不是为了把每个细节都弄清白。人的交流不需要。如果一个细节足够重要，但这个细节在表达上是 hidden 的，省略的，或模糊的，那么人的交流就会在接下去的句子中把它 explicitly 用清晰无误的句法结构表达出来。从语义落地的实践中也发现，大多数的 hidden links 也是不必要的。背后的道理是：信息流动的常态是不完整，不完整在信息交流中起到了减轻记忆负担、强化信息核心的重要作用。理论上，每一个提到的谓词都有自己的 arg structure，里面都有潜在的坑，需要信息的萝卜来填。但语言的句法会区分谓词的不同地位，来决定是否把萝卜显性地表达出来，或隐去萝卜。常见的情形是，隐去、省略的萝卜或者不重要，或者不确定，都是信息交流双方不太 care 的细节。譬如一个动词 nominalize 后，就往往隐去 args （英语的动名词，汉语利用“的”的NP句式）。这种自然的隐去已经说明了细节不是关注点，我们何苦要硬去究它呢？当然，上面说的是原则。凡原则一定有例外，某个隐去的细节如果不整明白，语义就很难落地到某个产品。能想到的“例外”就是，很多 hidden links 虽然其语义本身在语用上不是重要的信息，但是至少在 MT 的产品中，这个 hidden link 可以提供结构条件，帮助确定更合适的译词： e.g. this mistake is easy to make：make 与 mistake 的 hidden VO link 不整出来，就很难确定 make 的合适译法为 “犯（错误）” 关于隐去或省略的大多是不重要的，因此也 NLU 通常不 decode 出来也 OK，可以举个极端的例子来说明： Giving to the poor is a virtue Giving is a virtue give 是一个 3-arg 的谓词，who give what to whom，但是在句法的名物化过程中，我们看到第一句只显性保留了一个萝卜（“to the poor”）。第二句连一个萝卜也没有。我们要不要从上下文或利用标配去把这些剩下的坑都填上呢？不。白: 从陈述性用法“降格”为指称性用法的时候，对坑所采取的态度应该是八个字：“来者不拒、过时不候。” 比如，这本书，出版比不出版好。我们没有必要关心谁出版，但是既然提高了这本书，填坑也就是一个举手之劳。我：很同意。就是说，一般来说对于这些有坑近处没萝卜的，我们不要觉得愧疚和心虚，who cares 【相关】【 NLP 迷思之四：词义消歧（WSD）是NLP应用的瓶颈】【置顶：立委NLP博文一览】《朝华午拾》总目录立委NLP频道; 个人分类: 立委科普|3601 次阅读|0 个评论

【关于 parsing】: liwei999 2016-6-30 15:46; 泥沙龙笔记：骨灰级砖家一席谈，真伪结构歧义的对策（1/2) 泥沙龙笔记：骨灰级砖家一席谈，真伪结构歧义的对策（2/2) 【语义计算沙龙：巨头谷歌昨天称句法分析极难，但他们最强】【语义计算沙龙：parsing 的鲁棒比精准更重要】《语义计算沙龙：基本短语是浅层和深层parsing的重要接口》【做 parsing 还是要靠语言学家，机器学习不给力】《泥沙龙笔记：狗血的语言学》【deep parsing 小品：天涯若比邻的远距离关系】《有了deep parsing，信息抽取就是个玩儿》【语义计算沙龙：关于汉语介词的兼语句型，兼论POS】泥沙龙笔记：在知识处理中，很多时候，人不如机《立委科普：机器可以揭开双关语神秘的面纱》《泥沙龙笔记：漫谈自动句法分析和树形图表达》泥沙龙笔记：语言处理没有文法就不好玩了泥沙龙笔记：parsing 是引擎的核武器，再论NLP与搜索泥沙龙笔记：从 sparse data 再论parsing乃是NLP应用的核武器【立委科普：NLP核武器的奥秘】【立委科普：语法结构树之美】【立委科普：语法结构树之美（之二）】【立委科普：自然语言理解当然是文法为主，常识为辅】【语义计算沙龙：从《知网》抽取逻辑动宾的关系】【立委科普：教机器识英文】【立委科普：及物、不及物与动词 subcat 及句型】泥沙龙笔记：再聊乔老爷的递归陷阱【泥沙龙笔记：人脑就是豆腐，别扯什么递归了】泥沙龙笔记：儿童语言没有文法的问题《自然语言是递归的么？》【从 colorless green ideas sleep furiously 说开去】 Parsing nonsense with a sense of humor 【科普小品：文法里的父子原则】 Parent-child Principle in Dependency Grammar 乔氏 X 杠杠理论以及各式树形图表达法【泥沙龙笔记：依存语言学的怪圈】【没有语言结构可以解析语义么？浅论 LSA】【没有语言结构可以解析语义么？（之二）】自然语言中，约定俗成大于文法教条和逻辑泥沙龙笔记:三论世界语泥沙龙笔记：再聊世界语及其文化泥沙龙笔记：聊一聊世界语及老柴老乔以及老马老恩《泥沙龙笔记：NLP component technology 的市场问题》【泥沙龙笔记：没有结构树，万古如长夜】 Deep parsing：每日一析 Deep parsing 每日一析：内情曝光 vs 假货曝光 Deep parsing 每日一析半垃圾进半垃圾出【研发随笔：植树为林自成景（10/n）】【deep parsing：植树为林自成景（20/n）】【deep parsing：植树为林自成景（30/n）】【语义计算沙龙：植树为林自成景（40/n）】【deep parsing 吃文化：植树为林自成景（60/n）】【deep parsing (70/n)：离合词与定语从句的纠缠】【deep parsing (80/n)：植树成林自成景】【deep parsing (90/n)：“雨是好雨，但风不正经”】【deep parsing (100/n)：其实 NLP 也没那么容易气死】【关于 NLP 以及杂谈】【关于NLP体系和设计哲学】【关于NLP方法论以及两条路线之争】【关于 parsing 】【关于中文NLP】【关于信息抽取】【关于舆情挖掘】【关于大数据挖掘】【关于NLP应用】【关于人工智能】【关于我与NLP】【关于NLP掌故】《朝华午拾》总目录【关于立委NLP的《关于系列》】【置顶：立委NLP博文一览（定期更新版）】【立委NLP频道】; 个人分类: 立委科普|2198 次阅读|0 个评论

【deep parsing (100/n)：其实 NLP 也没那么容易气死】: liwei999 2016-6-27 23:07; 白: “严把个人商用房客户准入关” 我: 这个句子我人脑也费了半天劲才明白讲的啥（“严把个人商用房客户准入关”==对个人商用房客户应严把准入关”），尝试用parser也只好瞎碰了，果然乱得不是一处两处，甚至把 “准入关”词典化（拼音联想词组里面还真有这个词条）也还是不行：白: “严把个人商用房客户准入关” 严还是个姓，上下文清晰时，可以用裸姓指代全名 “入关”也是词 “把”作动词用不如作介词用的概率高 “房客”也是词我：幸亏 real world 这样的句子是极少数。不过人脑怎么 parse 的呢？虽然也饶了几圈，backtracking ...... 白: 这个例子是银行发的正式文件里的纵向不确定性比较丰富，导致结构貌似不稳 “个人”是定语我: 这个“严” 做状语也不好掌控因为更多是做谓语的个人也有些难缠，词典不行因为有 “n个人” 的存在，只好后面补救了。个人的定语问题倒是可以解决，但还是搞不定这句：算了，就当没看见。我投降。白: “准入”是有坑的，“把关”是有坑的。当“准入”+“关”生成“准入关”的时候，坑也要有同步的调整。我: 谁（被）准入；为谁把关（把谁的关）？白: 把什么事由的关。我: 把VP的关白: “皇军要当你的家”类似我: “把学习英语的关” “英语学习的关真不好把” 白: “严把生猪进口质量关” 我: “要把好业务关” 这个事由的坑可以是 VP or （abstract）NP，逻辑语义大体是 about：关于什么事儿的关白: “教室的地得扫了” 旅行的目的地得调整了马: 气死NLP 的士的目的地得调整我: 其实 NLP 也没那么容易气死 @马少平马: 哈，强大我: 当然不能指望 “世界第1”的谷歌NLP ，靠的是世界第0 的立氏NLP。毛主席保证，上面的句子是一次通过，没做任何工作（当然此前一定是有工作的）。白: 扫地的离合词处理目的地，长词优先，不用特意做什么我: 幸好 real world 的句子也有貌似困难其实无根本挑战的我们还有活路。白: 反过来才有挑战性，看着是离合词，就是不该碰一块儿的。伟哥试试：“这地是这样地难扫。” 我: 哈哈哈哈仰天大笑李白曰过的：我辈岂是蓬蒿人白: 很好舍近求远得真解我: 不过我心内是把它当成狗屎运的，只不过狗屎运常光顾愚公似的人。以前说过n次， NLP 是力气活。白: 话说，离合词这个功能好像也没多久。我: 两三月前？早就想做了盘算很久了实现是最近几个月的事儿。量词更近，才个把月。白: 量词和本群有直接关系我: 离合词的处理直接源于我13年前做英语的 phrasal verbs：take it off / take off the coat / take the coat off 之类（ Wei Li et al, An Expert Lexicon Approach to Identifying English Phrasal Verbs, ACL 2003 ）对量词，的确是本群反复议论才被促上马的因为没有量词搭配 90%+以上的场合无碍以前一直拖着没做。白: “蔡英文说得不好。” 我: 这种还是休眠吧，hidden ambiguity，跟 “难过” 类似。真做就唤醒，用 word driven 白: 和大语境有关如果满篇都在说另一个蔡，就和蔡英文没啥关系了。我: 是的，但是那种情形的处理需要在另外一个层面去做。discourse 的因素 trigger “蔡英文”-driven 的唤醒机制。白: 分层不是单向，该交互时就交互我: word driven 是可以想象的，因为“蔡英文”这个词对于我们来说，的确是既透明又黑箱的：黑箱是，只要不是文盲，基本上都知道蔡英文是一个人名；透明是，尽管知道这是一个人名，我们也仍然知道这个词的内部结构，以及这个词的句法可能性：蔡 -- 英文，Topic - S 的潜在性，单从这个词，我们就知道。白: 一个上下文提供了所提及对象的“场”，重复出现可以增加“场强”，左右句法层面对部件的“抢夺”。我: 不过这些可以想象的操作，大概很少有人去做，选择不做为多，因为还有很多可做的事儿还没做完呢。白: 分场景。在游戏场景，上下文中的活跃对象“场”是至关重要的，不仅对其中的NLP，也对智能角色的动作规划。我: 所有的 hidden ambiguity 都可以用 word driven 机制唤醒如果我们真想做的话。而 hidden ambiguity 一直公认为是中文切词的死穴。至少可以说，死穴不一定就死。换句话说，在休眠唤醒理论（见文末【相关】链接）正式提出之前，这个挑战很可能是被认为无解或极其困难的白: 用于NLP是捎带脚我: 但是，我们已经用 “难过” 在 sentiment 语义落地的实际工作中的实现，证明了还是有救。“小王很难过” vs “小桥很难过”，如今在我们的中文舆情系统中处理得如此漂亮！（重温【立委科普：歧义parsing的休眠唤醒机制再探】）白: 从一个包含NLP在内的更大系统视角来看，关键语境参数的实时刷新，受益者绝不仅仅是NLP。作者的观点和作者转述的他人观点，在极性上就是需要区别对待的。引述可能是为了反驳或反衬。所以，观点的主人是谁，就需要甄别。我: 至少在知识图谱的工作中，discourse 内的实体aliasing 以及 anaphor 的工作，成为整合抽取信息的相对可靠的关键元素，这一步可以 leverage document-internal 的线索，这才为下一步的跨文本的 information fusion 打下了基础。跳过 discourse 直接做 fusion 是不智的。【相关】《泥沙龙笔记：parsing 的休眠反悔机制》【立委科普：歧义parsing的休眠唤醒机制再探】【泥沙龙笔记：NLP hard 的歧义突破】【立委科普：结构歧义的休眠唤醒演义】《朝华午拾：我的考研经历》【 NLP 是一个力气活：再论成语不是问题】【新智元笔记：巨头谷歌昨天称句法分析极难，但他们最强】 Wei Li et al, An Expert Lexicon Approach to Identifying English Phrasal Verbs, ACL 2003 【置顶：立委NLP博文一览（定期更新版）】《朝华午拾》总目录; 个人分类: 立委科普|3902 次阅读|0 个评论

【deep parsing 小品：谁的牛皮大，大家六一快乐】: liwei999 2016-6-1 00:00; 白: 【小新日记】今日李叔叔来我家玩妈妈，说我做完作业后，可以吃点心。然后，李叔叔夸我作业做的好，于是抱起了我妈，妈叫叔叔小心一点，之后叔叔又亲了我妈妈，也亲了我。老师批复：拿回家让你爸看看，是标点符号有问题还是你李叔叔和你妈妈有问题！大家六一快乐我: 看看我的parser怎么认为的，是标点符号问题吗？妈耶，图灵测试说，此处有隐情。抛开细节不说，两句中的 Subj （在我的 parser 中，不同于 S，是用来表达 VP 做主语的情况）显然规则太宽，把完全不搭的也绕进来了，是分析质量的 bugs：这个 VP 做主语的事儿不好缠，紧了吧，就连不上。不过现在看来，宁紧勿宽，大不了就是 Next 好了。杨: 这可以算是nlp领域年度笑话，国内现在三更半夜 @wei 老师是要让我把假牙笑掉吗？我: 我再加上正确的标点做做玩：没来得及细看，各位说标点有很大作用吗？标点是小词，也是书面语重要的显性语言形式之一，在口语中对应停顿，对于语言理解往往相当重要。再看看小新心中的日记正确标点：最后这个图示中，“说”的后面是宾语从句，不是 conjs，这是个 bug，应该 de 一下的。 “夸” 的后面也应该是宾语从句，或兼语式，总之不是 subj，这个也是 bug，除了这两个bugs，其余的语义算是求解正确。算起来，第一句 10 种结构关系出了 1 个 bug，第二句 25 个结构关系，出了一个 bug， 33/35= 94%，单就这两句来说，正好与谷歌声称的世界上最精准的 SyntaxNet 的分析器同样水平。但是的但是： 1. 这不是英语，而是难得多的汉语自动分析 2 这不是具有几乎无限资源研究最充分的新闻领域，而是随机选取的日常段子如果我说老子天下第一，我不觉得我比谷歌更会吹牛。比吹牛，西人比得过咱国人吗？切！不管谁愿意做第三方，咱这里摆个擂台，一边是 SyntaxNet 的中文 parser（据说他们用深度神经训练了15个语言的parsers），一边是立氏中文parser，无论是新闻，还是 any other 测试集，找第三方专家做裁判。到底是他第一，还是我比他强（不敢说第一，不过是造了一颗原子弹而已，谁知道哪个旮旯还藏着一枚氢弹呢？先辈古训：说有易，说无难哪。）杨: 睡了睡了 wei老师继续high 【相关】【新智元笔记：巨头谷歌昨天称句法分析极难，但他们最强】【征文参赛：美梦成真】【立委科普：美梦成真的通俗版解说】【新智元笔记：工程语法与深度神经】【deep parsing 小品：天涯若比邻的远距离关系】【李白对话录：你波你的波，我粒我的粒】【泥沙龙笔记：学习乐观主义的极致，奇文共欣赏】《朝华午拾》总目录【置顶：立委科学网博客NLP博文一览（定期更新版）】; 个人分类: 立委科普|3916 次阅读|0 个评论

【李白对话录：你波你的波，我粒我的粒】: 热度 1 liwei999 2016-5-20 23:20; 白: 转：老师：为什么520除以3除不尽？学生甲：因为爱情是容不下小三的。小明说：错！因为小三是永远除不尽的。老师 : “都给我滚出去‘’ 520 / 3=173.3333333333333333333 前面1个妻后面全是小三 Qing: 白老师好雅兴啊白: 除不尽……这不是NLP的好例子么李：哈小明切错了白: “他拿走了这筐老乡送来的苹果。” “他带走了这位老乡送来的苹果。” 我: 刚看第一句，心里想这不是中规中矩的句子吗，白老师又在玩什么 catch 呢。接着看到第二句，原来还是量词。量词一个月前已经做进去了。白: 筐这个，是多对多的搭配，不是一对多李：不就是容器做量词白: 对，动用subcat “这间学生宿舍还没整理好” “这群学生宿舍还没整理好” “这帮学生宿舍还没整理好” 李：当然。说解决了量词问题，当然不是只解决直接量的搭配，其中包括 subcat 里面有一系列从具体到抽象的量词搭配。白: “我拒绝听从这帮学生的命令” “我拒绝逮捕这帮学生的命令” 李：第二个错了。两个 subcats？拒绝逮捕 vs 拒绝命令？白: 逮捕的逻辑宾语不能是抽象的。李：逮捕+human；拒绝+VP；拒绝+NP （拒绝+命令？）被 subcats 弄得有点糊涂了。到底“拒绝”的是一般的 N 还是直接量的“命令” 对，“命令”不能“逮捕”。还有个好玩的：“拒绝逮捕” 实际上是 “拒绝逮捕”。因此如果“逮捕”做了“拒绝”的宾语，那么“逮捕”自己就不能再有宾语，因为它是别人的隐含宾语。这套逻辑属于啥？应该是语言学内部的某种。白: 命令属于没有提取功能的N，只能被饱和的定语从句修饰。当然如果动词是“执行”等硬搭配，例外。李：这个句子值得咀嚼。命令是有human的坑的，因为有坑，因此让“这帮学生”与“命令”勾搭起来也就有了依据。没想到的是前面是“逮捕”，也有个 human 的坑，与命令不搭。于是麻烦来了：一个动词与一个动名词，一个从左一个从右，在争抢这个 human，典型的 triangle，情何以堪？白: 哈李：以后这个句子是个保留的 test case，哪家中文做好了，就拿它考考。看深度神经是不是有更好的办法绕过它去。白: 动名词的坑在竞争中处于劣势李：竞争劣势是普适吗？ V1+V2+de+N 中，V1 胜过 V2，如果都符合坑的要求的话。这个 heuristic 有多大把握？而且这句 V1+V2 恰好也符合 subcat，V2 也可以跳进 V1 的坑。还是没弄清楚为啥 V2 一跳进去就变成被动了，一般的带有动词的subcat，对于动词是没有约束的：V+VP，后面跟的是 VP，而不是一个明示或隐式的 passive V。为啥“拒绝”偏偏不同于众呢？拒绝逮捕 == 拒绝被逮捕 but 拒绝离开拒绝被离开但似乎，拒绝洗礼 == 拒绝受洗？可: 拒绝吃猪肉，拒绝看电影，拒绝谈朋友。。。这不都好好的 VP 吗？为啥“拒绝逮捕”不同？当然例外在语言学中是常态，不需要讲道理的，直接encode到词典subcat去即可。这种不同（拒绝+VP vs 拒绝+逮捕）是 subcat 的个性共性在这个词上的反映，约定俗成。那么也简单，就直接 encode 到 subcat 里面去。然而，这样一来，这场 subcat 大战就超出了三角，这个case就更乱成一锅粥了。 “拒绝”要抢“逮捕”，比“拒绝”要“命令”，道理上似乎更强大，可这个case正好相反。 “拒绝”抢“逮捕”是直接量的 subcat，而且两个挨得那么近，所以应该是优先的，而“拒绝”与“命令”似乎不能算直接量的 subcat，而是一般及物动词带NP的一种，因此单单看这一对的subcat的强弱程度，搭配的力量对比上应该后者是抢不过的。白老师能想出这个案例，也是醉了。里面太多的语言学纠缠了。白: “我同意录取张三的决定” “我同意修改张三的决定” 李：不知道是不是狗屎运。其实如果不仔细查看，我也不知道是不是运气，还是啥时教给它了，当然宁愿相信是天道酬勤，毕竟狗屎运是小概率。其实做中文除了架构设计还有毛毛虫模型等战略高度的考量，90% 的时候就是一个苦力。不说别的，就说这词典，每次进去就感觉头皮发麻，哪里哪里都不顺眼。怎么有那么多工作量啊，简直感觉这一辈子搭进去也不见天日似的，吾生之有涯对无涯，大大地殆矣。有人以为词典不就一个词表吗？到大数据扒拉一遍，要多少万给多少万，很多基于大词典的切词程序就是根据大数据 ngram 扒拉出来的。可是要把语言学（包含subcat）融入词典，再把 ontology 带入，然后再考虑歧义词的某种特别标注，等等，够累死n头牛的。我总觉得自己当年学《老三篇》，学得了愚公精神的精髓，以苦为乐，即便如此，有时还是免不了林彪元帅的天问：红旗到底要打多久？有时候也想，如果深度神经真能把这些都一揽子搞定，只要给它喂 data，最好是原始的data，标注都不需要，语言学就自动学会了，那该是多么美妙啊。今后20年内能等到这一天么？白: 用不了李：学习乐观主义（cf: 【泥沙龙笔记：学习乐观主义的极致，奇文共欣赏】），据说程序猿今后五年都要淘汰了。白: 关键是找到规则和统计的正交坐标系，实现波粒二象性。李：白老师要是有这个信心，我愿意给你打下手，促成大业。你波你的波，我粒我的粒，按照你的设计哲学。【相关】【白硕- 穿越乔家大院寻找“毛毛虫”】【李白对话录系列】【泥沙龙笔记：学习乐观主义的极致，奇文共欣赏】乔氏 X 杠杠理论以及各式树形图表达法【立委科普：美梦成真的通俗版解说】【立委科普：结构歧义的休眠唤醒演义】【立委科普：语法结构树之美】【立委科普：语法结构树之美（之二）】【新智元笔记：中文自动分析杂谈】【置顶：立委科学网博客NLP博文一览（定期更新版）】《朝华午拾》总目录; 个人分类: 立委科普|6770 次阅读|2 个评论

【deep parsing：植树为林自成景（30/n）】: liwei999 2016-4-16 17:12; 白: “孙悟空是石头缝蹦出来的”“菩萨是泥捏出来的”“牛奶是牛挤出来的” 我: 把合成词捏泥加入了。另外，牛还需要一点特殊处理，因为这词社会媒体舆情用得太广, 以至于作为动物的用法，需要特别捡回来。其他来看，这个结构蛮简单清晰。里面藏着什么机关？白: 石头缝、泥、牛，语义上分别是处所、原料、母体，句法上作S还是O还是什么，可能要推敲一下。我: 这些细线条逻辑语义，正是董老师一直提倡的语义分析。句法完成结构以后，语义中间件要想磨细活，可以朝细线条方向发展，难度并不大，因为一有结构，二有本体。从主宾补定状（SOCMA）映射到几十个逻辑语义，是个 tractable 的任务。不过，说句实话，用处不是很大，至少对于情报的信息抽取（IE）这个最普遍的NLP语用场景。做出细线条逻辑语义，语义上是好看了，但还是省不了映射到领域需要的 IE templete 这一工作，这个映射基本上仍然是词驱动的。那么，通过node上的细线条逻辑语义去映射，与直接通过 SVOCMA+node 去映射，省功不大。说到底，逻辑语义的 roles 也不过是给 SOCMA 等 nodes 增加了一个词典静态 tags 以上的一个动态的标签，其中还与已经有的词典标签有相当的重合面。譬如，“石头缝” 有 place 的词典标签，映射到逻辑语义就是 Role=location，基本是对应的。增加的信息并没有关键的价值。总结来说就是，有闲的话，逻辑语义可以做细，而且这也是语义分析深入下去的正道，至少比 FrameNet 的不尴不尬的路子正（见博文：《语义三巨人》）。但是如果语用是 IE 和知识图谱，其实做这一步还是不做这一步，经验上是看不做更合算。我们做了18年IE、舆情和图谱，不是没条件和资源去走这一步，而是没有感觉到这个必要性。当然我们parsing中比 SOCMA 五元关系还是多加了一些逻辑语义标签，不过远远没有董老师定义的那么全。董老师的定义和线条的细密程度，估计是根据 MT 的需求来看的。也许在 MT 的场景，细一点全一点比较有利吧，可以在结构转换中把译文整得更漂亮地道一些。转一个博客评论过来，以及我的回应，深度神经要是成立一个宗教，保不准比Li大师还火，信徒是不愁的。 tuner 2016-4-15 20:54不是不捧场，确实是不懂啊。 NLP不知道解决到什么程度了。不过我相信，如果你能提供大量的（百万计）句型和答案的案例，用来训练深度神经网络，一定可以解决得很好。即使你们不相信也不屑于去尝试，只要问题很重要，其他人也肯定会去尝试的。我的回复(2016-4-15 23:36)：“如果你能提供大量的（百万计）句型和答案的案例，用来训练深度神经网络，一定可以解决得很好”。这种对深度神经（ NN）的信心听上去很像信仰。不仅科学可以变成宗教，科学里面的一个分支其实也可以变成宗教的。百万计不算啥，要千万也行，要多少都行，反正是机器自动跑。问题是取法乎上仅得其中是古训，难不成NN可以违反这个古训，出现奇迹？不是说奇迹不可能发生，不过在发生前除非信仰者，还是持怀疑态度显得正常一些。声明：argue for argument‘s sake，并非针对 NN，确实不懂啊，虽然朋友中很多懂的。问题: 是什么魔力使得全世界的学者、CXO、风投、记者甚至普罗在大多数人其实并不懂的情况下就这么痴迷深度的神经呢？甚至在深度神经还未解决其他路径已经解决的领域，也是如此，遇到好事儿，就忍不住要归功于它，这个科学传播的 marketing 简直邪门了。隔三差五，在我们公司内部就有 marketing or business 老总给我转一个某公司深度神经如何如何的 email 来让我看看，这个黑科技是不是要很快赶上来，能取代我们的深度分析舆情技术。我的回馈是：取代近期不可能发生，长远一点值得关注，而且我们内部也在用深度神经，不过我们目前只是用在它擅长的 image识别上。 Nick: 两条路线斗争都反应到你们marketing了我: 可能取名也很重要，深度神经（dnn），一听就非同凡响。我以后也不宣传深度分析（deep parsing），深度理解（deep understanding）了，太不显深奥。以后我就叫，深度解码，deep decoding，怎么样？解码人类语言的奥秘。这个名字其实老实、真实得可怕。人类用语言编码，机器用语言学解码，就这么简单。谢: 深度非神经人类自然语言解码器，这个如何，李老师？ Nick: 非神经挺好，nnn 谢: 非著名相声演员郭德纲，哈这个自称是非著名相声演员郭德纲通过自个儿说相声说了些著名的相声段子说得自己已经非常著名了哎，脑子一热怎么想到这句话了，容易 parsing 么我: 非神经好。就是挑战性、挑逗性强了点。自从进入后毛委员时代，反潮流就成了贬义词。正如资本家是人格化的资本，每根毛管都滴着血和肮脏的东西，我们语言学家就是人格化的语言，每根神经都繁殖着结构树和知识图谱。哈哈这老弟替wei哥担忧。 QUOTE：之前用逻辑方法解决复杂问题，结果不尽如人意。这方面的例子就有围棋，之前最多是业余二段；还有图像识别，之前最好的识别率是74%。使用深度神经网络后，AlphaGo围棋大概是13段（可以让职业2段4子，而人类的9段无法让职业初段2子），图像识别率超过99%（人类是95%）。这表明，深度神经网络解决复杂问题的能力，已经全面超过人类。我不懂NLP，但如果它也是需要复杂逻辑解决的问题，而且是答案明确的问题，深度神经网络就一定可以胜任。这不是信仰，而是现实情况。深度神经网络非常新，也就10年前才出现。今后必然会在更多的领域应用。人类围棋玩了两千多年，天才也需要苦练十几年才能到9段，结果让几个不懂围棋的人在短短两年的时间超越了。今后很有可能在NLP领域，几个不懂NLP的小孩，会把你们这些专家超越了。兄弟，要有紧迫感啊。我: 我有啥紧迫感，巴不得科技大革命，我好专心游山玩水去。人的能量过甚，执着不放，那是没看见黑科技的威胁，如果真地像语音识别领域整个产业全面提升了，到处可见同样或类似质量的技术，那还有啥动力去执着自己的一亩三分地? 魏焱明 2016-4-16 02:33我干过这篇文章，写得很爽歪歪，你的parsing碰到我这句话又卡壳了吧，镜子李？我: 博主回复(2016-4-16 11:22)：不知道算不算卡壳？可怎么在回复中贴图啊，老弟？罢了，我放到正文去吧，算是对挑衅者的一个 special service，：）什么破话，人能懂么？Anyway，仔细看，VP “写得爽歪歪”的逻辑主语是“这篇文章”，而不是“我”，这是个错儿。这是 X double-bar 的 VP，具体到 X no bar 动词“写”，其逻辑主语则是 “我”，无误。因此只能算半个错儿。都是 dependency grammar 坚持白马非马，没有加 bar 惹的祸，不赖我。【相关】【deep parsing：植树为林自成景（10/n）】【deep parsing：植树为林自成景（20/n）】【立委科普：语法结构树之美】【立委科普：语法结构树之美（之二）】《语义三巨人》【置顶：立委科学网博客NLP博文一览（定期更新版）】《朝华午拾》总目录; 个人分类: 立委科普|3834 次阅读|0 个评论

【泥沙龙笔记：NLP hard 的歧义突破】: 热度 1 liwei999 2016-4-13 09:59; 昨天是个好日子。上班路上从车里所摄。几乎透明的大厦融化在硅谷腹地圣塔克拉拉的蓝天白云之间。下班路上从车里所摄，又见火烧云，震慑心魂。重点不在硅谷的景色，而在心情。景色都是过眼烟云。昨天是个好日子，是因为终于解决了一个 “NLP-hard” 的 problem，这就好似当年在社科院单身宿舍的时候，老做噩梦，觉得自己怕是要打一辈子光棍了，人海茫茫，寻啊觅啊却不敢张口 -- 那人却在灯火阑珊处！（我以前写过一篇《朝华午拾：今天是个好日子》，谈的是类似的经历，那是在NLP落地产品的时候，与产品经理谈自己的突破，那也有众里寻他千百度的感受。不过那次谈话的故事只能假语村言，不能细说突破点，你懂的。总之，最后成就了我们的舆情挖掘系统，虽然产品还没能大卖，仅在财富500强圈子里使用，但绝对是世界上舆情最精准的系统。这次不同，这次突破是“学术上”的，是毛毛虫的突破。）先看看这个 NLP 问题有多 hard：希拉里竞选难倒NLPer。如果希拉里当选，她就是全世界唯一一个既干过美国总统又干过美国总统的女人！而她老公也将成为全世界唯一一个既干过美国总统又干过美国总统的男人！瞧着美国人吹嘘所谓一旦希拉里当了总统，克总和希总都是既干过总统又干过总统的得意样，中国人满脸不屑道：听说过武媚娘吗？那是一个既干过皇帝又干过皇帝他爹还干过皇帝他儿子并干过皇帝且生过皇帝的女人。这是微信这段时间疯传的段子。对不起，带点儿色儿，属于成人笑话，不登大雅之堂。但是对于 NLP，这个段子极为经典地呈现出自动分析的挑战，所以我比作 NLP-hard problem。不是同行不知晓，这个段子真心难。 NLP parsing 初步尝试如下，也只有先乱闯一气了：这是昨天听了段子后的瞎撞，其中似乎有“ 休眠沉睡唤不醒 ”的 parse，譬如第一句数量结构（“唯一一个”）与中心词太远（“VP的女人”）：VP里纠缠着很长的偶VPs并列，其中“V+N1+的+N2”到底是 VP 还是 NP 不到最后与数量结构碰头是难以决定的，语义限制也不管用（“干”是个万能动词，什么都能干，谁都能干）。真够绕的，“既 ... 又 ... 还 ... 并 ... 且 ...”，VPs并列一气用了五个，居然连词不重样，咱汉语真有点邪门。如上所示，我们的自动分析器走的是 VP 的线路， VP ]，等到 “唯一一个” 开始寻找 hosting head N 的时候，NP “美国总统的女人”已经被 V“干过” 吃进去成为 VP 里面的宾语成分(O)了，当时想，这时候，如果有个休眠唤醒的机制就好了。这个机制可以想象出来，但实现起来还是要在“ 毛毛虫机制 ”上下点非传统的功夫来。在白老师微信群里这么自言自语着，一拍脑袋，wait，现有的机制在语义中间件上应该可以做部分反悔重做或弥补的工作的。然后这么一试。得来全不费工夫！ “@白硕哈哈哈哈”，唤醒休眠，仰天大笑！会心一笑呼老哥，不由得我不想起李白来（ “仰天大笑出门去，我辈岂是蓬蒿人”（李白·《南陵别儿童入京》）。天道酬勤，此所谓，地球上怕就怕执着二字。突破就发生在下班前。原来那“毛毛虫”就在灯火阑珊处，难怪晚霞火烧了半边天。昨夜无眠，想了一宿，可以负责地说，deep parsing formalism 机制当中最大的挑战之一，现已有了一个通用的解决办法了。这个挑战就是结构歧义（另一个挑战是语词歧义，所谓 WSD，不过那玩意儿不是NLP应用的拦路虎，见【 NLP 迷思之四：词义消歧（WSD）是NLP应用的瓶颈】）。遇到结构歧义，特别是上例中的远距离结构歧义和埋藏很深的结构歧义（埋藏不深的结构歧义，如英语著名的 PP-attachment 难题，我们早已在机制上有了休眠唤醒的解决之道），以前的困惑是，究竟是：（1）条件不成熟霸王硬上弓去解决它（譬如不怕叠床架屋，调用世界知识和常识推理，去硬闯），还是（2）输出 nondeterministic 的结果，带着瓶瓶罐罐向下跑（学界曾经流行过一阵PCFG，带着不同概率的非确定性的分析路径，多局限于实验室的研究）；还是（3）先“休眠”，keep ambiguity untouched，等到条件成熟的时候再唤醒修正？三条路子我最近几个月都在尝试。反正闲着也是闲着，现在这种远离AI热炒的环境比较淡定从容，难得闹市一隅闲，可以细细琢磨这些机制上的事儿（其实也累得狗死，属自虐，不足为外人道也），而不是像我的有些哥们儿救火一样在创业。路线（1）试了，肯定有效，但是常常负担太重，可以见机利用。具体说就是，一定要在句法做得很透，形式的路子快山穷水尽的时候，然后在句法框架下引入常识才妥。可以一点点带入，控制使用，避免背负沉重的包袱（白老师所谓大炮打蚊子）。这个工作我们利用董老师的 HowNet （【知网】）在做，借助本体常识帮助deep parsing 排歧。（2）的挑战在于两个方面：一是 nondeterministic 如何表达合适，二是瓶瓶罐罐怎么带着跑？现在的初步结论是，这个办法如果不带着跑是可以用的。对于 PP-attachment 这样的结构歧义，完全可以一个孩子指向两个老子作为结构歧义的表达，违背所谓“一个孩子只允许有一个老子”的依存关系（dependency）天条。其实汉语的所谓“兼语式”早就违背了这条原则，所谓兼语就是既做前一个V的孩子（宾语），又做后一个V的孩子（主语），这与 PP attach 到 V 做状语，同时也可 attach 到 NP 做定语，从机制上并无二致。问题是，这样一来，parsing 的重点变成歧义的识别和表达，而不是歧义的解决，行吗？不错，就是这样。这个路线是正确的，因为句法擅长的是识别，那就发挥其所长。歧义的表达则是人自己与自己玩 encoding，这个是系统内部的协调，虽然有难度，但白老师也说过，做得初一，就做得十五，不就是一个绕来绕去的 dag （directed acyclic graph）一样的数据结构吗？dag 从我刚入行就被我导师那一辈反复洗脑过，当时叫“有向直接联系”，查查当年 MT 的老论文，这个术语恐怕是出现最多的说法了。当时就受教了这么一个原则，圣旨一样被反复强调，源自语言学（句法学）界，叫做：有向直接联系的大原则是，一个老子可以有 n （n=0）个孩子，但一个孩子最多有一个老子。（【科普小品：文法里的父子原则】）这个原则在句法上有其道理，在汉语的兼语现象上遇到了一点挑战。汉语的兼语，在西方语言中，由于这个句法大原则的作用，或者变成了宾语，或者变成了主语，总之不能再是句法意义的“兼语”，这个得益于西语的形态（inflection）帮助。到了汉语，缺乏形态，于是违反原则的兼语就堂而皇之进入句法，被句法学家（不得不）认可为合法了。“ 我请他离开 ”：兼语“他”既是主语也是宾语。到了英语呢，就必须从良，不可脚踩两条船： (1) I asked him to leave (2) I asked that he leave. 虽然两句话表达的核心意思不变，穿上英语句法外套表达的时候，不得不在主语（he）或宾语（him）之间做个选择。从这个现象可以看出，所谓的一个孩子最多只能有一个老子，其实不是一个深刻的原则，它更像是是语言学内部归纳法得出的heuristic，没有什么碰不得的。这个原则的好处是，它不仅高度归纳概括了很多语言的结构规律，而且它对结构歧义具有显式的警示效应。PP-attachement 之所以为结构歧义，其所以有两个可能的解读，可以解释为这个PP孩子出现在有两个老子的结构语境中。于是，排除歧义、理解自然语言，就可以形式化为遵循“父子原则”而必须在两条句法依存关系中做出二选一的抉择。但是这个原则我们知道在逻辑上不是没有缺陷的。其一是，语义逻辑上的多老子是常态，很多所谓隐藏的逻辑语义的 args （ hidden 逻辑主语，逻辑宾语等）之类是对这个原则的违反。应该说，它只是语言学里面句法的原则或heuristic，并不通用到语义逻辑的层面。其二是，这个原则忽视了过程性：语言理解是一个过程，在过程的某个步骤，连人都不知道这个孩子属于谁，那时候只好给这个孩子选一个候选老子系列，留待理解的深层去做决断。所以适当表达这种多老子的现象是多层次自然语言理解过程中的题中应有之义，而不能固执原则，否定这种表达的需求。上面提到的（2）和（3）都是在肯定和强调语言理解的阶段性。其三是，双关语的存在证明了，世界上没有一个原则是没有例外的，一个孩子有多个老子甚至在理解的深层也有理由存在，而且这种存在可以传达给信息接受的一方： I saw a girl with the telescope 因此成为仅次于乔老爷的 green ideas 的 NLP 名句（【从 colorless green ideas sleep furiously 说开去】）。以上这个科普式回顾，啰嗦了些，不过这是对 NLP hard 的突破的一个足够重要的背景铺垫。长话短说，路线（2）的最大问题不是方向，也不是违反原则，而是表达了，下一步怎么办？如果是在parsing的一开始就这样表达，甚至有人主张把切词的歧义也包括进来，那么parsing往下走很多层直到深度分析，目前没有看到任何机制可以有效对付这种组合爆炸。那么什么时候表达 non-deterministic 歧义结构，什么时候清理这些歧义呢？这些都是需要研究的问题。最后，即便机制上解决了这个组合爆炸的问题，人脑是豆腐，带着这些不同层次的瓶瓶罐罐跑，不出三层，开发者自己就被绕糊涂了，再资深的语言学家也经不住这个啊。开发者都糊涂，这系统还怎么调试？变成 nontractable 了。因此，路线2只能有限利用，譬如 PP attachment 可以考虑用。用完了，句法就完了，不再往下跑，然后由语义中间件（semantic middleware）系统接手去解决，或者直接进入语用（pragmatic app）去解决（或选择不解决）。语义可以解决也就是调用语义限制（selection restriction），带入某种知识。语用可能解决是因为聚焦了，领域知识可以带入。而且因为聚焦，本来的问题也许在雷达之外，无需解决（解决了也是白解决）。同样因为聚焦，如果尚在雷达上，语用阶段可以充分使用用词驱动（word-driven）规则应对。词驱动因为就事论事非常 powerful and effective，但只有到了语用阶段才最得心应手，因为词规则无穷无尽，只有聚焦了才变得有限，才容易掌控、值得重用。最后，语用阶段，很多节点的语词多义变成单义了，这也为结构排歧创造了更好的条件。所有这些 arguments 都指向了一个方向，就是，结构歧义不必在句法阶段硬做，留待语义中间件和语用产品开发阶段去做，条件成熟多了。句法的重点就是搭建一个结构环境，这样本来的线性local的局限就被突破，远距离在句法树上变成近邻。在结构的基础上解决远距离的歧义问题成为可能。所有这些都不是空谈，每一个论点都可以举出无数的parsing实例，但今儿这里只谈大面，无法 illustrate 细节了。好，转入主题，现在谈昨天的 NLP hard 的突破。希望这个突破可以与 NP-hard 某一天的突破相提并论，呵呵。简而言之，“NLP hard” 的突破就是，对于几乎一切的结构歧义，我们都可以先休眠，把 deterministic 进行到底，然后利用一个机制去唤醒被休眠的结构，修正早期的结构错误。这个机制昨天只是小试，没有发现任何真正的挑战。回头写个 specs 让工程师做一些局部功能的改进，就可以堂而皇之大规模地做任何远距离和纵深度的结构重整了。不破不立，到了“后句法阶段”，立足于deterministic的结构基础，对于这个基础做任何受控的调整，加枝添叶，剪枝去叶，都不是问题。因为这个机制我们早已在多年的毛毛虫探索中基本实现了，但是一直思路没有打开，想不到可以这样放开手脚的应用。过去两三个月一直困扰的休眠唤醒的问题，一直担心深度休眠唤不醒的问题，一夜间烟消云散。机制有了，后面就是纯粹的力气活，怎么玩都可以（【立委科普：结构歧义的休眠唤醒演义】）。从宏观上，自然语言也是一种表达，所有的歧义全部隐藏其中。determinstic parsing 不过就是为语言搭建一个桥梁，作为语义理解的基础，并不一定要做理解的目的地。在这个过程中，一个句子的歧义部分可以被 localize，没有歧义的地方被排除出雷达。到了休眠唤醒的步骤，就针对这个 localized 的子树（subtree），再做一遍 parsing 不就得了。这时候，要节点（node）信息有节点信息，要结构信息有结构路径（arc），还有什么做不成的？以前担心的唤不醒，是误认为 deterministic 的结构一旦决定了，无法动摇。哪里有这回事儿。parsing 对线性语句是增量操作，原句还在，把原句结构化了而已，原句在，意义就在，歧义也自然在，一切秘密安眠无忧。唤不醒是因为警钟不够响，你在耳朵旁放个炸弹，看还有什么唤不醒的？一个可能的歧义路径会不会在后面丢失了，永远找不回来了，这等价于唤不醒了。理论上不存在这种情况。因为语言理解的对象是有限的字符串（语句），有限的节点，和有限的初步连接（deterministic parses，包括“耍流氓”的 Topic 和 Next 连接）。在这个有限的类似 dag 的数据结构里，理论上，我可以从任何一个节点经过一个 reasonable 有限路径达到任意另一个节点，去建立新的结构联系（移情别恋）。我也可以从任何一个节点到已经连接的任何节点，去毁掉这个连接（绝交）。前者是间接路径，后者是直接路径，都是 reachable 的。至于怎么保证在不破不立的结构重塑和结构排歧过程中，防止语言学家胡来滥交，乱闯 “禁地”，这个目前来看是实践层面的问题。通过实践，最后我们总可以发现怎样界定机制层面的禁区，来保证哪怕质量不高的语言学家，也不至于伤害系统。在当前，这个不怕，可以探索。我的牛完了，，各位晚安。【相关】【立委科普：结构歧义的休眠唤醒演义】《朝华午拾：今天是个好日子》《泥沙龙笔记：parsing 的休眠反悔机制》【立委科普：歧义parsing的休眠唤醒机制初探】《新智元笔记：跨层次结构歧义的识别表达痛点》【 NLP 迷思之四：词义消歧（WSD）是NLP应用的瓶颈】【白硕 - 穿越乔家大院寻找“毛毛虫”】【科普小品：文法里的父子原则】【从 colorless green ideas sleep furiously 说开去】《朝华午拾：我的考研经历》【置顶：立委科学网博客NLP博文一览（定期更新版）】; 个人分类: 立委科普|4959 次阅读|1 个评论

老革命遇到新问题，求饶洪爷打油翁: liwei999 2016-3-3 01:54; 纵使打趣兼打油，大卸八块油诗分。话说这厢parser正长驱直入，杀得兴起，AI老革命居然呈诗屈尊求饶了，要不要就此收手，给洪爷和人类留点面子，保留点化外之地，让打油翁有个清闲的后现代的精神桃花园？吴三桂等路导引，人工智能大举进。扎爸好似李自成，隐姓埋名去逃命。风声鹤唳如此紧，不敢再说mandarin。只好打油拎油瓶，自言自语混不吝。油诗俗鄙我自认，却也敝帚颇惜珍。此事机器不愿碰，自由自在仍属人。桃花源我似躲进，汉人无须理魏晋。监控绝难将我盯，只因油诗难parsing。伟爷颇似多尔衮，想抢圆圆出奇兵。对我油诗做 parsing，一网打尽以树形。油翁息事愿宁人，见此残酷也心惊。恨不找个地缝钻，忌惮机器来横行。伟爷手下求开恩，别给机器当策应。万务留我桃花境，大卸八块且缓行。长驱直入伟爷兵，哪愿收手放我生。油诗也与树对应，乱砍滥伐须当心！秀才此番遇见兵，打掉牙齿只好吞。油诗破解已进行，以后咋说唯天问！恻隐之心，油然而生。parsing 纵所向披靡，然垂直领域多多，亟待分析挖掘，数据之大，非AI不可，金融医疗，社煤客服，不一而足。诗词歌赋实乃骚客文人所爱，还是不与秀才相争了，罢了罢了。收手之前，还是把洪爷妙趣横生的AI史诗的未尽部分实录于下，以飨同好：萧条逼人离农村，建楼修路厂房蹲。名利诱导自年轻，商业成功财源滚。如此人受驱使行，职能角色细化分。微观人具身心灵，宏观社会号令遵。众生退成机器人，机器容易超众生。认知科学多精英，智能巧往机投影。万台机器DC存，风扇排气散热闷。协作运维模拟人，哪怕迄今一丁丁。当年原子没搞清，何妨核爆蘑菇云？如今深度学习兴，弗兰肯斯坦可成？ //Frankenstein 展望用处替代人，打工打仗娱乐伶。Tycoons人机统号令，改变世界唯我尊。芸芸众生俱沉沦，到处都吃闭门羹。现实世界存贱身，虚拟游戏找自尊。犹剩精英燃机心，火中取栗更加紧。更大集群机器拼，更多参数feed in。如此Matrix建层层，黑客帝国逐渐成。海德格尔先知论，技术枷锁桎梏人！人类原来慢慢行，帝王以鞭奴役狠。飞机高铁速度增，更易劫持芸芸生。人与机器共命运，指令行道轻贱灵。大国崛起机器人，小国寡民草芥成。耸人听闻由梦境，现实触目更惊心。扎爸眼看没得混，找个旮旯拎油瓶。技术其实两面刃，抗敌也能伤己人。竞争往往没win-win，错误方向疯狂奔。歧路亡羊也亡人，人类命运一念存。若吹AI超越人，绝境悬崖终将临。狐假虎威常精英，Tycoons只想名利分。人工智能脸贴金，只为增力胜竞争。哪管往错方向行，南辕北辙误导人。信己能点石成金，救世领路爆得名。乔布斯IT一生拼，终以iPhone世服膺。随便折花比产品，花较iPhone更美精。满世界造机器人，经济驱动利润深。魑魅魍魉其中混，肉眼凡胎难认清。人工智能成热门，谈之各溅吐沫星。众说机器超越人，咱不以然存另论。 AI/IA须区分，// Intelligence Amplifier 词序颠倒意背拧。前者图谋超越人，后者眼镜与拐棍。技术作用古来明，体力智力放大镜。机构得之权欲膨，社会拥有福祉增。杞人忧天讥书生，天塌终有高个顶。《Doctor Atomic》我每听，奥本海默见重新。奥本海默是高人，请缨主持曼哈顿。及至漠升蘑菇云，方知人类大限临。广岛长崎核弹扔，涂炭千万活生灵。二战胜利由此定，冷战开启核竞争。自制魔剑悬头顶，一掉就绝人类根。此番教训若不听，人被代替增可能。人性品质渐渐扔，身疲心倦丢魂灵。好技术促人复兴，恶产品引世沉沦。前景是啥看不清， Yoda打油洋泾浜。何去何从Jedi问，雕虫雕龙费思寻。但望犹有光线存， AI能促人复兴！认知人族身心灵， Deep/shallow终能分。【相关博文】人工智能忧思录_zhazhaba_新浪博客【让机器人解读洪爷的《人工智能忧思录》（4/n）】【让机器人解读洪爷的《人工智能忧思录》（3/n）】【让机器人解读洪爷的《人工智能忧思录》（2/n）】【让机器人解读洪爷的《人工智能忧思录》（1/n）】【泥沙龙笔记：机器 parsing 洪爷，无论打油或打趣】【NLP主流的反思：Church - 钟摆摆得太远（1）：历史回顾】【置顶：立委科学网博客NLP博文一览（定期更新版）】; 个人分类: 立委科普|4005 次阅读|0 个评论

【立委科普：美梦成真的通俗版解说】: 热度 4 liwei999 2013-10-18 08:10; 凑热闹参加【征文：美梦成真】，有网友搞不懂这美梦是啥，怎么叫美梦成真。说明我瞎激动的所谓美梦，非但没有做到老妪能解，甚至没有让科学人士明白，就科普而言，那是相当的失败。看我能不能用大白话说明白这事儿：我们人类的语言说简单也简单，说复杂也复杂。简单到不管多笨的人，也大都从小就学会了语言，交流没问题。但是人学会语言，大多知其然，不知其所以然。只有专门研究语言的语言学家一直在尝试对人类语言讲出点所以然来。可语言这玩意儿，不研究也就罢了，一研究就发现这是上帝的恶作剧，复杂得很，深不可测。几千年的探索，总结出一种叫文法的东西，用它可以对语言的内在规律做一些总结，这样，千变万化的语句就可以分析成有限的句型结构，可以帮助语言理解和把握。人类本能的语言理解能力也因此显得有迹可循了。这就是我们在学校文法课上老师教给我们的知识，特别是一种语句分析的结构图的画法（grammar diagramming），条分缕析建立主语谓语宾语定语状语等结构联系，证明是一个很管用的语言分析技能。这一切本来是为了加强我们的语文能力。电脑出现以后，就有人工智能的科学家想到，要教会电脑人类语言，这个领域叫自然语言理解（Natural Language Understanding），其核心是对人类语言做自动分析（parsing），分析结果往往用类似文法课上学到的树形图来表达。自动语言分析很重要，它是语言处理的核心技术。一个质量优良、抗干扰强（所谓鲁棒 robust）而且可以运行到大数据上面的自动分析引擎，就是个核武器。有了这样的自动分析，就可以帮助完成很多语言任务，譬如人机对话、机器秘书、情报抽取、舆情挖掘、自动文摘、机器翻译、热点追踪等等。（也有不少日常语言处理应用，譬如关键词搜索、垃圾过滤、文章分类、作者鉴定，甚至自动文摘和机器翻译，不分析，不理解，只是把语言当成黑匣子，把任务定义成通过黑匣子的从输入到输出的映射，然后利用统计模型来学习模拟，也可以走得很远。这些绕过了结构和理解的近似方法，由于其鲁棒性等优点，实际上是主流的主导性做法）。自动分析语言方面，英语研究得比较充分。中文还刚刚在起步阶段，原因之一，是中文比欧洲语言难学，歧义更严重，大规律少，小规律和例外较多，不太好捉摸。因此有不少似是而非的流行说法，什么，词无定类，入句而后定，句无定法，“意合”而已矣。总之，中文自动分析是一项公认的很有意义但非常艰难的任务。尤其是要教会电脑分析真实世界的社交媒体大数据中的形形色色文句，更是难上加难。就是这个中文自动分析的美梦，最近被实现了。这样的成就可以不可以说是美梦成真呢？方锦清 2013-10-17 15:04 我看不懂啊，可以进一步解释一下？博主回复(2013-10-17 19:18) ：这是一个跨越1/4世纪科研美梦终成真的现实故事。故事的主人公做助理研究员的时候，满怀热情，不知天高地厚地为世界上最微妙的语言之一现代汉语，描绘了一幅自然语言理解（NLU）蓝图，其核心是对千变万化的中文文句施行自动语法分析。这幅蓝图距离现实太过遥远，其实现似乎非人力可为。然而，1/4世纪之后，积累加机缘，天时和地利，主人公终于实现了这个理想，正在投入真实世界的大数据应用。The mission impossible accomplished. 征文在此，请支持：【征文参赛：美梦成真】【相关篇什】【立委科普：自然语言parsers是揭示语言奥秘的LIGO式探测仪】【科普小品：文法里的父子原则】【置顶：立委科学网博客NLP博文一览（定期更新版）】; 个人分类: 立委科普|6675 次阅读|10 个评论

《立委随笔：语言学家是怎样炼成的》: 热度 5 liwei999 2012-2-29 23:29; 《立委科普：语言学家是怎样炼成的》我们知道，钢铁战士保尔柯察金是在残酷的革命斗争中炼成的。我要说：语言学家是在瞎琢磨中炼成的。下面这个故事就是证明。《立委说文解字：好，好不？》语言现象中，有逻辑的成分，也有不逻辑的成分：约定俗成是语言的天则，只要语言共同体认可，逻辑不逻辑不是问题。前不久跟朋友聊天就聊到了这样一个现象。朋友说：你是做NLP（自然语言处理）的，汉语是不是特别难做？我说：亦难亦不难，要看谁做了。要是我全心去做，那就不难，=）连欧洲语言我都弄服帖了，到了母语我还不能驾轻就熟？（哈，一不留神，吹起牛来了：正做得上瘾呢，想不吹都难。）朋友于是问：那比如汉语中不逻辑的现象。否定式当作肯定用，譬如 “好不高兴”实际上等价于“好高兴”，你怎么处理？我笑道：这是个小 case 啦，记住，对于NLP，凡是可枚举的语言现象，统统不是问题（【成语从来不是问题】），因为电脑擅长的就是记忆，可枚举的现象全部扔进海量词典即可。具体到你说的这个现象也是如此。我们知道，程度副词（很/太/极/真/顶/忒/极为/非常等）可以修饰形容词，它的否定式之一加上一个否定词“不”即可，这条规则是逻辑的，compositional 的语义叠加：肯定式：程度副词 + 形容词否定式：程度副词 + 不 + 形容词如：很高兴 / 很不高兴非常漂亮 / 非常不漂亮现在我们遇到了一个反例，就是作为程度副词的 “好” （顺便一提：“好”通常是形容词，但是在口语中也可以做程度副词用），其否定式 “好不” 不遵循上述规则，否定肯定说的都是一个意思（语言真地不讲道理，这肯定否定怎么能一样呢？没办法，语言这个monster本身就是不讲理的事儿，你最好服从，没法反抗）。怎么办呢？简单，就把它放到词典里面去，把“好不”作为“好”的同义词即可，用法是位于形容词前：肯定式：好 + 形容词 = 好不 + 形容词（这是所谓词典个性规则，因为这条规则是由两个具体的词“好”/“好不”驱动的）好开心 = 好不开心好漂亮 = 好不漂亮好恶心 = 好不恶心自以为得意，心想这样的问题太容易了，扔进词典标注清楚就完事：整个的文法规则系统一点儿也不要变动。汉语处理中确实有一批真正的难题（等以后找机会再另文专谈汉语分析的挑战性），但这种封闭类的现象不是。本来此事就算了结了，我也顺手把“好不”加进了系统，问题似乎解决了。可是我这个人没什么其他爱好，没事就爱瞎琢磨语言。回答完朋友的问题后，一路还在顺着这个问题想。真所谓，天下本无事，就怕瞎琢磨。这一琢磨，问题来了。上面这个对例外“好不”的解决方案原来还有例外，真是应验了那句老话：对于自然语言，可以说是无一条规则没有例外，无一条例外不是规则。这个例外发生在形容词“容易”前：虽然好容易 = 好不容易，但是它们却不是肯定的语义：“好不容易见到你”，说的是不容易见到；“好容易见到你”，说的也是不容易。怎么办呢？easy，记住：凡是个性的、可枚举的现象，对于电脑就不是问题。既然其他形容词与“好不”搭配都没有问题，只有“容易”才有问题，就把这种搭配放进词典不就完了吗：否定式：好不容易 = 好容易（语义结论：“容易”的否定式+强调语气）兵来将挡，水来土囤。我几乎得意了自己的天才。我于是把“好容易”/“好不容易”请进了词典，这事就这么过去了-- 直到昨天。昨天不知道是什么trigger的，我又鬼使神差地琢磨起来。天下本无事，就怕瞎琢磨。这一琢磨，问题又来了。原来， “好（不）容易” 并不那么容易，也不总是表示否定，如下面这个对比的句例：否定式：好不容易（才）见到你 = 好容易（才）见到你肯定式：这个问题好容易啊 ≠ 这个问题好不容易啊。这是怎么回事呢？原来，“好容易” 有时候强调的是“不容易”，有时候却强调 “容易”。在表示“不容易”的时候，它等价于“好容易”：好容易见到你=好不容易见到你。但是，在表示“容易”的时候，其否定式“好不容易”却不再等价于其肯定式 “好容易”，而是遵从否定式的共同规则：“这个问题好容易啊” 说的是“容易”，而 “这个问题好不容易啊”，说的却是“不容易”（困难）。怎么办？easy，可枚举现象只要人能分析清楚其用法的条件，扔进词典即可。具体说，这词典的相关个性规则就是： 1. 否定句型：好容易+VP（动词短语）= 好不容易+VP 2. 肯定句型：NP（名词短语）+ 好容易 3. 否定句型：NP + 好不容易 Wow，这么个破词折腾了这么大一圈儿。好在罗嗦是罗嗦，终于搞定了，也实现在正研发中的中文系统里。Everything works perfectly -- until now, at the time of writing this post: 瞎琢磨的毛病又犯了，这次想到的是与“好”有关的另一个个案现象，就是“好坏”，表述如下： “好” 的一个插曲是，当 “好” 遇到 “坏” 的时候（when a girl meets a boy），在通常的正反形容词并列结构的逻辑或意义之外，e.g【无论】好坏=好或坏；大小（=大还是小）【不是问题】，也一样有程度副词的语义，imagine 你要吃豆腐时你女友的娇嗔：你好坏！电脑实现起来就是放进专家词典，其词典规则就是：【“好坏”规则：（1）承继【“好”规则】，好坏=很坏：通常用作谓语；（2）形容词并列结构，常与连词【无论】等搭配，做主句的让步状语】生命不息，瞎琢磨不止，如果你是语言学家。如果你读到这儿嫌烦了，你就做不了语言学家。这比真假马列主义的试金石还灵。如果你读此文津津有味，而你并不是语言学家，只能对你表达遗憾，本来是语言学家的材料，一定是年轻时不小心入错行了，错过了语言世界的大好风光。突然想到：汉语怎么这么磨人啊，规则有例外，大例外里面还套着小例外？我们是 native speakers，可能不觉得，要是洋鬼子来学，他们会不会诅咒这个据说是博大精深的东方语言怪物啊？幸好，我们现在有电脑，电脑不懂得抱怨，只要你教它，它就永远记住，讨厌的例外反而是它的拿手好戏。【后记】为避免“瞎琢磨”引起的误导，特说明如下。本文所谓瞎琢磨，只是强调作为语言学家的语言敏感性。事实上瞎琢磨不仅不是工业开发的“正道”，而且可能引入歧途。笔者见过被语言学家 “过度开发” 的系统，其结果是低效率，系统没必要的庞杂，维护费用高，甚至不堪使用。系统开发的正道应该是数据制导（data-driven，怎样实施数据制导，里面很有讲究）：由数据而不是拍脑袋来引导系统开发。绝不能由着语言学家瞎琢磨的性子来。正确的理解是，本文的 “瞎琢磨” 自嘲大于自夸，调侃在我们这些“迂腐”的语言学家身上常见到的执着和痴迷。实用系统的规则编制，一定要遵循投入产出的原则，不能事无巨细，面面俱到地穷举。做到这一点的一个办法就是利用机器学习把统计上最有价值的现象粗略筛选提供给语言学家，避免他们走入死胡同，做无用功或低效功。［附：围脖的有关留言讨论］鲁鹏一：这不能依靠着人工穷举，而是需要有能够处理句法结构上的机器学习算法，如果有了这一个，才能在机器识别遇到困难时，再编辑规则。这样可以在大语料的基础上，保证规则的完整性和可行性// @算文解字 : 规则-专家词典，看上去是个简单有效的办法。但人工穷举，会不会出现低覆盖率的瓶颈？如果有，如何克服 (3月1日 18:25) 米拉宝鉴：从规则系统角度看，低覆盖率的问题可以由共性规则去解决。专家词典是解决低准确率的问题。语言系统因此成为一个hierarchy。理论上，低覆盖率的问题可以由机器学习去做，这样一个规则与学习的混合系统，可以发挥规则的高精度的长处，也可以发挥学习高覆盖率的长处。实际做起来，这话就长了 (3月1日 21:21) 删除 | 回复鲁鹏一：回复 @米拉宝鉴 :求数据制导的方法或思路，这实际上是现在汉语语言处理的难点，如果能够机器识别句子的结构，确实就可以进行制导了。 (3月1日 21:07 ) 【置顶：立委科学网博客NLP博文一览（定期更新版）】回复; 个人分类: 立委科普|6796 次阅读|19 个评论

【立委科普：自动分析《偉大的中文》】: 热度 2 liwei999 2011-12-5 14:28; 【立委科普：语法结构树之美（之三）】自动分析《偉大的中文》自从开始着手中文处理的研发以来，我不断遭遇挑战，也不断遇到惊喜。本着报喜不报忧的普世原则，挑战独自吞下，惊喜则可以与友分享。老友也不断“挑战”我，不过老友的挑战往往是人云亦云，打不着软肋，倒可以拿来与民同乐。老友转文《伟大的中文》，评论道：如果老李的系统可以自动分析理解这样的文字，我砸锅卖铁也要给他投资。什么样的奇文呢？引用偉大的中文「不大一樣」一句片語中的四個中文字，在不同的排列組合下，可以精確的描述四種不同的情況...... 一美女興致勃勃地問醫生：「我想豐胸，但是豐胸後會有什麼效果？」醫生淡定地答道：「豐胸後，一般會有四種結果： ①大不一樣； ②不大一樣； ③一樣不大； ④不一樣大！」说的是有这么四个汉字，不同的组合产生不同的意义，给人感觉是如此微妙，机器如何识别？其实仔细研究可以发现，这样的语言事实（现象）并非想象的那样玄妙不可捉摸。先看一下机器分析出什么样子吧，余闲来待续。引用如果爱因斯坦在时空万物中看到了造物主的美，如果门捷列夫在千姿百态的物质后面看到了元素表的简洁，语言学家则是在千变万化的语言现象中看到了逻辑结构之美。这种美的体验伴随着我们的汗水，鼓励我们为铲平语言壁垒而愚公移山，造福人类。摘自：【立委科普：语法结构树之美（之一）】相关篇什：【立委科普：语法结构树之美（之二）】【置顶：立委科学网博客NLP博文一览（定期更新版）】; 个人分类: 立委科普|6539 次阅读|3 个评论

【立委科普：语法结构树之美（之二）】: liwei999 2011-11-22 14:44; 引用如果爱因斯坦在时空万物中看到了造物主的美，如果门捷列夫在千姿百态的物质后面看到了元素表的简洁，语言学家则是在千变万化的语言现象中看到了逻辑结构之美。这种美的体验伴随着我们的汗水，鼓励我们为铲平语言壁垒而愚公移山，造福人类。摘自：【立委科普：语法结构树之美】上片片啦：研发不到一个月的中文系统已经可以自动分析相当凌乱的社会媒体语言了，其 robustness 初见成效。请欣赏中文结构树之美: 可谓婀娜多姿，风情万种。虽然看不懂，但看着像传销网络。不用明白细节，只要知道线性转成了平面就可以了作者: 立委 (*) 日期: 11/21/2011 20:47:07 Unstructured language data parsed into structures. That is all the trick it is. 为什么要结构化？不结构化如何抽取语义？盖因语言是无限的，但结构是有限的。给数据挖掘的人提供一个宝库。挖掘者与结构化数据打交道，可是面对这种不是很规范的linguistic 结构（业内有时也称作 semi-structured data），大概是遇到美女同样的感觉：既心痒，又不知如何下手。对于聪明的抽取者、挖掘者，这才是不尽的宝藏。上述结构的表达式（representations）没什么奥妙，大家的想法大同小异。可是怎样达到这个结构，才是硬功夫。从前汉语语法研究纠缠于语义，比如施动、被动之类，天天吵，月月打，作者: shijie 日期: 11/21/2011 20:52:45 一地鸡毛，谁也不服谁。如今，眼光转向“结构“，问题迎刃而解，一通百通，不论鸡毛鸭毛均可以结构论处。两个都要吧。- 吴礼语义是要的，但是语义可以临时抱佛脚。结构则不同。作者: 立委日期: 11/21/2011 23:04:55 用工程的话说，就是，语言处理的时候面对的是海量文本，要做 offline indexing, 就不适宜纠缠语义，而是应该先结构化了（parsing：句法解构）再说，存到数据库去。在应用的层面，需要的是语义（信息抽取）。这时候，做语义的条件已经成熟了，因为应用层面的语义一般是在一个特定的领域，或者为了一个特定的用场（产品），所以抽象层的语义纠缠就自然化解了。甚至可以直接对数据库的结构树进行在线即时检索，检索的时候加入适量的语义限制即可。这样的句法和语义分工，在工程上是合理的。【相关博文】【立委科普：自然语言parsers是揭示语言奥秘的LIGO式探测仪】社会媒体（围脖啦）火了，信息泛滥成灾，技术跟上了么？《科普随笔：“他走得风一样地快” 的详细语法结构分析》【立委科普：语法结构树之美】【立委随笔：创造着是美丽的】【科研笔记：开天辟地的感觉真好】【置顶：立委科学网博客NLP博文一览（定期更新版）】; 个人分类: 立委科普|14516 次阅读|0 个评论

《立委随笔：语言自动分析的两个路子》: liwei999 2010-4-17 12:42; 以前断续写过一些随笔。 (899 bytes) Posted by: 立委 Date: September 22, 2008 12:18AM 不外是两个路子，基于语法规则的路子，基于统计的机器学习（ML）路子，或者是二者的某种结合。不过，语法的路子并不大用乔姆斯基的转换生成语法。除了教授在实验室做玩具系统外，应用系统中最多用最熟练的是基于模式匹配的有限状态自动机（FSA）的formalism，而不是常提到的上下文自由语法。自然语言理解（NLU）的核心是自动句法分析（parsing）. 这个领域的发展使得 parsing 这样一个繁复的的任务逐渐细化成由浅及深的很多子任务，从词类识别（Part-of-speech tagging），基本短语抱团（phrase chunking）, 到句法主谓宾关系（SVO parsing）, 语义角色标注（Role Labeling）等等。这就为系统的模块化创造了条件，有利于软件系统的开发和维护。通常的做法是为每个子任务编制模式匹配规则，构成一个一环套一环的系列（pipeline structure）, 前一个模块的输出就是下一个模块的输入, 搭积木一样构筑语言理解的大厦（via some form of cascaded FSAs）。随着硬件的飞速发展，parsing 已经可以处理海量数据（terabyte 量级），应用型开发不再是梦想了。【置顶：立委科学网博客NLP博文一览（定期更新版）】; 个人分类: 立委科普|7563 次阅读|2 个评论

【立委科普：教机器识英文】: liwei999 2010-2-10 07:10; 【置顶：立委科学网博客NLP博文一览（定期更新版）】 2008-09-20 我们教机器理解语言（Natural Language Understanding），基本的一条就是通过句法分析 (parsing) 解析出句子的意义。什么是一个句子的意义呢？举个例子： John loves Mary. 上述句子有三个构句成分：约翰，玛丽，爱。认识这些词不难，一部词典就成，但这不等于能听懂这个句子，因为句子的意义不是其成分词汇意义的简单相加。同样的词汇，不同的组合，构成不同的句子，就有不同的意义，说明了句子结构分析对于语言理解具有决定性的作用。比较下列各组句子： 1a. John loves Mary. 1b. Mary is loved by John. 1c. John’s love for Mary (is amazing) 1d. Mary’s love by John (is amazing). 2a. Mary loves John. 2b. John is loved by Mary. 2c. Mary’s love for John (is amazing) 2d. John’s love by Mary (is amazing) 3a. John’s Mary is loved. 3b. the love for John’s Mary (is amazing) 4a. Mary’s John is loved. 4b. the love for Mary’s John (is amazing). 以上各组句子里面，虚词和词缀（如is,-ed，’s,the）有所不同，词序排列不同，而基本实词成分是相同的。句式各不相同，有主动态句型，有被动态句型，有用动词love，也有名词love，但是每组的句子中心意义是相同的。句法分析（parsing）的最终目的就是把语言中意义相同但说法不同的句式解码成相同的表达形式（称为逻辑形式 logical form），达成理解。以上述4组句子为例，怎么才叫理解了这些句子呢？如果解析出下列逻辑关系，就可以认为理解了。 1组：约翰是“爱”的的施予者，玛丽是“爱”的对象。 2组：玛丽是“爱”的的施予者，约翰是“爱”的对象。 3组：（约翰的）玛丽是（某人）“爱”的对象。 4组：（玛丽的）约翰是（某人）“爱”的对象。我们自然语言工作者编制机器语法，为的就是教会机器自动分析（parse）句子，把语言不同句式的种种说法（所谓表层结构 surface structures）解码成如上例所示的能表达结构意义的逻辑关系（所谓深层结构 deep structure)。其重点就是解析动作行为（love）及其施（如约翰）受（如玛丽）关系，即，逻辑主谓宾（logical subject-verb-object SVO）的解构。上述4组句子解构后的形式表达如下： 1组：LOVE: Subj=JOHN; Obj=MARY. 2组：LOVE: Subj=MARY; Obj=JOHN. 3组：LOVE: Obj= 4组：LOVE: Obj= 除了主谓宾的主干以外，句子的意义当然还包括枝节意义，譬如实体的修饰语（e.g. the “beautiful” Mary），行为动作的时间地点条件方式等状语 (e.g. John loves Mary “dearly”)，但是，逻辑主谓宾总是句子意义的核心。严格地说，句子的主干应该是“主谓宾补” (S-V-O-C) 四项，因为有些行为动作还需要第二个宾语或者宾语补足语意义才完整。教会电脑自动理解句子意义有什么用处呢？用处大得很，用处之一是使搜索智能化，直接得到你想要的答案，而不像牵狗一样搜索的结果是成千上万个网页。比如，你有一个疑问：微软收购了哪些公司？你只要告诉带有语言智能的搜索器，Subj=Microsoft, Verb=acquire/buy, Obj=? 逻辑主谓宾武装起来的智能搜索就可以轻易搜得所有媒体报道过的微软兼并过的公司，给你列出一长列来。这是传统搜索引擎 Google, Yahoo, 和 MSN 无法做到的。下面是笔者开发的英语自动分析机的一个运行实例。输入是英语句子，输出是逻辑主谓宾补。笔者用汉语简单加了一些注解。这是输入： A U.N. cease-fire resolution has authorized up to 15,000 U.N. peacekeepers to help an equal number of Lebanese troops extend their authority into south Lebanon as Israel withdraws its soldiers. 这是 S-V-O-C 输出： name=”SubjPred” has authorized 动词 A U.N. cease-fire resolution 主语 name=”PredObj” has authorized 动词 up to 15,000 U.N. peacekeepers 宾语 name=”PredInf” has authorized 动词 to help 补语 name=”LSubjPred” to help 动词 up to 15,000 U.N. peacekeepers 主语 name=”PredObj” to help 动词 an equal number of Lebanese troops 宾语 name=”PredComp” to help 动词 extend 补语 name=”LSubjPred” extend 动词 an equal number of Lebanese troops 主语 name=”PredObj” extend 动词 their authority 宾语 name=”PredPrep” extend 动词 into south Lebanon 补语 name=”SubjPred” withdraws 动词 Israel 主语 name=”PredObj” withdraws 动词 its soldiers 宾语笔者的目标就是制造一台世界上最善解人意的智能机器，大家说的鬼子话它大多听得懂。教机器学人话是既刺激好玩又具有实用价值的干活，笔者教了十几年了，乐此不疲。 Comments (2) yechq 12月 6th, 2008 at 11:18 am edit “笔者的目标就是制造一台世界上最善解人意的智能机器，大家说的鬼子话它大多听得懂。” 好大口气，目前成果如何？ liwei 12月 6th, 2008 at 2:19 pm edit 原来是关门吹牛的帖子，出来见光时忘记删改了，不能当真的。关门在老友中间吹牛基本上与夜行怕鬼吹口哨壮胆类似。呵呵。谢谢，我去修改一下。; 个人分类: 立委科普|6294 次阅读|0 个评论

更多...

帐号		自动登录	找回密码
密码			注册

关闭 安全验证

标签: 自动分析

相关帖子

相关日志

关闭安全验证