博文

《李白宋121：中文分词歧义及其包容》

已有 1530 次阅读 2021-6-30 13:15 |个人分类:立委科普|系统分类:科研笔记

分词结果应该长什么样？

最新原创出炉，白老师又有佳作，话题是中文“分词”。

李：请教@白硕，“线状补丁”列表的遗漏掉的词汇就是一个 list of words？所说的优先级来自何处？优先级本身是不是也表示出来？根据优先级需要 cut 一刀，否则就是 exhaustive tokenization 的查词典全覆盖了，这一刀在哪里截住有说法吗？

另外：如果只剩下“难过”一个整体，离合词的寻找就是一个伪命题，更无需说“小河”和作为一个整体的“难过”在语义上是不相谐的。这个说法逻辑上/语义上没问题，但从大数据现场看，“小河难过” 的相谐性不是子虚乌有，而是可验证的。只要数据足够大，都可以和谐：1. 过河；2 过小河； 3 难过河； 4 难过小河

白：如果是未经分词的大数据或者未经人工校对的已分词的大数据，你根本不知道那个出现是“难过”还是“难+过”，从而，你也无法给出二者相区别的统计数据。

李：最简单的高频ngrams共现，应该可以确认上面4种相谐。不需要知道 “难过” 是不是一种 “过”，还是一种 “难”。有意思的是，大数据的语言模型越来越舍弃分词了。gram 都是立足于 characters（字）这种没有争辩空间的基础之上。对分词（错误）完全免疫。换句话说，分词 irrelevant 了。其可行，是因为大数据不怕 redundancy，非逻辑系统也不需要概念单元。甚至欧洲文字明明有空格帮助分词，也有系统开始立足于纯粹的 character（字符，字母和空格等）之上，舍弃“词”的拐杖。最明显的好处就是模型的鲁棒性。错别字手误不再是挑战。

最近用机器翻译的时候发现，漏掉几个词，或者某个长词只写了一半，系统照样翻译正确。有时候把几个英文词连在一起写，把空格去掉，也一样出来正确的结果。

白：机器翻译跟精准解析几乎无关。容错也不是元组表示独有的功劳。

李：那是。但是非机器翻译用的模型也都是这个趋向。

是两条路上跑的车，确实不必混在一起谈。

白：我们关注的是，不做“难过”和“难+过”的区分，能走多远？能成为一种常态？如果需要区分，而且是通过“反哺”来区分，那么如何给“反哺”保留最必要的信息？

李：这个问题也琢磨过。

区分可以原子化和词典化，而不是在词典外的系统层面，感觉是相当可行的。就是说，难过看成是一个单元（词条），两个 senses（概念）。这就对外看上去没有区分，对内转化成了 WSD 的问题。词典标注的 sense1 就是 sad，sense2 是 “某种” cross。sense2 与动词 “过” 的标注一致。有了词典内部的标注，这个区分就自圆了。

白：这是组合歧义，交叉歧义呢？

难道“文化学+到手”和“文化+学+到手”是同一个“五字词”的两个sense？

李：其实也不是不可以想象的。才 5-gram，总有一天 5-gram 之内的问题原则上都可以词典化。起码高频的 5-grams 可以越过传统词界限的束缚。

文化学到手：sense1=“文化学+到手”；sense2=“文化+学+到手”

好处是一旦歧义被“包住”了，敌我矛盾就转化为人民内部矛盾。都是自家人，什么事都好商量。甚至商量不了，解决不了，也可以搁置，不影响外交关系。这个思路感觉是有益的。

以前有个“错误放大”（error propagation）的理论担心。这个理论夸大了局部问题的全局后果。其实如果应对得当，局部问题解决不了，就包住它，也是可以的，影响不到全局。

白：感觉：1）五个不一定够；2）遇到bug现场打包改词典比retrain还不靠谱；3）随着词典的增长，组合歧义/交叉歧义也在增长，这个过程都不一定收敛。4）如果必须牵涉语义，打包过程中语义的组合还是要靠能产性解决而不是靠个案解决，换汤不换药。

你过去做词典的人写词项的定义就ok。现在写多元组的定义，是若干个词项定义的特定形式的组合，在公司里都不见得是同一个工种。等于让修理工当装配工。

李：我的感觉不一样：1）5个够了（99.999…, 就是小数点后到了第几位）；2）遇到 bug 现场打包其实是靠谱的，如果只求快速包扎，我们一直就是这样做的；3）收敛是个理论问题，现场的问题是，有没有办法让（高级）用户在现场自己搞定。就是说，系统从来不是一锤子买卖，只要用户自己觉得不是绝路，有逃生的希望，就可以。

白：不可能的。

一个词项乃至N个词项组合对应的标签，客户怎么搞得定

李：预设是精准解析，才会得出不可能、不可持续的结论。但精准解析与分词一样，都是手段，不是目的。从目的和现场看，个案解决或止损，是没有啥问题的。至于要不要统筹解决，那是另一个层面的问题。

白：谈商业是另一种谈法。

李：统筹解决与个案解决是并行的，后台研发不断考虑统筹的问题。前台现场提供个案解决的用户友好工具。个案解决有个回路，反馈到后台，保不准类似的个案问题在下一个 release 中就不必个案解决了。

白：“纽约周三再开放，到中国直飞机票没有，转飞就难说了。”

直飞/机票 vs 直/飞机票

宋：用“大词”就解决了。一般来说，交搭型歧义用大词解决，离合型歧义用词义解决。

李：其实两种歧义都可以大词典应对之，前者是内部解决，后者是内部包容。二者都被“大词”包裹了。包裹的好处是抓大放小，一致对外。甚至连内部发生不可调和矛盾的现象（例如 NP/VP 兼容大词，学习材料/红烧牛肉），也可以包裹得严严实实。如果 “指挥” 可以包裹两个 senses，就没有理由不能让 “学习材料” 包裹两条内部子图路径。

以前提过的一个论点是，NLP 的大部分工作都可以绕开 WSD 来做，说的就是只要能包裹住歧义，绝大多数工作都可以继续，舞照跳，马照跑。

包裹了以后，还解决不解决内部矛盾呢？其实，90%以上的内部矛盾就一直包裹到死，夫妻吵吵闹闹一辈子的有的是，一样过日子。如果恰好在 NLP 应用现场，被包裹的歧义是关键所在。于是会有不到 10% 的内部矛盾，可能需要根据需要重新打开包裹，来解决矛盾。而这种解决也还是词典驱动的。

【相关】

【语义计算：李白对话录系列】

【置顶：立委NLP博文一览】

《朝华午拾》总目录

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：https://m.sciencenet.cn/blog-362400-1293455.html

上一篇：从疑似愚人节新闻的特斯拉大规模“召回”说起
下一篇：【李白122: 现在是个什么东西】

《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵，插队修地球，1991年去国离乡，不知行止。

博文

《李白宋121：中文分词歧义及其包容》

当前推荐数：2 推荐人：武夷山 许培扬

该博文允许注册用户评论请点击登录评论 (0 个评论)

李维

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵，插队修地球，1991年去国离乡，不知行止。

博文

《李白宋121：中文分词歧义及其包容》

当前推荐数：2 推荐人： 武夷山 许培扬

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

李维

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

当前推荐数：2 推荐人：武夷山许培扬

该博文允许注册用户评论请点击登录评论 (0 个评论)