科学网

 找回密码
  注册

tag 标签: 标配

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

《泥沙龙笔记:parsing 的休眠反悔机制》
liwei999 2016-1-27 15:46
Nick: 十几年前给两个台办主任送过美凤光盘。 我: 主语施事是侬? 这是一个疑问句。 迈: 这是给中纪委举报的分析图吗? ISLA: nick还干过这件事 白: 为啥“主任”没当actor?under是“两个台办”,actor是“主任”多好,不用向外借context里的“尼克”了。“台办主任”难道进词典了?N+N结构难道比缺主语还优先? 我: 没进词典,“台办+主任”是rule合成的。为啥主任要做那个actor?“给” here 是个介词,是“送”的 subcat 要求的,作为 dative,不是逻辑主语,就是双宾语句式的 human 对象,光碟才是 un dergoer。 白: 说错了,“两个台办”是介宾,“光碟”不变。“主任”单拎出来,做actor。 我: why?还只是理论上的可能性?有两个台办么?文革中的确有过两个司令部,但那是非常时代。 白: 我是好奇,为啥一个无主的选择会优于一个有主的选择。难道你是推理了没有两个台办才往后走的么? 我: 没有推理,I was kidding。合成词:台办+主任,优于被 determiner 直接修饰。汉语中合成词的构成优先于句法上的chunking;不仅汉语,这是语言学一般原则:合成词处于 morphology 和 syntax 之间。 白: 也就是说,局部的优先关系已经把别的可能性扼杀了?不把其他选择往外传? 我: 这个原则上是对的。 白: 比如“听说发文件的是台办主任吓坏了”,肯定分析不对了? 我: 这个...人理解也有歧义。 不怕献丑了: 白: 不太通 我: 的确不大通。这个 parse 是说,“是台办主任吓坏了”,“听说发文件”是一个诱因。不是完全不可能,但对里面的小词 “de” 和 “是”,parsing 有点走偏了。做这些小词,分寸很难掌握,稍不留心就过火。 白: “去了趟台办主任更神气了”如何?没有小词了。 我: 白老师不要逼人太甚 :=) 没有小词了,但你为啥不加逗号,不加标点也罢,给个 SPACE 也好。 白: 学意识流。 我: 存心难为 parser: wrong,as expected 白: 意料之中,构词法一上,木已成舟。 我: : see 你若规矩 便是晴天! 一个小小的 space 有那么难么?为啥意识流?ADD 了么?做系统的人都知道,没有没有软肋的。 白: 对。只是好奇。因为之前交流过能带着多种可能性往下跑的事情。 我: 只是分寸火候而已。原则上,合成词前置是合理的,好处远远大于副作用。理论上可以保留哪怕微小的其他可能性,待后处理。实践中,当断不断, 终于自乱。哪些带着往下跑,哪些当断则断,也是一个火候的掌控。PP-attachment 这类我们是往下带的。太低的模块,一路带着往下跑,瓶瓶罐罐的,非常难缠。 白: 所以,先休眠再有条件唤醒,也是一策。当然这就要允许逆行。 我: 带着往下跑本质上也是一个组合爆炸问题,除非一边往下跑,一边卸包袱。 休眠唤醒是一个好主意,对于某些现象。我也试验过,用得好是有效的。 白: 段子大都是休眠唤醒模式。 我: 譬如一个 NP,内部的关系难以全部穷尽可能性,那就保留部分关系,然后到最后,可以重新进入这个 NP,根据需要决定重建关系。在这种情形下,问题已经缩小了,重建不难。甚至 PP-attachment 也可以循此道。譬如,一律让 PP 挂最近的 XP,成为 deterministic parse,到了语用和抽取的时候,再去重建其他的 parses,这时候语用的条件进来了,先前被休眠的可能 parse 就可以复活。 白: 武断和文断的区别…… 武断是效率的保证,休眠唤醒是兜底的保证。 我:段子的休眠唤醒说明,人的大脑认知也是先入为主的,很多时候是武断的,不过是允许反悔罢了。这种反悔有类似以前的 backtracking 的地方,但是实践中并没有那么大的 costs。 白: 看是哪种实践了 我: 因为在语用层面做反悔,基本上是已经聚焦了以后的反悔。这种聚焦最经常的方式是词驱动,因此,需要反悔重建的现象大大缩小。 白: 不同商业模式下,价值取向有差异是正常的。 我: 如果大海一样全部来反悔运动,还不如一开始就全部保留。幸运的是,绝大部分应用,语用与语法是可以分清界限的。 白: 反悔是白名单驱动,武断是标配。 我: 标配就是统计可能性大的,或者是遵循普遍原则的,譬如合成词前于句法。 白: 对 我: 任何原则或 heuristics 都有例外,到了例外,如果有一个反悔机制最好。 白: 给一条反悔的通道,但是慎用。 我: 与此相对应,还有一个例外排除机制,就是先堵住例外,然后做标配。这个办法比反悔更费工。只有在具有类似 Expert Lexicon 的词驱动的例外机制的时候,才好用。 白: 提醒一下,词驱动是取决于双因素的,不仅要看trigger是啥,也要看休眠的是啥。另外休眠的东东即使不参与分析,也可以自己做弥漫式联想(不同进程或线程),类似认知心理学说的阈下啥啥啥。这样trigger就可以提高命中率 我: 弥漫联想再往下就是弗洛伊德了。 白: 对。 词驱动这种“相互性”我举个例子就明白了:我家门前的小河很难过。 “难过”具有长词优势,“难/过”休眠了。但是,“过”弥漫式联想,激活了“过河”,于是开始反悔。直到“难/过”翻案成功。 我: 好例。“过河”与“洗澡”一样是分离式合成词,属于动宾结构。凡是可以词典化的单位,休眠重启不难实现。因为词驱动的可能性都是有限的,而且可能性都可以预先确定。以前提的“睡过”的歧义也是如此。 白: trigger有外因有内因。外因就是更大整体的句法、或语义、或语用产生不匹配等,内因就是当事的成分自己或静态、或动态地展现出结合的可能性。休眠情况下,静态不可能。动态,相当于休眠的成分梦游了,在梦游中邂逅了。 那个“夏洛特烦恼”,也是上下文给了“夏洛”独立成词的某种强化,回过头来唤醒了“特”作为副词的已休眠选项。或许,作为副词的“特”正在梦游。 白: 说了半天,还不是为了尼克 我: 对了,忘了尼克究竟是不是actor了,丫保持缄默,怎么讲?贿赂完三X光碟,在一边偷着乐吗? 【相关】 【新智元:中文 parsing 在希望的田野上】 《新智元笔记:NLP 系统的分层挑战》 《泥沙龙笔记:连续、离散,模块化和接口》 【立委科普:语法结构树之美(之二)】 【征文参赛:美梦成真】 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|4472 次阅读|0 个评论
【泥沙龙笔记:default,默认的标配】
liwei999 2016-1-6 23:30
default 这词是多年前开始学一点编程的时候最先遇到的,对其汉译 默认 或 ”缺省“,都不满意,前者主语不清(谁默认?),后者对象不明(what is missing?),但没见更好的翻译,也就慢慢习惯了(最近从 白老师文《全面理解奥卡姆剃刀原则》 中见到一个词 “标配”,才感觉是更恰当的翻译)。自从接触了这个概念以后,就一直觉得有生活的观察(接地气)和哲学的感悟(形而上)。 标配就是缺省并被人默认的东西,不同的场景标配会不同,错了场景往往闹误会或笑话。 在伦敦,乘公车的人在小站要上车,必须招手司机才停,因为默认是不停站的。因此伦敦公车站之间相距很近,这样给客人节省了时间,但又不至于没有必要地每站必停。同理,客人要下车必须按铃告诉司机,否则下站默认不停。在北京,就不同了,默认是 每 站必停,车站之间的距离也相对远了。习惯于北京的标配体系的人,初到伦敦,就傻傻地等着,眼看公车一辆一辆过去。伦敦系统对熟人有利,对不熟悉路线的生人不利,很多时候上了公车老怕自己坐过了站。 很多冲突包括文化冲击都是源于标配体系不同造成的。譬如嗓门。 我们家乡的人嗓门都大,谈得越高兴,嗓门越大。标配体系中,不会单单因为嗓门大,而默认为责骂或生气的。可是在世界很多地方,嗓门大被默认为粗鲁、骂人或生气。流浪天涯的人这种感受最深。我一辈子遇到过很多这样的情形,好多次我不由自主嗓门大了,内心充满了兴奋和友好,结果对方突然变脸,说你吼什么?why yelling?天哪,我喜欢你才兴奋啊,反过来怪我吼他(她)。不仅扫兴,也无法辩白,哭笑不得。嗓门大的习惯甚至有几次导致差点动用警察来抓我,就是因为我说话急切,机关枪一样。可在我的家乡,我长大的环境,大家都是如此啊。 轻吻面颊是欧洲不少地方见到女士默认的社交礼貌,在国内就是非礼或流氓了。 研究不同情境的标配体系,以及变换情境而产生的冲突和误解,应该是一个很有价值的工作。入乡随俗的本义,就是去熟悉一个新的标配体系。 标配不仅随地点不同,随时间也有变化。同样一款汽车或手机,去年需要额外付钱升级的东西,今年成了标配,技术进步的红利,为了竞争,很常见。 所谓常识,是预设共同体有同样或类似的标配体系。交流中的未明说的语义缺口,大多是常识标配在填补。这是日常生活随时发生的低碳高效的人际交流,除非遇到默认不一致的时候。 以上算是读白老师最新博文节外生枝的零星感触,这里给各位隆重推荐白老师这篇富有哲理妙趣横生的AI指引性雄文: 《全面理解奥卡姆剃刀原则》 。
个人分类: 立委随笔|2989 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-3 09:18

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部