科学网

 找回密码
  注册

tag 标签: reduplication

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

【沙龙笔记:汉语构词和句法都要用到reduplication机制】
热度 1 liwei999 2016-1-30 06:44
洪: 过去有人打着红旗反红旗, 谷歌发明Go语言灭Go游戏。 这些比林彪还林彪的神马玩意, 想让骄傲的人类再也骄傲不起! @wei 能否给我这四句油诗做个parsing,看看还算人话么? 我: 好。我现在不在机器旁。 @洪涛Tao 你的油诗的 parses below: “林彪”活用为形容词使得 parsing 掉了链子 除此而外,其他的 parse links 还都说得过去。洪爷的诗是老妪能解啊。 至少从结构上看,基本是人话,比乔老爷的递归例举强多了。 洪: 好,神马 对应到 什么了。挺与时俱进! 白: 就是个词典。 洪:  窃以为你的parsing结果要通俗化,可以上面加一个deep learning做的mapping。借鉴alphago的做法。 我: mapping 做啥用? 为啥一切都往 DL 上靠? parsing 就是提供一个结构基础,后去可以比较容易根据结构pattern(subtree)去抽取信息而已,或根据结构去精准检索,改善搜索引擎。理论上这些结构也可以大大提高统计模型,把关键词语言模型提升为结构语言模型,但实际上能够在结构和关键词之间玩好平衡的统计模型好手,也不多见。问题出在,扔掉关键词,完全利用结构 features 做模型,模型可能不够鲁棒,对 sparse data 也较难应对。如果既要结构也要关键词,那么 evidence overlapping 的处置是一个挑战。 我: 比NP还AP可以。比 X 还 X 目前还没进入系统。 但是并不困难,因为 unification 和 reduplication 的机制在,就是缺了一条 rule 去 cover 汉语口语中这个 pattern,比林彪还林彪,比乔老爷还乔老爷,比英雄还英雄。这种口语pattern充当谓语性AP。 我: 刚刚 加上了口语中的 reduplication rule 比x还x: 所谓愚公移山,大多指的是这一类。好像做不胜做,但毕竟还是有限的句式。做一个少一个吧。至于名词转成了谓语后,意义上是怎么通过联想而改变的,那就是另一个层次的问题了。 与林彪能联想上的是什么?(1)神机妙算?(2)阴谋诡计?(3)克己复礼? 不同人、不同的场景,有不同的理解。 譬如,与乔老爷对应的谓语呢?固执己见?登峰造极?极左? 持不同政见?如果乔老爷是指的国内的某个大财主,联想到的谓语可能是另外的意义了(贪得无厌?) 这一切都远远超出了结构分析的scope。 白:那名词以什么著称,就在那方向上更甚。 这个由语境决定了。 语义也只是留出替换接口。 看看那段时间的语料,以那名词为主语的,什么做谓语频次最高。如果谓语比较具体而分散,往上抽象几层看看抽象事件/关系的类别。 我: 跟 “的子结构”与what-clause类似,其语义所指是不确定的。系统没必要替人去求解。何况各人的理解都可能不同。 【相关】 《新智元:填空“的子结构”、“所字结构”和“者字结构“》 《泥沙龙笔记:parsing 的休眠反悔机制》 【新智元:中文 parsing 在希望的田野上】 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|4679 次阅读|1 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-2 01:04

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部