科学网

 找回密码
  注册

tag 标签: 唤醒

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

如何唤醒沉睡的科研成果
热度 8 outcrop 2018-7-2 10:51
前几天在微信群聊到国内外科技成果经常以论文、专利等形式沉睡,可能浪费了大量宝贵的智力资源;要不要考虑借助信息技术,搭建一个科技成果的转化、推送、撮合与交流的平台。李宁老师马上指出武夷山老师早就对此有过探索;没想到今天打开科学网刚巧就看到了武夷山老师最新博文提到这个话题:《 我1984年的文章----国外的技术转移研究 》。顺藤摸瓜,读到了武老师的硕士论文博文:《 关于我国实验室研究成果向生产转移的几个问题(硕士论文之一) 》、《 技术转移的三大障碍 (硕士论文连载之二 》、《 专利法不能确保被保护的技术得到转化(硕士论文续完) 》。 读完武老师博文,佩服武老师三十多年前先见之明的同时,也能理解博文引语中提到的无奈:“ 重新检视自己的老文章,有两点强烈的感慨:一是多年前论述的好些问题,居然迄今没有过时,说明自己当年的分析有一定深度,有的观点甚至可以说有一定预见性。二是与此同时,感到我国存在的痼疾有多么严重!因为,对于那些较准确地分析过的问题,如果我的对策(或其他人提出的类似对策)被采用,那么有关问题应该已经解决或大大缓解,于是我的那些旧文就完全过时了。我的旧文越有生命力,越是说明我们社会中的某些毛病积重难返,何其可哀也! ”。三十多年过去,文章中提到的很多问题没变,还创造性的引入了新的问题。比如,如今科研成果流行英文发表了,越是优质的科研成果,越是不可能在中文期刊发表;那么,英文论文写给谁看?关于英文论文还有其他吐槽,比如谢力老师的博文《 这是一个多么不靠谱的学术界 》提到:“想要说在国内做研究工作,发表到国外期刊是多么地。。。。一种自找的被歧视、被羞辱。。。。”;这种抱怨具有较大范围的代表性。 在武老师《国外的技术转移研究》论文中提到一个转移模式(论文截图): 那么谁来承担“转移促进者”这个桥梁?搜索“科技成果转化平台”关键字,可以发现其实有不少相关的平台;但基本都是政府或者地方政府主持,能否有效克服武老师硕士论文提到“技术转移的三大障碍”之一的“系统功能障碍”,是个问号。另外,也有一些成功“产业教授”,但成功者不多,存在一定的风险且集中在特定专业领域。 武老师的论文提到“技术转移的三大障碍”之二的“广义交流障碍”,在(移动)互联网技术普及的今天,是完全有可能从技术上解决信息流动性问题;这里可能有所作为。“技术转移的三大障碍”之三“个人心理障碍”,则可能需要在“名”和“利”上对转移进行刺激和鼓励,比如转移成功对职称、收入的正面影响。 三十多年后的今天,现实仍让人沮丧。那么有没有可能的出路来改善?窃以为不妨针对武老师提到的三大障碍,尝试以响应灵活的民营企业来承担这个“转移促进者”的角色,依托(移动)互联网技术构建一个打通“科研工作者——科研机构——企业——工程师”的科研成果转化撮合与交流的分布式平台,对转化成功的成果予以物质激励的同时,国家考虑在职称评审等方面予以加分支持。 最后剩下一个问题,有没有民营企业愿意做这种事情?答案只有一个:能盈利就会有人做。不过一旦整合科研工作者以及工程师这两个知识的创造和应用,想做到不盈利可能也困难。这是一件有意义的事,值得做;也是一件具备赢利点的事,做来不亏。
个人分类: 科学网大学|10555 次阅读|20 个评论
一项变革性研究如果遭遇延迟承认,如何寻找唤醒她的王子文献?
adully2010 2016-5-29 14:40
一项变革性研究如果遭遇延迟承认,如何寻找唤醒她的王子文献? 根据我们前期的相关工作:①应用引文速率相关指标验证了 2014 年诺贝尔化学奖得主 Stefan W. Hell 的代表作( Hell, 1994 )是一篇典型的睡美人文献,初步提出结合被引速率和延迟承认指数,可较快识别出文献集合中的睡美人文献;②针对在睡美人文献的被引次数突增过程中起到关键促进作用的文献分析表明,在睡美人文献第一代施引文献的参考文献中,发表于睡美人文献引用突增年,同被引速率、共同延迟承认指数分别与睡美人文献的被引速率、延迟承认指数越接近,越有可能是王子文献 。 但上述关于王子文献的识别方法较繁琐,且透明度低,基于该科学发现是一项变革性研究(颠覆了 Ernst Abbe 的经典衍射极限理论)的特征,作者进而对识别方法进行简化,提出了一个适用于变革性研究的文献计量学框架,用于识别唤醒睡美人文献的王子文献:①发表于被引突增的附近年份;②本身被引次数较高;③与睡美人文献的同被引次数高;④在年度被引次数曲线上,王子文献对睡美人文献的“牵引或拉动”作用应非常显著,即至少在临近睡美人文献引用突增的年份,王子的年度被引次数应高于睡美人。作者也基于这四点标准尝试识别并分析了临床医学四大高声望期刊上发表的睡美人文献的王子文献 。 但,科学发现分不同类型,如托马斯•库恩根据范式不同将创新性研究分为渐进性创新和变革性创新,Science杂志前主编Koshland Jr将科学发现分为攻关型、挑战型和机遇型三类,作者通过进一步思考后认为,第四点并非普适于不同科学发现类型的睡美人文献,而仅适用于变革性创新或挑战型发现。由于变革性研究或超前于现有认知领域,或颠覆了已被公认或形成共识的理论,学术共同体或不知道其存在而忽视,或由于对此保持较大的心理距离而不相信其价值而抵制。王子文献出现后,才促使人们了解到睡美人文献的创新思想;有了王子文献率先施引或作为线索,才促使人们开始频频引用睡美人文献,或将王子文献和睡美人文献同时引用。当时,相比睡美人文献,人们对王子文献更熟悉,所以王子文献的年度被引次数应高于睡美人文献。案例研究显示,采用该框架识别出的王子文献与该领域科学史评论事实相一致。但上述框架仅从一个典型的变革性研究案例分析得出,是否广泛适用仍需进一步研究与实证检验。文章发表于 Journal of Data and Information Science。 见:Du, J., Wu, Y.S. (2016). A bibliometric framework for identifying “princes” who wake up the “sleeping beauty” in challenge-type scientific discoveries. Journal of Data and Information Science , 1(1): 50-68. http://ir.las.ac.cn/handle/12502/8478?mode=fullsubmit_simple=Show+full+item+record 前期相关工作: 杜建, 武夷山. 基于被引速率指标识别睡美人文献及其“王子”——以2014 年诺贝尔化学奖得主Stefan Hell 的睡美人文献为例. 情报学报, 2015,34(5): 508-521. 杜建, 武夷山. 睡美人与王子文献的识别方法研究. 图书情报工作, 2015, 59(19): 84-92.
个人分类: 科学计量学|4147 次阅读|0 个评论
【朝华午拾:那一天是个好日子】
热度 8 liwei999 2016-4-15 12:36
【立委按:有眼尖的读者可能要问,这不是你 前两天刚发的博文 吗?虽然在自己博客的一亩三分地不能算一稿两投,起码也有些改头换面骗眼球的味道,没品啊。可是这年头,信息爆炸啊,连这么用心的博文既没上头条,也不加精,才区区319眼球数,白费了我码字好半天,里面还藏着那么多宝贝呢,不合天理。科研突破我容易吗,一辈子能有几次?没有 marketing 真可怕,跟没文化同。marketing 又没 budget,只好出此下策自我抄袭了。原谅苦心则个!】 2016-04-12 那一天是个好日子。 上班路上从车里所摄。几乎透明的大厦融化在硅谷腹地圣塔克拉拉的蓝天白云之间。 下班路上从车里所摄,又见火烧云,震慑心魂。 重点不在硅谷的景色,而在心情。景色都是过眼烟云。 那天是个好日子,是因为终于解决了一个 “NLP-hard” 的 problem,这就好似当年在社科院单身宿舍的时候,老做噩梦,觉得自己怕是要打一辈子光棍了,人海茫茫,寻啊觅啊却不敢张口 -- 那人却在灯火阑珊处! (我以前写过一篇 《朝华午拾:今天是个好日子》 ,谈的是类似的经历,那是在NLP落地产品的时候,与产品经理谈自己的突破,那也有众里寻他千百度的感受。不过那次谈话的故事只能假语村言,不能细说突破点,你懂的。总之,最后成就了我们的舆情挖掘系统,虽然产品还没能大卖,仅在财富500强圈子里使用,但绝对是世界上舆情最精准的系统。这次不同,这次突破是“学术上”的,是毛毛虫的突破。) 先看看这个 NLP 问题有多 hard: 希拉里竞选难倒NLPer。如果希拉里当选,她就是全世界唯一一个既干过美国总统又干过美国总统的女人!而她老公也将成为全世界唯一一个既干过美国总统又干过美国总统的男人!瞧着美国人吹嘘所谓一旦希拉里当了总统,克总和希总都是既干过总统又干过总统的得意样,中国人满脸不屑道:听说过武媚娘吗?那是一个既干过皇帝又干过皇帝他爹还干过皇帝他儿子并干过皇帝且生过皇帝的女人。 这是微信这段时间疯传的段子。对不起,带点儿色儿,属于成人笑话,不登大雅之堂。但是对于 NLP,这个段子极为经典地呈现出自动分析的挑战,所以我比作 NLP-hard problem。不是同行不知晓,这个段子真心难。 NLP parsing 初步尝试如下,也只有先乱闯一气了: 这是听了段子后的瞎撞,其中似乎有“ 休眠沉睡唤不醒 ”的 parse,譬如第一句数量结构(“唯一一个”) 与 中心词太远 (“VP的女人”):VP里纠缠着很长的偶VPs并列,其中“V+N1+的+N2”到底是 VP 还是 NP 不到最后与数量结构碰头是难以决定的,语义限制也不管用(“干”是个万能动词,什么都能干,谁都能干)。 真够绕的,“既 ... 又 ... 还 ... 并 ... 且 ...”,VPs并列一气用了五个,居然连词不重样,咱汉语真有点邪门。 如上所示,我们的自动分析器走的是 VP 的线路, VP ],等到 “唯一一个” 开始寻找 hosting head N 的时候,NP “美国总统的女人”已经被 V“干过” 吃进去成为 VP 里面的宾语成分(O)了,当时想,这时候,如果有个 休眠唤醒的机制 就好了。这个机制可以想象出来,但实现起来还是要在“ 毛毛虫机制 ”上下点非传统的功夫来。在白老师微信群里这么自言自语着,一拍脑袋,wait,现有的机制在语义中间件上应该可以做部分反悔重做或弥补的工作的。然后这么一试。得来全不费工夫! “@白硕 哈哈哈哈”,唤醒休眠,仰天大笑! 会心一笑呼老哥,不由得我不想起李白来 ( “仰天大笑出门去,我辈岂是蓬蒿人”(李白·《南陵 别儿童入京》 )。天道酬勤,此所谓,地球上怕就怕执着二字。突破就发生在下班前。原来那“毛毛虫”就在灯火阑珊处,难怪晚霞火烧了半边天。 昨夜无眠,想了一宿,可以负责地说,deep parsing formalism 机制当中最大的挑战之一,现已有了一个通用的解决办法了。这个挑战就是结构歧义(另一个挑战是语词歧义,所谓 WSD,不过那玩意儿不是NLP应用的拦路虎,见 【 NLP 迷思之四:词义消歧(WSD)是NLP应用的瓶颈 】 )。 遇到结构歧义,特别是上例中的远距离结构歧义和埋藏很深的结构歧义(埋藏不深的结构歧义,如英语著名的 PP-attachment 难题,我们早已在机制上有了休眠唤醒的解决之道),以前的困惑是,究竟是: (1) 条件不成熟霸王硬上弓去解决它(譬如不怕叠床架屋,调用世界知识和常识推理,去硬闯), 还是 (2) 输出 nondeterministic 的结果,带着瓶瓶罐罐向下跑(学界曾经流行过一阵PCFG,带着不同概率的非确定性的分析路径,多局限于实验室的研究); 还是(3)先“休眠”,keep ambiguity untouched,等到条件成熟的时候再唤醒修正? 三条路子我最近几个月都在尝试。反正闲着也是闲着,现在这种远离AI热炒的环境比较淡定从容,难得闹市一隅闲,可以细细琢磨这些机制上的事儿(其实也累得狗死,属自虐,不足为外人道也),而不是像我的有些哥们儿救火一样在创业。 路线(1) 试了,肯定有效,但是常常负担太重,可以见机利用。具体说就是,一定要在句法做得很透,形式的路子快山穷水尽的时候,然后在句法框架下引入常识才妥。可以一点点带入,控制使用,避免背负沉重的包袱(白老师所谓大炮打蚊子)。这个工作我们利用董老师的 HowNet (【 知网 】)在做,借助本体常识帮助deep parsing 排歧。 (2)的挑战在于两个方面:一是 nondeterministic 如何表达合适,二是瓶瓶罐罐怎么带着跑? 现在的初步结论是,这个办法如果不带着跑是可以用的。对于 PP-attachment 这样的结构歧义,完全可以一个孩子指向两个老子作为结构歧义的表达,违背所谓“一个孩子只允许有一个老子”的依存关系(dependency)天条。其实汉语的所谓“兼语式”早就违背了这条原则,所谓兼语就是既做前一个V的孩子(宾语),又做后一个V的孩子(主语),这与 PP attach 到 V 做状语,同时也可 attach 到 NP 做定语,从机制上并无二致。问题是,这样一来,parsing 的重点变成歧义的识别和表达,而不是歧义的解决,行吗? 不错,就是这样。 这个路线是正确的,因为句法擅长的是识别,那就发挥其所长。歧义的表达则是人自己与自己玩 encoding,这个是系统内部的协调,虽然有难度,但白老师也说过,做得初一,就做得十五,不就是一个绕来绕去的 dag (directed acyclic graph)一样的数据结构吗?dag 从我刚入行就被我导师那一辈反复洗脑过,当时叫“有向直接联系”,查查当年 MT 的老论文,这个术语恐怕是出现最多的说法了。当时就受教了这么一个原则,圣旨一样被反复强调,源自语言学(句法学)界,叫做: 有向直接联系的大原则是,一个老子可以有 n (n=0)个孩子,但一个孩子最多有一个老子 。( 【科普小品:文法里的父子原则】 ) 这个原则在句法上有其道理,在汉语的兼语现象上遇到了一点挑战。汉语的兼语,在西方语言中,由于这个句法大原则的作用,或者变成了宾语,或者变成了主语,总之不能再是句法意义的“兼语”,这个得益于西语的形态(inflection)帮助。到了汉语,缺乏形态,于是违反原则的兼语就堂而皇之进入句法,被句法学家(不得不)认可为合法了。“ 我请他离开 ”: 兼语“他”既是主语也是宾语。 到了英语呢,就必须从良,不可脚踩两条船: (1) I asked him to leave (2) I asked that he leave. 虽然两句话表达的核心意思不变,穿上英语句法外套表达的时候,不得不在主语(he)或宾语(him)之间做个选择。从这个现象可以看出,所谓的一个孩子最多只能有一个老子,其实不是一个深刻的原则,它更像是是语言学内部归纳法得出的heuristic,没有什么碰不得的。 这个原则的好处是,它不仅高度归纳概括了很多语言的结构规律,而且它对结构歧义具有显式的警示效应。PP-attachement 之所以为结构歧义,其所以有两个可能的解读,可以解释为这个PP孩子出现在有两个老子的结构语境中。于是,排除歧义、理解自然语言,就可以形式化为遵循“父子原则”而必须在两条句法依存关系中做出二选一的抉择。 但是这个原则我们知道在逻辑上不是没有缺陷的。其一是,语义逻辑上的多老子是常态,很多所谓隐藏的逻辑语义的 args ( hidden 逻辑主语,逻辑宾语等) 之类是对这个原则的违反。应该说,它只是语言学里面句法的原则或heuristic,并不通用到语义逻辑的层面。其二是,这个原则忽视了过程性: 语言理解是一个过程,在过程的某个步骤,连人都不知道这个孩子属于谁,那时候只好给这个孩子选一个候选老子系列,留待理解的深层去做决断。所以适当表达这种多老子的现象是多层次自然语言理解过程中的题中应有之义,而不能固执原则,否定这种表达的需求。上面提到的 (2) 和 (3)都是在肯定和强调语言理解的阶段性。其三是,双关语的存在证明了,世界上没有一个原则是没有例外的,一个孩子有多个老子甚至在理解的深层也有理由存在,而且这种存在可以传达给信息接受的一方: I saw a girl with the telescope 因此成为仅次于乔老爷的 green ideas 的 NLP 名句( 【 从 colorless green ideas sleep furiously 说开去 】 )。 以上这个科普式回顾,啰嗦了些,不过这是对 NLP hard 的突破的一个足够重要的背景铺垫。 长话短说,路线(2) 的最大问题不是方向,也不是违反原则,而是表达了,下一步怎么办? 如果是在parsing的一开始就这样表达,甚至有人主张把切词的歧义也包括进来,那么parsing往下走很多层直到深度分析,目前没有看到任何机制可以有效对付这种组合爆炸。那么什么时候表达 non-deterministic 歧义结构,什么时候清理这些歧义呢?这些都是需要研究的问题。最后,即便机制上解决了这个组合爆炸的问题,人脑是豆腐,带着这些不同层次的瓶瓶罐罐跑,不出三层,开发者自己就被绕糊涂了,再资深的语言学家也经不住这个啊。开发者都糊涂,这系统还怎么调试?变成 nontractable 了。因此,路线2只能有限利用,譬如 PP attachment 可以考虑用。用完了,句法就完了,不再往下跑,然后由语义中间件(semantic middleware)系统接手去解决,或者直接进入语用(pragmatic app)去解决(或选择不解决)。 语义可以解决也就是调用语义限制(selection restriction),带入某种知识。语用可能解决是因为聚焦了,领域知识可以带入。而且因为聚焦,本来的问题也许在雷达之外,无需解决(解决了也是白解决)。同样因为聚焦,如果尚在雷达上,语用阶段可以充分使用用词驱动(word-driven)规则应对。词驱动因为就事论事非常 powerful and effective,但只有到了语用阶段才最得心应手,因为词规则无穷无尽,只有聚焦了才变得有限,才容易掌控、值得重用。最后,语用阶段,很多节点的语词多义变成单义了,这也为结构排歧创造了更好的条件。所有这些 arguments 都指向了一个方向,就是,结构歧义不必在句法阶段硬做,留待语义中间件和语用产品开发阶段去做,条件成熟多了。句法的重点就是搭建一个结构环境,这样本来的线性local的局限就被突破,远距离在句法树上变成近邻。在结构的基础上解决远距离的歧义问题成为可能。 所有这些都不是空谈,每一个论点都可以举出无数的parsing实例,但今儿这里只谈大面,无法 illustrate 细节了。(illustration 参见: 【立委科普:结构歧义的休眠唤醒演义】 ) 好,转入主题,现在谈昨天的 NLP hard 的突破。希望这个突破可以与 NP-hard 某一天的突破相提并论,呵呵。简而言之,“NLP hard” 的突破就是,对于几乎一切的结构歧义,我们都可以先休眠,把 deterministic 进行到底,然后利用一个机制去唤醒被休眠的结构,修正早期的结构错误。这个机制昨天只是小试,没有发现任何真正的挑战。回头写个 specs 让工程师做一些局部功能的改进,就可以堂而皇之大规模地做任何远距离和纵深度的结构重整了。 不破不立,到了“后句法阶段”,立足于deterministic的结构基础,对于这个基础做任何受控的调整,加枝添叶,剪枝去叶,都不是问题。因为这个机制我们早已在多年的毛毛虫探索中基本实现了,但是一直思路没有打开,想不到可以这样放开手脚的应用。过去两三个月一直困扰的休眠唤醒的问题,一直担心深度休眠唤不醒的问题,一夜间烟消云散。机制有了,后面就是纯粹的力气活,怎么玩都可以。 从宏观上,自然语言也是一种表达,所有的歧义全部隐藏其中。determinstic parsing 不过就是为语言搭建一个桥梁,作为语义理解的基础,并不一定要做理解的目的地。 在这个过程中,一个句子的歧义部分可以被 localize,没有歧义的地方被排除出雷达。到了休眠唤醒的步骤,就针对这个 localized 的子树(subtree),再做一遍 parsing 不就得了。这时候,要节点(node)信息有节点信息,要结构信息有结构路径(arc),还有什么做不成的?以前担心的唤不醒,是误认为 deterministic 的结构一旦决定了,无法动摇。哪里有这回事儿。parsing 对线性语句是增量操作,原句还在,把原句结构化了而已,原句在,意义就在,歧义也自然在,一切秘密安眠无忧。唤不醒是因为警钟不够响,你在耳朵旁放个炸弹,看还有什么唤不醒的? 一个可能的歧义路径会不会在后面丢失了,永远找不回来了,这等价于唤不醒了。理论上不存在这种情况。因为语言理解的对象是有限的字符串(语句),有限的节点,和有限的初步连接(deterministic parses,包括“耍流氓”的 Topic 和 Next 连接)。在这个有限的类似 dag 的数据结构里,理论上,我可以从任何一个节点经过一个 reasonable 有限路径达到任意另一个节点,去建立新的结构联系(移情别恋)。我也可以从任何一个节点到已经连接的任何节点,去毁掉这个连接(绝交)。前者是间接路径,后者是直接路径,都是 reachable 的。至于怎么保证在不破不立的结构重塑和结构排歧过程中,防止语言学家胡来滥交,乱闯 “禁地”,这个目前来看是实践层面的问题。通过实践,最后我们总可以发现怎样界定机制层面的禁区,来保证哪怕质量不高的语言学家,也不至于伤害系统。在当前,这个不怕,可以探索。 我的牛完了, ,各位晚安。 (from 【泥沙龙笔记:NLP hard 的歧义突破】 ) 魏焱明 2016-4-16 02:33 我干过这篇文章,写得很爽歪歪,你的parsing碰到我这句话又卡壳了吧,镜子李? 博主回复(2016-4-16 11:22) : 不知道算不算卡壳?可怎么在回复中贴图啊,老弟? 罢了,我放到正文去吧,算是对挑衅者的一个 special service,:) 【相关】 【立委科普:结构歧义的休眠唤醒演义】 《朝华午拾:今天是个好日子》 《泥沙龙笔记:parsing 的休眠反悔机制》 【立委科普:歧义parsing的休眠唤醒机制初探】 《新智元笔记:跨层次结构歧义的识别表达痛点》 【 NLP 迷思之四:词义消歧(WSD)是NLP应用的瓶颈 】 【白硕 - 穿越乔家大院寻找“毛毛虫”】 【科普小品:文法里的父子原则】 【 从 colorless green ideas sleep furiously 说开去 】 《朝华午拾:我的考研经历》 【置顶:立委科学网博客NLP博文一览(定期更新版)】 《朝华午拾》总目录
个人分类: 朝华午拾|5913 次阅读|13 个评论
【李白对话录:从“把手”谈起】
liwei999 2016-2-25 01:32
【立委按:以前提到过汉语切词中的 hidden ambiguity 一类词是个讨厌的东西,举的例子是“难过”:1 难过:“这个小孩很难过”,表示情绪的形容词(sad);2. 难/过:“这条小河很难过”,这是形容词动词的组合(difficult to cross)。提出并实现了的应对方法是所谓休眠唤醒,即,在句法阶段不做歧义区分,等到了parsing完成以后,进入语用语义阶段的时候,如果需要再用词驱动的方式唤醒歧义区分。这个对“难过”没有问题,因为两个意义的句法功能相差不大,或者是做谓语,或者做定语。可是如果面对的hidden歧义对应两个不同的句法功能,休眠唤醒的实现就要费思量了。】 李: 见到一个讨厌的 hidden ambiguity “把手” vs “把/手”, 休眠了,怎么唤醒它? 它整个儿是名词;如果拆开,就是介词短语,以状语的形式填宾语的坑。NP 与 PP 句法上功能不同,因此休眠封装要费一点思量。 当然 把 NP 和 PP 混在一起的案例也不是没有,譬如时间词,就是名词的样子,常做状语,等价于PP,不得已了,才做主语宾语。 因此,句法上可以考虑把对 “把手”的处理,当成时间词的处理一样。这样可以保证,在多数句法结构中,它可以在封装的情形下,占到一个合适的句法节点的位置上,或者是状语,或者是主语宾语。等节点位置占据好了,然后可以唤醒它去填坑,这个用词驱动不难。现在是这么个思路。 白: 有点ad hoc…… 李: 给个不 ad hoc 的法子。总不能打一开始就分叉,一路走下去吧。打一开始分叉,如果是单层的parsing,自然不是问题。如果有好多层的parsing,这么拖着拽着下来,还不累死? 本质上说,任何词驱动都是 ad hoc,理想的世界里没有词驱动。 譬如,世界语的parsing,需要用到词驱动的时候,比起任何自然语言,都少得多,已经很接近理想世界了。 世界上出了两个老柴(柴门霍夫和柴可夫斯基),在我看来,与世界上出了牛顿爱因斯坦一样,是上帝对苍生的垂怜。 白: 把字结构/被字结构做不做状语其实无关紧要,与普通名词只是填坑是否指名道姓的区别而已。就一个标签的事儿。而且,前置修饰成分只要有一个隔着锅台上炕,普通名词立马做实。指名道姓的坑如果被其他成分强占,普通名词也立马做实。 李: 把字结构被字结构本身做不做状语的确无关紧要,它最终是要做主语宾语的,即便做状语,也是拿状语当敲门砖。 白: 我就是这个意思 李: 如果有不做状语一步到位就去做主语宾语自然更好。问题是,它做了状语,就为其他成分的就位创造了条件。因为它长得太像状语了,不做状语,在那里挡路,每条规则经过它的时候,都要特别照顾它一下,这不是个法子。 白: 太拘泥语序了就容易这样。 李: 一步到位是部分可行的,subcat 就是干这个的。 白: 坑的filler直接找provider,就不需要那么拘泥语序。 李: 不过我们现在说的不是把字句,而是疑似把字句的 “把手”。即便数据结构上,可以从词典就把它标注为与 PP 同形,这样 subcat 的 filler 找 provider 就同样找到它,也还有一个如何协调它的另一个 NP 可能的问题。 白: 就是封住他,碰到宾语被强占或者被定语修饰,再解锁。先当两个词: 门把手夹了 门把手坏了 哈,涉及N+N来捣乱 李: 门PP坏了 白: 不及物动词,相当于宾语被强占,再解锁。 李: 这个 PP 肯定连上 “坏了”做状语。何时唤醒它? 门在这里坏了 门由此坏了 没有唤醒的理由。 白: 我这里处理把字结构,就是有特殊subcat的名词,和一般状语不同。 李: 门把手 可以做合成词,不论。 门的把手坏了 门的 PP 坏了 白: 抽屉把手 李: 这也是合成词,凡是合成词能解决的,一律无视。 抽屉的PP坏了 这个可以考虑唤醒。 白: 它受定语修饰就解锁,无定语,坚持到碰见谓语,看宾语坑是否free。强占或不及物,都不是free,应解锁。 这个被定语强制得太明显了?左侧唤醒应该不是问题。 李: 原则上有些道理,实践中操作还是有难度。 白: 右侧唤醒,你看我列出的条件 绿色把手,不加的,也可以唤醒。左侧都是“吸收”类型的操作,右侧才是“填坑”类型的操作。 李: 绿色PP? 白: 不通啊 李: 孤立看不通,到句子里通的时候居多: 绿色PP而改变:绿色由此而改变 白: 把字结构不当作PP,死不了人的。 李: 给把字结构另起一个名字,那也可以,就是俄语的一个格变而已:accusative 可是,这样做的前提是assume,Parser 可以完善处理 subcat 的填坑。如果 subcat 稍有差池,它就是一个拦路虎,造成 parser 丧失鲁棒性。 换句话说,把字结构本来是要被吸收掉的,吸收不掉的时候,不能让整个系统给它做变通。 如果 “把+手“ 这样处置,吸收不掉,基本上就是该唤醒它的另外的角色了。 白: 可以给parser做个宏定义开关,控制唤醒功能启用与否。 李: 更大的问题不在这个个案,而是 BA-Phrase 与 一般 PP 独立的话,增加了系统面对的不同种的 objects。挺乱的。 白: 对那些subcat控制不了的应用,不建议启用。我的处理是把字结构当名词,但有个特征注明填坑优选位置,唤醒时这个特征复位,变成普通名词。 李: 回问白老师一个问题:为什么您现在热衷于休眠唤醒的思路? 不是说统计界对 non-deterministic parsing 一直很热衷,不以为是问题么?曾经在研究界闹腾过相当一阵子的路数,只是到底可行否,接不接地气,我就不清楚了。 白: 我不喜欢不确定性无差别地到处乱飞。 李: 这里面有一个根本的架构负担。如果是教科书上的 chart parsing,一锅端,一层做parsing,non-deterministic 是自然的分叉,不过是加重了组合爆炸和伪歧义,效率暂且不论,算法上是天然可以的。 如果parsing要走语言分层多层处置的道路,这个所谓带着分叉去做,是不堪负荷的。这个不堪负荷,主要还不是计算的开销, 主要的是人对模块的维护负担。人在调试后面模块的时候,如果不想堕入迷宫,最好还是少分叉,多休眠。 白: “意识到”的是主线, “下意识”的是休眠。机制必须不同。哪怕梦游,也不能跟主线同等待遇。 关键是,chart里面还夹带大量伪歧义,都跟着走。 【相关博文】 【李白对话录系列】 《新智元笔记:NLP 系统的分层挑战》 《泥沙龙笔记:连续、离散,模块化和接口》 《泥沙龙笔记:parsing 的休眠反悔机制》 【立委科普:歧义parsing的休眠唤醒机制初探】 《新智元笔记:跨层次结构歧义的识别表达痛点》 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|4347 次阅读|0 个评论
【立委科普:歧义parsing的休眠唤醒机制再探】
liwei999 2016-2-2 06:26
关于休眠唤醒机制,值得细细讨论,一类一类问题讨论。第一类是词一级的休眠:“难过”、“好过” 这类所谓 hidden ambiguity 的词。这是汉语切词的软肋,因为它直接违反最长匹配原则。然而,凡是能词典化的现象都容易处置。休眠容易,唤醒也容易,没有救不活的问题。不过是做一个词驱动的 resegmenter 或 reparser 而已。 其中一些也可看成是个别性的多义词消歧问题,即 WSD (Word Sense Disambiguation)。 词一级休眠的歧义被唤醒所需要的,就是词条里面给一个标签。说明该词 parse 后需要再调用一个词驱动(word-driven)系统,譬如: “难过”、“好过” 等。parsing 主线没有任何负担。“小孩很难过” 与 “小河很难过” 是同样的 parsing。但是parse完成后,在调用词驱动消歧模块的时候,这时候消灭结构歧义(所谓“唤醒”)以及wsd,这些工作的条件已经具备:既有现有parse tree 也有词node的信息。消灭歧义的个性规则不难想象,不外乎:主语如果不是人或动物,就翻盘。这是宽的条件,也可以收紧,极端一点就是:主语必须是河流或障碍类别的词,就翻盘。松紧可以根据数据去 fine tuning,达到精准与覆盖的合理平衡。 下面现场做一下“难过、好过”。没做之前是这样的,处于休眠状态: 因为 hidden ambiguity 休眠,因此 sentiment 也错了,小河也仍然是 Negative Sentiment: 好,加上对主语的限制,翻盘需要非Human或Animal,unit tests 结果就对了,就等看测试集里面有没有副作用了(估计不会有,因为这是 word driven 的休眠唤醒): Note: sentiment analysis 中,“小河很难过” 依然是 negative 的,但是这种 negative 已经不再是情绪 (Negative Sentiment),而是客观的困境 (Negative 的 Objective Quality)。这个分析是对的,而且细致。 可见,词一级休眠唤醒,原则上无需其他特别的机制,只需要词驱动的系统即可,一个 expert lexicon,就可以翻盘。 这个机制一直在,就是以前没想到去做 word driven 唤醒 hidden ambiguity。 没有这个机制,就做不了 sentiment。 如果一定说要机制层面的推进的话,主要在给翻盘结论的时候最好提供一点规则表达的便利。譬如怎样干净利索地推翻原结论,创造新结论,包括更新树表达等。 如果规则是条件和结论的组合体,条件一端无需改变机制,只是结论一端可以有改进。而结论工具的改进一般被认为是 formalism 的 side effects,是工程实现的雕虫小技,属系统内部的调控细节,大体就是数据结构的某种方便的操作改进而已,基本无关 formalism 本身的 power 和拓展。结论:词一级的休眠唤醒,只要想做,就可以做。所做的工作本质上与抽取所要做的工作,没有机制上的不同,都是利用现存的树结构,进行结构匹配而已。其实,在语用开发现场,二者往往是结合在一起做的,翻盘成为抽取的一个有机环节。 第二类的休眠从词上升到短语,特别是名词短语 NP,假定NP的边界是清晰的。但是短语内部的关系,需要休眠那些可能性不高的局部 parses,然后到合适的时机再唤醒。这个 np reparser 比词一级唤醒难度大一些,但还是不难实现。这里的挑战不在实现一个 base XP 的 non-deterministic reparser,而在于与语义模块或应用模块的接口。接口机制定义好了,局部的 nondeterministic paths 总是可以暂存某处,等待接口模块去根据需要翻盘和选优。这个没有实质性挑战。因此原则上也没有救不活的问题。主线parsing 的所有的短语内结论都应该看成是默认的标配,而不是最终的结论。主线parsing无论有什么问题,只要短语界限没错,短语树的词子串(叶子)还在,就总有利用全局条件对局部翻盘的可能。而且这个任务基本是 tractable 的。 排除上述两种翻盘的情形,问题就大大缩小了。剩下的问题就是,短语边界错误如何纠正。这个实践证明是一个很稀少的问题,可以忽略。除非连一个浅层chunking都做不好。如果是那样,也就不要蹚什么deep parsing的浑水了,更谈不上休眠还是唤醒了。第二个问题就是短语之间的结构歧义,如 pp-attachment 和“的字结构”的 scope问题。这是句素层面的问题,以前讨论过多次了。这一层面,实际上不一定要依赖休眠唤醒机制。句素之间带着非确定性结果也是完全可行的。 此前很多讨论觉得这个问题看上去无解或太复杂,是因为没有把大问题化小,没有分类别去考察和研究可行方案。如果分门别类了,其实自然语言 parsing 总体是一个可控的 tractable 的任务,基本可以见底的东西。绝大部分就是一个力气活。很多现有机制平台就可以对付的细活,没多少人有经验和耐心去做。换句话说,如果现有机制可以解决八成的问题,其他的机制包括休眠唤醒等可以帮助对付其余的两成问题,假如八成里面我们只做了四成, 那么我们平台机制无论多先进、做到极致,也还是出不了一个靠谱的 parser 出来。很多时候就是这样的情形。 【相关】 《新智元笔记:拷问立氏parser,看你有多鲁棒》 《泥沙龙笔记:parsing 的休眠反悔机制》 【新智元:中文 parsing 在希望的田野上】 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|5627 次阅读|0 个评论
心理:唤醒环境的善念
热度 19 stone1971111 2013-2-16 09:44
春节放假,似乎更有时间思考过去的事情,加上正在整理一些材料准备申报项目,难免就会想到为什么有些时候科研做的顺利一些,有些时候做的就不大好,这里排除智力因素和不同课题的阶段因素之外,还有什么别的因素没有考虑进来?想来想去,还有一个环境因素。我发现, 在发展顺利的年头,外部环境相对更加友好,而发展不好的年头,外部环境就不太友好 。是什么因素导致外部环境不断地变化呢?除了外部环境自身的因素外,我们自身的原因是否起了重要的作用。思考的结果是,我们自己是非常重要的因素,整个个人的外部环境是内外因素互动的结果。 外部的东西很多我们无法控制,但是如果我们自己做的好一些,就会让有限的外部资源变得更加对我们有利 ,感觉更好。当然,怎么和外部环境互动是一个非常复杂的问题,涉及到许许多多方面,不好阐述,学习佛经的做法,我们可以用否定的方式进行描述,也就是说我们可以肯定的知道,有些做法肯定会导致外部环境的恶化。 一、悲情会恶化环境。 我们大多数人的成长都不会是一帆风顺,或多或少都有自己感觉很难过的时期,这样的成长挫折都会给我们的心理蒙上阴影,甚至打上烙印。 这种深深的印痕在适当的条件下就会被触发,让我们产生悲情心理,外在表现就是抱怨,委屈等。 祥林嫂的故事虽然夸张了点,但是现实中,我们并不缺这样的典型。我的一个老师在学校发展不太顺利,就把原因归咎于领导的偏心和对他的忽视,甚至是压制。他的能力是有的,但是多年的悲情思想导致他在领导面前的表现是失常的,见到领导就抱怨,就说自己原来如何,应该得到什么东西,但是什么都没有得到等等。虽然我不是他的领导,但是作为旁观者来说,我觉得他的做法是欠妥当的。没有一个领导喜欢一个充满抱怨的人,造成所谓的不公平一定是有原因的,可是抱怨并不能解决问题,只能让自己的外部环境更加恶化。实际上,这个老师在和其他单位领导打交道时,表现非常好,充满自信和友好,其他单位领导对他的印象也比较好。我跟他提过这个建议,建议他能够把对待其他单位领导的态度转移到本单位领导身上,或许问题早就解决了,甚至解决的比他想象的还好。我们都会遇到类似的事情,最好的做法就是快速的放下,眼睛往前看。 已经分掉的一碗粥不会收回来重新分配,我们只能寄希望在未来能够用自己的能力获取更好的报酬。 二、暴力只能换来暴力。 我们每个人都有恶的因子,也有善的因子。 尽管我们都想当个不折不扣的好人,但是我们必须承认我们自身有暴力的源泉,承认并不代表世界的末日, 而是要不断地消解暴力引发的催化剂,用一行禅师的话说,承认自己有暴力因素,但是善待它,不要触发它。 我们对外部使用暴力,换来的永远都只有暴力 。这里说的暴力是各种各样的不友好的行为和语言。比如,我们对一个人恶语相向,不会换来微笑。我们用恶劣的语言批评一个人,并不能换来真正的改变。每个人都有自己的自尊,都需要被尊重被认可, 我们的语言暴力会激起一个人的自我保护本能。即便暴力的内容都是正确的,但是暴力的形式却不是让人能够接受的。 我的一个朋友有几年对待单位的行政人员毫不客气,对行政人员指指点点,甚至批评,他不是领导,但是似乎比领导还领导。尽管他表达的内容都很正确,但是听话的人似乎没有一个买他的帐,最终导致他在单位后勤人员眼里就是个不受欢迎的人,他办事就比较麻烦,别人能拖就拖,能拒绝就拒绝。这样的环境可能就不是个好环境。 三、专横得到的是不合作 。在工作和生活中,我们能看到一些很有能力的人,在普通的岗位上是个很随和的人,但是担任领导岗位的时候就比较专断,有的时候听不进群众的意见,甚至不听群众的意见,这样的行为会导致正确的决定得不到用户,好的规定得不到支持,得到的是不合作的结局。其实每个人都希望自己是有价值的,都希望自己能够被别人承认,专横的行为会让人感觉不到被认可,感觉到的都是专横人的孤傲和对别人的不屑。这样的例子比比皆是,不再一一列举。 四、懦弱会带来伤害。 每个人都是在不断地变化和成长的,在某一个阶段我们可能不那么自信,甚至有点懦弱,尽管我们拼命的保护自己,但是换来的可能不是安全,相反恰恰是伤害。记得非洲有一种小动物,它要出击时,要目测一下对手的高度,如果比自己矮的对象,它就可能会直接攻击,如果是感觉比它高的,它就躲开。人比动物聪明,但是从本能上并没有完全脱离动物的本能。我们看到很多被伤害的案件,其根由有一条就是被害者无意中触发了伤害者的恶性。 人的内心无形中会投射到行为和肢体语言上,懦弱的内心也同样会有外在的表现,给别人感觉就是可以欺负。 这在阿Q正传中也可以找到类似的典型。我们自己内心要足够的强大,强大到一个人不敢动伤害的心思。一个再坏的人也有善的一面,但是如何让面对的一个人只发挥善念,消除恶念,是一个值得深入思考的问题。 五、炫耀换来的是鄙视。 我们只要努力工作,加上点小运气,总能够得到一些别人暂时没有的东西,得到了自己偷着乐可以,但是炫耀只会带来相反的效果,鄙视只是最轻的。有一次我开着车在路上,看到一辆非常高级的跑车在路上横冲直撞,我就想这个人是谁,我根本不知道,所以他的炫耀对我来说是无效的。是啊,每个人都有让别人认可的冲动,但是炫耀只会表现出低下而非真正的认可。 喜欢炫耀的人正是内心不充实的表现,不能通过自我认同获得心理的平静,需要外界夸张的吹捧和逢迎才能得到满足,这是一种心理上病态的表现 。对陌生人炫耀是没有价值的,对朋友炫耀只会失去朋友 。拥有是好事,不会处理拥有才是真正的悲剧。 我们都希望自己是幸福的,除了安全稳定的外部环境,我们还需要友好的外部环境,但是外部环境并不会自动变好,它是我们自己努力地结果,我们拿什么东西出去,就会换来相应的东西。悲 情得不到同情,暴力换取了暴力,专横得到了不合作,懦弱会受到伤害,炫耀让自己更加低下 。这些都不是我们主观想得到的东西,但是我们自己不恰当的行为,不好的心理投射给环境的结果只能如此。如果我们想要更好的环境,我们必须停止各种不恰当的行为。 停止悲情,终止暴力,放下专横,抵制懦弱,忘记炫耀,我们的外部环境自然就会好转,可能比想要的还要好。 silong.peng@ia.ac.cn 2013.02.16
个人分类: 空闲时光|7220 次阅读|28 个评论
春天(一组)
热度 1 pingguo 2011-3-7 16:22
最美的春天 这一刻,我最美 不看月亮也知道 不望湖水也知道 我就是知道 这一刻,我最美 不看春天也知道 不望你眼也知道 我就是知道 二月丝雨,我心跳 草知道天知道美知道 唤醒 这嘈杂的世界 只宜沉睡 所有唤醒我的声音 我称之为爱 这声音,最好 源于自己的喉咙 为谁 一 谁之为谁。春的诗篇 狭闪电兮以惊魄 缪斯浅吟低唱,到凡间 已成呼风唤雨之势 二 月光投递来春的诗篇 最恰当的语言是 无语 千里之外 一瞬间至一万年 春天 你看我多么浅薄 想要给春天的可能,做一个定论 以为自己的视野比历史还要开阔 你看我多么自大 想要给春天的集合,下一个定义 以为自己的语言等同于神的语言 你看我多么轻狂 想要对春天的来去,下一道命令 以为自己的权力比自然更加周全 什么 是的,有人似乎触碰到了春 没顾别的,只用自己的声音 模模糊糊地问了一句:什么 来去 酒在。杯里,心里,血液里 爱酒的父亲,爱不爱流转 春天还没有尽数到齐 不知怎么,就提到了离去 好奇 零星的鞭炮不时响起 刚开出来,你就都听见啦 站上枝头,好奇张望 静悄悄溢出来无言的羞色 真话 你遇见的那个哑巴 不一定是我 我喜欢象鞭炮一样说真话 总以为春天到了 灵慧 开花,与不开花都是木 迟钝的男士哟总迟钝 春天,哪有无缘无故的春天 灵慧的女子呀真灵慧
个人分类: 诗歌|2344 次阅读|2 个评论
《身体里住着个神医》与《唤醒身体自愈的潜能》
sheep021 2010-3-14 17:21
按:感觉以下两本书对指导养生保健的看法,说到了点子上。 利用草药治病属于外力干预,利用人体自带的经络穴位治病才是根本这句话揭示了《黄帝内经》的内字的含义。 《身体里住着个神医》汪思源著 华文出版社出版 身体里存在着一个天然而神奇的自愈系统,求医用药不过是为自愈力创造条件、争取时间,日常保健更要靠自愈力。现代人工作繁忙、精神紧张、缺少运动,健康隐患不可不防。结识身体里的神医,看懂和服从他发出的健康指令,开发身体天然药田,就能轻松养生、快乐生活。本书从骨骼、经络、肌肤、体液、情志、五官、呼吸、饮食、睡眠、性爱十大药田开讲,全面地介绍了自愈力对人体的作用。并以传统中医学的精华理论贯穿其中,提供了一整套简便实用的日常保健大法,指导读者自己动手,祛病健身。语言通俗易懂,作者注重引导读者纠正医疗误区,培养保健意识,呵护身心健康。 身体是一个有机整体,当它受到外界侵害,或有了内部问题时,身体神医会全力进行防卫和调节。当身体受到突然的刺激时,他会积极地应激来帮你适应突发状况;当身体受到细菌、病毒等外部袭击时,他会迅速组织免疫细胞来帮你打一场防卫战;当身体受到了机械、物理的损伤,他会默默地修复伤口、促进痊愈;当机体内产生了不必要的垃圾废物,他又会有条不紊地从各个途径将它们疏导排出 人体经络是中国人的伟大发现,《黄帝内经》指出:人体有一个看不见、摸不着的经络系统,经络具有行血气、营阴阳决死生、处百病的重大作用。经络学说是中医学的精髓,中医认为,利用草药治病属于外力干预,利用人体自带的经络穴位治病才是根本,而且经济、方便、疗效神奇,最重要的是没有任何副作用。经络穴位是人体内最神奇的一块药田,十二正经和奇经八脉关系着你的健康。本章介绍奇妙的经络养生法,教你认识布满全身的重要穴位,学会正确的按摩手法,你会发现其实非常简便易行。 唤醒身体自愈的潜能 作者: 程云林 古人老是说,师法自然,天人合一。一座大山,是山脚的压力大还是山顶的压力大?山脚!对不对?山顶冷还是山脚冷?山顶!所以,古人总是让自己的脚暖和一点(多用热水泡脚比吃什么补药都强),而头保持冷一点。这样就很轻松地使脚部的压力大于头部,淋巴循环更顺畅,人体的免疫能力更好,生病的概率自然也就大大降低。真是太有智慧了!
个人分类: 生活点滴|614 次阅读|1 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-27 19:34

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部