科学网

 找回密码
  注册
科学网 标签 关键词 相关日志

tag 标签: 关键词

相关日志

搜索“转基因”·小序
ABCecilia 2016-7-13 09:14
ABCécilia·好搜引擎 好搜引擎中关于关键词“转基因”的360指数计算结果(2013年1月-2016年7月): 转基因360好搜引擎的走势分析图·ABCécilia整理(依据略) 与“转基因”直接相关的搜索需求主要集中分布(2016-6-12至2016-7-11)在如下领域:大豆油的危害、食品的危害、食品、婴儿、转基因鸡、大豆油的危害、和非的区别、番茄、大豆、食品的利与弊、动物、食品有哪些、技术、大豆、玉米、水果玉米是不是、食品名单。 与“转基因”相关的搜索需求主要集中分布(2016-6-12至2016-7-11)在如下领域:NCBI、方舟子、崔永元、袁隆平、张启发、司马南、孟山都、科学网。其中出现搜索飙升事件排在前五位的分别是“俄罗斯转基因”、“医生组织试吃转基因大米”、“郎咸平:睡在转基因问题上公然说谎”、“评农业部转基因新闻发布会:到底睡在说谎”、“转基因婴儿”。 7月5日以来重要的相关新闻包括:未来网和网易门户网站中的朱作言转基因科普,未来网和北京时间门户网站中关于俄罗斯励志成为世界生态农业领袖的相关报道,新华网和南方周末关于百名诺奖得主力挺转基因的相关报道。文本链接: http://news.k618.cn/society/rd/201607/t20160712_8091824.html;http://news.163.com/16/0711/12/BRMN46VV00014SEH.html;http://news.k618.cn/tech/tp/201607/t20160709_8045199.html;http://tech.btime.com/science/20160710/n282020.shtml;http://xhpfm.news.zhongguowangshi.com:8091/v200/newshare/958944?channel=360;http://www.infzm.com/content/118142;
个人分类: 中国转基因网络分布|928 次阅读|0 个评论
解读测绘的40个关键词
jlpemail 2016-5-11 16:47
解读测绘是40个关键词为: GIS 地理信息系统 GPS DEM WebGIS 遥感 精度 数据库 可视化 数字高程模型 遥感影像 变形监测 空间分析 电子政务 土地利用 数据处理 面向对象 ArcGIS 三维可视化 摄影测量 点云 坐标转换 精度分析 空间数据库 遗传算法 空间数据 电子地图 分类 小波变换 XML 滤波 数字城市 地理信息 GML 精密单点定位 Delaunay 三角网 数据挖掘 拓扑关系 时空数据模型 RS --------------------------------------------------- 这40个关键词,是解读测绘的40枚钥匙。 ************************************** “近几年来,地理信息系统(GIS)无论是在理论上还是应用上都处在一个飞速发展的阶段。GIS被应用于多个领域的建模和决策支持,如城市管理、区划、......”邬伦教授在2001年(科学出版社)出版的《地理信息系统——原理、方法 应用》的序言中的话没有过时。GIS仍然在飞速发展中。.......
个人分类: 资料库|2807 次阅读|0 个评论
对学院工作报告词频可视化
yzqhub1999 2016-4-21 15:41
关键词 词频 权重 教育 66 2.9145 建设 46 2.6687 教学 37 2.5214 学院 36 2.5029 项目 29 2.3575 专业 27 2.3097 学生 25 2.2583 职业 22 2.1734 创新 22 2.1734 质量 21 2.1425 就业 20 2.1103 创业 20 2.1103 职业教育 18 2.0409 改革 18 2.0409 资源 18 2.0409 创新创业 17 2.0035 教师 17 2.0035 培养 17 2.0035 湖北省 14 1.8771 校园 14 1.8771 http://www.picdata.cn/index.php#
1439 次阅读|0 个评论
浅议高速公路可变限速控制技术研究现状
trazhao 2016-3-25 11:56
浅议高速公路可变限速控制技术研究现状 【摘要】本文首先阐述了高速公路可变控制技术的概念以及控制方法,然后分析国内外可变限速研究现状,找出该技术目前面临技术难题,并就可变限速的发展方向进一步探讨,以实现高速公路控制效能的提高。 【关键词】高速公路,可变限速,控制技术,现状 1 前言 可变限速控制是高速公路限速管理的发展趋势,其原理是根据采集的交通流状态参数、路况、以及天气条件等数据,经过相关算法控制,确定该条件下的最佳限速值,随后此限速值通过可变限速标志等显示屏发布,从而可对交通流进行限速控制。为了更好实现可变限速控制,需要构建以下五个模块:交通信息采集设备;气象信息监测设备交通信息控制中心;可变限速标志;交通流状态监控中心。在上述系统的基础上,一般可变限速值的确定方法有两种,一是静态限速值法,一是动态限速值法。从实际运行情况看,动态限速值法能更好的服务于高速公路限速控制初衷。目前我国各高校、科研机构开展了大量研究,本文梳理国内外研究现状以发现高速公路可变限速控制技术的核心点和确定发展方向。 2 高速公路可变限速研究动态 2.1 国内研究状况 我国高速公路可变限速控制技术的研究较西方落后,主要是从控制策略、控制器、智能控制等方面进行研究,提出了相应的控制模型,设计了可变限速控制器,使得高速公路可变速控制在我国实际道路运行得到了应用。 深入挖掘限速控制的理论依据,以交通流理论为基础,探讨道路上不同交通流量、不同能见度、不同路面附着系数、不同道路线形等条件下的速度计算关系和修正系数,为限速控制的实际应用提供了理论依据。结合我国高速路和城市快速路的特点,提出可变限速控制策略,通过对交通拥挤机理的分析,建立 VSL 控制模型和算法。高速公路在不同条件下不宜采用单一限速值的思路,根据气候、路况及车流量等条件自动进行可变限速的装置,并通过建立限速数学模型,建立了限速专家系统。 根据高速公路可变限速控制的非线性时变系统,用智能人工算法建立交通流速度限制模型,对高速公路主线速度控制进行研究。将智能控制方法应用于高速公路的限速控制研究,使得控制器的设计过程不再依赖被控对象的数学模型。杨兆升基于强化学习与有限阶段马尔可夫决策的可变限速控制模型,通过与交通环境的交互学习进行模型的动态调整。采用有限阶段向后递归迭代的算法对模型进行求解,运用 Paramics 仿真软件对长吉高速公路全程进行仿真。基于高速公路瓶颈区域通行能力下降与通行效率之间的关联度,刘攀提出阻止瓶颈区通行能力下降的可变限速控制策略。 2.2 国外研究状况 可变限速的研究主要针对高速公路,可变限速模型建立时考虑的主要因素包括 : 道路的线形、道路的坡度、当前的路面情况、交通流状态、气象条件等。根据当前道路的特点结合可变限速模型确定道路的最佳限速值,通过对高速公路主线进行速度控制,从而达到预期目的。可变限速控制的核心内容是根据动态的因素确定动态的限速值。在现实中,由于数据采集的局限性以及影响各个道路可变限速的主要因素的差异性,决定了可变限速计算模型建立时应考虑影响可变限速的关键因素,而不是所有因素,下面对国外可变限速理论研究情况进行概况。 鉴于气候变化和对燃料的需求不断增加, Ghosal 等以速度 - 油耗可变限速控制模型 FC-VSL ,并以车辆平均燃油消耗最低为目标函数对可变限速值进行求解。基于微观交通仿真模型, R. Jiang , A. B. Lucky 和 E. Chung 说明可变限速对速度密度函数、行程、油耗、排放等指标的影响。针对美国华盛顿特区环城公路施工区的可变限速控制系统, Fudala 运用 VISSIM 仿真软件分析了驾驶员遵从率 (20% 、 50%) ;可变限速值更新周期 (5 分钟、 10 分钟、 20 分钟 ) 、可变限速控制逻辑等对控制效果的影响。 Chris 等提出了基于车速分布、车辆换道次数等参数的交通事故风险实时分析模型,建立了可变限速控制对交通安全影响的评价模型,仿真验证表明,可变限速值的变化周期以 5-10 分钟为宜,可变限速控制可使交通事故风险降低 5%-17% 。 Park 在佛罗里达州选择了 104 个低事故率且交通流分布均匀的调查地点,收集限速值影响因素数据包括道路线形、交通流特性以及周围境信息,建立限速值与影响因素的关系模型,能够比将 85% 位车速作为限速值的方法更有效并实现消除了驾驶员调整车速时人为主观因素影响。在 Park 研究基础上 Agent 研究认为对不同车型应进行分车型限速。 Paker 则提出驾驶员不参照 85% 限速值,而是按照交通情况确定行驶速度。 Smulders 以交通流密度作为依据,实施可变限速控制策略的方法。到 1994 年, Smulders 与 Vanden —起,在荷兰高速公路实施可变限速控制以来的交通情况,做了系统的阐述,指出可变限速控制在平顺交通流,减少交通事故方面有显著的作用。 总体来说,对于高速公路限速控制研究,国外的研究多通过对现场实测数据的分析,注重效率与安全的平衡,对限制值的影响因素进行系统研究,主要包括: 85% 位车速、设计速度、道路线形与交通流特性、交通事故数据等,在此基础上给出合理的限速值,最后通过仿真手段或者实际应用的手段验证限速控制效果。国内的研究多以基于设计速度、运行速度及停车视距模型,研究不同线形条件的限速值不同交通流量条件下的限速值以及不同天气下的限速值,对限速控制效果评价方面的研究较少。 3 高速公路可变限速控制技术发展方向 高速公路可变车速控制方法,无论是在科学研究还是技术上都取得了实质性成就,而就目前国内外高速公路可变车速控制技术现状来看,其发展趋势主要朝着以下几个方向发展: 1 )控制模型、算法智能化:高速公路可变限速是非线性系统,由于交通流的复杂性,建立实用性较强、控制效果较好的高速公路可变限速控制模型及算法需要下一步着重解决。对于其高速公路运行状况的运行模型,将智能控制方法应用于可变限速控制研究,使得控制器的设计过程不再依赖被控对象的数学模型。 2 )研究环境系统化:高速公路可变速控制系统涉及道路、交通、事故及环境等各种影响因素 , 将高速公路可变车速作为一个系统进行考虑,对于模拟真实的道路环境,具有重大意义。 3 )仿真软件二次开发:高速公路可变速控制技术的实施,需要配合连续化、智能化的可变速度标志,其实施下来耗费大量的人力、物力,而限速一旦设定对驾驶员行车行为的影响存在潜在危险和不确定,故而需要通过先验性的交通仿真软件对其进行仿真,以提高高速公路的可变车速控制技术的有效性。实例评价中由于仿真软件功能受限未能完全将动态限速策略反应到仿真环境中,下一步应对现有的仿真软件进行针对性二次开发,实现动态限速控制的仿真。 4 小结 纵观国内外研究及应用现状,可变限速控制技术在高速公路控制领域应用越来越广泛,其重要性也普遍受到人们的重视。随着机动车辆的保有量持续增加,人们出行密度也在增加,高速公路负荷也是与日俱增,交通安全问题成为了高速公路管理重点,尤其是在高速路交通事件下的交通管理更是交通管理部门的敏感神经。因此,基于现有研究成果及应用系统,开发新的可变车速控制技术以及相应的系统适应高密度、高负荷、高车速等性能控制技术成为一种必然趋势。 参考文献 1 余凯 . 不利条件下高速公路动态限速方法研究 . 武汉:武汉理工大学, 2010. 2 秦丽辉,徐亮,蒋天恩 . 高速公路车速限制实施方法研究 . 长春工程学院学报(自然科学版), 2009 , 10 ( 1 ): 25-28. 3 黄仁等 . 高速公路雾天通行保障与导航系统研究 . 中国科技论文在线, 2009 , 10 : 1-6. 4 王菲 . 高速公路交通事故紧急救援时间模型及救援站点布局研究 . 重庆:重庆交通大学, 2008.
个人分类: 交通系统工程|5780 次阅读|0 个评论
面子很重要—好好写文章标题、摘要与关键词
热度 1 Enago 2016-3-24 17:10
现在科研人员获取文献的主要来源是通过搜索引擎检索各种关键字,由于文章全文常常是需要付费购买的,因此搜索引擎比较少会将文章的全文作为检索匹配内容,数据库中存储的往往是文章的标题、摘要和关键字这些免费内容。如果文章的这些信息很难与检索的关键词匹配上,那么文章被推送到读者面前的概率就小之又小。如果文章很少被人读到,那么它作为传播知识的功能就很小了。对还没有被录用的文章来说,文章的标题、摘要和关键字就更加重要了。通常期刊的编辑在邀请审稿的时候,会将这些信息发给相关的同行,如果这些内容看起来没有吸引力,审稿人都很难提得起兴趣。这个年头,大家都很忙,谁会那么有空当雷锋为你的文章找亮点呢? --- 阅读原文 请点击链接造访 【英论阁学术院】面子很重要—好好写文章标题、摘要与关键词 --- 标题、摘要和关键字是文章的门面,也在很大程度上反映了作者对文章的态度和对研究领域的见解。文章的标题要能恰如其分地反映研究的方向、范围和深度,因此一个好的标题可以起到画龙点睛的作用,将文章的核心信息传递给读者。 ( 1 )文章的标题 文章的标题一般要求用词准确、规范、醒目并且易于检索。在选择文章标题的时候要注意几点。一是不要太长,虽然长标题可以包含更多信息,对文章被检索到有帮助,但是容易过于具体而让大同行失去兴趣。二是太短。太短则过于空泛,不足以准确表达文章的核心信息。同时还要注意避免文不对题,比如文章内容是关于某些参数对设计的影响,但是标题却写成了设计本身,题目就有点太广了。 摘要是对论文重要内容的简短概括,其作用是不阅读论文全文即能获得必要的信息。期刊邀请审稿时,都会将摘要发给审稿人,看是否有兴趣。审稿人在这个阶段就对文章有了第一印象,如果摘要写得很糟糕,别说还有没有兴趣接受审稿,就算有,也不会有什么好感,直接就成了挑毛病拒稿了。同时很多电子期刊数据库只提供免费的摘要,读者要根据摘要来判断是否需要继续阅读全文,因而写好论文摘要对于提高文章的引用率是十分重要的。 ( 2 )文章的摘要 摘要可以在写文章的时候就写完,但最后还要回头重新修改,有时还不如放到最后写。在结构上,摘要由目的、方法、结果和结论四部分组成,一般不分段,也不加注释和自我评价。由于是在描述已经完成的工作,所以常用一般现在时、一般过去时。如果对写摘要没有信心的话,可以套用八股的写法,写上4句话就可以了。首先一句话高度概括论文内容(This paper is… 或 This study focuses on…);继而以不定式形式(to identify……)提出研究目的;第三句写研究方法(we have employed……);第四句话指出本研究的主要发现,直接摆出结果( This paper shows… 或 The results are…)。最后逐条罗列出结论( This experiments indicate that……或The result of the present work implied that…)。 ( 3 )文章的关键词 关键词反映的是文章的关键主题内容,是从论文中选取出来用来表示全文主要内容的单词或术语。在图书情报中主要用来快捷、有效地检索和引用相关的文章。关键字的选择,可以从标题、摘要或者全文中的重要字眼或者多次重复出现的单个词汇或者短语中挑选。一般的期刊文章允许3到5个关键词。挑选关键字的时候要注意,尽可能使用名词,不需要加动词;不建议使用缩写词,如果一定要使用,也一定要使用标准、公认的;同时非常泛的术语对文章被检索没有什么价值,应该避免使用,比如biology, chemical reactions, differential equations, physics之类的词语。 好的文章离不开反复修改、锤炼,提炼文章的标题,写好文章的摘要并不容易。但为了能够增加文章被录用、被检索到、被引用的几率,多花点功夫也是应该的。 § 博客内容皆由 英论阁 资深学术专家团队撰写提供 § ------------------------------------------------------------------------------------------------------------------------------------ 您可能感兴趣的博文: 1. 文章摘要的写作 2. 给学术写作新手的建议 3. 提高英文写作的几个技巧 -------------------------------------------------------------------------------------------------------------------------------------
7276 次阅读|2 个评论
【科普小品:伟哥的关键词故事】
liwei999 2016-1-27 02:25
讲个伟哥的故事。 当年在水牛城的时候,我们开始开发信息抽取挖掘(如今叫知识图谱)的产品,名叫 Brand Dashboard,就是从在线新闻和论坛等专门收集品牌的全方位信息。这个产品生不逢时,超出时代了,因为那时社交媒体还没诞生,网络舆情和品牌情报还处于 BBS 和论坛新闻的时代。即便如此,大企业客户的market 还是有的,我们的顾客之一就是这个伟哥的厂商,大名鼎鼎的 Pfizer。 当时为了这个产品,我领导开发了一个品牌和术语的消歧模块,其中用到的排歧条件包括利用句法关系如SVO的限制,backoff 到 keywords。关键词条件就是所谓共现关系,可以根据距离进一步区分为在同一个句子,同一个段落,或者同一篇文章。所以这个排歧的 backoff model 实际上就是: SVO -- keywords within S -- keywords within P -- keywords within D SVO 不用说,条件最严苛,一旦 match 了,歧义自然七窍生烟被打趴下了,非常精准,但覆盖面常常不够。这关键词怎么用呢?需要给新人讲解为什么关键词共现也可以排歧。于是,顺手牵羊,就用了这么个案例:说 ED 是两个字母的缩写,歧义得很,查查缩略语词典,可以找出一长列可能的词义来,包括不举。但是,哪怕是 backoff 到 Document level,这个排歧也是有效的,因为有的时候,词与词之间有很强的 semantic coherance(其实关键词技术横行NLP领域多年,其诀窍就在于此)。具体说来,ED 的同一篇文章中如果出现了关键词 Viagra 或 Pfizer,它就死定了,绝不会有其他的解释。这时候,句法结构就不必要了(而且句法也不能跨句,更不用说跨越段落去影响了)。俗话说,戏不够,词来凑,这戏就是结构:如果 SVO 太窄或太不全,recall 不够,那就用词的共现来凑呗。懂得这个原理,NLP就入门了。 话说这个讲解还真有效,甚至实习生也一听就明白,原来语法结构与关键词共现还有这样的后备关系啊。 伟哥故事完。 【相关】 【 立委科普:NLP 中的一袋子词是什么 】 《 立委科普:关键词革命 》 《 立委科普:关键词外传 》 《朝华午拾:创业之路》 《朝华午拾 - 水牛风云》 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|4420 次阅读|0 个评论
如何实现文化与经济、政治、社会、生态的协同发展?
geneculture 2015-12-31 04:23
如何实现文化与经济、政治、社会、生态的协同发展? 作者:邹晓辉,邹顺鹏 中国地质大学(北京)马克思主义学院 中美塞尔研究中心 摘要 :本文旨在以融智的方法从三个角度来阐述文化与经济、政治、社会、生态的协同如何实现。其方法是以蓝图、模型、样板三部曲的方式,通过“纸上谈兵、沙盘演练、典型范例”三个步骤,做到严格地预演、实训、实操的过程。其结果是近期未来智慧城乡在五个文明建设及其协同发展上可达到真正地“谋定而动、未雨绸缪、一锤定音”的有益效果。其意义是采用融智的观点和方法,有益于以最低的代价和最优的效果实现文化与经济、政治、社会、生态的协同发展,具体表现为近期未来绿色智慧城乡一体化示范系统工程在文化生态的几个关键点上得以创造性地呈现。 关键词 :融智方法,协同发展,战略目标,智慧城乡,系统工程,文化基因 How to Achieve Coordinated Development Culture,Economy, Politics, Society, and Ecology by ZOU Xiaohui and ZOU Shunpeng China University of Geosciences Abstract: This paper aims to elaborate the way of coordinated developmentculture, economy, politics, society, and ecology from three perspectives. Itsbackground involves: the three fundamental phenomena of matter, consciousnessand culture, which can be generally called broad text; corresponding truenature, also called true information, which can be divided into: scientificprinciples, meaning and grammar or law (being simplified as Tao). It uses theway of blueprint, model and template to realize the strict rehearse, practicaltraining and practical operation through three steps of “engaging in idletheorizing, exercising on the sand-table and setting a typical example”. Thefive civilizations include: people’s well-being and friendly etiquette; liberalmind and appropriate behavior; beautiful environment and smart urban-ruralareas. Its meaning lies in using the wise view and way to realize coordinateddevelopment culture, economy, politics, society, and ecology with the lowestprice and the best result. More specifically, for the demonstration systemproject of environment smart urban-rural integration, several key-points of culturalecology can be creatively presented. 全文: 8 如何实现文化与经济、政治、社会、生态的协同发展.pdf
个人分类: 中国地质大学|1187 次阅读|0 个评论
基于微软学术搜索的国外图书馆学研究计量分析
热度 1 terahertz 2015-12-12 02:29
(本文发表于《图书情报研究》2015年第4期) 摘要: 以微软学术搜索为数据来源,运用文献计量法从高产作者、高影响力作者、高被引研究机构、高被引期刊、高被 引论文和高被引关键词6 个角度全面扫描国外 图书馆学 研究进展。研究发现:国外 图书馆学 主要分为信息检索、信息管理与知识管理、信息技术与信息系统、信息服务及用户研究等8 个分支领域。 关键词: 微软学术搜索;图书馆学;文献计量;搜索引擎
个人分类: 发表论文|2925 次阅读|2 个评论
【立委科普:NLP 中的一袋子词是什么】
liwei999 2015-11-27 10:09
curtesy of http://www.python-course.eu/text_classification_python.php 很久以来,主流 NLP (Natural Language Processing)就在这样的一袋子词里面做文章,有时候也确实做出了蛮漂亮的文章,都是用的基于统计的机器学习。这一袋子词何时有用,何时失效,有什么神奇和奥妙,又有什么陷阱和软肋?这些以前写过系列博文(见篇末【相关博文】)不同角度论过。这是革命的根本问题,涉及两条路线的是是非非,甚至会遭遇类似宗教战争一样的偏执,但为后学计,怎样论也不嫌多,兼听则明。 NLP中为什么叫一袋子词(bag of words,BOW)?机器学习的 袋子里装的什么词? NLP的对象是自然语言文本(speech 不论),具体说来,根据任务的不同,这个对象是语料库(corpus)、文章(document)或帖子(post),都是有上下文(discourse)的text,作为NLP系统的输入。对于输入的text,首先是断词(tokenization)。断词以后,有两条路可走,一条路是一句一句去做句法结构分析(parsing),另一条路就是这一袋子词的分析,又叫基于关键词(keywords)的分析。所以,一袋子词是相对于语言结构(linguistic structure)而言的。换句话说,一袋子词就是要绕过句法,把输入文字打散成词,然后通过统计模型,来完成指定的语言处理任务。 第一个问题就是,为什么一袋子词也叫做关键词?这是因为这个袋子里面的词并不是输入文本的全部词的集合,通常的做法是要剔除一些对于统计模型没有意义的词,所谓停止词(stop words),就是那些使用频率特别高的功能词之类,譬如连词,介词,冠词,感叹词等。剔除了停止词后的词,一般叫做关键词。 接下来的问题是,排除了停止词,信息不是损失了么?是的,信息损失了。作为功能词的停止词,对于自然语言句法很重要,它们往往是语言文句的重要连接组织(connecting tissues),是显性的语言形式(explicit linguistic form),与词序(word order)一起帮助构成合乎文法的语言结构,对于分析理解语言相当关键。然而,由于一袋子词的方法的立足点就是要绕过语言结构,因此它无法利用功能词的结构信息,结构是没用的。不仅如此,对于这类方法,高频的功能词不仅没用,还有干扰作用,影响统计模型的功效。只有忍痛割爱了。 第三个问题是,语言文句是通过词及其句法结构表达意义的,排除了结构,只用词,怎么能做语言的自动处理呢?两条腿走路,现在成了一条腿,怎么能走稳? 好问题,也是核心问题,要细谈可以给你谈三天。 简单的回答是,是的,一条腿走路确实走不稳,遇到上坡或爬山,也许寸步难行。但是并非所有的NLP任务都是爬山那么难,一条腿用得好,也可以走很远的路。而且一条腿也有一条腿的好处。好处之一是简单,只要一个断词一个过滤,就出来一条腿了,而建造第二条结构的腿则须花苦功夫(即 parser,事实上,对于不少统计专家,即便花了力气也很难造出一个靠谱的 parser 来,因为语言学并非他们所长,自己写语言文法对他们比登天还难,退而求其次,理论上可以用万能的机器学习去学习人的文法知识,但反映这些知识的句法树训练库又远远不足,很难奏效)。第二个好处是,反正只有一条腿,也就不用协调两条腿走路了,研究探索发现,在统计模型内部,即便有了 parser,加入了结构,要想协调好词和结构达到最佳效果,殊为不易。 需要强调的是,一袋子词模型(关键词模型)是简单的,因为简单,也带来了一系列额外的好处:鲁棒、highly scalable、移植性强。既然撇开了结构,文本之间的区别只剩下用词的不同,系统自然鲁棒起来,较易容忍输入文本的错误和混杂。第二,模型单纯,有快速实现的算法,容易 scale up 到大数据上。好处之三是移植性强,表现在,如果任务合适,移植到特定领域或其他的语言,算法甚至 feature design 都可以基本保持不变,只需要变换训练集重新训练即可达到类似的效果。必须承认,这些都是实实在在的好处,前提是这套方法对于某项NLP任务是合适和有效的。 那么什么是一袋子词比较拿手的NLP任务呢?公认有效的任务有至少有两大类,一类是 document classification(文件分类),另一类是 (corpus-based) word clustering(词的聚类)。前者基于有监督的机器学习(supervised machine learning),分类预先定义好,并反映在大量的标注了类别的数据里(训练集),用得合适具有广泛的应用;后者是无监督的机器学习(unsupervised machine learning),因为无监督,效果和用场都有限制,但是作为词典习得(lexicon acquisition)或作为半自动的人机合作,仍然具有相当的价值。考察这两类任务,容易发现他们的共同特点就是处理对象的单位较大,前者是文件,后者更大,是针对整个语料库。处理对象大意味着口袋大,里面装的词多。这时候,用词的频率分布,所谓关键词密度(keyword density),就为解决任务提供了统计上靠谱的保障。这里的道理就在,无论是文章,还是语料库(文章集),作为语言表达的载体,它们的用词都有一种自然的语义相谐性(semantic coherence),绝不是词汇的随机集合。充分利用这些语义相谐的统计性,可以为粗线条的NLP任务分类或聚合,提供隐含的语义支持。如果把语言现象比作森林(文章或语料库)和树木(文句或帖子),可以说,关键词模型擅长从森林看趋势,而不擅长对每棵树条分缕析。 有了上述对一袋子词作用原理的理解,就为回答和理解下列问题做好了准备。什么是一袋子词手段的软肋,关键词模型何时失效?答案有两方面,这两点也是相互关联的。一是当处理单位很小的时候,譬如短消息或句子,袋子里没多少词,可数的几粒米做不成餐,巧妇难为无米之炊。二是当语言现象需要深入的语义分析的时候,所谓细线条的任务,譬如抽取舆情背后的理由,具体事件或关系等。因此我们说,短消息占压倒多数的社交媒体是关键词模型的命门。社交媒体本身尽管是大数据,但它是由一条条消息(posts)组成的,而在移动互联网时代,社交媒体的短消息趋向越来越明显,反映舆情和新闻事件最快最主要的短消息平台Twitter 和微博等应运而生。其中的每一条短消息都是相对独立的处理单位,表达的是网民的碎片化舆情或事件关系的报道。这些短消息平均十几个词长,除去停止词后,根本就没有具有统计意义的足够量的数据点,要做舆情分类或数据挖掘自然捉襟见肘,不足采信。结论就是机器学习面对社交媒体无所依托,难有作为。 最后需要为关键词模型及其倡导和实践者说句公道话。一袋子词里面没有句法结构,这是一个重大缺失,搞关键词模型的机器学习学者不是不清楚,也不是无作为。作为之一就是用所谓 ngram 来模拟句法,事实上 ngrams 分布被广泛应用于关键词模型。只有当 n=1 的时候,才能说该模型彻底放弃了句法,把语言现象完全看成是一袋子词的集合,这通常被认为是关键词模型的baseline,后备(backoff)或缺省(default)模型。很多模型是 bigram (n=2)和 trigram (n=3)的,不过 n3 的模型也极少见,因为 n 越大,数据就越稀疏,对于有限的训练集,已经没有统计意义了。ngram 到底是什么东西,为什么说它是对句法结构的逼近?(批评者可以说它是对句法的拙劣模拟,但无论如何总比完全不理句法好,ngram 至少承认了句法在语义求解中难以舍弃的功用。) ngam 中的“gram”指的就是词,这些词本来是完全打散装进袋子的,ngram (n1) 加入以后,训练集中的n词的序列也被作为复合单位加进了统计模型,因此袋子里面就不仅仅是一个个的词了,也包含了潜在的词组,而这些词组里面可能隐含的句法结构关系也就被隐性代入了模型。这就是为什么关键词模型在过去的30年间能够走得那么远的主要原因,因为语言的句法结构被间接地表达了。譬如在 bigram 模型里,短消息 I love iPhone 里面的两个 bigrams 序列片段 和 ,前者反映了主谓结构关系,后者反映了动宾结构关系。很显然,这种用相邻词的组合来近似表达可能的句法关系,有先天的严重局限,它无法反映嵌套结构(embedded structures),更无法捕捉长距离的句法关系(embedded or long-distance relationships)。因此,对于 NLP 中的细线条的任务,ngram 模型无法匹敌以 parsing 为支持的系统。 【相关博文】 一袋子词的主流方法面对社交媒体捉襟见肘,结构分析是必由之路 2015-11-24 一切声称用机器学习做社会媒体舆情挖掘的系统,都值得怀疑 2015-11-21 【立委科普:基于关键词的舆情分类系统面临挑战】 《泥沙龙笔记:再聊关键词和SVO》 泥沙龙小品:关键词必须革命,没商量的 《立委科普:关键词革新》 《立委科普:关键词外传》 《泥沙龙笔记:铿锵众人行,parsing 可以颠覆关键词吗?》 泥沙龙笔记: parsing vs. classification and IE 泥沙龙笔记:parsing 是引擎的核武器,再论NLP与搜索 没有语言学的 CL 走不远 Comparison of Pros and Cons of Two NLP Approaches 提上来:手工规则系统的软肋在文章分类 【科普笔记:没有语言结构可以解析语义么?(之二)】 【研发笔记:没有语言结构可以解析语义么?浅论 LSA】 【立委科普:语法结构树之美】 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|7542 次阅读|0 个评论
《泥沙龙笔记:再聊关键词和SVO》
热度 1 liwei999 2015-10-22 02:16
白: (关于SVO取代关键词)要我是广告商,这种变化不值得去搞。要搞就搞大的。 增加的定价复杂性和收益不一定匹配。 如果这种变化导致广告商不给钱了,搜索公司不会干。 不是说技术进步点在句法,广告标的的表现也一定在句法。 配套一系列东西,计量等等,都要动。包括博弈,在博弈中定价, 本来是清晰的,regex一来,糊涂了,SVO也一样问题。 我: 不过,从广告商的终极目标来看,这些问题都是技术层面的问题, 总是可以想到办法来规约双方的,前提是,加入了 regex 或更进一步 加入了 SVO,广告的精准投放可以获得大幅度提升。现在我想要鼓吹的就是,后者的条件已经成熟,越来越成熟, 精准投放不是梦。关键词对于传统广告,实现了针对客户的初级阶段的精准投放, 引起了互联网产业的革命。现在谈的是高级阶段的精准投放,也有一场革命。 白: 不见得,标的的属性和商业模式的匹配与否, 直接决定标的能否被采纳。胆子忒小了,步子也忒小了。太老实了呗。技术进步到句法, 标的就在句法里找。这就叫老实。 我: 这里有一个 backward compatibility 类似的考量。基本上说,新的模式应该是这样的 , 这是一个 backoff 模型: SVO backoff 到 regex; regex backoff 到 keywords 。 对于拥抱创新的广告商,让他尝到 SVO 高级阶段精准投放的甜头。等到这个甜头被广泛谈论以后, 整个产业就会整体上从关键词模式上升到SVO模式。 即便整体模式转变了,也不妨碍人们继续使用关键词, 但那个时候的关键词使用是在具体的场景下进行的。这就好比我们说话通常都是合法的相对完整的句子, 因为这是我们的语言能力决定的,但是这不妨碍我们在特定情形下, 躶体出境,说不太合法的话,譬如在社交媒体,譬如在打电报, 譬如尼克和冰在一起的时候。这些时候,SVO 不是必须的。 其实 SVO 根本不像人们想象的那样高深,它是相当 intuitive 的,不过是 who did what 这样的事件描述。如果说教育全民学 SVO 可能是一个艰巨的任务,对于广告商、对于搜索供应商、对于 Power users,这个 SVO 一点也不难。它比学会用 regex 容易,比 SQL 更是简单多了。 白: 兼容有另一种处理办法。首先要确定,广告商和广告所宣传的产品供应商不是重合的, 而且跨度可以很大,对不对?加上SVO, 标的数量即使没有关键词的立方级,至少也有平方级,对不对? 我的不同意见恰恰就在这里,广告代理越综合, 标的选择越不宜细粒度,细粒度的事儿,交给技术上去做。 精准投放和标的的粒度是两回事,可以解耦。 当标的规模出现量级的变化时,这种脱钩尤为显得重要。 我说的是,商业标的的粒度变粗、同时技术标的的粒度变细, 才对广告商有吸引力,否则他们会宁要关键词模式。 比如理发店,最终是想向客户推销某种储值卡, 但是客户可能更关注哪个发型师给你服务。因此, 推销卡的任务摊派给发型师好了,这就是粗粒度。 发型师再来细粒度因人而异。见什么人说什么话,理发师全管了, 但是包销多少卡,不需要用户级别的个性化。 关键词模式有一点是错的, 就是用户的粘性和他们使用的关键词有关。 regex和SOV要想继续这个错误,肯定走不远。 要想纠正这个错误,可参考理发店模式。有粘性才有广告, 精准投放是技术手段但不是产生粘性的必要条件。更精准, 不一定更有粘性。不管是谁,粒度一定很粗。性价比不会很高。 我: 先搞清白老师的问题。明确一下, 我和白老师现在谈的是关键词作为广告标的和广告入口这个模式的利弊, 以及可能不可能革命这个模式。 白老师提出了很有意思的疑问:细颗粒度的 SVO 不适合做广告的标的: 还是关键词合适。原因之一前面说过,就是关键词直观,少扯皮。 这一点我的回应是,确实有这个问题,但这是技术层面的, 终究可以解决扯皮和定量的问题,如果让“标的”与“入口”分离,并且找到它们合适接口的话。 对于广告商,终极目的不会变,他就是要精准投放,看到广告的 1000 个潜在客户,是100个真地感兴趣开始点击了,还是 200 个, 转换率就会不同, 这都是精准投放的硬指标,都是可以定量测量的。 咱们后退一步,我的问题是:广告商想表达的意思,关键词能不能表达?如果有难以表达的情形, 那就是现有关键词模式的局限。 而突破这种局限的唯一办法是给关键词增加新的维度,譬如 regex 或者 SVO 等关系。 还是举个容易说明的例子吧,如果一家 VC 想给自己做广告,其中一个场景就是,如果客户搜寻公司购并, 或者客户点击的网页谈的是公司购并, 那么我觉得那才是我应该显示广告的好地方。 这样一个广告的精准投放需求,关键词怎么表达? 现在的办法就是出卖两个关键词,或者一个合成词:公司购并。 这个效果差太远了,因为谈论公司购并或者搜寻公司购并的, 里面恰好提到这两个词的,是少数。 多数的情形都是,张三购并了李四、苹果要吃掉特斯拉之类,这个没有 SVO 怎么玩得转? 白: 咱们设想啊,假如一个发型师是冰冰,另一个是圆圆, 还有一个是娜娜,大家都有类似的精准程度……这时候粘性靠啥? 1000个变成1000000个, 广告商的工作量就大1000倍。 我: 性价比不高,确实可能是一个问题。这个层面的问题也是现存的关键词模式的问题。 白: 对,但是你的标的规模平方级放大的时候,问题也随之放大。 所以性价比不得不考虑。 具体地说, 是专业广告代理向智能搜索平台定制自己认可的人机交互虚拟代言人 。 数据是同一批数据,SVO是同一批SVO, 但是虚拟代言人决定粘性竞争力。 丁: 这里限定了广告投放的两个具体场景: 搜索公司的针对用户的搜索行为,出发点是“search string, 用户寻求内容,寻求解决方案 ,内容平台网站针对用户网页浏览行为,出发点是”page/ site content, 用户浏览特定领域内容“ , 理发师更类似于后一种(广告商直接投放垂直领域网站) 洪: @wei deep parsing用于广告投放好倒是好, 但可能对用户隐私是一种深度侵犯。 我: 不会吧,任何svo 都是抓取某类事件,而不是针对特定用户。如果特定用户的行为描述match了投放的 svo,那也是公共信息,抓到的不是某一位,而是一大批符合条件的人。换个角度 同样的信息关键词也可能抓到,只是抓得不够准而已。 举个例子,譬如, 如果某个广告想投放给并购了其他公司的那些大公司,那么这个 SVO 广告投放大概就是: V:购并|购买|买|吃 O: 注意谓语V的坑里面是枚举的关键词(SVO框架里称为驱动词),OR 的关系。 而宾语的坑则不同,它里面不是关键词,而是词的 feature or tag,这就克服了关键词没有概括性的缺点。 这里彰显了关键词的两大局限:(1)不能抽象概括, 只能用直接量;(2)不能规定语法关系。 这样的VO就抓住了一批做S的公司,如:微软,IBM,Facebook,。 。。, 这里面不涉及啥隐私,因为这些并购消息都是公开发布的。 洪: 在mail或用户文档中按keyword投广告, 只是scan文本,keyword spotting,除了一些敏感领域,隐私不是问题。 但parsing involved,理解分析让人担心隐私泄露。 regex matching,谷歌/百度的sponsed search应该已经在用。 我: boolean query 之所以在某些服务商和一些power users 可以无限复杂化,就是为了弥补简单关键词的这两个不足而生的, 可这不是 “人活儿”,而且毕竟是关键词框架内利用与或非而来, 因此捉襟见肘,比起SVO表达力还是远远不够,无法应对远距离的挑战。是没办法的办法。 因此,backoff 实际上是这样: simple query -- boolean query -- regex query -- SVO SVO,特别是VO,具有普适性,几乎可以涵盖一切事件,因为事件最自然的语言表达就是主谓宾,VO往往是定义一个事件的必 要条件,而主语在语言学上属于 external arg,是可以省略或隐藏的(譬如在被动语态或不定式短语中)。 动宾定义事件的例子很多,再给一些例示如下: 1. 撤销 ... 职务 (裁员事件 ) 2. 丢 ... 工作 (失业事件) 3 修理 ... (电器修理事件) 4. 发布 ... (产品发布事件 ) 5. 伤 ... (譬如车祸、事故等) 等等。 【相关】 泥沙龙小品:关键词必须革命,没商量的 2015-10-20 《立委科普:关键词革新》 2015-10-17 《立委科普:关键词外传》 2015-10-12 《泥沙龙笔记:铿锵众人行,parsing 可以颠覆关键词吗?》 2015-10-10 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|3782 次阅读|0 个评论
泥沙龙小品:关键词必须革命,没商量的
liwei999 2015-10-20 09:13
独: (腾讯收购京东)真的假的? 我: 靠,这几天老出惊天新闻,刚报说苹果天价购买特斯拉,如今又是腾讯收购京东,准备与阿里一决雌雄。稍早前还有 EMC 明珠暗投,被个七零八落的 Dell 收购了。后天会不会出个新闻,惠普收购了推特,或者推特收购了惠普?企业世界真疯狂啊。 毛: 我自岿然不动(因为动不了)。 我: 还是要动,不能坐以待毙。 我大概属于一根筋的人,这两天一直觉得一件事儿没完。 终于按照原来的思路,把姐妹篇完成: 《 立委科普:关键词革命 》, 请方家鼓掌,指正就不必了。 毛: 我慢慢看。 白: 哈,那天讨论,伟哥的思路被我们七嘴八舌冲得很凌乱。 我: 是啊,一下子就给你绕到模式里面去了,乱了心性。 其实我的思路是一贯的,根子就是关键词表达力不够,它没有资格作为信息载体的唯一代表。这一点是如此清晰无误:信息载体的一维不符合语言和逻辑的本性。必须革命,没商量的。其他一切都是枝节。 毛: 他们那帮人都是捣乱分子,有娜姐在场就不能让他们这些人出来。我是不捣乱的,我只是看捣乱。 我: 白老师说的经过深思熟虑,不是捣乱,不过他只从一个角度和一个支点谈。即便作为卖钱的计量单位的关键词暂时不会或无需革新,也不影响广告商的接口那头还是需要革新才能满足精准投放(可以测量的!)的总目标。二者之间一定有某种办法协调。除这一点尚需进一步商榷外,我文中的论点完全经得起历史的检验。关键词捉襟见肘,怎么可能永远占据信息处理的霸主地位。革命潮流浩浩荡荡:关键词要凤凰涅槃,SVO 必大放光芒。 【相关】 《立委科普:关键词外传》 2015-10-12 《立委科普:关键词革命》 2015-10-17 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|2786 次阅读|0 个评论
《立委科普:关键词革新》
热度 2 liwei999 2015-10-17 10:10
上篇 《立委科普:关键词外传》 提到了关键词的三个面向, 关键词作为互联网摇钱树的秘密就在于它是这三面的粘合剂,以信息载体的身份。 本篇要论的就是关键词在这三方面所面临的挑战和机遇。 一场颠覆式改革正在大数据浪潮中酝酿。 回顾一下,从关键词最大的应用“搜索”的角度,关键词有三个接口两个层面。三个接口是:(1) 面对大数据文本,需要事先建立关键词索引(offline indexing);(2) 面对用户的信息需求,关键词query作为默认的搜索形式是在线检索服务(online retrieval)的起点;(3)面对客户广告商, 可拍卖的关键词是广告连接用户搜索场景的入口。 前二者构成了了关键词的技术层面,着眼于如何满足用户的信息需求: 这个迄今不涉及钱, 因为互联网大佬们都不约而同选择了免费服务的模式;第(3) 项是关键词的生意层面,才涉及 business model:关键词竞价拍卖,唯利是图。原理很简单, 我用免费服务吸引用户的频繁使用和眼球, 再去广告商客户那儿找钱。对于搜索产业,用户和客户是分离的。 这个模式很牛逼,支撑了搜索产业近20年! 可是,随着大数据新时代的到来,随着语言技术的进步, 关键词革新在所难免。一方面,盛名之下其实难副, 关键词作为信息载体支持现有模式,其局限越来越突出。另一方面, 比关键词高级的自然语言处理(NLP)的 深度句法分析(deep parsing)技术业已成熟,就像爱因斯坦体系注定包容并取代牛顿体系一样,深度句法 颠覆关键词乃是大势所趋,只是一个时间的问题。 先从关键词的优缺点谈起。关键词的优点是:简单(simple),鲁棒( robust),查全率好(good recall)。这些优点也决定了它的两大局限:(1) 查准率差(poor precision);(2)表达手段贫乏(not expressive),甚至无法表达,不能胜任信息载体的工作。 优点缺点 一个面向一个面向地谈, 这样可以帮助看清关键词的全貌及其发展趋向 。 先从用户的视角说,关键词的“ 简单”显而易见,因为任何信息都是 由 词汇组成的, 训练用户在词汇中提取关键词是比较自然的事儿, 所以基本人人会用。 也有开始不会用的用户,譬如不知道把非关键的停止词(stop words)除掉,或者留下了太多的关键词(关键词之间默认是“逻辑与”的关系),这样去搜索,结果往往找不到合适的信息,但是吃几次亏用户慢慢就适应了。 关键词 query 作为检索的入口,其表达的贫乏和局限,我们每个网人都有过体会,有些想找的信息用关键词匹配就是找不到。 道理很简单,思想和语言都是二维的,而关键词是一维, 严格说,连一维都不够, 因为关键词的默认就是一袋子词,连次序的维度都不在内。具体来说,关键词作为query,既不精准,也不概括,在查准率(precision)与查全率(recall)两方面都有根本的局限。不精准的原因是所查的关键词之间关系是简单的“与”,因此无法确定返回的网页链接(URLs)里是不是有自己想要的情报,还是关键词的偶然共现(如果网页文字很多,偶然共现的可能性很大,返回来的则多为噪音)。对付这类噪音,目前的办法是给关键词加上引号(quoted query)把一袋子词变成线性词串去做 exact match,这个办法增加了词序的维度,的确大大降低了噪音,但同时也往往漏掉了太多,因为语言中相关联的关键词并不是总挨在一起,事实上紧挨着的通常是极少数。作为信息载体,关键词之间的关联的最好表达还是要揭示其内在的文法关系,这一点很少异议。第二条缺陷是关键词不具有概括性,因此也影响了查全率。很多人认为关键词除了简单外,最大的优点就是查全率好,这样看来似乎与缺乏概括性有矛盾。这个疑似矛盾实际上是基于查全率的两个不同定义。查全率的形式定义几乎就是为关键词量身定制的,说的是,关键词检索理论上可以做到100%的查全率:对于被索引的网页,系统完全可以返回所有的符合关键词query条件的相关网页,一个不拉,这在技术上是可以保证的。然而这种“查全率”不能反映用户的真实需求,因为同一个概念完全可能以不同的关键词来表达。满足信息需求的查全率必须以概念而不是关键词来计算。当这个概念是语词不可枚举的时候,关键词技术则根本无法表达,用户所要的查全率无法实现。【注一】 举个例子,如果你想搜寻公司购并的情报, 现在的办法就是搜索 “公司购并”。 这个效果差太远了,因为谈论公司购并 里面恰好提到这两个词的是少数。 多数的情形都是,Dell 购并了EMC, 苹果准备购买特斯拉,腾讯要买京东之类。关键词在这里遇到两大挑战:其一关键词没有概括能力,而有很多概念在语言表达中是没有办法枚举的,譬如公司的概念,我们没法在query一一列举所有的公司名: Dell|EMC|苹果|特拉斯|腾讯|京东......,这个给公司自动标注的工作叫做 NE(Named Entity tagging),通常是语言分析系统里面的一个组件。第二,关键词的 query 不允许设定任何文法关系的条件。譬如,公司购并的情报需要”公司“类的词作为 BUY (包括“购并”、“购买”、“买”等) 的宾语(对象),没有这个动宾(VO)条件的限定,返回的文件可能是噪音,里面恰好提到 BUY 和公司,但二者并没有并购的关系。对于这二者,深度分析系统都已经把握 了,其结果表达表现为带有节点语词及其标注的句法树,其中树结构的核心就是SVO(主谓宾)。因此,关键词query的升级应该是 SVO 这类关系条件的表达。 这样的技术革新面对的最大问题就是如何培训用户使用SVO而不是简单的关键词 query。面对亿万用户,这似乎很难。然而, 用户是可以训练出来的。我们整整一代人都被关键词训练过、 洗脑过 了,才学会了怎样使用关键词的不同组合尝试找到最好的结果。同理,SVO 也会经历这个用户自适应的过程。只要搜索界面设计得巧妙和intuitive,允许两种搜索并存,尝到SVO搜索甜头的用户会逐渐影响带动其他的用户。 第二 个面向是大头,就是对大数据处理的关键词升级。从搜索引擎所面对的整个互联网而言,使用任何比简单的关键词索引更高级的语言技术,即便理论上可以实现,无论从成本还是运作上,都将是一个巨大的挑战,在可预见的将来,没有理由相信仅存的几家互联网搜索巨头会冒这个险。然而,近年来大数据架构的突破性发展,以及硬件成本的下降,至少使得我们相信,在互联网大海的一个子集(譬如社会媒体,譬如维基世界,譬如某垂直领域)施行语言处理技术的升级,是完全可行的。 从行业的总体趋势看,关键词技术不可能永远不思进取而立于不败之地。 我们看到,自然语言的深度分析技术已经进过反复验证和在 niche markets 的产品中成功应用,技术升级的条件业已成熟。 哪怕只利用深度分析的一个部分,譬如只做SVO(主谓宾) ,甚至只做 VO ,理论上也是对所有现存关键词技术驱动的应用(不仅仅是搜索)的一个颠覆。因为突然多了一个维度,在词汇之上,增加了关键的结构信息:非结构的大数据突然结构化了。面对结构的海洋, 传统的数据搜索和挖掘势必拓展。 挖掘(mining)方面目前做得很浅,就是检索(retrieval)里面的一个小东西,凑合事儿。技术上看二者的关系, parsing 是见树,挖掘才见林。 以前只有关键词索引,没有条件见林子,挖掘没有实验基地,限制了它的发展和深入。以此观之, 以前所做的不过是 baseline 而已,如今只要有大数据、大计算(parsing比起关键词索引就是大计算)、大存储,再加上新的挖掘和检索的自然拓展, 那么凡是关键词技术生存的地方都可以革命,包括以搜索(search)、分类(classification)、 聚合(clustering)为基础的各类应用(与搜索直接相关的有智能搜索和问答系统,其他的应用还包括舆情挖掘、客户情报、自动文摘、新闻推送、智能助理、机器人接口等等)。 这个总体趋向如此明晰, 条件也基本成熟,现在是考验想象力的时候, 然后就是产品老总配合语言技术创新者,脚踏实地一个应用一个应用的去做 。 最后说一下作为搜索公司客户的广告商 (金主) 。关键词的简单特性,在这里表现为 商业标的的清晰, 这是一个很大的优点 。以关键词博弈定价易于操作, 关键词最清晰,最少纠纷,谁买了就归谁,没有扯皮的事儿 。广告商只要愿意花钱,可以竞标购买任何热门的关键词,也可以预见自己广告的投放情境,一切都是透明的。 有权威人士认为关键词 商业标的的清晰 是压倒性的优点,以致任何革新如果削弱了这一点就难以成功。尽管如此 ,关键词的两大局限“精准度差”和“表达力弱”,从广告商的角度同样存在,而且很严重,因为这些局限直接影响了广告商客户的核心利益。 长远看来, 广告商不可能满足于用简单的关键词来作为广告内容连接用户的表达方式,因为它实在太简陋了。 广告商的终极目标是精准投放,关键词虽然比传统广告的被动轰炸要精准,但是无法与语言自动分析理解基础上的精准匹配相比拟。 从历史上看, 关键词对传统广告的革命就是基于精准投放这个核心价值。前搜索时代, 被动轰炸是广告商的唯一模式,突然出现关键词了,精准度大幅度提高,广告效果也容易追踪测量。现在 SVO 出现了,搜索面对的是更高阶段的精准投放,与上次广告革命非常相似。如果说 让普罗百姓很快学会SVO来代替关键词不大现实,可作为广告商,直接购买 表现力丰富得多的 SVO 不是不可以想象的事儿。 事实上,也可以对广告商客户做专业服务(professional service),不用他们操心广告高精准投放所需的SVO的具体表达形式,只要展示精准投放的实际效果即可。 当然前提是搜索内容的 indexing 也做了相同的革新, 这样才能衔接得上,商业模式的推进才有可能。 总结一下,作为现存语言技术基础的关键词面临一场技术革命,因为语言深度分析技术与大数据处理的技术双方都已经成熟。 革命不是杀头,深度分析对关键词,就是爱因斯坦对牛顿。 抽取挖掘搜索等的质量大提升需要的是两条腿走路, 一条是关键词,另一条就是SVO。 到了应用领域的语义语用层,关键词, 或者叫驱动词(driving words:严格地说, 在SVO中, 有的关键词保留成为驱动词,有的抽象为词的 feature了),依然不可或缺,但对关键词技术的颠覆式创新增加了语言结构这个关键。正如语言所老所长吕叔湘先生很多年前谈文法的关键性作用时说的,光有珍珠成不了项链,还要有珍珠串子。作为革新,信息载体应该也必须从关键词向 “驱动词+SVO” 过渡。 【注一 】 其实,即便一个概念是可以枚举的,关键词 query 也常常困难重重。可以枚举的关键词理论上只要用逻辑“或”即可表达概念的外延,从而保证查全率。但事实上,很多关键词都是多义的,并不能多对一到想要搜寻的概念上,因此产生噪音。事实上,搜索服务曾经做过所谓“同义词扩展”(synonym expansion)的尝试,但很多时候由于自然语言词汇的多义带来的噪音而得不偿失。这个困扰在革命性的 SVO query 框架内不再成为挑战,因为在 SVO 看来,关键词不再是孤立的存在,而是受到上下文的文法关系约束的驱动词。多义在句法上下文中,噪音自然减除。这是 SVO 高于关键词的一个极大优势。 【相关博文】 《立委科普:关键词外传》 2015-10-12 《泥沙龙笔记:铿锵众人行,parsing 可以颠覆关键词吗?》 2015-10-10 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|5089 次阅读|2 个评论
《立委科普:关键词外传》
热度 4 liwei999 2015-10-12 02:35
Keywords as Technology and as Business Model. The entire search industry has relied on keywords as money-making machines. What are the limitations of keywords as technology? What are the limitations of keywords as business model? What are prospects beyond keywords? These are issues discussed in this blog and the next (in progress). 信息爆炸的时代,IT 领域风云多变,群雄争霸,此伏彼起。其中最精彩的故事之一就是搜索巨头的崛起。他们的谋生本领从技术和商业模式两方面看,都是所谓关键词(keywords)。于是关键词有了两个含义,一个是关键词的技术,另一个是作为广告基点的可以卖钱的关键词。 作为技术的关键词,从原理上看是再简单不过的了,就是给海量文本做个索引,以便检索。建索引是个相当古老的传统,严肃一点的教科书、手册和科技书籍,差不多都会在书前的目录之外,再建一个术语索引附于书后,以备读者查询。从满足信息需求的角度看,目录与索引的区别在方便随意浏览还是临时查询。一般人两种需求都有,譬如,每天查看新闻是很多人的习惯,那么进入新闻目录去分类浏览就是自然而然的了(这个需求的延伸就是如今手机上各类新闻推送,个性化服务,送货上门了)。一般而言,这个需求的特点是事先没有一个明确的问题需要解答,浏览看上去有点漫无目的,至少没有一个焦点,就是了解个动态。因此预制的目录和分类可以比较好的适应这种需求。第二个需求不同,信息需求者有个具体的焦点,或者疑问,他需要寻求答案。譬如家里抽水马桶坏了,查一查怎么修理抽水马桶。这类具体的需求千差万别,每个人每个不同的时间点,都可能产生一个特定的问题需要答案。因此,要想事先给这无限的开放的信息需求及其答案做目录式分类,是不可能的,因为有限的分类无法应付无限的问题。为了以不变应万变,关键词索引和检索应运而生,满足了这种需要。因为所有的具体问题或信息焦点,说到底都是由关键词组成的。前述抽水马桶的问题,心里的问题大概是“我的抽水马桶坏了,怎么修理呢”,电脑不懂人话,只好抽出表达主要概念的词(不抽的是所谓 stop words,就是”我“、“的”、“了、”呢“、”怎么“ 之类, 多是高频小词),其关键词就是:抽水马桶,坏,修理。关键词是语言表达的基本单位,因此从信息海洋中检索出来的网页只要按照这些关键词出现的密度(keyword density)排序,要寻找的答案应该就在里面了。(关键词密度排序是最基础的搜索技术,后来改进版的排序算法 Page Rank 更加注重网页本身的信誉度。) 互联网发展伊始,很快迎来了网页的爆发性增长,网人在信息的海洋中找不着北了。于是给网页做目录分类的雅虎兴盛了,门户网站门庭若市。人多了就好做生意,于是门户网站开始了网络时代的广告生意,各种闪烁的广告条让人眼花缭乱。后来人们发现,信息需求靠有限的目录和分类是无法满足的,需要一个工具来帮助搜索。谷歌百度等搜索引擎为支撑的公司遇到了历史的机遇。不过,刚开始的时候,他们也不知道怎样才能挣钱,他们不过是研制了这么一个搜索工具供网人自由使用,他们没有门户网站分门别类的丰富内容,对用户没有粘性,用户拿来就用,用完就走,很可能是回到了内容丰富规整的雅虎去浏览新闻去了。于是,他们就到各大网站去推销这套引擎,凡是大一点的门户或网站,都有一个支持网站内搜索的需求,也就需要搜索引擎,他们于是收取 license fee,这是典型的 B2B(企业对企业) 商业模式,卖的是技术(工具)本身。可这么做难以做大,不过是网站门户的补充而已。 直到有一天,新的 B2C (企业对消费者) 模式出来了,这才开启了搜索引擎大佬财源滚滚的时代。这个模式的基础就是发现了,关键词不仅仅是技术,是索引和查询的元件,而且关键词本身也可以卖大钱。卖给谁?当然是广告商,谁出钱多,就卖给谁,而且关键词数量巨大,加上关键词之间的组合( 可以对关键词做与、或、非等操作),这个盘子可以做得很大,定期竞标,实现利润最大化(百度的所谓竞价排名:顺便说一下,比起谷歌的广告不得影响搜索排序结果的做法,百度有时太没品了,让人无语)。这一切的一切都基于关键词是最简单而且最容易掌控的语言表达的形式,广告商需要借助它与信息搜取者(潜在的用户)匹配上,这样就大大提高了广告的效益,因为广告从传统的被动轰炸客户(如传统媒体譬如电视)一下子提升到主动迎合客户的信息需求,因为在搜索过程中遇到的广告都是与所搜索的关键词密切相关的内容。这个关键词卖钱的商业模式是迄今互联网最成功的模式,经久不衰。 说到这里,我们可以问一下:用关键词来表达信息需求(譬如问题)、满足信息需求(譬如根据密度信誉度返回相关网页)以及代表广告内容,靠谱么?答案是 yes and no。从用户体验来看也是如此。很多时候似乎用关键词,再花点时间阅读反馈回来的前几个网页,就找到了问题的答案。也有的时候发现找不到答案,于是把自己的问题变换一下,抽取不同的关键词,譬如变成 “抽水马桶”,“不工作” 再去查询,答案就出来了,就在新返回的网页里。反正电脑检索是立等可取的,变换几次虽然要多费点儿劲儿尝试(trial and error),满足了需求也还是可以接受的。也确实有些时候,关键词怎么也玩不转,费了九牛二虎之力,尝试不同关键词的组合,可就是找不到答案。有的是心中的问题难以用关键词抽取来表达,譬如你想寻找产品发布的信息,就很难用关键词表达,第一,产品这个概念是一个开放集,没法用关键词去枚举。第二,“发布” 这个关键词是多义的,政治新闻的发布就与产品没有一毛钱的关系,没有动宾关系的制约,硬拿它做关键词去搜索,得到的就是信息巨多,太多杂音。总之,关键词作为语言的元件,表达信息不可能完整准确,它的好处是简单、鲁棒(robust)和查全率(recall)好,作为语言表达,关键词不过是一个最简单的近似,一个无奈的选择。 总结一下,关键词只是表象,它的价值植根于对信息的表达(载体)。是这种信息载体的身份使得它把用户的需求、网页的相关以及广告商的目标这三者联合起来,成为互联网经济的三大基石之一(电商交易和游戏服务是另外的两大互联网产业)。然而,关键词只是信息表达的最原始粗糙的元件,它没有抽象度,无法应对不可枚举的概念(譬如“产品”),它没有语词结构,最多只能用逻辑“与或非”操作关键词(术语叫 boolean query),而无法表达文法关系(譬如表达 “发布”的对象必须是产品)。所有这一切都是根子上的局限。因此,关键词不可能是信息时代的终点。关键词技术和关键词模式都面临而且需要一场颠覆式的革新。 下一讲预告 《立委科普:关键词革新》 ,谈关键词的三面都面临怎样的颠覆式改革。 【后记】 这篇是地地道道的科普,太浅显、白话、常识了,老妪能解了吧,只是结论部分从天下大势和技术基础的角度指出了关键词技术和关键词模式的根本局限,算是夹带了私货:关键词面临革命(或者叫颠覆式革新更易让人接受,也更妥帖,因为不可能杀掉关键词,只是要剥夺它的信息唯一载体的地位)。 【相关博文】 《立委科普:关键词革新》 2015-10-17 《泥沙龙笔记:铿锵众人行,parsing 可以颠覆关键词吗?》 2015-10-10 《泥沙龙笔记:铿锵三人行》 2015-10-08 泥沙龙笔记:漫谈语言形式 2015-10-03 泥沙龙笔记:parsing 是引擎的核武器,再论NLP与搜索 【研发笔记:没有语言结构可以解析语义么?浅论 LSA】 【立委科普:基于关键词的舆情分类系统面临挑战】 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|5534 次阅读|4 个评论
《泥沙龙笔记:铿锵众人行,parsing 可以颠覆关键词吗?》
热度 2 liwei999 2015-10-10 08:52
我: 汉语的躶体准成语:你不理财,财不理你。穿上小词的衣服就是:你 如果 不理财,财 就 不理你。 (如果 ... 就 ...)。也可以穿戴更多一点: 如果 你不理财 的话 , 那么 财 就 不会理你。(如果 ... 的话 / 如果 ... 那么 ... 等。)穿得越多,越没有歧义,越容易理解,当然也越容易电脑处理。可是国人觉得那样不简约,不能显示我语之性感。 现代汉语的框式结构是非常漂亮的小词结构,漂亮在它不仅给了左括号,也没忘记右括号,这样一来,边界歧义的问题就消弭了。这个框式手段,是比西方语言更高明的显性形式,应予大力推广,以彰显我语严谨的一面。框式结构更多的例子:因为 ... 所以;虽然 ... 但是;在 ... 中/上/下/间。 顾: 英语也有省略小词: no pain, no gain. 我: 语言是线性表达,因此常常有边界不清晰的问题存在。数学语言(譬如公式)也是线性的,想到的办法就是括号。汉语不知道哪个年代发明的这个框式手段,基本就是括号的意思。这个很高明。 顾: 而且似乎某些高能人群倾向于省略小词。例如华尔街投行和硅谷人士的某些交流中,如果小词太多反而被鄙视,被认为不简洁不性感,这大概是人性,不是中国独有。举一例,出自Liar's Poker, 某trader跳槽,老板以忠诚挽留,他回答,“You want loyalty, hire a cocker spaniel” 我: 有了框式结构,语言不仅清晰了,而且灵活了。灵活是因为左右括号如此明晰,以致于可以放宽括号内成分的句法条件。 Nick: 可以处理括号的都是什么自动机?我理论忘光了。 我:多层括号需要的是中心递归,就是乔姆斯基的 CFG,有限状态不能对付n层括号。上面的汉语案例大多只使用单层括号,没有用到括号的嵌套(如果...的话 与 “如果......那么”可以算有一层嵌套,左括号共用一个小词“如果”,右括号不同,可以放在两个模块层去做),不需要栈结构,不需要递归和回溯。 白: 有限状态加计数器,是毛毛虫,可以对付括号, 保证线速 。 顾: 注意这里主从句之间是逗号,不是问号。我刚才特定去书里查对了没错。 RW: long time no see 是华尔街英语的典范! 我: 成语不怕,成语都是可枚举的、有限的,就是个存贮记忆问题。 成语的极致就是编码,包括密电码,acronyms 如 IBM,ABC 就是密码式成语。 成语是NLP中不用讨论的话题。可以讨论的是,产生式“类成语”,譬如“一X就Y”(如 一抓就灵,一放就乱), 不X不Y(如,不见不散,不服不行)。这个有点讨厌,因为词典对付不了,可是又不符合一般的句法,通常用小的规则来对付。(小规则是大规则的例外。) 顾: 但某些高能人群,尤其是科学家和教授,尤其是在思辨场合下,小词就少有省略。而汉语在写数学教材时,也多用小词。因此是否用小词跟语言用途也有关,愚以为不能否认汉语追求简洁优美是弱点,也不能认为汉语不善加小词或准确表达概念和逻辑。 我: 还是有个程度吧,汉语小词常可省略,总体上就是一个爱躶奔的东方美女。 顾: 偶爱裸体美女。 我: 偶也爱躶体美女,东方的尤甚,因为亲切,可是 ...... 欧化句式侵入后,白话文运动以来,可以看到一种加小词的趋向,小词在汉语发展道路上开始产生影响了。是吃了伊甸园的智慧树的果子知羞了? 顾: long time no see据认为是汉语入侵英语之后产生的,只是大家觉得自然,英美人也用了。这个语句困扰我很久,在网上查了据说是如此,但未必是严肃考证。 我: long time no see 是最直接的展示我东方躶体美女的一个案例。 西人突然悟过来,原来语言可以如此简洁,这样地不遮不掩啊。 他们觉得可以接受,是因为赶巧这对应了一个常用的语用(pragmatic)场景,朋友见面时候的套话之一,不分中外。在有语用的帮助下,句法可以马虎一些,这也是这类新成语(熟语)形成的背后理由。 RW: 我只在老外和中国人打招呼时听他们说过,没见过他们互相之间用过。因此,我觉得他们没有接受这是一个常规用法。 顾: 另外,我觉得如果要分析理解语言,也不能拘泥于句子结构。句子之间的含义同样重要,如果过于依赖小词,可能难以将句中和句间的关联统一理解。而如果看句子之间的联系理解,英文在句间小词也很少用。 我: 用语义(隐性形式)当然好,但是不容易写一个形式化的系统去 parse 啊。用小词(显性形式)的话,那就好办多了。 白: 伟哥还是说说“我是县长”是怎么hold住的吧。问题的实质是,有限状态自动机没有lookahead 能力,如果语义跟着同步走,有很多构造(合一)会是明显浪费的。 Nick: @wei 白老师问:我是县长派来的 我: “的字结构”很讨厌。大体上就是英语的 what-clause 对应的句法形式。 但比 what-clause 还难缠,因为该死 “的” 字太 overloaded 了。 雷: 中心嵌套也可以是线性的? 白: 某些可以是, 全集不是。 比如,a^nb^n, 可以线性parse。 我: 当然可以线性,除非嵌套是无限层。 如果是无限层,栈也要溢出的,无论memory多大。 中心嵌套本质上不是 ”人话“,这个我和白老师有共识。 乔姆斯基之谬,以此为最。 雷: 问题是有些text有冷不丁的多层。 有些国内的新闻稿有。 我: 举例, 看是人话还是数学? 雷: 当然我们可以排除这些极少数。 有些翻译有。 我: 用递归回溯对付嵌套,不过是理论上的漂亮,没有多少实践的意义。 白: 记得everybody likes somebody转换成否定式很难搞。基本归到不是人话一类。 我: 不是人话,就不理睬它! 语言中要抓的现象那么多,什么时候能轮到中心嵌套? 白: “我是县长派来的”,是人话,还没揭锅呢 我: I am the one who was sent by the county mayor, 这大体是对应的英语吧。 英语的 what-clause 只能用于物,不能用于人。“ 苹果是县长送来的”, the apple is what the county mayor sent 白: 我的问题不是翻译,是有限状态木有lookahead能力,局部生成“我是县长”的问题咋避免。 我: 避免不难。 不过就是加大规则的长度而已。 有限状态的规则可以任意加长后条件(post-condition)。 至于前条件(precondition)比较麻烦, 因为前条件改变了 matching 的起点,容易乱套。 白: 短的规则还在啊。 根据哪一条,长的压制短的? 我: 对,叫 longest principle,这是所有matching的基本原则,无论是词典查询还是模式匹配。 有两个方法用后条件 (1)加长后条件,以确保 pattern 本身是要抓取的对象, 譬如第一近似就是 check 县长后面不是动词。 (2)加长后条件来排除例外:这样的规则是没有结论的规则,就是为了排除例外的。这样一来,下一条短规则就可以成功,而且没有误抓的困恼了 白: 除非你那已经不是纯FSA了。 纯FSA只看当前吃进字符做决策。 往后check就相当于LR(k)了。 我: 我的 FSA 从来不是纯的,是 FSA++。 这个昨天就说过的,我随时要求我的工程师去对这个 formalism 做很多的扩展,直到他们抱怨影响了线性速度为止。 白: 那就不奇怪了。 我: 在做 NLP 平台过程中,会有很多的各式扩展才好应对自然语言parsing的需要。很多人以为一个标准的 formalism 拿来用就好了,那哪行?也因此,编译器只能是内部自己实现(built in house),而不能使用 off-shelf 的,因为后者你根本无法扩充,也难以优化速度。 雷: LR或RR都是线性的。 白: 对。 我还以为发生奇迹了呢。 我: 不是奇迹么? 抓到老鼠就是奇迹。 白:套用一句潮话:这不科学呀。 我: 如果标准的 formalism 不能碰的话,那么有经验的设计师与一个新毕业生比,就没有任何优势了。我们说生姜老的辣,就是因为老生姜可以很容易把经验的需要转化成软件的 specs,而新手搞不清如何去定义。 白老师,”这不科学啊“ 的批评声音我常听到。 一个是来自我太太,在日常生活中,她一个本科生经常对我这个首席(科学家)呵斥,你一点不讲科学! 另一个是来自我一个短暂时期的老板,这个老板是学界主流,她看我写的 proposal,说这里面缺乏 science。 我心里说,邓小平也没有 science,他不是把一个大国也治理了。 烹小鲜而已。 白: 白猫黑猫拿到耗子都是科学的,狗拿到耗子就略微那个了点,所以澄清不是狗拿的还是很有必要的。 雷: @wei 白老师追求的是形式美。你的是工程美。 两者一直你拖我拉的往前走。 我: 狗啊猫啊,是主观定位,无所谓呀,FSA,还是 FSA++,标签而已。 我看自然语言是俯视的,成了习惯。太阳底下没有新鲜事儿,因为见到的语言现象太多了。 白: 总是要交流的呀 我: 当然,也不能乱来,前提是任何不科学的扩展,不能最后引致灾难:一个是速度的灾难。 一个是不可维护、不可持续发展的灾难。 如果这两点可以掌控,就问题不大了。 对速度我很敏感,愿意为此自我束缚手脚,只要证明某个扩展影响了线性速度的本性, 我就投降,然后选择折衷方案。 雷: 抛弃中心嵌套,cfg就是线性的。 我: cfg 的痛点还不是中心嵌套导致的速度问题,根本缺陷在单层,眉毛鼻子一把抓,不分共性与个性,这才是致命的。 白: 我天天玩工程,不过我们的工程师如果突然说他使用了某个形式化机制但其实不纯粹,我还是会跟他较真的。 狗肉好吃,不能成为挂羊头的理由。 Nick: 赞同白老师。spagetti对大工程不行。 我: 你们是主流,站着说话不腰疼。不挂羊头, 语言学家早死绝了。 我17个政府项目全部是挂羊头得到的。 Nick: 伟哥可能有绝活,不愿说。 我: 绝活有,细节不谈,谈原则。 原则就是,你要做精算师或工程师的老板,而不是相反。绝大多数语言学家没这个底气,只能打下手,做资料员。 雷: nlp的难点或苦活不在parsing,而是知识工程方面的整合 白: 上下通气 雷: 呵呵,形象 白: 米国股市里有知识工程概念股么? 顾: 这是大数据啊!Data Thinker可以。。。(此处省略一千字) Nick: 中国有? 白: 木有。 讯飞在往这方面发展,但眼下不是。 我: 挂羊头卖狗肉的故事在这里:《 在美国写基金申请的酸甜苦辣 》。Quote : 说到含金量,其实很多课题,特别是面向应用的课题,并不是什么高精尖的火箭技术(not rocket science),不可能要求一个申请预示某种突破。撰写申请的人是游说方,有责任 highlight 自己的提议里面的亮点,谈方案远景的时候少不了这个突破那个革命的说辞,多少迎合了政府主管部门好大喜功的心态,但实际上很少有多少研究项目会包含那么多闪光的思想和科学研究的革命性转变。(纯科学的研究,突破也不多吧,更何况应用型研究。)应用领域“奇迹”的发生往往植根于细节的积累(所谓 the Devil is in the details),而不是原理上的突破。而对于问题领域的细节,我是有把握的。这是我的长处,也是我提出科研方案比较让人信服的原因。有的时候,不得不有迎合“时尚”的考量,譬如领域里正流行 bootstrapping 等机器自学习的算法,虽然很不成熟,难以解决实际问题,但是基金报告列上它对申请的批准是有益的。不用担心所提议的听上去时尚的方案最后不工作,由于科研的探索性质,最终的解决方案完全可以是另一种路子。说直白了就是,挂羊头卖狗肉不是诚实的科研态度,但是羊头狗头都挂上以后再卖狗肉就没有问题。绝不可以一棵树上吊死。 我: 不挂羊头,必死无疑,生存之道决定的。 同意雷司令 parsing 问题解决后,真正的关键在挖掘(知识工程)以及最终建立预测模型。 白:NLP应用场景是很考验想象力的。 我: 非结构数据突然结构化了。面对结构的海洋,传统的数据挖掘需要拓展才好应对。 挖掘目前做得很浅,就是 retrieval 里面的一个小东西,凑合事儿。 parsing 是见树,mining 才见林。 以前没有条件见林子 mining 没有实验基地,限制了它的发展和深入。 昨天与xiaoyun还谈到这个,我们都觉得,哪怕只利用 parsing 的一个部分,譬如只做SVO(主谓宾),理论上也是对所有现存关键词技术驱动的应用的一个颠覆,因为突然多了一个维度。以前所做的不过是 baseline 而已,如今只要有大数据、大计算、大存储,再加上mining,那么凡是关键词技术生存的地方都可以革命,包括搜索、分类、聚合为基础的等等的应用。 这个总体趋向是明晰的,条件也基本成熟,现在是考验想象力的时候,然后就是脚踏实地一个应用一个应用的去做 白: 还是要想新的商业模式,革关键词的命,从商业角度未必成立。关键词是拿来卖的,你把人命革了,卖什么?总要有个替代品吧,总不会卖FSA吧。 我: 革命不是杀头,parsing 对关键词,就是爱因斯坦对牛顿。 到了语义语用层,关键词,或者叫驱动词(driving words),也是不可或缺的。 Nick: 卖regex到也不见得不可能 我: 抽取挖掘搜索,往往需要两条腿,一条是关键词,另一条就是结构。 如果 regex 可以卖了,离开直接卖 parse 就不远了。 其实我们的 power users 已经开始要求直接用简化的 parse 去满足他的信息需求了。 用户是可以训练出来的。我们整整一代人都被关键词训练过、洗脑过了。以致于当自然语言接口技术刚刚尝试的时候,不少用户抱怨说:关键词多简单,跟机器说话,要自然语言干嘛? Power users 在简单的关键词之上用 boolean query 的很多,有些 query 看上去又臭又长又难看,不也忍受了。 也见到过创业者,就是用 domain ontology 加上 boolean 作为技术基础,也满足了一个 niche market 的需求而生存的。 Nick: 这是说的哪家公司? 我: 两年前在北京调研时候遇到的,名字忘记了。他们一点也不保守,把 query 直接给我们看,我心想这是一目了然啊,很容易复制的。 可贵的是,他们先一步找到了那个市场需求,定义了那个 niche market,也找到了客户,后去就是那些 queries 的库不断更新维护而已。 我: @Nick 说,spagetti对大工程不行。Google 搜索是大工程吧,看一下里面的 spagetti: http://blog.sciencenet.cn/blog-362400-804469.html 【相关博文】 朝华午拾:在美国写基金申请的酸甜苦辣 《泥沙龙笔记:铿锵三人行》 2015-10-08 泥沙龙笔记:从 sparse data 再论parsing乃是NLP应用的核武器 泥沙龙笔记:parsing 是引擎的核武器,再论NLP与搜索 泥沙龙笔记:汉语就是一种 “裸奔” 的语言 泥沙龙笔记:漫谈语言形式 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|3661 次阅读|4 个评论
北京市西山采空区特征及监测方法探讨
huangly 2015-5-21 11:26
摘要: 北京地区采空塌陷灾害主要分布于北京西山地区,造成地面的沉降或者陷落,进一步造成地面建筑破坏,公路、铁路、管线等线状工程扭曲损毁,农田、林地损毁,甚至造成人员伤亡。近年来,随着国家和地方政府产业政策的逐步调整,北京市逐步关停了所有小窑及大部分乡镇煤矿,但历史遗留的地下采空仍然威胁着人民群众的生命财产安全,本文介绍了国内外对采空塌陷灾害进行监测的几种技术方法,尝试探讨了适合于北京市西山地区的采空塌陷监测技术方法,为首都的防灾减灾提供参考。 关键词: 西山地区、采空塌陷、深孔位移监测、静力水准监测、PS-InSAR。
2385 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-17 05:53

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部