科学网 › 标签 › 语言技术

标签: 语言技术

相关帖子	版块	作者	回复/查看	最后发表

没有相关内容

相关日志

前知识图谱钩沉: 信息抽取引擎的架构: liwei999 2015-11-1 09:43; 【立委按】以前在哪里提过这个 million-dollar slide 的故事。说的是克林顿当政时期的 2000 前，美国来了一场互联网科技大跃进，史称 .com bubble，一时间热钱滚滚，各种互联网创业公司如雨后春笋。就在这样的形势下，老板决定趁热去找风险投资，嘱我对我们实现的语言系统原型做一个介绍。我于是画了下面这么一张三层的NLP体系架构图，最底层是parser，由浅入深，中层是建立在parsing基础上的信息抽取，最顶层是几类主要的应用，包括问答系统。连接应用与下面两层语言处理的是数据库，用来存放信息抽取的结果，这些结果可以随时为应用提供情报。这个体系架构自从我15年前提出以后，就一直没有大的变动，虽然细节和图示都已经改写了不下100遍了，本文的架构图示大约是前20版中的一版，此版只关核心引擎（后台），没有包括应用（前台）。话说架构图一大早由我老板寄送给华尔街的天使投资人，到了中午就得到他的回复，表示很感兴趣。不到两周，我们就得到了第一笔100万美金的天使投资支票。投资人说，这张图太妙了，this is a million dollar slide，它既展示了技术的门槛，又显示了该技术的巨大潜力。 2. 2 . 2 . System Background: InfoXtract InfoXtract (Li and Srihari2003, Srihari et al. 2000) is a domain-independent and domain-portable, inter mediate level IE engine. Figure 4 illustrates the overall architecture of the engine which will be explained in detail shortly. The outputs of InfoXtract have been designed with information discovery in mind. Specifically, there is an attempt to: Merge information about the same entity into a single profile. While NE provides very local information, an entity profile which consolidates all mentions of an entity in a document is much more useful Normalize information wherever possible; this includes time and location normalization. Recent work has also focused on mapping key verbs into verb synonym sets reflecting the general meaning of the action word Extract generic events in a bottom-up fashion, as well as map them to specific event types in a top-down manner Figure 4 . InfoXtract Engine Architecture A description of the increasingly sophisticated IE outputs from the InfoXtract engine is given below: · NE: Named Entity objects represent key items such as proper names of person, organization, product, location, target , contact information such as address, email, phone number, URL, time and numerical expressions such as date, year and various measurements weight , money , percentage , etc . · CE : Correlated Entity objects capture relations hip mentions between entities such as the affiliation relationship between a person and his employer . The results will be consolidated into the information object Entity Profile (EP) based on co-reference and alias support . · EP : Entity Profiles are complex rich information objects that collect entity-centric information, in particular, all the CE relationships that a given entity is involved in and all the events this entity is involved in. This is achieved through document-internal fusion and cross-document fusion of related information based on support from co-reference, including alias association. Work is in progress to enhance the fusion by correlating the extracted information with information in a user-provided existing database. · GE: General Events are verb-centric information objects representing ‘who did what to whom when and where’ at the logical level. Concept based GE (CGE) further requires that participants of events be filled by EPs instead of NEs and that other values of the GE slots (the action, time and location) be disambiguated and normalized. · PE: Predefined Events are domain specific or user-defined events of a specific event type, such as Product Launch and Company Acquisition in the business domain. They represent a simplified versionof MUC ST. InfoXtract provides a toolkit that allows users to define and write their own PEs based on automatically generated PE rule templates. The linguistic modules serve as underlying support system for different levels of IE. This support system involves almost all major linguistic areas: orthography, morphology, syntax, semantics, discourse and pragmatics. A brief description of the linguistic modulesis given below. · Preprocessing: This component handles file format converting, text zoning and tokenization. The task of text zoning is to identify and distinguish metadata such as title, author, etc from normal running text. The task of tokenization is to convert the incoming linear string of characters from the running text into a tokenlist ; this forms the basis for subsequent linguistic processing. · Word Analysis: This component includes word-level orthographical analysis (capitalization, symbol combination, etc.) and morphological analysis such as stemming. It also includes part-of-speech (POS) tagging which distinguishes, e.g., a noun from a verb based on contextual clues. An optional HMM-based Case Restoration module is called when performing case insensitive QA (Li et al. . 2003a). · Phrase Analysis: This component, also called shallow parsing , undertakes basic syntactic analysis and establishes simple, un-embedded linguistic structures such as basic noun phrases (NP), verb groups(VG), and basic prepositional phrases (PP). This is a key linguistic module, providing the building blocks forsubsequent dependency linkages between phrases. · Sentence Analysis: This component, also called deep parsing , decodes underlying dependency trees that embody logical relationships such as V-S (verb-subject), V-O (verb-object), H-M (head-modifier). The InfoXtract deep parser transforms various patterns, such as active patterns and passivepatterns, into the same logical form, with the argument structure at its core. This involves a considerable amount of semantic analysis . The decoded structures are crucial for supporting structure-based grammar development and/or structure-based machine learning for relationship and event extraction. · Discourse Analysis: This component studies the structure across sentence boundaries. One key task for discourse analysis is to decode the co-reference (CO) links of pronouns ( he, she, it , etc) and other anaphor ( this company,that lady ) with the antecedent named entities. A special type of CO task is ‘Alias Association’ which will link International Business Machine with IBM and Bill Clinton with William Clinton . The results support information merging and consolidation for profiles and events. · Pragmatic Analysis: T his component distinguishes important , relevant information from unimportant , irrelevant information based on lexical resources, structural patterns and contextual clues. Lexical Resources The InfoXtractengine uses various lexical resources including the following: General English dictionaries available in electronic form providing basis for syntactic information. The Oxford Advanced Learners’ Dictionary (OALD) is used extensively. Specialized glossaries for people names, location names, organization names, products, etc. Specialized semantic dictionaries reflecting words that denote person , organization , etc. For example, doctor corresponds to person, church corresponds to organization. This is especially useful in QA. Both WordNet as well as custom thesauri are used in InfoXtract. Statistical language models for Named Entity tagging (retrainable for new domains) InfoXtract exploits a large number of lexical resources. Three advantages exist by separating lexicon modules from grammars : (i) high speed due to indexing-based lookup; (ii) sharing of lexical resources by multiple gramamr modules; (iii) convenience in managing grammars and lexicons. InfoXtract uses two approaches to disambiguate lexicons. The first is a traditional feature-based Grammatical/machine learning Approach where semantic features are assigned to lexical entries that are subsequently used by the grammatical modules. The second approach involves expert lexicons which are discussed in the next section. Intermediate-Level Event Extraction for Temporal and Spatial Analysis and Visualization (SBIR Phase 2 ) Wei Li, Ph.D., Principal Investigator Rohini K. Srihari, Ph.D.,Co-P rincipal Contract No. F30602-01-C-0035 September 2003 《朝华午拾：创业之路》前知识图谱钩沉: 信息体理论 2015-10-31 前知识图谱钩沉，信息抽取任务由浅至深的定义 2015-10-30 前知识图谱钩沉，关于事件的抽取 2015-10-30 SVO as General Events 2015-10-25 Pre-Knowledge-Graph Profile Extraction Research via SBIR 2015-10-24 《知识图谱的先行：从 Julian Hill 说起》 2015-10-24 朝华午拾：在美国写基金申请的酸甜苦辣 - 科学网【置顶：立委科学网博客NLP博文一览（定期更新版）】; 个人分类: 立委科普|8933 次阅读|0 个评论

继续转基因的大数据挖掘：谁在说话？发自何处？能代表美国人民么: 热度 13 liwei999 2013-12-26 02:25; 既然大家感兴趣，圣诞没事在家，就继续做一点转基因的大数据挖掘。这次挖掘仍然是最近一个月的英文社会媒体，区间为： GM food, 11/25/2013 - 12/25/2013 Query 增加了一些同义词，GM Food 定义如下（漏掉重要的没有？）： GM food genetically modified transgenic transgene genetically engineered food GMC GMO GMF Franken-food 从下述共现主题词发现，GMC （for GM crop）有严重歧义，它更多用来作为 GM 汽车品牌: 因此加了以下限制词： { car, chevy, truck, covercraft, Sierra, model, Yukon, display aspect, buick, driver } (也许下次试验干脆扔掉 GMC 这个害群之马? 想来也不会损失多少 coverage) Anyway，在上述定义的 query 下，搜索挖掘的结果如下。共现主题：总览：上图科学网上显示不够清晰，可以下载下列文件在本地屏幕看仔细： 2GM_overview.png 值得注意的是，与上次初步的调查的褒贬指数零下40度不同，这次更加 refined 的调查显示其褒贬指标为零下29 度，转基因食品形象仍然很不佳，老百姓仍然很多疑虑和抱怨，但是不像 -40% 那样恐怖。这次调查做得更加细致，query defined 更周全，个人认为应该更加真实可靠。喜欢和厌恶转基因的理由云图如下：社交媒体的地理分布：从数据分布看，确实是美国网民的帖子占压倒多数。这就回答了以前网友的疑问，究竟是美国人民（网民）还是西方英文世界网民的民意。（我从善如流，为保险起见把前一篇博客的题目从“美国人民”改为“西方”，现在看来，我有依据再把标题改回去了。无需地理过滤，最近一个月英文社会媒体谈论 GM food 的话题，几乎全部集中在美国。）美国国内的分布呢？从颜色的深浅可以看出，这些议论主要集中在加洲（15%）和纽约州（9%），其次是德克萨斯（5%）和佛罗里达（5%）等。其他信息图示：网友一定奇怪，为什么挺转人士把 poison （毒药）列为理由呢？我也很好奇，就 drill down 到数据里面看，原来是这样的样例：我们英文分析器当然知道 poison 是强贬义词，但是议论中的 poison 有否定词 no，因此处理器就转贬为褒。但是，遗憾的是，还是错了，可以算是一个质量的 bug，我这就去修改系统。错误在于，这不是简单的否定式，而是祈使否定句（NO 也用了大写），意思是“坚决不要孟山都的转基因毒药”，显然应该归入反转人士的意见去，现在弄反了。自然语言蛮复杂，除了否定，否定之否定，还有祈使，以及它们的混杂，这就是一个活生生的例证。再举一例，请看下面的 minimal pair：（1） GM food is safer （2） Be safer，GM food 同样是 “be safer”，（1）是褒义描述，而（2）是祈使句，带有贬义（义为 “拜托，你能安全一点，成不？”）对这些 tricky 复杂的自然语言现象，我们做了不少工作，但肯定有漏洞。不过也不要由此担心结果的可靠性。没有自然语言系统是完善的，社会媒体的表达又很不规范。好在我们有不间断的质量检测（QA）流程， benchmarks 利用第三方 crowd-source 人工监测，四个判官，至少三个判官一致才作为标准。统计下来，英文系统精确度一直保持在90%上下。这样的精确度比流行的关键词技术为基础的同类系统至少要高出30-40个百分点。由于大数据对于个体质量不完美有补偿作用（以前我有几篇科普专文谈论这个），因此有信心说，总体结论是靠谱的，反映了社会媒体真实面貌的。最后给一些社会媒体的samples 下载看上列样本的大图： 2GM_sample2.png 2GM_sample1.png 【相关篇什】小数据和个案分析：个人在美国对转基因的感觉 2013-12-26 既然大家感兴趣，圣诞没事在家，就继续做一点转基因的大数据挖掘 2013-12-26 关于转基因及其社会媒体大数据挖掘的种种问题 2013-12-25 【美国网民怎么看转基因：英文社交媒体大数据调查告诉你】 2013-12-24 【置顶：立委科学网博客NLP博文一览（定期更新版）】; 个人分类: 社媒挖掘|5486 次阅读|16 个评论

关于转基因及其社会媒体大数据挖掘的种种问题: 热度 12 liwei999 2013-12-25 07:55; 没想到转基因话题这么热，随手做了一个自动调查发在博客上（【西方怎么看转基因：英文社交媒体大数据调查告诉你】），一天多就达到 7000 点击，40 多评论。先把我对问题的回应整理如下。 1. 关于数据问题你这个数据是有问题的，想想看，美国加州、华盛顿州的公民投票结果都是不同意转基因标识，大多数民意连转基因标识都不要了，对转基因食品安全性的担心能有多少呢？这个样本比你那个说明问题吧？博主回复(2013-12-24 10:04) ：这个数据是没有问题的，因为我们对于最近一个月的社交媒体是不做品牌针对性筛选的，是普适的。对于一个月之上的数据，可以根据 GM Food 这样的主题词去筛选也可以一网打尽，但是有数据成本的问题。至于数据挖掘有没有偏差？文本挖掘技术当然不可能是完美的，但是统计上没有问题，因为第三方多次测试精确度都是接近90%。 2. 关于结论的对错转基因的安全性靠调查研究难以给出正确评价。博主回复(2013-12-24 12:47) ：两码事。安全性是科学问题，假以时间应该由科学解答，或者有些已经回答并得到权威部门认证。舆情调查反映的是普罗百姓对事物的方方面面（包括安全性）的看法而已。还有一点，博文中说的Gluten引起的各种那个过敏症。我一直都不理解美国曹氏中标识的gluten-free的食品为何就那么重要？因为gluten就是我们中国人飞铲喜欢吃的面筋，各位都喜欢吃油面筋塞肉，北方人吃面要“筋”，都是gluten含量很高的食品，跟转基因毫无关系。而且超市中真正gluten-free的食品货架上很少的，现在美国飞机航班上不提供花生，只有那个非常难吃的 pretzel 据说是因为有些人对花生过敏，所以航班不供应花生了。博主回复(2013-12-24 17:55) ：听我的专家朋友说，Gluten 确实与转基因无关，是有公认的科学结论的。那为什么舆情中，这一项作为转基因的主要问题呢？没办法，这就是舆情，我不能改变它，只能反映它。也许这正说明，科普还没做到家，还没能让老百姓了解和信服。任重道远。 3. 关于阴谋论菜老师有奇文 http://blog.sciencenet.cn/blog-789923-752383.html ，说：“李维先生说，该英文社交媒体大数据调查反映了民间的真实态度，这个观点看来要打个问号了。” 这个“该”字从何谈起，我们对社交媒体是一网打尽（因为企业用户要求如此），其组成和来源都在文中有交待。他下面的推测充满了细节，实在太异想天开了。蔡老师怎么不询问一下就这样胡乱猜测呢，描述了一个天大阴谋似的。 “搞这个调查的英文社交媒体的完全可能是反转基因团体控制的，其调查的人群经过了特异的选择，或者说该英文社交媒体的读者主要以反对转基因人士为主。这样的数据即使是“大数据”，又有什么意义呢？”（下划线是立委加的）蔡老师哎，你这样善于胡乱猜测还怎么做学问呢。这是我自己主持开发的软件，用的是未经任何人控制的原始数据（英文叫做 firehose，就是直接从社交网站流出来的），没有人工干预，靠的是自然语言挖掘技术自动生成的。这样说，应该够清楚了吧。我的本行就是舆情自动调查，这只是针对热点问题，从系统输出结果而已，供大家做舆情分析时候一个参考。说明一下，所用的软件本来是为企业用户做客户情报调查用的。社交媒体一网打尽是指在我们的 index （库存）里面，我们包括所有够得着的社交媒体，英文社交媒体从比重上看，twitter 为主，Facebook 其次，其他论坛上百万个来源只占少数，这是当今社交媒体的自然现状。我自己是系统架构师和主要实现人，所以不时用系统挖掘热点话题，一来可以看看系统还有什么可以改良的地方，而来也算是对社区做一些大数据语言挖掘的科普展示。阴谋论简直匪夷所思。蔡老师(2013-12-24 16:24)：我的推测是否正确，不是关键。关键是你的舆情分析软件结果与公民的投票结果相反，必须做出解释，否则这样的舆情分析只会造成更大的认识混乱；如果领导据此决策了，更加有误导嫌疑。 (2013-12-24 16:15)：我不怀疑你的数学分析能力，你的数学模型包括软件应该是不错的。但是，出色的数学分析能力并不能保证你的结果是正确的。牛老师比我说得更全面，还有其他网友对此也有分析。我再将我当年的生物统计学老师说过的话告诉你，让我们共勉吧：数学模型应当建立在具有生物学意义的基础上，离开了这个基础，哪怕数据再充分、模型再漂亮，也是没有意义的。博主回复(2013-12-24 18:07) ：您的思维很怪异：说什么领导据此决策错误，我就更加有误导嫌疑。这是什么话。领导面对这么多志愿免费提供的不同侧面的信息源，依然决策错误，那就是狗屁领导，没有领导能力、决策能力，领导应该下台，这个决策错误与信息提供者有一毛钱的干系？又：说什么数学模型要建立在生物学意义上对于我们文本挖掘媒体调查领域完全是瞎掰。我一个语言学家懂什么生物学，我做语言文本调查要什么生物学的基础？我的对象是自然语言（社交媒体），不是生物啥的。我的模型建立在语言学（语言分析，parsing）基础上，这才是我们这个领域的基础。你隔行传授的经验没有一丝的适应性和可行性。博主回复(2013-12-24 16:44) ：喂，喂，我为什么要为我的自动调查与公民投票的差异做出解释？我只是提供一个信息源而已。这个信息源是大数据高技术的结果。投票那是另外一个信息源。二者吻合还是不吻合，可能有一千个因素，我有什么责任和义务解释？我也从来没关心过那次投票。博主回复(2013-12-24 16:38) ：您如果质疑“调查反映了民间的真实态度”，完全没有问题，因为同样的数据可能有不同解读和 interpretation 如果质疑质量或操作过程中的误差，也还不算离谱。可您凭空从头脑想出来并描述了我的数据被操纵的过程和细节，就让人跌破眼镜了。 4. 关于噪音处理至于博主和蔡晓宁先生说的大数据处理的技术我不会，还得在学习了。不过google或百度上的绝大多数数据是垃圾数据。如果要使用大数据处理来统计，我建议博主把CA或Medlines或 Bological abstrct里的数据做个大数据处理，看看你能得出一个什么结论。这些可就是科学的结论了。至于垃圾过滤，这是任何大数据系统都必须要做的工作，我们也有这个过滤，经过几年的不断改进，测试证明英文大数据的垃圾已经不再是大问题了。不过中文媒体的垃圾过滤还有很多工作要做，有国内微博水军和僵尸的问题。不过对于热点话题，可以只选取带 V 的样本，也就杜绝了水军和僵尸。但对于冷门话题就不好办了。另外一个工作是避免过量重复（de-dup），英文也已经做得很好。对于大数据处理，我完全是外行，现在说几句外行的话，不对就当垃圾处理 1. 任何数据的输入的前提是数据的可靠性，不分青红皂白的把所有数据输入，输入的数据就没有科学性，可靠性，由此而来的结论当然就没有任何意义了 2. 现在网络上有所谓的大V，用定贴机为某一个题目专门不断发帖顶贴，所以不分青红皂白的输入这种数据，实际上是被其他人所误导。 3. 所以要用大数据，必须界定你的大数据来源。否则同一事物，被不同人选择来源，完全就有不同的结论。以上是外行的话。博主回复(2013-12-24 18:35) ：当然你的担心是有理由的。做大数据的人当然要过滤垃圾（包括无处不渗入的色情），而且要 detect 僵尸、水军和数据的过分重复（机器人发贴）等。大数据挖掘有没有价值很多时候是可以验证的。因此上述问题的严重程度，可以从过往的验证中得到一个大概的置信区间。细节就不谈了。总之是，由于大数据的存在以及大数据处理能力的不断完善，舆情挖掘提供了一个难以取代的情报源，在决策中有参考价值。这是可以基本肯定的。 5. 有比较才有鉴别其实这些问题只要放在比较的框架中就不是严重问题。虽然具体语言中褒贬比例和分布可能不同，但是如果一个对象的褒贬指数放在其他对象的褒贬指数的 reference frame 里面来阐释，其解读就比较真实。比如，在过往的许多调查中，我们知道褒贬度降到零下20以后就很不妙，说明媒体形象差，老百姓很多怨气。有了这样一个历史积累，新的品牌或话题如果达到类似的指标，解读就不大会离谱了。特别是，我们做一个行业的多品牌调查和比较的时候更是如此。品牌A与品牌B的在舆情中的相对位置非常说明问题。系统的误差，质量的不完美，语言数据的不完整，以及语言现象的分布不匀，所有这些统统不再成为问题，除非这些差异是针对特定品牌的（这种现象基本不出现）。这一点毛委员早就说过：有比较才有鉴别。有比较才有鉴别，这是铁律。任何指标单看，其意义就很悬。包括我说转基因不受美国人民喜欢（零下29度），也是因为有过往的褒贬指标平均值作为 reference frame 才说的。 6. 大数据是忽悠么？是的，有很多忽悠。但是立委论大数据不是忽悠。》》这篇博文充分说明，“大数据”并不是神仙，完全可能得出错误的结论，“大数据”只是一种工具，要看使用者如何使用它了。博主回复(2013-12-25 00:30) ：说大数据是神仙的，多半是忽悠。今天忽悠大数据，明天其他东西流行了，就忽悠其他东西。但是大数据给决策人（政府、企业或者犹豫如何选择的消费者）提供了一个前所未有的方便工具，去纵览有统计意义的舆情。这在以前只能通过小规模误差很大的人工问卷调查来做。如今自动化了，而且样本量高出好几个量级。拜科学技术所赐。 7. 关于系统可靠性任何一门新的方法的建立，都需要首先用对照验证其有效性。这种抓取网络关键词，有没有与大样本的问卷调查等传统方法进行对比，验证过有效性？看到fear，就下结论说是人民害怕，也许是有人说不用fear呢？至于英文网络的数据，为什么下结论时认为只是美国人的意见，把欧洲人等排除掉了？博主回复(2013-12-25 07:09) ：你提到“抓取关键词”，怀疑系统不能处理否定式（“也许是有人说不用 fear 了”），那是你不了解我的背景，虽然我在100多篇科普性博客已经多方面描述过系统的能力。简言之，我们的舆情挖掘不是通常的关键词技术，而是建立在高级得多的深度语法分析（deep parsing）之上的信息抽取和挖掘。不仅可以对付否定式，否定之否定等更复杂的语言现象也能处理。博主回复(2013-12-25 00:59) ：至于意见中是不是只有美国？这个还真可能不准确。我说的不严谨。英文社交媒体从分布上看，美国网民比重很大，但这个世界是地球村了，当可能包括西方其他国家的舆情夹在里面了。其实很好解决，系统有地理过滤器，我可以只挖掘美国来源的社交媒体。但这样数据量就需要超过一个月的积累才好挖掘，有成本的。今后高兴了，再做吧。博主回复(2013-12-25 00:53) ：有没有与问卷调查以及用其他方式验证过这个系统的有效性？有过。很多次。而且还在不断定期进行中。为什么要这样做？因为质量是系统的生命线，否则怎么取信于客户。大数据挖掘热点话题（冷门话题数据量少，就不好说了）作为舆情的反映，基本可信，至少不比传统手工问卷差。作为决策参考没有问题。你不必相信我的 claim。我也不必提供验证细节。你也不是我的客户。我免费提供信息，权当 raise awareness 和科普。我的论点，您可能只看到了其中一部分。我再多说一点，人们的用词习惯在这个比较里面没有被考虑到。比如，说一个人很丑可能多数人用单词A，而说她美可能会有十种表达方式。假定认为美的有十个人，用词个不一样，说她丑的只有三个人，但看起来是显然的高频词。这不是误导吗？这种现象往往在理性精细思维和随意发泄情绪两种情况下对比很明显。博主回复(2013-12-24 17:45) ：要想做这种矫正，你先得研究清楚这种现象在真实语料中确实存在，严重程度，分布如何。听上去，这一步你还停留在假说层面上。这时候说系统误导是欠公允的。另外，一个概念有多少词来表示只会影响 Word Cloud 图示中的 fonts 的大小（其实即便在那里，我们对比较严格的同义词还是做了合并处理的，因此问题没有想像的严重），但并不影响最重要的 net sentiment （褒贬度）的指标，因为后者是根据褒贬两大类来计算，而不问具体的用词。很多事情都是这样的：赞成的人不怎么发声，而反对的人则会闹出很大的动静。从国人对待转基因的态度到泰国黄红两派的斗争死结，这种现象在社会中普遍存在。这可能有社会心理学的解释。因此，所谓相对客观的大数据，也许本身就已经预设了立场。博主回复(2013-12-25 11:08) ：这种情况是可能的。所以我说，同样的数据结果可以有不同的解读。你可以打折来看褒贬指数。譬如，指数为零表面上似乎是褒贬民意旗鼓相当，你可以打个折扣，理解成其实是褒多于贬，只不过很多满意的人不言声而已。这个折扣怎么打，可以根据经验法则，多一些实验也许慢慢可以显现出来。 8. 我只做民意，不介入转基因的争论老师可以写得更简洁些,并且有学术数据支撑,而不仅仅是民意支撑么? 从学术原理上来讲风险,用数据说话,现在大家抄来抄去,感觉不专业. 博主回复(2013-12-25 00:39) ：我只做民意。别的你们做，或谁爱做谁做。我不反对转基因，也不大关心转基因因为没感觉有什么危险。我的不少懂行朋友也持拥抱态度，我没有理由不相信这些专家。但是民意也需要一定程度的尊重和引导，不能强迫人们吃转基因，或任何东西。在民意有很多顾虑的时候，给民众选择的权利是合理的（除非标识成本太高：其实高成本只要转嫁给要求标识的消费群体就合理了）。题外话：我的转基因立场我其实没有什么立场，也没有相关的生物知识背景，转基因从来不是我关注的对象（因为是热点话题才选它当小白鼠做舆情挖掘的试验，而不是对其感兴趣）。通过朋友的争论和综述，觉得两边的极端派掐架很难看，都有误导和蛊惑。（By the way，我觉得挺转人士当年犯了致命错误，他们不该把 GM 翻译成转基因，要是翻译成生物高科技最新改良食品伍的，就会减少很多阻力和疑虑。名不正则言不顺，言不顺则事不成。现在好多百姓听到转基因就跟听到癌症似的，你说说这个术语翻译是不是害死人。后来金大米起的名字就很好，无奈受转基因的牵累，还是遭到很多人的排斥。）我本人不介意吃转基因食品，因为从来没有感受到有危险。我去肯德基最喜欢买的就是他们的烤玉米。从来不问出处。但事已至此，转基因就不单是科学的问题了。要上老百姓餐桌的话，老百姓的感受不能不顾及。作为一种过渡，我觉得在中国有必要给转基因食品做标识（或给非转食品做标识，one way or the other），给人民选择的权利。这个不必要循美国不标识的例，原因是国情不同，老百姓为食品安全困扰太久，井绳之忧是自然的反应。转基因的最终胜出，应该靠自己的实力，譬如价格的低廉，日益显示出来的安全性等。标识以后，科学人士和我等无所谓（畏）人士会自然成为其消费者。最后会争取到其他中间用户。至于反转死硬分子，就让他们一辈子多花冤枉钱去消费“纯天然”食品也蛮好的。最后来点 fun，转发老友的一个评论。浅谈立委大数据利用的局限性作者: 田牛 1。没法评估和预测股市，黄金走势 2。看不出钓鱼岛的归属依据 3。比较不出社会主义或资本主义的优越性 4。对国际贸易的趋势做不出专家评论 5。完全忽视不上网不用手机的（或上网用手机但不进入他搜索网络）人群的话语权，比重 6。对测量（不是影响）湾区华人选票的帮助不大 7。依然无法用大数据得出吃一顿简单中餐得到的卡路里暂时想到现在，希望立委有突破，我们LBC可以近水楼台先得月。【相关篇什】小数据和个案分析：个人在美国对转基因的感觉 2013-12-26 既然大家感兴趣，圣诞没事在家，就继续做一点转基因的大数据挖掘 2013-12-26 关于转基因及其社会媒体大数据挖掘的种种问题 2013-12-25 【美国网民怎么看转基因：英文社交媒体大数据调查告诉你】 2013-12-24 【置顶：立委科学网博客NLP博文一览（定期更新版）】; 个人分类: 社媒挖掘|4859 次阅读|17 个评论

第八届哈工大-微软亚洲研究院语言技术暑期学校总结: 热度 1 leileiya 2013-8-7 12:14; 2013 年 7 月 24 到 26 日，参加了为期三天的在哈尔滨工业大学威海校区举办的由中国中文信息学会主办、微软亚洲研究院赞助的第八届语言技术暑期学校。听取了多位自然语言处理领域的国际知名专家授课，他们是微软亚洲研究院 Jun'ichi Tsujii 教授、爱丁堡大学 Philipp Koehn 教授、英国 Exeter 大学 Richard Everson 教授、剑桥大学 Diarmuid ó Séaghdha 博士、英国阿伯丁大学 Chenghua Lin 博士，讲座内容包括机器学习、句法分析、语义分析、统计机器翻译和情感分析等。第一天早上进行开幕式， Philipp Koehn 教授代表各位专家致辞简要阐明了人类与机器交流所需的自然语言处理技术给人类社会带来和即将带来的现实应用。微软亚洲研究院的吴枫博士和刘康平博士为到场各位师生展示了微软公司近年来在人机交互技术方面所取得的重要成果，包括 speech translation 、 kinect 、 hair modeling 等技术。紧接着 Philipp Koehn 教授讲授了统计机器翻译相关内容，讲到机器翻译共有三个层次，分别为词汇转换、句型转换、语义转换。统计机器翻译就是对众多的已翻译平行语料进行统计分析建立翻译模型来指导新的需要翻译的语料，通过概率值的计算最终从众多的翻译结果中找到最好的翻译结果，也就是概率值最大的。翻译中存在的问题包括从词语的角度讲存在着一词多义的问题，我们需要利用上下文找到此语境下的最佳翻译，从短语的角度讲如何准确的翻译一些惯用搭配，从句子的角度讲存在多种句子结构重组的问题，从语义的角度讲如何准确的翻译出一些指代词。由于每一个句子每一个词语的翻译可以有多种，我们需要从中找出最好的翻译，我们根据语料中每个词语短语的使用频率，建立翻译路径找出最好的翻译组合。最后 Philipp Koehn 教授讲授了如何将机器翻译与人工翻译结合，使得机器翻译能够最大化的帮助人进行翻译。下午 Jun'ichi Tsujii 教授进行了句法分析相关内容介绍，我们需要实现快速深入准确的分析句子，对不同的句子类型我们需要清晰的辨别出主语宾语以及它们之间的谓语动词，利用隐马尔科夫模型进行词语标注和预测，利用树形结构表示每个句子，通过对句子进行详细的标注与分析可以解决许多的检索问题。第二天上午是学生研讨会，有来自北京师范大学、沈阳航空航天大学等的学生进行了口头报告。北师大的三位同学报告了机器翻译相关研究，第一位同学研究专利翻译的相关内容，重点研究名词 + 动词结构的识别问题，利用 HNC 理论；第二位同学研究专利翻译中长句子的识别问题，通过建立一些规则识别出长句子中的连词、动词等；第三位同学主要讲解了机器翻译中人类和机器进行交互相关问题。最后一位同学主要研究中心词的提取问题，利用经典的齐普夫（ Zipf ）定律。下午 Koehn 教授做了 “ 如何做研究和撰写学术文章 ” 的讲座。 Koehn 教授讲到做研究的过程 have an idea → define the problem → define an evaluation → preliminary studies → implement a baseline → implement you method → evaluate analyze refine 。接着对学术文章的各个部分的注意事项就行了详细的介绍，具体包括 abstract 、 introduction 、 related work 、 description of the problem 、 description of your method 、 experimental setup 、 results 、 analysis 部分。第三天上午 Richard Everson 教授讲授了机器学习的基本内容，主要包括逻辑回归问题、分类问题、非监督学习，如何从大量的头像图片中识别出某一个人、信息检索的结果如何排序、预测受伤者是否可以得救、自动对大量药物进行类型分类等都是机器学习可以解决的问题。机器学习可以分为监督学习和非监督学习，监督学习包括分类和回归，非监督学习包括聚类、 PCA 、 ICA 、 LDA 等。逻辑回归是在已知大量对象的特征输入和输出的情况下，预测新对象的输出结果，利用实际值和预测值之间的差值是否最小进行预测结果评估，分类同样是在在已知大量对象的特征输入和输出的情况下，不同的是输出的是对象类别而不是具体的值，在基于大量对象的学习的基础上根据新对象的输入属性值判定其类别。分类方法中最简单的一种方法就是最近邻分类器，根据对象近距离对象中每种类型的频率判断该对象的类型。然后介绍了神经网络算法，重点讲解了隐含层个数的选择，如果过多就会过拟合，过少就会欠拟合。接着进一步讲授了对于对象有多个属性时如何进行降维处理和对非线性模型的处理，结合具体的在图像处理和语音分离中的应用。最后介绍了三种进行机器学习研究的开源软件，分别是 weka 、 python 中的 scikit-learn 包、 matlab 中的 netlab 包。最后 Richard Everson 教授指出我们在做研究的过程中如何快速的实现我们的想法是最为重要的，不需要花很多的时间在具体细节的实现上，使用这些开源包，可以使我们的研究事半功倍。下午 Chenghua Lin 博士给我们讲解了情感分析和意见挖掘相关内容介绍。用户对某一对象意见的表达方式可以分三种，一种是直接表达，一种是隐含表达，一种是使用反讽语气表达。情感分析有三个层级，词语层、句子层、文档层，有两种传统的情感分类技术，分别是基于词典的方法和基于语料的方法。基于词典的方法就是利用情感词典对文本进行直接匹配，基于语料的方法就是对训练语料进行特征提取，利用朴素贝叶斯、支持向量积、最大熵等算法进行模型学习将学好的模型应用到测试集上，结果显示 SVM 算法的表现最好。接着 Chenghua Lin 博士讲解了最新的利用主题模型技术 (LDA) 进行情感分类，以及 LDA 模型的扩展 JST 模型和 reverse-JST 模型的应用。最后一部分讲解了在某些领域训练数据不足的情况下，可以使用其他领域的数据进行迁移学习的比较研究。各位专家除了介绍了各自研究领域的基本理论和方法，还以大量生动的例子和研究结果介绍了本领域内最新研究进展，受益匪浅。; 5759 次阅读|2 个评论

【立委科普：基于关键词的舆情分类系统面临挑战】: 热度 1 liwei999 2013-2-15 22:47; Five challenges to keyword-based sentiment classification: (1) domain portability; (2) micro-blogs: sentence/twit classification is a lot tougher than document classification; (3) when big data become small: big data load when sliced and diced based on the users' needs quickly becomes mall, and a precision-challenged classifier is bound to have trouble; (4) association of sentiments with object: e.g. comparative expressions like Google is a lot better than Yahoo; (5) too coarse-grained: no actionable insights, this is fatal. 做自动舆情挖掘（sentiment mining）已经好几年了，做之前思考这个课题又有好多年（当年我给这个方向的项目起了个名字，叫 Value Tagging，代码 VTag，大约2002年吧，做了一些可行性研究，把研发的 proposal 提交给老板，当时因为管理层的意见不一和工程及产品经理的合作不佳，使得我的研发组对这个关键项目没能上马，保守地说，由此而来的技术损失伤害了公司的起飞），该是做一个简单的科普式小结的时候了。本片科普随笔谈机器分类系统在舆情抽取中的应用，算是这个系列中的一篇。首先对大数据的舆情挖掘是建立在对具体语言单位的舆情抽取（sentiment extraction）的基础之上。只有当语言海洋中千千万万的舆情表达被抽取存贮到某个数据库以后，我们才有条件针对具体的舆情问题（如某特定品牌的网络形象或某话题的舆情走势），搜索有代表性的舆情资料，并将搜索结果整合提炼，然后以某种方式（譬如《品牌舆情图》或《话题晴雨表》）表达给情报使用者。舆情抽取的主流是利用机器学习基于关键词的分类（sentiment classification），通常的做法非常粗线条，就是把要处理的语言单位（通常是文章 document，或帖子 post）分类为正面（positive）和负面（negative），叫做 thumbs up and down classification。后来加入了中性（neutral），还有在中性之外加入一类 mixed （正反兼有）。这种做法非常流行快捷，在某个特定领域（譬如影评论坛），分类质量可以很高。我们以前的一位实习生做过这样的暑假项目，用的是简单的贝叶斯算法，在影评数据上精度也达到90%以上。这是因为在一个狭窄的领域里面，评论用语相当固定有限，正面负面的评价用词及其分布密度不同，界限清晰，识别自然不难。而且现在很多领域都不愁 labeled data，越来越多的用户评价系统在网络上运转，如 Amazon，Yelp，积累了大量的已经分类好的数据，给机器分类的广泛应用提供了条件。但是，上述分类遇到了以下挑战。首先，领域移植性不好，影评数据训练出来的分类器换到电子器件的客户评价分类上就不管用。要对多个领域训练出多个分类器，很耗时，效果也不能得到保证。于是有人开始研究独立于领域（domain-independent）的舆情分类，其假设前提是舆情表达各个领域之间既有领域独有的表述方式，也有共通的表达（比如，好/good 在任何领域都是正面的形容词，坏/bad 在任何领域都是负面的），而且二者有相当的信息冗余度。这个假设在语言单位较大（譬如长的帖子或文本）时，是成立的。因此，这个挑战不算是致命的。但是很多应用领域，语言单位不大，譬如社会媒体中风行的微博/tweets，就很短，这一点构成第二个挑战。第二个挑战就是，语言单位的缩小使得分类所需要的词汇证据减少，分类难为无米之炊，精度自然大受影响。从文件到帖子到段落再到短句，语言单位每一步变小，舆情分类就日益艰难。这就是为什么多数分类支持的舆情系统在微博（tweets）主导的社会媒体应用时文本抽取质量低下的根本原因（一般精度不过50%-60%）。当然，文本抽取精度不好并不表明不可用，它可以用大数据来弥补（由于大数据信息天生的大冗余度，利用sampling、整合等方法，一个大数据源的整体精度可以远远高于具体文本抽取的精度），使得最终挖掘出来的舆情概貌还是靠谱的。然而，大数据即便在大数据时代也不是总是存在的，因为一个真实世界的应用系统需要提供各种数据切割（slicing n dicing）的功能，这就使得很多应用场景大数据变成了小数据，这是下面要谈的第三个问题。第三是大数据切割的挑战。本来我们利用机器来应对大数据时代的信息挑战，起因就是信息时代的数据量之大。如果数据量小，蛮可以利用传统方式雇佣分析员，用人的分析来提供所要的情报，很多年以来的客户调查就是如此。可是现在大数据了，别说社会媒体整体的爆炸性增长，就是一个大品牌的粉丝网页（fan pages）或一个企业的官方网页，每时每刻所产生的数据也相当惊人，总之无法依靠人工去捕捉、监测情报的变化，以便随时调整与客户的互动策略。这是机器挖掘（无论分类还是更细致的舆情分析）不可不行的时代召唤和现实基础。但是，观察具体应用和情报需求的现场就会发现，用户不会满足于一个静态的、概览似的情报结果，他们所需要的是这样一个工具，它可以随时对原始数据和抽取情报进行各种各样的动态切割（slice/dice 原是烹饪术语，用在情报现场，就是， to break a body of information down into smaller parts or to examine it from different viewpoints so that you can understand it better , 摘自 http://whatis.techtarget.com/definition/slice-and-dice ）。舆情切割有种种不同依据的需求，譬如根据舆情的类别，根据男女的性别，根据数据源，根据时间或地理位置，根据数据的点击率等。有的时候还有多次切割的需求，譬如要看看美国加州（地理）的妇女（性别）对于某个品牌在去年夏季（时间）的舆论反映。最典型的切割应用是以时间为维度的《动态晴雨表》，可以反映一个研究对象的情报走势（trends）。譬如把一年的总数据，根据每月、每周、每日，甚至每小时予以切割，然后观察其分布走势，这对于监测和追踪新话题的舆情消长，对于新产品的发布，新广告的效用评估（譬如美式足球赛上的巨额品牌广告的客户效应）等，都有着至关重要的情报作用。总之，大数据很可能在具体应用时要被切割成小数据，一个分类精度不高（precision-challenged）的系统就会捉襟见肘，被大数据遮盖的缺陷凸显，被自然过滤净化的结果在小数据时会变得不再可信。第四个挑战是找舆情对象的问题。在几乎所有的舆情分析应用中，舆情与舆情的对象必须联系起来，而这一基本要求常常成为舆情分类系统的软肋。当然，在特定数据源和场景中，可能不存在这个问题，比如对 Amazon/Yelp 这类客户评价数据 (review data) 的舆情分析，可以预设舆情的对象是已知的（往往在标题上，或者其他 meta data 的固定位子），每一个review都是针对这个对象（虽然不尽然，review中也可能提到其他的品牌或产品，但是总体上是没问题的，这是由 review data 的特性决定的）。然而在很多社会媒体的自发舆情表述中（譬如微博/脸书/论坛等），在舆情分类之后就有一个找对象的问题。这个问题在比较类语言表达中（比如，谷歌比雅虎强老鼻子啦这样语句，正面评价“强”到底是指雅虎还是谷歌，这看似简单的问题，就难倒了一大帮机器学家，道理很简单，机器分类系统依靠的是keywords，一般没有语言结构的支持，更谈不上理解）。与青春躁动期的小屁孩也差不多，满腔情绪却找不到合适的表达或发泄对象，这几乎成了所有褒贬分类系统的克星。在随兴自发的社会媒体中，这类语言现象并不鲜见，一边夸张三一边骂李四更是网络粉丝们常见的表达（譬如方韩粉丝的网络大战）。第五个挑战是颗粒度的问题。这是分类系统的致命伤，它们只知道数翘大拇指还是伸出中指的数量，这对舆情的总体概览有点意义，但是这远远不是最有价值的舆情情报，关于这一点，我在以前的科普随笔中论述过：褒贬分析只提供舆情的一个概览，它本身并不是 actionable insights. 知道很多人喜欢或者不喜欢一个品牌，so what？企业还是不知道怎么办，最多是在广告宣传投资量的决策上有些参考价值，对于改进品牌产品，适应用户需求，褒贬舆情太过抽象，不能提供有价值的情报。这就要求舆情分析冲破两分、三分、五分的分类法，去发掘这些情绪的背后的动因（reasons/motivation），回答为什么网民喜欢（不喜欢）一个品牌的问题。譬如挖掘发现，原来喜欢麦当劳的主要原因是它发放优惠券，而不喜欢它的原因主要是嫌它热量太大，不利减肥。这样的舆情才是企业在了解自己品牌基本形象以后，最渴望得到的 actionable 情报，因为他们可以据此调整产品方向（如增加绿色品种和花样，水果、色拉等），改变广告策略（如强调其绿色的部分）。摘自【立委科普：舆情挖掘的背后】上面列举的机器舆情分类系统的挑战，并不是要否定机器学习在舆情领域的价值，而是要阐明以下的观点：粗线条的机器分类只是舆情自动分析的开始，万里长征的第一步，一个真正有价值的舆情挖掘系统还需要更多更细致的舆情自动抽取和挖掘的技术来支持。鉴于学界和业界 90% 以上自称做 sentiment 的系统，都是以机器分类作为基础支撑的，明白这一点尤其重要。那么什么是舆情抽取和挖掘系统所需要的完整的技术基础呢？且听下回分解吧（如果兴起的话）。白马非马，人非人民。人民的呼声通过冗余才能听得见，否则就不是人民的声音，只是可有可无、可以忽略、听不见也不用听见的个体意见日期: 02/15/2013 12:41:53 zdlh 2013-2-16 01:08对于网络预审\删帖这样的样本缺失和数据缺实,你怎么办 ? 博主回复(2013-2-16 02:03)：不关我的事儿。铁路警察各管一段。但愿中国随着国家现代化民主化进程，随着新领导人倾听人民呼声的新政的实施，这个问题自然消解。从技术上讲，在大数据的尺度下，不管什么原因缺失部分数据（server down，数据库 bug，数据提供人改主意突然把发出的帖子又很快删除，非民主社会的政府censorship，还有由于成本原因有意排除一些原始数据而只取一定比例的样本，还有垃圾过滤系统太aggressive的误删，或者我们系统本身查全率 (recall) 不理想，比如明明有褒贬却没有识别出来，等等等等：缺失是常态，而求全则是不现实也是不必要的），都不是大问题，as long as 这种缺失对于要挖掘的话题或品牌没有歧视性/针对性。大数据追求的是舆情动态和salient情报，而这些原则上都不会因为数据的部分缺失而改变，因为动态和 salience 的根基就是信息的高冗余度，而不是真正意义上的大海捞针。不亲手做系统，你难以想象互联网的大海里面，冗余的信息有多少。重要的是，冗余本身也是情报的题中应有之义。所谓舆情就是人民（客户）的呼声，而人民的呼声只有通过个体信息的大量冗余才能听得见。这与同一个情愿诉求为什么要征集成千上万的签名道理一样，至于最终是10万签名还是9万五千人签名了，完全不影响舆情的内容及其整体效应。【置顶：立委科学网博客NLP博文一览（定期更新版）】; 个人分类: 立委科普|5414 次阅读|1 个评论

与老前辈谈 NLP 及其趋势: 热度 2 liwei999 2013-1-26 16:37; 【立委按】俗话说，铁打的营盘流水的兵。在我们 NLP（Natural Language Processing）这个营盘里，流水的兵过去了不知几拨。但也有像我这样赖在营盘就是不走的兵，任凭潮起潮落。比我更加坚韧的是我的导师一辈，他们早该退休，但还是抵制不了这个营盘的诱惑，仍然孜孜以求，让人钦佩不已。最近与前辈导师有交流，三句不离本行，似乎时光倒转 30 年，让人感慨几何。择要辑录如下，与同仁和后学分享。》久未通信，但一直很惦记。也一直说要给您拜年呢，眼看春节到了，学生先给您拜个早年。》最近看到信息，有说在全球风靡统计和shallow的时候,你仍坚持deep parsing。赞你做的系统非常成功，表现特好。谬赞了。我坚持 deep parsing 也有无奈，主要为扬长避短。统计的路子和语言学的路子确实各有利弊，但是由于兼通二者的人不多，双方都有贬低对方的时候（更多的是处于主流做统计的人压住语言学家一头）。其实，眼光稍微看远点儿，这种状态是很不健康的。》你的多语言系统如何？中文的还蒙神助吗？中文系统进展很好。千头万绪，但是我是边建造边使用，立竿见影，做起来相对不那么枯燥，减少了 “ 以有涯随无涯而殆” 的苦恼。产品雏形已成，内部使用，正式推出大概在两三个月后吧：主要不是中文系统本身的问题，而是社会媒体的 content sources 还没有搞定。我在科学网博客上有两个专栏【立委科普】和【社媒挖掘】，常常报告一些中文系统及其产品的最新进展：【社媒挖掘】 http://blog.sciencenet.cn/home.php?mod=spaceuid=362400do=blogclassid=161685view=me 【立委科普】： http://blog.sciencenet.cn/home.php?mod=spaceuid=362400do=blogclassid=123261view=me 》HowNet 用了么，好玩吗？选择了知网（ HowNet ） features 整合到词典里面去，正在“玩”呢。刚开始用，将会用得越来越多。这也好，系统编制开始，词典几乎是空的，没有多少 features，只有几十个粗线条和零散的为急用而标注的词典信息，这就迫使系统编制从粗线条轮廓开始。现在引进了 HowNet 的部分，使得我可以开始细化规则系统，慢慢建立一个层级体系，以图优化 parsing 的精度。这个过程还要持续相当一段时候。名词的分类体系，比较容易理解和一致，形容词和动词则难一些。在引进 HowNet 之前，我对形容词只有自己的三五个分类，现在比以前丰富多了。不过，我注意到有些分类太细，比如 HueValue，词汇表中总共才有二三十个词标注了这个信息，我引进之后又逐渐把这样过细的分类排除了（用它的上位概念 AppearanceValue 代替这些过细的子类）。不是因为系统不能负担，而是因为词典信息过于细琐不利于系统的维护和语言学家的掌握（增加了过多的记忆负担）。在粗细之间怎样切一刀，我采取实用主义策略，无需立即决定一刀切。用 HowNet 遇到了一个不大不小的烦扰，这个烦扰在当年用 WordNet 的时候更加严重（可以说是其致命缺陷，以致我后来完全放弃了 WordNet，宁愿用自己编制的不完整的词汇语义标注）。这就是，一些简单的单字词（或部分高频二字词），被标注了太多features，虽然每个 feature 都有道理，对应其中的一个义项，但是这些义项有的是非常偏僻的（统计上可以忽略，这种偏僻义项的 feature 客观上成为 NLP 的 noise），有的则是其引申意义。我不得不手工来 clean 它们，否则用到这些 feature 的规则往往在常用词上栽跟头。我以前开玩笑批评 WordNet，说，WordNet 根本不讲理，所有的X都可能是Y。哪怕是最简单的单词如猫啊（cat）狗（dog）啊，在我们心中完全是意义清晰的动物概念，可是 WordNet 硬要标 cat 是 “人”，dog 也是 “人”，那我们做规则系统的人还怎么敢利用这些 feature 来写规则呢？不敢写啊，因为什么事情都可能发生。 HowNet 大概是为了自身概念系统的完整性，也不同程度存在同样的问题，迫使 NLP 使用者不得不人工做二次裁剪，很费精力。我想词典标注的一个原则应该是，如果一个词的某个意义必须要明确的上下文才能成立，那就可以舍弃（特别是，如果一个单字的某个义项总是出现在多字合成词中，那么这个单字就没有理由标注这个意义及其相应的feature，因为 vocabulary 中的多字词已经 cover 了，它不是一个开放集）。当一个词孤零零站在那里，进入人头脑的概念才是需要标注的。否则使用时很麻烦。还有一个既可以维护完整性又不增添二次清除负担的办法是给 features 分档次：统计上的档次或者其他的区别对待，这样使用者可以根据需要随时 filter 掉不必要的 features 》我还是老样子。天天在调试系统。现在又风靡世界的是big data和deep learning。美国人就是善于出点子。 deep learning 从概念上没有问题。跟过去十多年闹得火热的 weakly supervised learning 以及 boot-strapping 的潮流一样，方向上是没有问题的，前景很诱人。但是这些潮流，结果真正引起实用技术革命的有多少呢？花样翻新可以吸引眼球和热情，但真正的好处还需要拭目以待。前一阵子有搞搜索的老友问到这个题目，我是这样回答的： How do you think about current hot topic: deep learning and knowledge graph? I am not a learning expert, and cannot judge how practical and convenient for the new deep learning trend to solve a practical problem in industry. But conceptually, it is fair to say that deep learning is in the right direction for research. For a long time, the learning community has been struggling between the supervised and unsupervised leaning dilemma, the former being tractable but facing knowledge bottleneck (i.e. the requirement of big labeled training corpus) and the latter only proven to work for (label-less) clustering, which usually cannot directly solve a practical problem. Now in addition to many different ways of semi-supervised or weakly supervised approaches, deep learning provides yet another natural way to combine unsupervised and supervised learning. It makes lots of sense to let the unsupervised learning scratch the surface of a problem area and use the results as input for some supervised learning to take on to deeper levels. Personally, I believe to solve a real life problem in scale, it is best to combine manual rules with machine learning. That makes tasks much more tractable for engineering implementation. 》我觉得rulebased系统的问题，并不是按下葫芦起了瓢，而主要是遇到的新的语言现象。 exactly 按下葫芦起了瓢的问题出现在不严谨的工业开发环境中。如果开发环境好， data-driven 又有及时的大数据 regression-testing 的反馈来指导规则系统的开发，这个问题就自然消解了。新的语言现象的问题，能想到的法子就是用时间去磨。只要开发样本选择得当，不急于求成，这个问题也不最可怕，后面的 long tail 中的相当部分迟早总是可以抓住，直到达到某一点，再往下追去已经没有什么（统计）意义了（diminishing returns）。值得强调的是，新的语言现象的问题不是规则系统专有，对于机器学习它更是难题，本质上就是困扰统计学家多年的 sparse data 的问题。我感觉到的规则系统的特有挑战主要是编制规则时的“平衡术”（ balancing art）不好掌握分寸。人的思维有盲点，结果，有些规则开发不够而影响精度，也有规则开发过度而丧失鲁棒性（ robustness），譬如规则做得过于精巧细致，结果系统稍有变动，规则就散架了。这个火候不好拿捏，没有多年的经验和功夫，往往容易跌入陷阱，使得系统越来越庞杂无序，无法维护。在克服上述挑战的时候，统计可以大派用场。无论是把统计用于数据上，或者用于半自动编写规则，或者有机整合到规则系统中去，都有很多二者亲密合作的机会。譬如让机器学习有统计意义的可能patterns，然后提供给语言学家细化（instantiation），是确保克服人脑盲点的一个有效方法。与 deep learning 的道理一样，见林不见树的机器学习与见树不见林的专家编写难道不能各个发挥一己之长么？【后记】上面提到了 HowNet 使用中 feature noise 的困扰，指的是其当下的中文系统。刚刚核实过，显然 HowNet 的发明者早已意识到这个问题，因此，英文的 HowNet 已经解决了这个问题，汉语的问题最终也会解决。他们对 lexical features 做了如下分类，以方便使用者根据不同使用场景对 features 进行筛选：具体做法是：英文的单字词，采用标记：1、2、3表示可用的优先等级；7表示封存，不采用；英文的词组，采用标记：4、5表示可用的优先等级；6表示封存，不采用； HowNet Browser中查“ability”其中“能力”标记为2；“本领”、“本事”为3；而“能”、“力”标记为7，即被封存，不可采用。可惜还没有标记中文的等级，将来会做的，方法是跟英文一样的。【置顶：立委科学网博客NLP博文一览（定期更新版）】; 个人分类: 立委科普|6593 次阅读|3 个评论

【科研笔记：big data NLP, how big is big?】: 热度 1 liwei999 2012-10-31 19:03; Big data 与云计算一样，成为当今 IT 的时髦词（buzzword / fashion word ). 随着社会媒体的深入人心以及移动互联网的普及，人手一机，普罗百姓都在随时随地发送消息，发自民间的信息正在微博、微信和各种论坛上遍地开花，big data 呈爆炸性增长。对于信息受体（人、企业、政府等），信息过载（information overload）问题日益严重，利用 NLP 等高新技术来帮助处理抽取信息，势在必行。对于搜索引擎，big data 早已不是新的概念，面对互联网的汪洋大海，搜索巨头利用关键词索引（keyword indexing）为亿万用户提供大海捞针的搜索服务已经很多年了。我们每一个网民都是big data搜索的受益者，很难想象一个没有搜索的互联网世界。可是对于语言技术，NLP 系统需要对语言做结构分析，理解其语义，这样的智能型工作比给关键词建立索引要复杂千万倍，也因此 big data 一直是自然语言技术的一个瓶颈。不说整个互联网，光社会媒体这块，也够咱喝一壶了。目前的状况如何呢？我们的语言系统每天阅读分析五千万个帖子。如果帖子的平均词量是30，就是 15 亿词的处理量。This is live feed，现炒现卖，立等可取。至于社会媒体的历史档案，系统通常追溯到一年之前，定期施行深度分析并更新数据库里的分析结果。我们的工程师们气定神闲，运筹帷幄之中，遥控着数百台不知身处哪块祥云的虚拟服务器大军，令其在“云端”不分昼夜并行处理海量数据，有如巨鲸在洋，在数据源与数据库之间吞吐自如，气派不凡。 when we talk about NLP scaling up to big data, it is this BIG This is the progress we have made over the last two years. I feel extremely lucky to work with the engineering talents and product managers who made this possible. It is hardly imaginable that this can be done at this speed in other places than the Valley where magic happens everyday. Where are we? deep parsing 50 MILLION posts a day!!! For one year NLP-indexing of social media data we use to support our products, we have 11 billion tweets (about 6-7% of the entire sample from twitter) 1 billion Facebook posts 1 billion forum posts from 5 million domains 430 million blog posts from 160 million domains 30 million reviews from 300 domains 55 million news reports from 55,000 domains 225 million comments from 100 million domains 回看这些数据，感受到的震撼与我第一次在纽约某科学馆看巨型科教片【宇宙起源】类似：不可思议。个体真是太渺小了。宇宙之大超过想象极限。 And that is by no means the limit for our NLP distributed computing: the real bottleneck comes from the cost considerations rather than the technical barriers of the architecture. Money matters. Archimedes said, Give me a place to stand on, and I will move the Earth . With the NLP magic in hands, we can say, give me a large cloud, we can conquer the entire info world! 阿基米德说，给一个支点，我将翘起地球。今天的NLP技术官僚和工程师们可以说，给我一片云，一片足够大的云，我将鸟瞰整个儿信息世界。一年社会媒体档案的 Big data，比起搜索引擎面对的整个互联网，自然是小巫见大巫。然而，对于 NLP，这已经远远超过我们当初可以想象的极限。令人兴奋的是，处理数据之大虽然超过想象，但却不再自惭渺小，因为渺小如我及其外化的系统已然溶入 big data 的海洋，体验的是弄潮儿的刺激和爽快。曾几何时，大约25年前吧，我们守着 IBM-PC 测试 parsing，大约每句话需要30-35秒处理时间。我抱怨说太慢了，导师笑道：你知足吧。你们这一代开始学这行，是撞上大运了，小小的 PC 可以放在办公室调试，没有比这个更方便了。原来，30几年前，在前 PC 时代，我的导师要做一个试验那叫一个难，常常需要深夜到计算中心排队轮值。当时的机器体积超大，可存储和速度都无法与 PC 比。导师说，一次去东北鉴定某教授的机器翻译系统，一个句子输进去，系统硬是绕不出来，鉴定组一行于是出去喝咖啡吃早点，折腾半拉小时回来，才见到结果。再往前，我的导师刘先生与另一位高先生（我入行的时候他已去世），在上世纪50年代末期（当时我还没有来到这个世界呢），于1959 年开创了中国机器翻译的事业，测试了10个句子，上机试验获得成功（没有汉字fonts，输出的自动翻译译文是汉字编码）。当时的科学报道我读过，是高先生写的，字里行间洋溢着的兴奋之情，穿越时空深深打动了弱冠之年的我。导师说过，在NLP这一行，我们在60年代初真真确确属于世界领先，得益于汉语机器处理的难度以及汉外之间的差异。我理解的他的言下之意是：我们何时再现辉煌？天降大任，此其时也。【置顶：立委科学网博客NLP博文一览（定期更新版）】; 个人分类: 立委科普|3369 次阅读|1 个评论

再说苹果爱疯的贴身小蜜死日（Siri）: 热度 1 liwei999 2011-12-6 04:55; 话说这苹果真是能折腾，一个技术课题硬是折腾成大众话题，弄得满世界都在谈论苹果爱疯的贴身小蜜 “死日”（Siri，没追踪来源，但瞧这名字起的），说是她无所不能，能听得懂主人的心思，自动打理各项事务，从天气预报，到提供股票信息，甚至做笔记。不服不行，人家就是把这个科幻世界的机器人功能产品化了，挑起了大众的好奇心。虽然毁誉参半，批评者与追星者一样多，还是为语言技术扬了名。这不，圣诞节到了，调查表明，美国青少年最喜欢的圣诞礼品有三：（1）礼物券，也就是钱，爱怎么花自己定当然好；（2）时装（爱美之心）；（3）苹果产品（因为那是时髦的代名词）。前些时候，与朋友谈到死日，我说它有三大来源：首先是语言技术，包括语音识别和文句分析。语音识别做了很多年了，据说技术相当成熟可用了（语音虽然是我的近邻了，但隔行如隔山，我就不评论了）。文句分析（这可是我的老本行）当然有难度，但是因为死日是目标制导，即从目标app反推自然语言的问句表达法，所以分析难度大为降低，基本上是 tractable 的（见《立委随笔：非常折服苹果的技术转化能力》）。第二个来源是当年 AskJeeves 借以扬名的 million-dollar idea (见《【 IT风云掌故：金点子起家的　AskJeeves 】》)，巧妙运用预知的问题模板，用粗浅的文句分析技术对应上去，反问用户，从而做到不变应万变，克服机器理解的困难。最近有人问死日：Where can I park the car? 死日就反问道：you asked about park as in a public park, or parking for your vehicle? 虽然问句表明了这位贴身小蜜是绣花枕头，徒有其表，理解能力很有限，但是对于主人（用户）来说，在两个选项中肯定一个不过是举“口”之劳的事情。第三个来源就是所谓聊天系统，网上有不少类似的玩具（见【立委科普：问答系统的前生今世】第一部分 ) ，他是当年面临绝路的老 AI 留下的两大遗产之一（另一个遗产是所谓专家系统）。最近摆弄汉语自动分析，有老友批评得很到位： Quote 俺斗胆评论一下，您的系统长项应该在于自然语言理解至于语法树，应该是小儿科。韩愈说“句读之不知,惑之不解”。语法树的作用在于“知句读”，而您的系统应该强调“解惑”。俺感觉照现在的发展速度，一个能够真正通过图灵检验的系统应该离我们不远了。虽然现在已经有系统号称能通过，但是都是聊天系统，干的本身就是不着调的工作。离真正意义的图灵检验还有距离。是小儿科，可是很多人弄不了这小儿科呢。日期: 12/05/2011 13:41:30 从high level看，从100年后看，说小儿科也差不多。但是你所谓的解惑，离开现实太远。一般来说，机器擅长分析、抽取和挖掘，上升到预测和解惑还有很长的路，除非预测是挖掘的简单延伸，解惑就是回答黑白分明的问题。聊天系统，干的本身就是不着调的工作，一点儿不错，那是所谓 old AI 的残余。不过，即便如此，我在苹果 Siri 中看到的三个来源（1.自然语言技术：语音和文字 2 Askjeeves 模板技术；3. 所谓 AI 聊天系统）中也看到了它的影子，它是有实用价值的，价值在于制造没有理解下的人工智能的假象。昨天甜甜秀给我看：Dad, somebody asked Siri: what are you wearing? Guess how he replies? 这种 trick，即便知道是假的，也让人感觉到设计者的一份幽默。那天在苹果iPhone4s展示会上，临结束全场哄堂大笑，原来苹果经理最后问了一个问题：Who are you? Siri 扭着细声答道： I am your humble assistant. 面对难以实现的人工智能，来点儿幽默似的假的人工智能，也是一种智慧。相关篇什：《立委随笔：非常折服苹果的技术转化能力。。。》《从新版iPhone发布，看苹果和微软技术转化能力的天壤之别》科学网—【立委科普：问答系统的前生今世】科学网—《立委随笔：人工“智能”》【置顶：立委科学网博客NLP博文一览（定期更新版）】; 个人分类: 立委科普|6412 次阅读|1 个评论

更多...

帐号		自动登录	找回密码
密码			注册

关闭 安全验证

标签: 语言技术

相关帖子

相关日志

关闭安全验证