科学网

 找回密码
  注册
科学网 标签 NLP

tag 标签: NLP

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

中文处理的迷思之一:切词特有论
热度 7 liwei999 2011-12-28 13:33
电脑的中文处理业界有很多广为流传似是而非的迷思。在今后的随笔系列中,准备提出来分别讨论。 迷思之一:切词(又叫分词,word segmentation)是中文(或东方语言)处理特有的前提,因为中文书写不分词。 切词作为中文处理的一个先行环节,是为了模块化开发的方便,这一点不错。但它根本就不特有。 任何自然语言处理都有一个先行环节,叫 tokenization,就是把输入的字符串分解成为词汇单位:无论何种书面语,没有这个环节,辞典的词汇信息就无以附着,在词汇类别的基础上的有概括性的进一步句法语义分析就不能进行。中文切词不过是这个通用的 tokenization 的一个案例而已,没有什么“特有”的问题。 有说:中文书写不分词,汉字一个挨一个,词之间没有显性标识,而西文是用 space(空白键)来分词的,因此分词是中文处理的特有难题。 这话并不确切,语言学上错误更多。具体来说: 1 单字词没有切分问题:汉语词典的词,虽然以多字词为多数,但也有单字词,特别是那些常用的功能词(连词、介词、叹词等)。对于单字词,书面汉语显然是有显性标志的,其标志就是字与字的自然分界(如果以汉字作为语言学分析的最小单位,语言学上叫语素,其 tokenization 极其简单:每两个字节为一个汉字),无需 space. 2 多字词是复合词,与其说“切”词,不如说“组”词:现代汉语的多字词(如:利率)是复合词,本质上与西文的复合词(e.g. interest rate)没有区别,space 并不能解决复合词的分界问题。事实上,多字词的识别既可以看成是从输入语句(汉字串)“切”出来的,也可以看成是由单字组合抱团而来的,二者等价。无论中西,复合词抱团都主要靠查词典来解决,而不是靠自然分界(如 space)来解决(德语的名词复合词算是西文中的一个例外,封闭类复合词只要 space 就可以了,开放类复合词则需要进一步切词,叫 decompounding)。如果复合词的左边界或者右边界有歧义问题(譬如:“天下” 的边界可能歧义, e.g. 今天 下 了 一 场 雨;英语复合副词 in particular 的右边界可能有歧义:e.g. in particular cases),无论中西,这种歧义都需要上下文的帮助才能解决。从手段上看,中文的多字词切词并无任何特别之处,英语 tokenization 用以识别复合词 People's Republic of China 和 in particular 的方法,同样适用于中文切词。 咱们换一个角度来看这个问题。根据用不用词典,tokenization 可以分两种。不用词典的tokenization一般被认为是一个比较trivial的机械过程,在西文是见space或标点就切一刀(其实也不是那么trivial因为那个讨厌的西文句点是非常歧义的)。据说汉语没有space,因此必须另做一个特有的切词模块。其实对英语第一种tokenization,汉语更加简单,因为汉字作为语素(morpheme)本身就是自然的切分单位,一个汉字两个字节,每两个字节切一刀即可。理论上讲,词法句法分析完全可以直接建立在汉字的基础之上,无需一个汉语“特有”的切词模块。Note that 多数西文分析系统在Tokenization和POS以后都有一个chunking的模块,做基本短语抱团的工作(如:Base NP)。中文处理通常也有这么一个抱团的阶段。完全可以把组字成词和组词成短语当作同质的抱团工作来处理,跳过所谓的切词。 Chunking of words into phrases are by nature no different from chunking of morphemes (characters) into words. Parsing with no “word segmentation” is thus possible. 当然,在实际操作层面上看,专设一个切词模块有其便利之处。 再看由词典支持的tokenization, 这种 tokenization 才是我们通常讲的切词,说它是中文处理特有的步骤,其实是误解,因为西文处理复合词也一样用到它。除了实验室的 toy system,很难想象一个像样的西文处理系统可以不借助词典而是指望抽象规则来对付所有的复合词:事实上,对于封闭类复合词,即便抽象的词法规则可以使部分复合词抱团,也不如词典的参与来得直接和有益,理由就是复合词的词典信息更少歧义,对于后续处理更加有利。汉语的复合词“利率”与英语的复合词 “interest rate” 从本质上是同样的基于词典的问题,并没有什么“特有”之处。 【相关博文】 《 立委科普: 应该立法禁止分词研究 :=) 》 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|13852 次阅读|11 个评论
突然有一种紧迫感:再不上中文NLP,可能就错过时代机遇了
热度 1 liwei999 2011-12-10 20:29
与业內老友的对话:在‘用’字上狠下功夫 耳边响起了林副主席关于系统开发的谆谆教导: Quote 带着问题做,活做活用,做用结合,急用先做,立竿见影,在‘用’字上狠下功夫。 from: http://blog.sciencenet.cn/home.php?mod=spaceuid=362400do=blogid=510567 这是从与朋友的内部交流中得来的。赶的是编造名人名言的时髦。 ~~~~~~~~~~~~ 在我发文【 坚持四项基本原则,开发鲁棒性NLP系统 】以后,有业内资深老友表示非常有意思,建议我把NLP方面的博文系列汇集加工,可以考虑出书: Quote A good 经验之谈. Somehow it reminds me this -- 带着问题学,活学活用,学用结合,急用先学,立竿见影,在‘用’字上狠下功夫。 You made a hidden preamble -- a given type of application in a given domain. A recommendation: expand your blog a bit as a series, heading to a book. My friend 吴军 did that quite successfully. Of course with statistics background. So he approached NLP from math perspective -- 数学之美 系列 You have very good thoughts and raw material. Just you need to put a bit more time to make your writing more approachable -- I am commenting on comments like 学习不了。 and 读起来鸭梨很大. I know you said: 有时候想,也不能弄得太可读了,都是多年 的经验,后生想学的话,也该吃点苦头。:=) But as you already put in the efforts, why not make it more approachable? The issue is, even if I am willing to 吃点苦头, I still don't know where to start 吃苦头, IF I have never built a real-life NLP system. For example, 词汇主义 by itself is enough for an article. You need to mention its opponents and its history to put it into context. Then you need to give some examples. 文章千古事,网上涂鸦岂敢出书?这倒不是妄自菲薄,主要是出书太麻烦,跟不上这个时代。 我回到: 吴军's series are super popular. When I first read one of his articles on the Google Blackboard, recommended by a friend, I was amazed how well he structured and carried the content. It is intriguing. (边注:当然,他那篇谈 Page Rank 的文章有偏颇,给年轻人一种印象,IT 事业的成功是由技术主宰的,而实际上技术永远是第二位的。对于所谓高技术企业,没有技术是万万不行的,但企业成功的关键却不是技术,这是显而易见的事实了。) For me, to be honest, I do not aim that high. Never bothered polishing things to pursue perfection although I did make an effort to try to link my stuffs into a series for the convenience of cross reference between the related pieces. There are missing links which I know I want to write about but which sort of depends on my mood or time slots. I guess I am just not pressed and motivated to do the writing part. Popularizing the technology is only a side effect of the blogging hobby at times. The way I prove myself is to show that I will be able to build products worth of millions, or even hundreds of millions of dollars. 网上的文字都是随兴之所至,我从来不写命题作文,包括我自己的命题。有时候兴趣来了,就说自己下一篇打算写什么什么,算是自我命题,算是动了某个话题的心思。可是过了两天,一个叉打过去,没那个兴致和时间了,也就作罢。 赶上什么写什么,这就是上网的心态。平时打工已经够累了,上网绝不给自己增加负担。 So far I have been fairly straightforward on what I write about. If there is readability issue, it is mainly due to my lack of time. Young people should be able to benefit from my writings especially once they start getting their hands dirty in building up a system. Your discussion is fun. You can see and appreciate things hidden behind my work more than other readers. After all, you have published in THE CL and you have almost terminated the entire segmentation as a scientific area. Seriously, it is my view that there is not much to do there after your work on tokenization both in theory and practice. I feel some urgency now for having to do Chinese NLP asap. Not many people have been through that much as what I have been, so I am in a position to potentially build a much more powerful system to make an impact on Chinese NLP, and hopefully on the IT landscape as well. But time passes fast . That is why my focus is on the Chinese processing now, day and night. I am keeping my hands dirty also with a couple of European languages, but they are less challenging and exciting. 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|6480 次阅读|2 个评论
坚持四项基本原则,开发鲁棒性NLP系统
热度 3 liwei999 2011-12-9 07:04
《科研随笔:自然语言处理系统的鲁棒性》 以前说过,一个 real life 自然语言处理系统,其质量和可用度除了传统的 data quality 的衡量指标查准度(precision)和查全度(recall)外,还有更为重要的三大指标:海量处理能力(scalability), 深度(depth)和鲁棒性(robustness)(参见:《 “三好”立委要做“三有”系统 》)。 本文就简单谈一下鲁棒性。 为了取得语言处理的鲁棒性(robustness),一个行之有效的方法是实现四个形容词的所指:词典主义(lexicalist); 自底而上(bottom-up); 调适性(adaptive);和 数据制导(data-driven) 。这四条是相互关联的,但各自重点和视角不同。系统设计和开发上贯彻这四项基本原则, 是取得鲁棒性的良好保证。有了鲁棒性,系统对于不同领域的语言,甚至对极不规范的社会媒体中的语言现象,都可以应对。这是很多实用系统的必要条件。 先说词典主义策略。词典主义的语言处理策略是学界和业界公认的一个有效的方法。具体说来就是在系统中增加词汇制导的个性规则的总量。自然语言的现象是如此复杂,几乎所有的规则都有例外,词汇制导是必由之路。从坚固性而言,更是如此。基本的事实是,语言现象中的所谓子语言(sublanguage),譬如专业用语,网络用语,青少年用语,他们之间的最大区别是在词汇以及词汇的用法上。一般来说,颗粒度大的普遍语法规则在各子语言中依然有效。因此,采用词典主义策略,可以有效地解决子语言的分析问题,从而提高系统的鲁棒性。 自底而上的分析方法。这种方法对于自浅而深的管式系统 (pipeline system) 最自然。系统从单词出发,一步一步形成越来越大的句法单位,同时解析句法成分之间的关系。其结果是自动识别(构建)出来的句法结构树。很多人都知道社会媒体的混乱性,这些语言充满了错别字和行话,语法错误也随处可见。错别字和行话由词汇主义策略去对付,语法错误则可以借助自底而上的分析方法。其中的道理就是,即便是充满了语法错误的社会媒体语言,其实并不是说这些不规范的语言完全不受语法规则的束缚,无章可循。事实绝不是如此,否则人也不可理解,达不到语言交流的目的。完全没有语法的“语言”可以想象成一个随机发生器,随机抽取字典或词典的条目发射出来,这样的字串与我们见到的最糟糕的社会媒体用语也是截然不同的。事实上,社会媒体类的不规范语言(degraded text)就好比一个躁动不安的逆反期青年嬉皮士,他们在多数时候是守法的,不过情绪不够稳定,不时会”突破”一下规章法律。具体到语句,其对应的情形就是,每句话里面的多数短语或从句是合法的,可是短语(或从句)之间常常会断了链子。这种情形对于自底而上的系统,并不构成大的威胁。因为系统会尽其所能,一步一步组合可以预测(解构)的短语和从句,直到断链的所在。这样一来,一个句子可能形成几个小的句法子树(sub-trees),子树之内的关系是明确的。 朋友会问:既然有断链,既然那些子树没有形成一个完整的句法树来涵盖所分析的语句,就不能说系统真正鲁棒了,自然语言理解就有缺陷。抽象地说,这话不错。但是在实际使用中,问题远远不是想象的那样严重。其道理就是,语言分析并非目标,语言分析只是实现目标的一个手段和基础。对于多数应用型自然语言系统来说,目标是信息抽取(Information Extraction),是这些预先定义的抽取目标在支持应用(app)。抽取模块的屁股通常坐在分析的结构之上,典型的抽取规则 by nature 是基于子树匹配的,这是因为语句可以是繁复的,但是抽取的目标相对单纯,对于与目标不相关的结构,匹配规则无需cover。这样的子树匹配分两种情形,其一是抽取子树(subtree1)的规则完全匹配在语句分析的子树(subtree2)之内(i.e. subtree2 subtree1),这种匹配不受断链的任何影响,因此最终抽取目标的质量不受损失。只有第二种情形,即抽取子树恰好坐落在分析语句的断链上,抽取不能完成,因而影响了抽取质量。值得强调的是,一般来说,情形2的出现概率远低于情形1,因此自底而上的分析基本保证了语言结构分析的鲁棒性,从而保障了最终目标信息抽取的达成。其实,对于 worst case scenario 的情形2,我们也不是没有办法补救。补救的办法就是在分析的后期把断链 patch 起来,虽然系统无法确知断链的句法关系的性质,但是patched过的断链形成了一个完整的句法树,为抽取模块的补救创造了条件。此话怎讲?具体说来就是,只要系统的设计和开发者坚持调适性开发抽取模块(adaptive extraction)的原则,部分抽取子树的规则完全可以建立在被patched的断链之上,从而在不规范的语句中达成抽取。其中的奥妙就是某样榜戏中所说的墙内损失墙外补,用到这里就是结构不足词汇补。展开来说就是,任何子树匹配不外乎check两种条件约束,一是节点之间句法关系的条件(主谓,动宾,等等),另外就是节点本身的词汇条件(产品,组织,人,动物,等等)。这些抽取条件可以相互补充,句法关系的条件限制紧了,节点词汇的条件就可以放宽;反之亦然。即便对于完全合法规范的语句,由于语言分析器不可避免的缺陷而可能导致的断链(世界上除了上帝以外不存在完美的系统),以及词汇语义的模糊性,开发者为了兼顾查准率和查全率,也会在抽取子树的规则上有意平衡节点词汇的条件和句法关系的条件。如果预知系统要用于不规范的语言现象上,那么我们完全可以特制一些规则,利用强化词汇节点的条件来放宽对于节点句法关系的条件约束。其结果就是适调了patched的断链,依然达成抽取。说了一箩筐,总而言之,言而总之,对于语法不规范的语言现象,自底而上的分析策略是非常有效的,加上调适性开发,可以保证最终的抽取目标基本不受影响。 调适性上面已经提到,作为一个管式系统的开发原则,这一条很重要,它是克服错误放大(error propagation)的反制。理想化的系统,模块之间的接口是单纯明确的,铁路警察,各管一段,步步推进,天衣无缝。但是实际的系统,特别是自然语言系统,情况很不一样,良莠不齐,正误夹杂,后面的模块必须设计到有足够的容错能力,针对可能的偏差做调适才不至于一错再错,步步惊心。如果错误是 consistent/predictable 的,后面的模块可以矫枉过正,以毒攻毒,错错为正。还有一点就是歧义的保存(keeping ambiguity untouched)策略。很多时候,前面的模块往往条件不成熟,这时候尽可能保持歧义,运用系统内部的调适性开发在后面的模块处理歧义,往往是有效的。 最后,数据制导的开发原则,怎样强调都不过分。语言海洋无边无涯,多数语言学家好像一个爱玩水的孩子,跳进大海就乐不思蜀。见水珠不见海洋,见树木不见森林,一条路走到黑,是太多语言学家的天生缺陷。如果由着他们的性子来,系统叠床架屋,其执行和维护的 overhead 会越来越大,而效果却可能越来越差(diminishing returns)。数据制导是迫使语言学家回到现实,开发真正有现实和统计意义的系统的一个保证。这样的保证应该制度化,这牵涉到开发语料库(dev corpus)的选取,baseline 的建立和维护,unit testing 和 regression testing 等开发操作规范的制定以及 data quality QA 的配合。理想的数据制导还应该包括引入机器学习的方法,来筛选制约具有统计意义的语言现象反馈给语言学家。从稍微长远一点看,自动分类用户的数据反馈,实现某种程度的粗颗粒度的自学习,建立半自动人际交互式开发环境,这是手工开发和机器学习以长补短的很有意义的思路。 以上所述,每一条都是经验的总结,背后有成百上千的实例可以详加解说。不过,网文也不是科普投稿,没时间去细细具体解说了。做过的自然有同感和呼应,没做过的也许不明白,等做几年就自然明白了,又不是高精尖的火箭技术。 【相关篇什】 《 “三好”立委要做“三有”系统 》 http://blog.sciencenet.cn/home.php?mod=spaceuid=362400do=blogid=510567 【立委科普:从产业角度说说NLP这个行当】 : http://blog.sciencenet.cn/home.php?mod=spaceuid=362400do=blogid=434811 《科普随笔:keep ambiguity untouched》 http://blog.sciencenet.cn/home.php?mod=spaceuid=362400do=blogid=496808 ◊ 中间那段“黑压压”的一片,有些负担。分段为好。 - mirror 12/08 17:24 噼里啪啦打字下来的,又没有例子,知道可读性不好。 作者: 立委 日期: 12/08/2011 19:11:42 有时候想,也不能弄得太可读了,都是多年 的经验,后生想学的话,也该吃点苦头。:=) RE: 如果输入的原始文本有很多错字漏字,比如来自劣质 OCR的文本。有什么好办法克服错误放大? 这要看具体情况和目标了 作者: 立委 日期: 12/08/2011 23:21:00 适配性、数据制导的容错性开发肯定可以对付一些错字漏字的现象, 但是究竟能对付多少,那些是可以对付的,那些是难以对付的,需要具体分析。 可以看一下两极的情形:天花板和地板。 容错、纠错的系统本质上是对人的容错、纠错能力的 modeling,因此人的理解能力是系统可能逼近的天花板。理论上讲,如果人能理解错字漏字的语句,基本说明了这个不规范的句子形式内涵语义的冗余度,那么一个容错系统应该也可以做到。(当然,人的理解可能不自觉地调动常识、专业知识、联想和推理等非语言学手段,模拟起来很困难,在目前,简单地容错开发是远远达不到人的理解力的。)如果错字漏字造成真正的语句歧义,那么最好的系统最多做到分析的多路径。最后,如果错字漏字严重到人都搞不清什么意思的时候,机器自然是两眼一抹黑。 地板就是一个完全规范的“紧式”语言系统,错字漏字的地方就造成断链,局部语义无法合成为完整的理解(problem with the semantic compositionality, the key to language understanding)。所谓容错开发,就是尽可能把紧式系统松绑为“宽式”系统,把非排歧的无关紧要的条件放宽。譬如英语中的主谓一致关系的条件(第三人称单数的主语需要其谓语动词有词尾-s, 这个中小学语法课上的金科玉律就是紧式语法的条条框框,在宽式开发中一般不用)。再如汉语动词的被动语态,有些句子加了“被”字,万一这个关键的被动语态的助词漏掉了,容错系统应该仍然分析无误,如果逻辑动宾的语义搭配条件参与了分析的过程的话(如:“饭吃了” 就是 “饭被吃了”,而“我吃了” 则不一样)。 上述回答,对于您这样的大儒,基本是可以(被)预测的废话,不说也罢。不过,我也没有更到位的说法给您。 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|9460 次阅读|5 个评论
应该立法禁止切词研究 :=)
热度 1 liwei999 2011-12-6 05:56
RE: 切 词当然是第一关。这个没弄好,其他的免谈 现如今中文自动分析的瓶颈早已不是切词了 日期: 12/05/2011 15:43:43 半个世纪折腾进去无数的人力了。是 overdone,很大程度上是科研财主(sponsors)和科学家共同的失察。应该立法禁止切词(word segmentation or tokenization)研究(kidding :=)),至少是禁止用纳税人钱财做这个研究。 海量词库可以解决切词的90%以上的问题。 统计模型可以解决几个百分点。硬写规则或者 heuristics 也可以达到类似的效果。 再往上,多一个百分点少一个百分点又有什么关系?对于应用没有什么影响,as long as things can be patched and incrementally enhanced over time. 或者任其错误下去(上帝允许系统的不完美),或者在后面的句法分析中 patch。很多人夸大了管式系统的错误放大问题(所谓 error propagation in a pipeline system), 他们忽略了系统的容错能力(robustness through adaptive modules:负负可以得正),这当然要看系统设计者的经验和智慧了。 中文处理在切词之后,有人做了一些短语识别(譬如 Base NP 抱团)和专有名词识别(Named Entity Tagging),再往下就乏善可陈了。 深入不下去是目前的现状。我要做的就是镜子说的“点入”。先下去再说,做一个 end-to-end system,直接支持某个app,用到大数据(big data)上,让数据制导,让数据说话。同时先用上再说,至少尽快显示其初步的value,而不是十年磨一剑。 【相关博文】 再谈应该立法禁止切词研究 2015-06-30 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|10023 次阅读|2 个评论
再说苹果爱疯的贴身小蜜 死日(Siri)
热度 1 liwei999 2011-12-6 04:55
话说这苹果真是能折腾,一个技术课题硬是折腾成大众话题,弄得满世界都在谈论苹果爱疯的贴身小蜜 “死日”(Siri,没追踪来源,但瞧这名字起的),说是她无所不能,能听得懂主人的心思,自动打理各项事务,从天气预报,到提供股票信息,甚至做笔记。不服不行,人家就是把这个科幻世界的机器人功能产品化了,挑起了大众的好奇心。虽然毁誉参半,批评者与追星者一样多,还是为语言技术扬了名。这不,圣诞节到了,调查表明,美国青少年最喜欢的圣诞礼品有三:(1)礼物券,也就是钱,爱怎么花自己定当然好;(2)时装(爱美之心);(3)苹果产品(因为那是时髦的代名词)。 前些时候,与朋友谈到死日,我说它有三大来源:首先是语言技术,包括语音识别和文句分析。语音识别做了很多年了,据说技术相当成熟可用了(语音虽然是我的近邻了,但隔行如隔山,我就不评论了)。文句分析(这可是我的老本行)当然有难度,但是因为死日是目标制导,即从目标app反推自然语言的问句表达法,所以分析难度大为降低,基本上是 tractable 的(见《立委随笔: 非常折服苹果的技术转化能力 》)。第二个来源是当年 AskJeeves 借以扬名的 million-dollar idea (见《 【 IT风云掌故:金点子起家的 AskJeeves 】 》),巧妙运用预知的问题模板,用粗浅的文句分析技术对应上去,反问用户,从而做到不变应万变,克服机器理解的困难。最近有人问死日:Where can I park the car? 死日就反问道:you asked about park as in a public park, or parking for your vehicle? 虽然问句表明了这位贴身小蜜是绣花枕头,徒有其表,理解能力很有限,但是对于主人(用户)来说,在两个选项中肯定一个不过是举“口”之劳的事情。第三个来源就是所谓聊天系统,网上有不少类似的玩具(见 【 立委科普 : 问答系统的前生今世 】 第一部分 ) ,他是当年面临绝路的老 AI 留下的两大遗产之一(另一个遗产是所谓专家系统)。 最近摆弄汉语自动分析,有老友批评得很到位: Quote 俺斗胆评论一下,您的系统长项应该在于自然 语言理解 至于语法树,应该是小儿科。韩愈说“句读之不知,惑 之不解”。 语法树的作用在于“知句读”,而您的系统应该强调“解惑”。 俺感觉照现在的发展速度,一个能够真正通过图灵检验的系统应该离我们不远了。虽然现在已经有系统号称能通过,但是都是聊天系统,干的本身就是不着调的工作。离真正意义的图灵检验还有距离。 是小儿科,可是很多人弄不了这小儿科呢。 日期: 12/05/2011 13:41:30 从high level看,从100年后看,说小儿科也差不多。 但是你所谓的解惑,离开现实太远。 一般来说,机器擅长分析、抽取和挖掘,上升到预测和解惑还有很长的路,除非预测是挖掘的简单延伸,解惑就是回答黑白分明的问题。 聊天系统,干的本身就是不着调的工作,一点儿不错,那是所谓 old AI 的残余。不过,即便如此,我在 苹果 Siri 中看到的三个来源(1.自然语言技术:语音和文字 2 Askjeeves 模板技术;3. 所谓 AI 聊天系统)中也看到了它的影子,它是有实用价值的,价值在于制造没有理解下的 人工智能 的假象。 昨天甜甜秀给我看:Dad, somebody asked Siri: what are you wearing? Guess how he replies? 这种 trick,即便知道是假的,也让人感觉到设计者的一份幽默。 那天在苹果iPhone4s展示会上,临结束全场哄堂大笑,原来苹果经理最后问了一个问题:Who are you? Siri 扭着细声答道: I am your humble assistant. 面对难以实现的人工智能,来点儿幽默似的假的人工智能,也是一种智慧。 相关篇什: 《 立委随笔:非常折服苹果的技术转化能力 。。。》 《 从新版iPhone发布,看苹果和微软技术转化能力的天壤之别 》 科学网—【 立委科普 : 问答系统的前生今世 】 科学网—《立委随笔:人工“智能”》 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|6376 次阅读|1 个评论
《科普随笔:机器八卦》
liwei999 2011-10-14 17:09
机器八卦:Text Mining and Intelligence Discovery (13219) Posted by: liwei999 Date: June 10, 2006 10:07PM 犀角提议,干脆用机器挖掘吧。我不想吓唬大家,但是,理论上说,除非你不冒泡,言多必失,机器八卦,比人工挖掘,可能揭示出你的更多特征。好在该技术还不成熟。 Text mining 是我这几年的研究重点之一,简单介绍一下。我们上贴用的是自然语言(英语,汉语),它们只是一串串字符,称作 unstructured text, 不是真的没有结构,而是结构是隐含的(语法结构、语义结构),需要NLU(Natural Language Understanding)技术中的 parsing 才能使其结构化。为什么要结构化?你想啊,千变万化的字符串组合,表达各种意义,如果不结构化,怎么从中有效地抽取信息(IE: information extraction),并挖掘出有价值的 intelligence (所谓 intelligence discovery) 呢? 当然,也有人不用结构去提取和挖掘,所谓 keyword-based information extraction and text mining. 一些浅层的信息和情报也可能这样被提取/挖掘出来。这就好比大家用 Google 搜索,Google 并不懂你的 query, 在 Google 眼中,不过是一串串互不相干、没有结构 words (search terms),但是由于网上有海量的带有很大 redundancy 的信息,东方不亮西方亮,查询结果往往很不错。Nevertheless, search 也好,IE 和text mining 也好,其最终突破在于 NLU. Text mining 这个术语从 Data mining 而来,后者通常指从数据库里面的有结构的数据中挖掘出规律来(hidden correlations and patterns)。Data mining 是个比较成熟的在实际应用中的技术。它能挖掘出对于 target marketing 很有价值的情报出来。比较 data mining 和 text mining, 可以知道,前者的成熟是建立在数据的结构化(数据库一般是人工建立和输入的)基础之上。因此,要想提高 text mining 的可用度,重点还是把 unstructured text 转化成结构化的 representation. 这就是我们一辈子也研究不完的题目了。 分析主谓宾及其修饰语关系(decoding Subject-Verb-Object, or SVO),是自然语言自动分析 (Natural Language Parsing)的主要任务。SVO parsing 做好了,就为语言理解打好了基础。在此基础上做信息抽取(IE: Information Extraction)和文本挖掘(Text Mining)就事半功倍了。 信息抽取和文本挖掘的区别是,前者提取的是“事实”(facts),文本中 explicitly 表达出来的东东(比如我曾说过我籍贯安徽,是世界语者,喜欢红楼梦,爱好音乐等等),而后者是挖掘文本中没有明说的 hidden relationships, patterns and trends. 所以 信息抽取可以充当文本挖掘的基础:根据已知事实挖掘隐含的联系、规律和走向,真地是八卦了,基于科学基础上的八卦。将来有一天,机器很有可能挖掘出这样一条爆炸性信息来:本坛网友某某某有同性恋倾向。那可比网络上的“人言”厉害,这是有“科学”根据的预测啊。真地是跳到黄河洗不清了。 总结如下: Natural Language Parsing -- Information Extraction -- Text Mining -------- 立委名言:如果生活能重来,我应该从事新闻采编。 钻这个牛角的意思 (13320) Posted by: seeit Date: June 11, 2006 07:25PM 还有一个问题请教立委,网上的信息可信度太低,text mining 如何考虑可信度?不同可信度的信息组合的最终结论的可信度又如何控制?头都想大了。 --------------------------------------------------------------------- 这是个大家都头大的问题。 (13322) Posted by: liwei999 Date: June 11, 2006 07:59PM 样本不够的时候没有什么好办法吧。比如李四一共才冒泡100次,而且刻意隐瞒、歪曲、半真半假。在这样的样本上是挖掘不出可信的情报来。挖掘的情报也只能是参考。 但是,如果样本很大,就可以过滤掉噪音和不实信息(deconflicting),前提是人天生不是时时事事在说谎(这个前提统计学上是成立的)。 情报挖掘由于domain dependent,样本有可能有限度:比如老友论坛,一共也不到两万帖,就是加上隔壁读书论坛,也不到20万帖子的存档吧。对于 domain independent 的知识习得(knowledge acquisition),海量存档提供了极好的过滤基础。去年还是前年,Google 一位仁兄就发了一篇 paper, 谈怎样从海量存档中获取 entity ontology 的知识。方法很简单,却非常有效,他只用了两个 patterns: 1. E1, E2, ..., and other C e.g. desks, tables, chairs and other furniture 2. C such as E1, E2, ..., and En funiture such as desks, tables and chairs E is supposed to be an entity noun, C should be a category noun of the entities. 这两个简单的语言 patterns, 只是英语用来表达实体上下位概念的常用说法,还有更多的说法没有概括进来,所以 recall (查全度)是不够的。这两个 patterns 的精确度(precision)也还有问题,error rate大概导致3-5%的噪音/不实信息。可是Google 数据量大啊,只要运算速度跟上来,海量数据可以弥补查全率的不足(由于 redundancy),而且也过滤了噪音(threshold设置高一点就成)。其结果出奇的好: furniture: desk, table, chair, bench, bookshelf, ... US States: California, Washington, Texas, New York, ... dictators: Saddam Hussein, Castro, Jiang Zemin, Kim Jong Il,... etc. etc. 而所谓 semantic web, 就是在源头上解决问题, (13238) Posted by: liwei999 Date: June 11, 2006 01:23AM 在网页编制发布时就人工参与地结构化了,简单地说,就是让我们搞自然语言的人失业。 但 semantic web 主旨并不是表达 domain independent 的语言分析(主谓宾什么的),而是表达 domain-dependent 的语义 ontology, 直接抓住网页的核心内容。 ontology 是知识表达体系,我们NLP(natural langiuage processing)/NLU(natural language understanding)/IE(information extraction)的目的就是 decode unstructured text,把内容map到预定的 ontology 上。 这是从目标上看。在 decoding 过程中,也有用到知识库,通常是 lexicalized thesaurus 什么的(比如 WordNet),这里面的知识也是成体系的,也包含 ontology. 我们做 NLP/NLU 的人,并非为分析而分析,parsing unstructured text 的主要目标是为 information extraction 和 text mining 服务。主谓宾之类只是手段,而非目的。Semantic web 的理想(或幻想)就是在源头上把目的达到。从这个意义上,是在抢我们的饭碗。 当然,人类用自然语言随处可见,不大可能都愿意麻烦或有条件走 semantic web 所指的路。所以,担心没有活干,是没必要的。 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|3808 次阅读|0 个评论
非常折服苹果的技术转化能力,但就自然语言技术本身来说 ...
热度 1 liwei999 2011-10-8 08:10
苹果 iPhone 4S 里面的 Siri,跟我们的工作没法比 它面对的是非常狭窄的语言子集,我面对的是全开放的语言现象。 自然语言处理,领域越单纯,应用越好 。可我没有这个便利,我面对的是跨领域。 自然语言处理,语言越规范(譬如正式新闻),应用越好。可我没有这个便利,我面对的是社会网络的用语:充满了错别字、不合语法的说法,还有稀奇古怪的表达(譬如emoticons)。 自然语言处理,抽取事实的应用比较成熟,而抽取主观评价和情绪性话语比较难,而且现象很模糊。可我没有这个便利,我面对的是 sentiment extraction。 自然语言处理,单纯任务比较好办,譬如好话坏话的两级分类,复杂任务比较难,譬如要抽取好话坏话里面的细节和动机。可我没有这个便利,我们的产品需要这些细节和动机,来挖掘 actionable insights。 最后,自然语言处理,做研究的不少是玩具系统,做得大的大多也只在几个 GB 的量上做文章 。可我没有这个便利,我面对的是大数据 (big data),至少在 billion 文章的量级上。多了,真地就不一样了,从精雕细刻每棵语句之树,转为对语言之林的鸟瞰,与登泰山的感受类似,一览众林小。 总之,从各个方面看,我都是选择了最难的一条路,没走捷径。是在钢板最厚的地方钻眼。严格地说,不是我的选择,是机遇迫使我做这样的选择。 结果呢?曾经沧海。 没有什么可怕了。产品的技术门槛高了,具有竞争优势,开发起来带劲儿。难题经过多了,人也鲁棒、踏实了。未来呢,天生我才必有用,牛刀宰鸡快如麻。 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|6277 次阅读|2 个评论
从新版iPhone发布,看苹果和微软技术转化能力的天壤之别
热度 2 liwei999 2011-10-5 18:29
终于熬夜把苹果昨天发布 iPhone 4S (其实应该叫 iPhone 5) 的现场录像( http://events.apple.com.edgesuite.net/11piuhbvdlbkvoih10/event/index.html )看了。其中的一个最重要的 feature 叫 Siri,你的贴身秘书,可以用自然语言与其对话,执行你的日常指令。里面用到了自然语言技术,语音识别(speech recognition)以及语言理解(natual language understanding)。这个 demo 非常精彩,几乎就是科幻里面的未来世界。 后一种技术的应用其实没有多少奥妙,能够成功的本质是因为在一个软件应用的世界,其指令集是有限的,设计的时候可以反推:一个特定指令对应若干不同的自然语言的说法。譬如,问天气有多少种说法,问时间有多少种说法。这种有针对性的有限集的自然语言理解,是完全可行的。 大约5-6年前,我有机会与微软的研发人员谈过这个问题。当时,李开复还在微软,他领导的一个项目叫做 Natural Interface,就是想做这个事情。这个项目里面的研究人员问我: 你觉得这个NI的想法可行么?要解决的问题是这样的:现在的软件,功能越来越多,譬如 MS Word,里面有几百个功能。这几百个功能中只有少数的常用指令显现在菜单上,其他很多功能隐藏在软件里面,虽然有 Help 和 搜索,绝大多数用户想用某个功能的时候还是难以找到,或者没有耐心去找。能不能加入这个自然语言的搜索功能,不管用户找什么功能,用什么不同的说法,软件都可以理解,把那些沉睡的 features 提出来给用户。 我几乎不假思索地回答道:这是完全可行的。因为这是一个有限领域,目标指令是很有限的集合(几百个),从指令的概念反推自然语言的说法,用一点儿自然语言分析技术,没有实现不了的理由。而且,即便还有歧义不好解决,至少可以把可能的候选指令提出来,让用户确认。只要研发,就一定可以实现。 五年过去了,微软的产品里面还是不见NI的影子。而苹果呢?不仅实现在 iPhone 4S 里面,而且无缝连接了语音识别。 两相对比,微软与苹果在技术转移成产品的过程中的差别,岂止天壤。无怪过去10年中,微软股票不进反退,而苹果的市场价从原来的微软的零头发展到超过微软的总量。 李开复设想的 NI 项目起步不久,就离开了微软加入 Google,这个项目似乎是流产了。也许他要是留在微软,这个项目早就开花结果了,也未可知。这个技术一旦 streamlined,可以推广应用到所有应用程序中,大大改善人机界面和交流。这样的可行性高、应用面广的机会,而且微软早已看到了方向,却仍然多年停步不前,简直是不可思议的愚鲁。 苹果下一步的计划就是推广到更多的 apps 中,并且在英语西班牙语之外,再加入其他语言的理解。 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|6093 次阅读|2 个评论
【立委科普:问答系统的前生今世】
热度 6 liwei999 2011-4-23 21:43
上周信笔涂鸦写了个不伦不类的科普( 【立委科普:从产业角度说说NLP这个行当】 ),写完自我感觉尚可,于是毛遂自荐要求加精:“ 自顶一哈:不用谦虚,这个应该加精。也不枉我费了大半天的时辰。 ” 本来是玩笑话,没成想科网的编辑MM在两小时内就真地加精上首页了。前几周还在抱怨,怕被编辑打入另册,正琢磨献花还是金币以求青睐,没想到这么快就峰回路转,春暖花开。响鼓不用重敲,原来还是要发奋码字才行,花言巧语的不行。得,一鼓作气,再码两篇。 言归正传,第一篇先介绍一下问答系统(Question Answering system)的来龙去脉。第二篇专事讲解问答系统中的三大难题 What,How 与 Why。 一 前生 传统的问答系统是人工智能(AI: Artificial Intelligence)领域的一个应用,通常局限于一个非常狭窄专门的领域,基本上是由人工编制的知识库加上一个自然语言接口而成。由于领域狭窄,词汇总量很有限,其语言和语用的歧义问题可以得到有效的控制。问题是可以预测的,甚至是封闭的集合,合成相应的答案自然有律可循。著名的项目有上个世纪60年代研制的LUNAR系统,专事回答有关阿波罗登月返回的月球岩石样本的地质分析问题。 SHRDLE 是另一个基于人工智能的专家系统,模拟的是机器人在玩具积木世界中的操作,机器人可以回答这个玩具世界的几何状态的问题,并听从语言指令进行合法操作。 这些早期的AI探索看上去很精巧,揭示了一个有如科学幻想的童话世界,启发人的想象力和好奇心,但是本质上这些都是局限于实验室的玩具系统(toy systems),完全没有实用的可能和产业价值。随着作为领域的人工智能之路越走越窄(部分专家系统虽然达到了实用,基于常识和知识推理的系统则举步维艰),寄生其上的问答系统也基本无疾而终。倒是有一些机器与人的对话交互系统 ( chatterbots ) 一路发展下来至今,成为孩子们的网上玩具(我的女儿就很喜欢上网找机器人对话,有时故意问一些刁钻古怪的问题,程序应答对路的时候,就夸奖它一句,但更多的时候是看着机器人出丑而哈哈大笑。不过,我个人相信这个路子还大有潜力可挖,把语言学与心理学知识交融,应该可以编制出质量不错的机器人心理治疗师。其实在当今的高节奏高竞争的时代,很多人面对压力需要舒缓,很多时候只是需要一个忠实的倾听者,这样的系统可以帮助满足这个社会需求。要紧的是要消除使用者“对牛弹琴”的先入为主的偏见,或者设法巧妙隐瞒机器人的身份,使得对话可以敞开心扉。扯远了,打住。) 二 重生 产业意义上的开放式问答系统完全是另一条路子,它是随着互联网的发展以及搜索引擎的普及应运而生的。准确地说,开放式问答系统诞生于1999年,那一年搜索业界的第八届年会(TREC-8:Text REtrieval Conference)决定增加一个问答系统的竞赛,美国国防部有名的DARPA项目资助,由美国国家标准局组织实施,从而催生了这一新兴的问答系统及其community。问答系统竞赛的广告词写得非常精彩,恰到好处地指出搜索引擎的不足,确立了问答系统在搜索领域的价值定位。记得是这样写的(大体): 用户有问题,他们需要答案。 搜索引擎声称自己做的是信息检索(information retrieval),其实检索出来的并不是所求信息,而只是成千上万相关文件的链接(URLs),答案可能在也可能不在这些文件中。无论如何,总是要求人去阅读这些文件,才能寻得答案。问答系统正是要解决这个信息搜索的关键问题。 对于问答系统,输入的是问题,输出的是答案,就是这么简单。 说到这里,有必要先介绍一下开放式问答系统诞生时候的学界与业界的背景。 从学界看,传统意义上的人工智能已经不再流行,代之而来的是大规模真实语料库基础上的机器学习和统计研究。语言学意义上的规则系统仍在自然语言领域发挥作用,作为机器学习的补充,而纯粹基于知识和推理的所谓智能规则系统基本被学界抛弃(除了少数学者的执着,譬如 Douglas Lenat 的 Cyc )。学界在开放式问答系统诞生之前还有一个非常重要的发展,就是信息抽取(Information Extraction)专业方向及其community的发展壮大。与传统的自然语言理解(Natural Language Understanding)面对整个语言的海洋,试图分析每个语句求其语义不同,信息抽取是任务制导,任务之外的语义没有抽取的必要和价值:每个任务定义为一个预先设定的所求信息的表格,譬如,会议这个事件的表格需要填写会议主题、时间、地点、参加者等信息,类似于测试学生阅读理解的填空题。这样的任务制导的思路一下子缩短了语言技术与实用的距离,使得研究人员可以集中精力按照任务指向来优化系统,而不是从前那样面面俱到,试图一口吞下语言这个大象。到1999年,信息抽取的竞赛及其研讨会已经举行了七届(MUC-7:Message Understanding Conference),也是美国DARPA项目的资助产物(如果说DARPA引领了美国信息产业研究及其实用化的潮流,一点儿也不过誉),这个领域的任务、方法与局限也比较清晰了。发展得最成熟的信息抽取技术是所谓实体名词的自动标注(Named Entity:NE tagging),包括人名、地名、机构名、时间、百分比等等。其中优秀的系统无论是使用机器学习的方法,还是编制语言规则的方法,其查准率查全率的综合指标都已高达90%左右,接近于人工标注的质量。这一先行的年轻领域的技术进步为新一代问答系统的起步和开门红起到了关键的作用。 到1999年,从产业来看,搜索引擎随着互联网的普及而长足发展,根据关键词匹配以及页面链接为基础的搜索算法基本成熟定型,除非有方法学上的革命,关键词检索领域该探索的方方面面已经差不多到头了。由于信息爆炸时代对于搜索技术的期望永无止境,搜索业界对关键词以外的新技术的呼声日高。用户对粗疏的搜索结果越来越不满意,社会需求要求搜索结果的细化(more granular results),至少要以段落为单位(snippet)代替文章(URL)为单位,最好是直接给出答案,不要拖泥带水。虽然直接给出答案需要等待问答系统的研究成果,但是从全文检索细化到段落检索的工作已经在产业界实行,搜索的常规结果正从简单的网页链接进化到 highlight 了搜索关键词的一个个段落。 新式问答系统的研究就在这样一种业界急切呼唤、学界奠定了一定基础的形势下,走上历史舞台。美国标准局的测试要求系统就每一个问题给出最佳的答案,有短答案(不超过50字节)与长答案(不超过250字节)两种。下面是第一次问答竞赛的试题样品: Who was the first American in space? Where is the Taj Mahal? In what year did Joe DiMaggio compile his 56-game hitting streak? 三 昙花 这次问答系统竞赛的结果与意义如何呢?应该说是结果良好,意义重大。最好的系统达到60%多的正确率,就是说每三个问题,系统可以从语言文档中大海捞针一样搜寻出两个正确答案。作为学界开放式系统的第一次尝试,这是非常令人鼓舞的结果。当时正是 dot com 的鼎盛时期,IT 业界渴望把学界的这一最新研究转移到信息产品中,实现搜索的革命性转变。里面有很多有趣的故事,参见我的相关博文: 《朝华午拾:创业之路》 。 回顾当年的工作,可以发现是组织者、学界和业界的天时地利促成了问答系统奇迹般的立竿见影的效果。美国标准局在设计问题的时候,强调的是自然语言的问题(English questions,见上),而不是简单的关键词 queries,其结果是这些问句偏长,非常适合做段落检索。为了保证每个问题都有答案,他们议定问题的时候针对语言资料库做了筛选。这样一来,文句与文本必然有相似的语句对应,客观上使得段落匹配(乃至语句匹配)命中率高(其实,只要是海量文本,相似的语句一定会出现)。设想如果只是一两个关键词,寻找相关的可能含有答案的段落和语句就困难许多。当然找到对应的段落或语句,只是大大缩小了寻找答案的范围,不过是问答系统的第一步,要真正锁定答案,还需要进一步细化,pinpoint 到语句中那个作为答案的词或词组。这时候,信息抽取学界已经成熟的实名标注技术正好顶上来。为了力求问答系统竞赛的客观性,组织者有意选择那些答案比较单纯的问题,譬如人名、时间、地点等。这恰好对应了实名标注的对象,使得先行一步的这项技术有了施展身手之地。譬如对于问题 “In what year did Joe DiMaggio compile his 56-game hitting streak?”,段落语句搜索很容易找到类似下列的文本语句:Joe DiMaggio's 56 game hitting streak was between May 15, 1941 and July 16, 1941. 实名标注系统也很容易锁定 1941 这个时间单位。An exact answer to the exact question,答案就这样在海量文档中被搜得,好像大海捞针一般神奇。沿着这个路子,11 年后的 IBM 花生研究中心成功地研制出打败人脑的电脑问答系统,获得了电视智能大奖赛 Jeopardy! 的冠军(见报道 COMPUTER CRUSHES HUMAN 'JEOPARDY!' CHAMPS ) ,在全美观众面前大大地出了一次风头,有如当年电脑程序第一次赢得棋赛冠军那样激动人心。 当年成绩较好的问答系统,都不约而同地结合了实名标注与段落搜索的技术: 证明了只要有海量文档,snippet+NE 技术可以自动搜寻回答简单的问题。 四 现状 1999 年的学界在问答系统上初战告捷,我们作为成功者也风光一时,下自成蹊,业界风险投资商蜂拥而至。很快拿到了华尔街千万美元的风险资金,当时的感觉真地好像是在开创工业革命的新纪元。可惜好景不长,互联网泡沫破灭,IT 产业跌入了萧条的深渊,久久不能恢复。投资商急功近利,收紧银根,问答系统也从业界的宠儿变成了弃儿(见 《朝华午拾 - 水牛风云》 )。主流业界没人看好这项技术,比起传统的关键词索引和搜索,问答系统显得不稳定、太脆弱(not robust),也很难 scale up, 业界的重点从深度转向广度,集中精力增加索引涵盖面,包括所谓 deep web。问答系统的研制从业界几乎绝迹,但是这一新兴领域却在学界发芽生根,不断发展着,成为自然语言研究的一个重要分支。IBM 后来也解决了 scale up (用成百上千机器做分布式并行处理)和适应性培训的问题,为赢得大奖赛做好了技术准备。同时,学界也开始总结问答系统的各种类型。一种常见的分类是根据问题的种类。 我们很多人都在中学语文课上,听老师强调过阅读理解要抓住几个WH的重要性:who/what/when/where/how/why(Who did what when, where, how and why?). 抓住了这些WH,也就抓住了文章的中心内容。作为对人的阅读理解的仿真,设计问答系统也正是为了回答这些WH的问题。值得注意的是,这些 WH 问题有难有易,大体可以分成两类:有些WH对应的是实体专名,譬如 who/when/where,回答这类问题相对容易,技术已经成熟。另一类问题则不然,譬如what/how/why,回答这样的问题是对问答学界的挑战。简单介绍一下这三大难题如下。 What is X?类型的问题是所谓定义问题,譬如 What is iPad II? (也包括作为定义的who:Who is Bill Clinton?) 。这一类问题的特点是问题短小,除去问题词What与联系词 is 以外 (搜索界叫stop words,搜索前应该滤去的,问答系统在搜索前利用它理解问题的类型),只有一个 X 作为输入,非常不利于传统的关键词检索。回答这类问题最低的要求是一个有外延和种属的定义语句(而不是一个词或词组)。由于任何人或物体都是处在与其他实体的多重关系之中(还记得么,马克思说人是社会关系的总和),要想真正了解这个实体,比较完美地回答这个问题,一个简单的定义是不够的,最好要把这个实体的所有关键信息集中起来,给出一个全方位的总结(就好比是人的履历表与公司的简介一样),才可以说是真正回答了 What/Who is X 的问题。显然,做到这一步不容易,传统的关键词搜索完全无能为力,倒是深度信息抽取可以帮助达到这个目标,要把散落在文档各处的所有关键信息抽取出来,加以整合才有希望( 【立委科普:信息抽取】 )。 How 类型的问题也不好回答,它搜寻的是解决方案。同一个问题,往往有多种解决方案,譬如治疗一个疾病,可以用各类药品,也可以用其他疗法。因此,比较完美地回答这个 How 类型的问题也就成为问答界公认的难题之一。 Why 类型的问题,是要寻找一个现象的缘由或动机。这些原因有显性表达,更多的则是隐性表达,而且几乎所有的原因都不是简单的词或短语可以表达清楚的,找到这些答案,并以合适的方式整合给用户,自然是一个很大的难题。 下一个姐妹篇《立委科普:自动回答 How 与 Why 的问题》准备详细谈谈后两个难题。这篇已经太长,收住吧。希望读者您 不 觉得太枯燥,如果有所收获,则幸甚。谢谢您的阅览。 参考文献: http://en.wikipedia.org/wiki/Question_answering 相关博文: 《新智元笔记:知识图谱和问答系统:开题(1)》 2015-12-21 《新智元笔记:知识图谱和问答系统:how-question QA(2)》 2015-12-22 【立委科普:从产业角度说说NLP这个行当】 《朝华午拾:创业之路》 《朝华午拾 - 水牛风云》 【立委科普:信息抽取】 《朝华午拾:信息抽取笔记》 《立委随笔:机器学习和自然语 言处理》 回答: 历史闲话太多,需要更多的细节。 大多数科普读者也就是听个故事 作者: 立委 (*) 日期: 04/23/2011 15:58:42 如果能激发大学生的好奇心 把科研与产业结合的激动人心的情绪传达给年轻人和后来者 就达到目的了 至于知识传播和技术细节都是其次 问答的文献也汗牛充栋了 光wiki和综述也不少了 寻求细节的文字随处可见 也许强调机器进步与软件进步的对比会更有些可读性。尤其是机器进步带来的革命。 最好能给出具体的事例来。比如过去编程计算,算出一个结果要三天。而今天3秒都不用。 ---------- 就“是”论事儿,就“事儿”论是,就“事儿”论“事儿”。 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|14123 次阅读|14 个评论
【立委科普:从产业角度说说NLP这个行当】
热度 10 liwei999 2011-4-19 08:25
前面一篇博文 的本意,是想借题发挥,从工业运用的角度说说 NLP(Natural Language Processing:自然语言处理)这个行当。不好意思,我算是这个行当在工业界的老古董了(学界不算,学界有的是NLP师爷和大牛)。跟我同期学习这行的同门学长们有小20位,由于这个行当不能在工业界形成规模,他们无一例外都在不同时期改行了,我几乎是幸存在工业界的仅有的化石级元老,赶上了工业应用的末班车。我运气比较好,1986年硕士毕业不久就兼职中关村搞机器翻译的开发,1997年博士快结束又赶上了dot康泡沫的美国大跃进,技术资金源源不断。就是在泡沫破灭后的萧条年代,我也一直对这一行抱有信心,但是从来没有像现在这样信心满满。我的预计,今后20年是 NLP 大显神威的时机,NLP 技术支撑的包括搜索在内的各类信息系统是真正的朝阳产业。(卖瓜的说瓜甜,据说连饶教授这样的大牛都不免。所以读者诸君为免在下误导,可在此打个折扣。) NLP技术的工业可行性我认为已经完全被证明了(很多人也许还没有意识到)。证明的实例表现在我们解决了三个信息搜索的难题:1 是解决了搜索 how 的难题;2 是解决了搜索 why 的难题;3 是解决了对客户反馈情报及其动机的抽提(譬如客户对一个产品的好恶)。前两个问题是问答搜索业界公认的最难类型的题目,第三个题目涉及的是语言现象中较难把握的主观性言语(subjective language), 并非NLP通常面对的对象( objective language, 事实描述的客观性言语),因此成为语言处理最难的课题之一(叫 sentiment extraction)。从问答系统角度来看,回答who/when/where等实体(entity)事实(factoid)的问题比较简单,技术相对成熟,最突出的表现就是IBM的问答系统赢得美国家喻户晓的电视智力竞赛Jeopardy的冠军,电脑打败了人脑,见 COMPUTER CRUSHES HUMAN 'JEOPARDY!' CHAMPS )。这是因为 JEOPARDY! 的大多数问题是属于实体事实类的问题。具体细节就不谈了,以后有机会再论。总之,这三大公认的难题在过去五年中被我们一个一个解决,标志了作为实用技术的 NLP 已经过了需要证明自己的阶段。 很长一段时间,我们在学界测量一个系统,使用的是两个指标:1 查准率(precision:准确性, 即抓到的有多大比例是抓对了的);2 查全率(recall:覆盖面,即所有该抓到的有多大比例真地抓到了)。 Precision 和 recall 的定义如下: Precision 查准率 = correct 查对数 / (correct 查对数 + spurious 查错数) Recall 查全率 = correct 查对数 / (correct 查对数 + missing 查漏数) 由于自然语言的歧义(和诡异),要想编制一套两项指标综合水平(术语叫 F-score)都很高的系统非常不容易。这跟打假也差不多,宁肯错杀一千,也不放过一个的蒋中正野蛮政策保证的是查全率;而宁肯放过一千,也不错杀一个的西方文明世界的准则保证的是查准率。要想兼顾二者,做到打得准也打得全,那是很难的。于是我们挖煤工人有时不得不叹气,面对汪洋大海的语言自觉渺小,吾生也有涯,口水没有涯,殆矣,觉得没什么指望了,疑惑红旗到底可以打得多久? 但是,事实是,自然语言系统能否实用,很多时候并不是决定于上述两个学界公认的指标。在信息爆炸的时代,在面对海量数据的时候,还有一个更重要的指标决定着一个系统在现实世界的成败。这个指标就是系统的吞吐量(through-put),系统可以不可以真正地 scale-up。由于电脑业的飞速发展,硬件成本的下降,由于并行分布式运算技术的成熟,吞吐量在现实中的瓶颈主要是经济上的羁绊,而不是技术意义上的难关。运行一个 farm 的 servers,只要有财力维护,能耐的工程师完全可以做到【立委补注:其实,在云计算时代的今天,不少运算可以按照需要随时租赁虚拟主机,operations team 可以从物理维护上解放出来。】。其结果是革命性的。这种革命性成功的最突出的表现就是 Google 和 Facebook 等公司的做大。 在处理海量数据的问题解决以后,查准率和查全率变得相对不重要了。换句话说,即便不是最优秀的系统,只有平平的查准率(譬如70%,抓100个,只有70个抓对了),平平的查全率(譬如50%,两个只能抓到一个),只要可以scale up,一样可以做出优秀的实用系统来,创造应用程式的奇迹。为什么?根本原因在于两个因素:一是爆炸时代的信息冗余度;二是人类信息消化的有限度。查全率的不足可以用增加所处理的数据量来弥补,这一点比较好理解。既然有价值的信息,有统计意义的信息,不可能是“孤本”,它一定是被许多人以许多不同的说法重复着,那么查全率不高的系统总会抓住它也就没有疑问了。从信息消费者的角度,一个信息被抓住一千次,与被抓住一两次,是没有区别的,信息还是那个信息,只要准确就成。问题是一个查准率不理想的系统怎么可以取信于用户呢?如果是70%的系统,100条抓到的信息就有30条是错的,这岂不是鱼龙混杂,让人无法辨别,这样 的系统还有什么价值?沿着这个思路,别说70%,就是高达90%的系统也还是错误随处可见,不堪应用。这样的视点忽略了实际系统中的信息筛选(sampling)与 整合(fusion) 的环节,因此夸大了系统的个案错误对最终结果的负面影响。实际上,典型的情景是, 面对海量信息源,信息搜索者的几乎任何请求,都会有数不清的潜在答案。由于信息消费者是人,不是神,吃的是五谷杂粮,用的是一目最多十行的双眼,靠的是总比电脑慢三万拍的人脑,即便有一个完美无误的理想系统能够把所有结果,不分巨细都提供给他,他也无福消受,simply overwhelmed,就好比再超人的皇帝也无法应对360后宫720殿一样。因此,一个实用系统必须要做筛选整合,把统计上最有意义的结果呈现出来。这个筛选整合的过程可以保证最终结果的质量远远高于系统的个案质量。 总之,size matters,多了就不一样了。那天跟镜子提到这个在黑暗与半明半暗中摸索了几十年悟出来的体会,镜兄气定神闲地说:“那自然,大数定理决定的”。好像一切都在他的预料之中!! 信息的关键载体之一是语言。只要有语言,就需要NLP,你说说NLP该不该有光明的前景? Quote: NLP is not magic, but the results you can get sometimes seem almost magical. (“NLP 不是魔术,但是,其结果有时几乎就是魔术一般神奇。”) 引自: http://www.confidencenow.com/nlp-seduction.htm 相关博文:【 据说,神奇的NLP可以增强你的性吸引力,增加你的信心和幽会成功率 】 http://bbs.sciencenet.cn/home.php?mod=spaceuid=362400do=blogid=434774 《 朝华午拾:今天是个好日子 》 : http://blog.sciencenet.cn/home.php?mod=spaceuid=362400do=blogid=280613 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|9232 次阅读|18 个评论
据说,神奇的NLP可以增强性吸引力,增加你的信心和幽会成功率
热度 1 liwei999 2011-4-19 05:28
wow,听上去比伟哥的发明还要伟大,I never knew this side of NLP。 我一辈子就干的自然语言处理这行,即 NLP (Natural Language Processing),最近才知道它还有 seductive 的一面。 不过,我特别喜欢这个广告: Quote NLP is not magic, but the results you can get sometimes seem almost magical. (“NLP 不是魔术,但是,其结果有时几乎就是魔术一般神奇。”) http://www.confidencenow.com/nlp-seduction.htm 真地这么神么?是的,我们的NLP技术就是如此。 至于,是否迷惑异性也有这么神,就不得而知了。 老友说: 此NLP非彼NLP也 。 有着能迷惑异性的 seductive 一面的NLP是“Neuro-Linguistic Programming”(神经语言功能训练?),指的是一种心理疗法,详见wiki如下: Quote Neuro-linguistic programming (NLP) is an approach to psychotherapy and organizational change based on a model of interpersonal communication chiefly concerned with the relationship between successful patterns of behaviour and the subjective experiences (esp. patterns of thought) underlying them and a system of alternative therapy based on this which seeks to educate people in self-awareness and effective communication, and to change their patterns of mental and emotional behaviour http://en.wikipedia.org/wiki/Neuro-linguistic_programming 感觉就是一种克服心理障碍的疗法。类似于教结巴讲话:很多结巴主要不是生理性障碍,而是心理障碍,越急越结巴。很多腼腆的人,见到异性就脸红的人也是如此,需要克服心理障碍才能自如 。 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|8415 次阅读|1 个评论
[转载]Useful Tools
smile321 2010-8-10 11:30
Useful Tools Information Retrieval Lemur/Indri The Lemur Toolkit for Language Modeling and Information Retrieval http://www.lemurproject.org/ Indri: Lemur's latest search engine Lucene/Nutch Apache Lucene is a high-performance, full-featured text search engine library written entirely in Java. http://lucene.apache.org/ http://www.nutch.org/ WGet GNU Wget is a free software package for retrieving files using HTTP, HTTPS and FTP, the most widely-used Internet protocols. It is a non-interactive commandline tool, so it may easily be called from scripts, cron jobs, terminals without X-Windows support, etc. http://www.gnu.org/software/wget/wget.html Natural Language Processing EGYPT: A Statistical Machine Translation Toolkit http://www.clsp.jhu.edu/ws99/projects/mt/ GIZA++ (Statistical Machine Translation) http://www.fjoch.com/GIZA++.html GIZA++ is an extension of the program GIZA (part of the SMT toolkit EGYPT) which was developed by the Statistical Machine Translation team during the summer workshop in 1999 at the Center for Language and Speech Processing at Johns-Hopkins University (CLSP/JHU). GIZA++ includes a lot of additional features. The extensions of GIZA++ were designed and written by Franz Josef Och. PHARAOH (Statistical Machine Translation) http://www.isi.edu/licensed-sw/pharaoh/ a beam search decoder for phrase-based statistical machine translation models OpenNLP: http://opennlp.sourceforge.net/ MINIPAR by Dekang Lin (Univ. of Alberta, Canada) MINIPAR is a broad-coverage parser for the English language. An evaluation with the SUSANNE corpus shows that MINIPAR achieves about 88% precision and 80% recall with respect to dependency relationships. MINIPAR is very efficient, on a Pentium II 300 with 128MB memory, it parses about 300 words per second. http://www.cs.ualberta.ca/~lindek/minipar.htm WordNet http://wordnet.princeton.edu/ WordNet is an online lexical reference system whose design is inspired by current psycholinguistic theories of human lexical memory. English nouns, verbs, adjectives and adverbs are organized into synonym sets, each representing one underlying lexical concept. Different relations link the synonym sets. WordNet was developed by the Cognitive Science Laboratory at Princeton University under the direction of Professor George A. Miller (Principal Investigator). HowNet http://www.keenage.com/ HowNet is an on-line common-sense knowledge base unveiling inter-conceptual relations and inter-attribute relations of concepts as connoting in lexicons of the Chinese and their English equivalents. Statistical Language Modeling Toolkit http://svr-www.eng.cam.ac.uk/~prc14/toolkit.html The CMU-Cambridge Statistical Language Modeling toolkit is a suite of UNIX software tools to facilitate the construction and testing of statistical language models. SRI Language Modeling Toolkit www.speech.sri.com/projects/srilm/ SRILM is a toolkit for building and applying statistical language models (LMs), primarily for use in speech recognition, statistical tagging and segmentation. It has been under development in the SRI Speech Technology and Research Laboratory since 1995. ReWrite Decoder http://www.isi.edu/licensed-sw/rewrite-decoder/ The ISI ReWrite Decoder Release 1.0.0a by Daniel Marcu and Ulrich Germann. It is a program that translates from one natural languge into another using statistical machine translation. GATE (General Architecture for Text Engineering) http://gate.ac.uk/ A Java Library for Text Engineering Machine Learning YASMET: Yet Another Small MaxEnt Toolkit (Statistical Machine Learning) http://www.fjoch.com/YASMET.html LibSVM http://www.csie.ntu.edu.tw/~cjlin/libsvm/ LIBSVM is an integrated software for support vector classification, (C-SVC, nu-SVC ), regression (epsilon-SVR, nu-SVR) and distribution estimation (one-class SVM ). It supports multi-class classification. SVM Light 由cornell的Thorsten Joachims在dortmund大学时开发,成为LibSVM之后最为有名的SVM软件包。开源,用C语言编写,用于ranking问题 http://svmlight.joachims.org/ CLUTO http://www-users.cs.umn.edu/~karypis/cluto/ a software package for clustering low- and high-dimensional datasets CRF++ http://chasen.org/~taku/software/CRF++/ Yet Another CRF toolkit for segmenting/labelling sequential data CRF(Conditional Random Fields),由HMM/MEMM发展起来,广泛用于IE、IR、NLP领域 SVM Struct http://www.cs.cornell.edu/People/tj/svm_light/svm_struct.html SVMstruct is a Support Vector Machine (SVM) algorithm for predicting multivariate outputs. It performs supervised learning by approximating a mapping h: X -- Y using labeled training examples (x1,y1), ..., (xn,yn). Unlike regular SVMs, however, which consider only univariate predictions like in classification and regression, SVMstruct can predict complex objects y like trees, sequences, or sets. Examples of problems with complex outputs are natural language parsing, sequence alignment in protein homology detection, and markov models for part-of-speech tagging. SVMstruct can be thought of as an API for implementing different kinds of complex prediction algorithms. Currently, we have implemented the following learning tasks: SVMmulticlass: Multi-class classification. Learns to predict one of k mutually exclusive classes. This is probably the simplest possible instance of SVMstruct and serves as a tutorial example of how to use the programming interface. SVMcfg: Learns a weighted context free grammar from examples. Training examples (e.g. for natural language parsing) specify the sentence along with the correct parse tree. The goal is to predict the parse tree of new sentences. SVMalign: Learning to align sequences. Given examples of how sequence pairs align, the goal is to learn the substitution matrix as well as the insertion and deletion costs of operations so that one can predict alignments of new sequences. SVMhmm: Learns a Markov model from examples. Training examples (e.g. for part-of-speech tagging) specify the sequence of words along with the correct assignment of tags (i.e. states). The goal is to predict the tag sequences for new sentences. Misc Notepad++ 一个开源编辑器,支持C#,perl,CSS等几十种语言的关键字,功能可与新版的UltraEdit,Visual Studio .NET媲美 http://notepad-plus.sourceforge.net WinMerge : 用于文本内容比较,找出不同版本的两个程序的差异 winmerge.sourceforge.net/ OpenPerlIDE : 开源的perl编辑器,内置编译、逐行调试功能 open-perl-ide.sourceforge.net/ ps: 论起编辑器偶见过的最好的还是VS.NET了,在每个function前面有+/-号支持expand/collapse,支持区域copy/cut/paste,使用ctrl+ c/ctrl+x/ctrl+v可以一次选取一行,使用ctrl+k+c/ctrl+k+u可以comment/uncomment多行,还有还有...... Visual Studio .NET is really kool:D Berkeley DB http://www.sleepycat.com/ Berkeley DB不是一个关系数据库,它被称做是一个嵌入式数据库:对于c/s模型来说,它的client和server共用一个地址空间。由于数据库最初是从文件系统中发展起来的,它更像是一个key-value pair的字典型数据库。而且数据库文件能够序列化到硬盘中,所以不受内存大小限制。BDB有个子版本Berkeley DB XML,它是一个xml数据库:以xml文件形式存储数据?BDB已被包括microsoft、google、HP、ford、motorola等公司嵌入到自己的产品中去了 Berkeley DB (libdb) is a programmatic toolkit that provides embedded database support for both traditional and client/server applications. It includes b+tree, queue, extended linear hashing, fixed, and variable-length record access methods, transactions, locking, logging, shared memory caching, database recovery, and replication for highly available systems. DB supports C, C++, Java, PHP, and Perl APIs. It turns out that at a basic level Berkeley DB is just a very high performance, reliable way of persisting dictionary style data structures - anything where a piece of data can be stored and looked up using a unique key. The key and the value can each be up to 4 gigabytes in length and can consist of anything that can be crammed in to a string of bytes, so what you do with it is completely up to you. The only operations available are store this value under this key, check if this key exists and retrieve the value for this key so conceptually it's pretty simple - the complicated stuff all happens under the hood. case study: Ask Jeeves uses Berkeley DB to provide an easy-to-use tool for searching the Internet. Microsoft uses Berkeley DB for the Groove collaboration software AOL uses Berkeley DB for search tool meta-data and other services. Hitachi uses Berkeley DB in its directory services server product. Ford uses Berkeley DB to authenticate partners who access Ford's Web applications. Hewlett Packard uses Berkeley DB in serveral products, including storage, security and wireless software. Google uses Berkeley DB High Availability for Google Accounts. Motorola uses Berkeley DB to track mobile units in its wireless radio network products. LaTeX LATEX, written as LaTeX in plain text, is a document preparation system for the TeX typesetting program. It offers programmable desktop publishing features and extensive facilities for automating most aspects of typesetting and desktop publishing, including numbering and cross-referencing, tables and figures, page layout, bibliographies, and much more. LaTeX was originally written in 1984 by Leslie Lamport and has become the dominant method for using TeXfew people write in plain TeX anymore. The current version is LaTeX2. 中文套装可以在http://www.ctex.org找到 http://learn.tsinghua.edu.cn:8080/2001315450/comp.html by王垠 EditPlus http://www.editplus.com/ EditPlus is an Internet-ready 32-bit text editor, HTML editor and programmers editor for Windows. While it can serve as a good replacement for Notepad, it also offers many powerful features for Web page authors and programmers. EditPlus当前最新版本是2.21,BrE和AmE的spell checker需要单独下载安装包安装 GVim: Vi IMproved http://www.vim.org/index.php Vim is an advanced text editor that seeks to provide the power of the de-facto Unix editor 'Vi', with a more complete feature set. It's useful whether you're already using vi or using a different editor. Users of Vim 5 should consider upgrading to Vim 6, which is greatly enhanced since Vim 5. Vim is often called a programmer's editor, and so useful for programming that many consider it an entire IDE. It's not just for programmers, though. Vim is perfect for all kinds of text editing, from composing email to editing configuration files. 普通windows用户可以从这个链接下载ftp://ftp.vim.org/pub/vim/pc/gvim64.exe Cygwin : GNU + Cygnus + Windows http://www.cygwin.com/ Cygwin is a Linux-like environment for Windows. It consists of two parts: A DLL (cygwin1.dll) which acts as a Linux API emulation layer providing substantial Linux API functionality. A collection of tools, which provide Linux look and feel. MinGW: Minimalistic GNU for Windows http://www.mingw.org/ MinGW: A collection of freely available and freely distributable Windows specific header files and import libraries combined with GNU toolsets that allow one to produce native Windows programs that do not rely on any 3rd-party C runtime DLLs. 在windows下编译、移植unix/linux平台的软件。cygwin相当于在windows系统层上模拟了一个POSIX-compliant的layer(库文件是cygwin1.dll);而mingw则是使用 windows自身的库文件(msvcrt.dll)实现了一些符合POSIX spec的功能,并不是完全POSIX-compliant。mingw其实是cygwin的一个branch,由于它没有实现linux api的模拟层,所以开销要比cygwin低些。 CutePDF Writer http://www.cutepdf.com Portable Document format (PDF) is the de facto standard for the secure and reliable distribution and exchange of electronic documents and forms around the world. CutePDF Writer (formerly CutePDF Printer) is the free version of commercial PDF creation software. CutePDF Writer installs itself as a printer subsystem. This enables virtually any Windows applications (must be able to print) to create professional quality PDF documents - with just a push of a button! 比起acrobat来,一大优点就是它是免费的。而且一般word图表、公式的转换效果很好,what you see is what you get,哈哈。可能需要ps2pdf converter,在该站点有链接提供下载 R http://www.r-project.org/ R is a language and environment for statistical computing and graphics. It is a GNU project which is similar to the S language and environment which was developed at Bell Laboratories (formerly ATT, now Lucent Technologies) by John Chambers and colleagues. R can be considered as a different implementation of S. There are some important differences, but much code written for S runs unaltered under R. R provides a wide variety of statistical (linear and nonlinear modelling, classical statistical tests, time-series analysis, classification, clustering, ...) and graphical techniques, and is highly extensible. The S language is often the vehicle of choice for research in statistical methodology, and R provides an Open Source route to participation in that activity. One of R's strengths is the ease with which well-designed publication-quality plots can be produced, including mathematical symbols and formulae where needed. Great care has been taken over the defaults for the minor design choices in graphics, but the user retains full control. R is available as Free Software under the terms of the Free Software Foundation's GNU General Public License in source code form. It compiles and runs on a wide variety of UNIX platforms and similar systems (including FreeBSD and Linux), Windows and MacOS. R统计软件与MatLab类似,都是用在科学计算领域的。不同的是它是开源的东东:) From : http://kapoc.blogdriver.com/kapoc/1268927.html from: http://www.comp.nus.edu.sg/~kwang/MiscTools.html http://gump-bean.javaeye.com/category/74134?show_full=true
个人分类: tools|4364 次阅读|0 个评论
ACL short paper 被拒内容及感受
热度 1 zeroiszero 2010-4-22 17:04
ACLshort paper被拒,有点郁闷,本以为short paper本来就是考虑到是一个正在进行中的工作的前期部分,可能实验不会太完整,不过似乎我想错了,在文章中由于篇幅,没有将实验部分交待的很细致,实验也没有完全展开,本以为能对前面的基本假设做一个初步证明即可,结果3个评审倒是意见一致了: (1)the description of the experiment on Semeval 2007 needs more details. Its not clear how the training set expansion is done and the different systems are defined. This could be the more interesting part of the paper but is vaguely described in one paragraph and consequently difficult to understand. A comparison with the features used by other Semeval participants would help to understand the contribution of the proposed technique. (2)All in all, the results over ngrams are interesting, but the application to WSD needs more work. (3)It will be more interesting to see your comparison for several languages--- currently I find your results too limited for ACL. 当然,外语写作的问题再次暴露,虽然我找了个人帮我改过了。 The paper would really profit from an English native speaker for proof-reading. It is partially very hard to understand and some sentences just don't make much sense. Ths goes beyond the standard number of mistakes that are unavoidable for non-native speakers.
个人分类: 会议与期刊动态|9356 次阅读|0 个评论
自然语言处理与智能计算(ICGEC-2010-IS20)(EI、ISTP收录)
liuysd 2010-3-11 08:23
I CGEC -20 10 -IS 20 The Fourth International Conference on Genetic and Evolutionary Computing December 13 15, 2010, ShenZhen, China http://bit.kuas.edu.tw/~icgec10/ Session Title Natural Language Processing and Intelligent Computation ( NLPIC) http://bit.kuas.edu.tw/~icgec10/ Call for Paper We are organizing an invited session on Natural Language Processing and Intelligent Computation for ICGEC-2010, which will be held in Shenzhen , China on December 13-15, 2010. W e expect that individuals and research institutions in the areas of both Intelligence Computation and NLP could pay attention to this session , which may contribute to boost these two areas. The topics of the session include, but are not limited to: 1. Genetic algorithms for natural language processing ; 2. Genetic algorithms for speech processing. 3. Computational intelligence and semantic compuation ; 4 . Application issues of NLP based computational intelligence. 5 . Other topics of relevance in computational intelligence and NLP application etc. Important Dates The deadline for paper submission May 31, 2010 The date for notification July 31, 2010 The deadline for camera-ready paper submission August 31, 2010 Paper Submission Papers are invited from prospective authors with interest on the related areas. Each paper should follow the IEEE paper format (DOC, LaTex Formatting Macros, PDF) with title, authors' names, affiliations and email addresses, an up to 150-words abstract, and a two-column body with 4 single-spaced pages and with font size at 10 pts . All papers must be submitted electronically in PDF format only and be mailed to: PhD. Peng Jin at jandp @pku.edu.cn Any questions, please feel free to contact with following organizers: Sessions Organizers Yao Liu Associate Professor Institute of Scientific and Technical Information of China No.15 Fuxing Road haidian District, Beijing 100038 China E-mail:liuy@istic.ac.cn Tel:086-01058882 053 Peng Jin Assistant Professor, Doctor School of Computer Science , Leshan Normal University No. 778 Binhe Rd. Shizhong District. 614004 , Leshan , Sichuan , China E-mail: jandp@ pku.edu.cn Tel:086- 8332276382 - 622
个人分类: 会议征文|6332 次阅读|1 个评论
立委发表记录
liwei999 2010-2-19 05:44
Publications Srihari, R, W. Li and X. Li, 2006. Question Answering Supported by Multiple Levels of Information Extraction, a book chapter in T. Strzalkowski S. Harabagiu (eds.), Advances in Open- Domain Question Answering. Springer, 2006, ISBN:1-4020-4744-4. online info Srihari, R., W. Li, C. Niu and T. Cornell. 2006. InfoXtract: A Customizable Intermediate Level Information Extraction Engine. Journal of Natural Language Engineering, 12(4), 1-37, 2006. online info Niu,C., W. Li, R. Srihari, and H. Li. 2005. Word Independent Context Pair Classification Model For Word Sense Disambiguation. . Proceedings of Ninth Conference on Computational Natural Language Learning (CoNLL-2005). Srihari, R., W. Li, L. Crist and C. Niu. 2005. Intelligence Discovery Portal based on Corpus Level Information Extraction . Proceedings of 2005 International Conference on Intelligence Analysis Methods and Tools. Niu, C., W. Li and R. Srihari. 2004. Weakly Supervised Learning for Cross-document Person Name Disambiguation Supported by Information Extraction . In Proceedings of ACL 2004. Niu, C., W. Li, R. Srihari, H. Li and L. Christ. 2004. Context Clustering for Word Sense Disambiguation Based on Modeling Pairwise Context Similarities . In Proceedings of Senseval-3 Workshop. Niu, C., W. Li, J. Ding, and R. Rohini. 2004. Orthographic Case Restoration Using Supervised Learning Without Manual Annotation . International Journal of Artificial Intelligence Tools, Vol. 13, No. 1, 2004. Niu, C., W. Li and R. Srihari 2004. A Bootstrapping Approach to Information Extraction Domain Porting . AAAI-2004 Workshop on Adaptive Text Extraction and Mining (ATEM), California. Srihari, R., W. Li and C. Niu. 2004. Corpus-level Information Extraction. In Proceedings of International Conference on Natural Language Processing (ICON 2004), Hyderabad, India. Li, W., X. Zhang, C. Niu, Y. Jiang, and R. Srihari. 2003. An Expert Lexicon Approach to Identifying English Phrasal Verbs . In Proceedings of ACL 2003. Sapporo, Japan. pp. 513-520. Niu, C., W. Li, J. Ding, and R. Srihari 2003. A Bootstrapping Approach to Named Entity Classification using Successive Learners . In Proceedings of ACL 2003. Sapporo, Japan. pp. 335-342. Li, W., R. Srihari, C. Niu, and X. Li. 2003. Question Answering on a Case Insensitive Corpus . In Proceedings of Workshop on Multilingual Summarization and Question Answering - Machine Learning and Beyond (ACL-2003 Workshop). Sapporo, Japan. pp. 84-93. Niu, C., W. Li, J. Ding, and R.K. Srihari. 2003. Bootstrapping for Named Entity Tagging using Concept-based Seeds . In Proceedings of HLT/NAACL 2003. Companion Volume, pp. 73-75, Edmonton, Canada. Srihari, R., W. Li, C. Niu and T. Cornell. 2003. InfoXtract: A Customizable Intermediate Level Information Extraction Engine . In Proceedings of HLT/NAACL 2003 Workshop on Software Engineering and Architecture of Language Technology Systems (SEALTS). pp. 52-59, Edmonton, Canada. Li, H., R. Srihari, C. Niu, and W. Li. 2003. InfoXtract Location Normalization: A Hybrid Approach to Geographic References in Information Extraction . In Proceedings of HLT/NAACL 2003 Workshop on Analysis of Geographic References. Edmonton, Canada. Li, W., R. Srihari, C. Niu, and X. Li 2003. Entity Profile Extraction from Large Corpora . In Proceedings of Pacific Association for Computational Linguistics 2003 (PACLING03). Halifax, Nova Scotia, Canada. Niu, C., W. Li, R. Srihari, and L. Crist 2003. Bootstrapping a Hidden Markov Model for Relationship Extraction Using Multi-level Contexts . In Proceedings of Pacific Association for Computational Linguistics 2003 (PACLING03). Halifax, Nova Scotia, Canada. Niu, C., Z. Zheng, R. Srihari, H. Li, and W. Li 2003. Unsupervised Learning for Verb Sense Disambiguation Using Both Trigger Words and Parsing Relations . In Proceedings of Pacific Association for Computational Linguistics 2003 (PACLING03). Halifax, Nova Scotia, Canada. Niu, C., W. Li, J. Ding, and R.K. Srihari 2003. Orthographic Case Restoration Using Supervised Learning Without Manual Annotation . In Proceedings of the Sixteenth International FLAIRS Conference, St. Augustine, FL, May 2003, pp. 402-406. Srihari, R. and W. Li 2003. Rapid Domain Porting of an Intermediate Level Information Extraction Engine . In Proceedings of International Conference on Natural Language Processing 2003. Srihari, R., C. Niu, W. Li, and J. Ding. 2003. A Case Restoration Approach to Named Entity Tagging in Degraded Documents. In Proceedings of International Conference on Document Analysis and Recognition (ICDAR), Edinburgh, Scotland, Aug. 2003. Li, H., R. Srihari, C. Niu and W. Li 2002. Location Normalization for Information Extraction . In Proceedings of the 19th International Conference on Computational Linguistics (COLING-2002). Taipei, Taiwan. Li, W., R. Srihari, X. Li, M. Srikanth, X. Zhang and C. Niu 2002. Extracting Exact Answers to Questions Based on Structural Links . In Proceedings of Multilingual Summarization and Question Answering (COLING-2002 Workshop). Taipei, Taiwan. Srihari, R. and W. Li. 2000. A Question Answering System Supported by Information Extraction . In Proceedings of ANLP 2000. Seattle. Srihari, R., C. Niu and W. Li. 2000. A Hybrid Approach for Named Entity and Sub-Type Tagging . In Proceedings of ANLP 2000. Seattle. Li. W. 2000. On Chinese parsing without using a separate word segmenter. In Communication of COLIPS 10 (1). pp. 19-68. Singapore. Srihari, R. and W. Li. 1999. Information Extraction Supported Question Answering . In Proceedings of TREC-8. Washington Srihari, R., M. Srikanth, C. Niu, and W. Li 1999. Use of Maximum Entropy in Back-off Modeling for a Named Entity Tagger, Proceedings of HKK Conference, Waterloo, Canada Li. W. 1997. Chart Parsing Chinese Character Strings. In Proceedings of the Ninth North American Conference on Chinese Linguistics (NACCL-9). Victoria, Canada. Li. W. 1996. Interaction of Syntax and Semantics in Parsing Chinese Transitive Patterns. In Proceedings of International Chinese Computing Conference (ICCC’96). Singapore Li, W. and P. McFetridge 1995. Handling Chinese NP Predicate in HPSG, Proceedings of PACLING-II, Brisbane, Australia. Liu, Z., A. Fu, and W. Li. 1992. Machine Translation System Based on Expert Lexicon Techniques. Zhaoxiong Chen (eds.) Progress in Machine Translation Research , pp. 231-242. Dianzi Gongye Publishing House.Beijing. (刘倬,傅爱平,李维 (1992). 基于词专家技术的机器翻译系统,”机器翻译研究新进展”,陈肇雄编辑,电子工业出版社,第 231-242 页,北京) Li, Uej (Wei) 1991. Lingvistikaj trajtoj de la lingvo internacia Esperanto. In Serta gratulatoria in honorem Juan Rgulo, Vol. IV. pp. 707-723. La Laguna: Universidad de La Laguna http://blog.sciencenet.cn/blog-362400-285729.html Li, W. and Z. Liu. 1990. Approach to Lexical Ambiguities in Machine Translation. In Journal of Chinese Information Processing. Vol. 4, No. 1. pp. 1-13. Beijing. (李维,刘倬 (1990). 机器翻译词义辨识对策,《中文信息学报》,1990年第一期,第 1-13 页,北京) (Its abstract published in Computer World 1989/7/26 ) Liu, Z., A. Fu, and W. Li. 1989. JFY-IV Machine Translation System. In Proceedings of Machine Translation SUMMIT II. pp. 88-93, Munich. Li, W. 1988. E-Ch/A Machine Translation System and Its Synthesis in the Target Languages Chinese and Esperanto. In Journal of Chinese Information Processing. Vol. 2, No. 1. pp. 56-60. Beijing (李维 (1988). E-Ch/A 机器翻译系统及其对目标语汉语和英语的综合,《中文信息学报》,1988年第一期,第 56-60 页,北京) Li, W. 1988. Lingvistikaj Trajtoj de Esperanto kaj Ghia Mashin-traktado. El Popola Chinio. 1988. Beijing Li, W. 1988. An Experiment of Automatic Translation from Esperanto into Chinese and English, World Science and Technology 1988, No. 1, STEA sub Academia Sinica. 17-20, Beijing. Liu, Y. and W. Li 1987. Babelo Estos Nepre Konstruita. El Popola Chinio. 1987. Beijing (also presented in First Conference of Esperanto in China, 1985, Kunming) Li, W. 1986. Automatika Tradukado el la Internacia Lingvo en la Chinan kaj Anglan Lingvojn, grkg/Humankybernetik, Band 27, Heft 4. 147-152, Germany. Other Publications Chinese Dependency Syntax SBIR Grants (17 Final Reports published internally) Ph.D. Thesis: THE MORPHO-SYNTACTIC INTERFACE IN A CHINESE PHRASE STRUCTURE GRAMMAR M.A. Thesis in Chinese: 世界语到汉语和英语的自动翻译试验 –EChA机器翻译系统概述 《立委科普:Machine Translation》 (encoded in Chinese GB) Li, W. 1997. Outline of an HPSG-style Chinese Reversible Grammar , Vancouver, Canada. Li, W. 1995. Esperanto Inflection and Its Interface in HPSG, Proceedings of 11th North West Linguistics Conference (NWLC), Victoria, Canada. Li, W. 1994. Survey of Esperanto Inflection System, Proceedings of 10th North West Linguistics Conference (NWLC), Burnaby, Canada.
个人分类: 立委其人|4554 次阅读|1 个评论
C.V. (立委英文履历)
liwei999 2010-2-19 05:41
WEI LI Email: liwei AT sidepark DOT org Homepage: http://www.sciencenet.cn/m/user_index1.aspx?typeid=128262userid=362400 (1) Qualifications Dr. Li is a computational linguist with years of work experiences in Natural Language Processing (NLP). Dr. Li's background involves both a solid research track record and substantial industrial software development experiences. He is now Chief Scientist in a US company, leading the technology team in developing the core engine for extracting sentiments and text analytics for the consumer insight and business search products. Dr. Li led the NLP team and solved the problem of answering how-question: this was the technology foundation for the launch of the research product serving the technology community. After that, he directed the team in automatic sentiment analysis and solved the problem of answering why-questions. This effort has resulted in the launch of the product for extracting consumer insights from social media. He is currently leading the effort for multilingual NLP efforts and for identifying demographic information for social media IDs. In his previous job, Dr. Li was Principal Investigator (PI) at Cymfony on 17 federal grants from the DoD SBIR (AF and Navy) contracts in the area of NLP/IE (Information Extraction). These efforts led to the development and deployment of a suite of InfoXtract engine and products, including Cymfony ’ s BrandDashboard, Harmony and Influence as well as Janya ’ s Semantex engine for the government deployment. Dr. Li led the effort in winning the first competition at TREC-8 (Text Retrieval Conference 1999) in its natural language Question Answering (QA) track. Dr. Li has published extensively in refereed journals and high-profile international conferences such as ACL and COLING, in the areas of question answering, parsing, word sense disambiguation, information extraction and knowledge discovery. (2) Employment 2005.11- present Chief Scientist Dr. Wei Li leads the development of Netbase's core research and natural language processing (NLP) team. Major responsibilities: Direct RD; natural language parsing; transfer technology; business information extraction; sentiment analysis. Architect and key developer of the NLP platform for parsing English into logical forms Architect and key developer for question answering and business information extraction based on parsing Design and direct to develop sentiment analysis in Benefit Frame, Problem Frame, 360 Frame, and Preference Frame. Supports technology transfer into product features in three lines of commercially deployed products 1997.11-2005.11 Vice President for RD/NLP, Cymfony Inc. / Janya Inc. (Cymfony spin-off since 2005.08) Principal Research Scientist since 01/1998 VP since 09/1999 Dr. Wei Li lead the development of Cymfony/Janya’s core research and natural language processing (NLP) team. Major responsibilities: Direct RD; write grant proposals; transfer technology; develop linguistic modules. Chief architect for the core technology InfoXtract for broad coverage NLP and Information Extraction (IE): designed and developed the key modules for parsing, relationship extraction and event extraction Instrumental in helping to close the seed funding and the first round of financing of over 11 million dollars in 2000 and to develop a tiny 2-staff company when I joined it in 1996 into a 60+ staff technology company in the IT (Information Technology) sector of US industry, with offices in Buffalo, Boston and Bangalore (India) before the spin-off Responsible for technology transfer: designed the key features brand tagging, message tracking and quote extraction for the Cymfony flagship product Brand Dashboard(TM) Cymfony has been nominated for US Small Business Administration Prime Contractor of the Year Award several times for its outstanding government work Cymfony’s commercial product has won numerous awards including the Measurement Standard’s Third Annual Product of the Year Award, Finalist for the MITX Awards 2004, Finalist For 19th Annual Codie Award, 2003 Massachusetts Interactive Media Council (MIMC) Awards Cymforny has been named 100 Companies that matter in Knowledge Management by KMWold together with other industry leaders Pincipal Investigator (PI) or Co-PI for 17 SBIR (Small Business Innovation Research Phase 1, Phase 2 and Enhancement) grants (about eight million dollars) from DoD (Department of Defense) of US in the area of intelligent information retrieval and extraction PI, Fusion of Entity Information from Textual Data Sources (Phase I $100,000), U.S. DoD SBIR (AF),, Contract No. FA8750-05-C-0163 (2005) PI, Automated Verb Sense Identification (Phase II $750,000), U.S. DoD SBIR (Navy), Contract No. N00178-03-C-1047 (2003-2005) PI, Automated Verb Sense Identification (Phase I $100,000), U.S. DoD SBIR (Navy), Contract No. N00178-02-C-3073 (2002-2003) Co-PI, An Automated Domain Porting Toolkit for Information Extraction (Phase II $750,000, Enhancement $830,000), U.S. DoD SBIR (AF), Contract No. F30602-03-C-0044 (2003-2006) Co-PI, An Automated Domain Porting Toolkit for Information Extraction (Phase I $100,000), U.S. DoD SBIR (AF), Contract No. F30602-02-C-0057(2002-2003) Co-PI, A Large Scale Knowledge Repository and Information Discovery Portal Derived from Information Extraction (Phase II $750,000), U.S. DoD SBIR (AF) (2004-2006) Co-PI, A Large Scale Knowledge Repository and Information Discovery Portal Derived from Information Extraction (Phase I, $100,000), U.S. DoD SBIR (AF) (2003-2004) Co-PI, Automatically Time Stamping Events in Unrestricted Text (Phase I $100,000), U.S. DoD SBIR (AF), (2003-2004) Co-PI, Fusion of Information from Diverse, Textual Media: A Case Restoration Approach (Phase I, $100,000) , U.S. DoD SBIR (AF), Contract No. F30602-02-C-0156 (2002-2003) PI, Intermediate-Level Event Extraction for Temporal and Spatial Analysis and Visualization (Phase II, $750,000; Enhancement $500,000) , U.S. DoD SBIR (AF), Contract No. F30602-01-C-0035 (2001-2003) PI, Intermediate-Level Event Extraction for Temporal and Spatial Analysis and Visualization (Phase I, $100,000) , U.S. DoD SBIR (AF), Contract No. F30502-00-C-0090 (2000-2001) PI, Flexible Information Extraction Learning Algorithm (Phase II, $750,000; Enhancement $500,000) , U.S. DoD SBIR (AF) Contract No. F30602-00-C-0037 (2000-2002) PI, Flexible Information Extraction Learning Algorithm (Phase I, $100,000) , U.S. DoD SBIR (AF) Contract No. F30602-99-C-0102 (1999-2000) PI, A Domain Independent Event Extraction Toolkit (Phase II, $750,000) , U.S. DoD SBIR (AF), Contract No. F30602-98-C-0043 (1998-2000) 1986-1991 Assistant Researcher, Institute of Linguistics, CASS (Chinese Academy of Social Sciences) R D for Project of JFY Machine Translation Engine from English to Chinese (using COBOL) 1988-1991 Senior Engineer, Gaoli Software Company instrumental in turning the research prototype JFY into a real life software product GLMT for English-to-Chinese Machine Translation trained and supervised lexicographers in building up a lexicon of 60,000 entries supervised the testing of thousands of lexicon rules GLMT 1.0 successfully marketed in 1992 GLMT won nemerous prizes, including Silver Medal, INFORMATICS’92 (Singapore 1992); Gold Medal for Electronic Products at Chinese Science Technology Exhibition (Beijing, 1992) and various other software prizes (Beijing 1992-1995) technology partially transferred to VTECH Electronics Ltd in the product of pocket electronic translator 1988 Contract grammarian, BSO Software Company, Utrecht, The Netherlands Chinese Dependency Syntax Project , for use in multi-lingual MT (3) Education 2001 PhD in Computational Linguistics, Simon Fraser University, Canada Thesis: The Morpho-syntactic Interface in a Chinese Phrase Structure Grammar 1992 PhD candidate in Computational Linguistics, CCL/UMIST, UK 1986 M.A. in Machine Translation, Graduate School of Chinese Academy of Social Sciences Thesis: Automatic Translation from Esperanto to English and Chinese (4) Prizes and Honors 2001 Outstanding Achievement Award, Department of Linguistics, Simon Fraser University (award given to the best PhD graduates from the department) 1995-1997 G.R.E.A.T. Award, Science Council, B.C. CANADA (an industry-based grant, funding the effort to bridge my Ph.D. research with the local industrial needs) 1997 President’s Research Stipend, SFU, CANADA 1996 Travel grant for attending ICCC in Singapore, by ICCC’96 1995 Graduate Fellowship (merit-based), SFU, CANADA 1992 Software Second Prize (Aiping Fu and Wei Li), Chinese Academy of Social Sciences for machine translation database software 1991 Sino-British Friendship Scholarship, supporting my PhD program in UK (a prestigious scholarship designed to award Chinese young scientists for overseas training in England in a nation-wide competition, administered jointly by the British Council, Sir Pao Foundation and the Education Ministry of China) (5) Professional Activities Editor, International Editorial Board for Journal of Chinese Language and Computing Industrial Advisor, supervising over 20 Graduate Student Interns from SUNY/Buffalo (since 1998) Reviewer, Second International Joint Conference on Natural Language Processing (IJCNLP-05) Member, Program committee for 2004 Conference on Empirical Methods in Natural Language Processing (EMNLP 2004) Reviewer, Mark Maybury (ed.) New Directions in Question Answering, The AAAI Press, 2003 Member, Program committee for The 17th Pacific Asia Conference on Language, Information and Computation (PACLIC17), 2003. Member, Program committee for 20th International Conference on Computer Processing of Oriental Languages (ICCPOL2003), 2003. Panelist, Multilingual Summarization and Question Answering (COLING-2002 Workshop) Invited talk, ‘Information Extraction and Natural Language Applications’, National Key Lab for NLP, Qinghua University, Beijing, Feb. 2001 Member, Association of Computational Linguistics (ACL) Member, American Association for Artificial Intelligence (AAAI) (6) Languages English: fluent Chinese: native French: Intermediate (learned 3 years) Esperanto: fluent (published in Esperanto) Russian: elementary (learned 1 year) (7) Publications A complete list of publications are available on-line at http://www.sciencenet.cn/m/user_content.aspx?id=295975
个人分类: 立委其人|8150 次阅读|1 个评论
[转载]自然语言处理相关书籍及其他资源[ZZ]
热度 1 timy 2010-1-27 22:51
From: http://www.52nlp.cn/resources 这里开始提供一些52nlp所收集的自然语言处理相关书籍及其他资源的下载,陆续整理中!如有不妥,我会做删除处理! 特别推荐: 1、 HMM学习最佳范例 全文文档 2、 无约束最优化 全文文档 一、书籍: 1、 《自然语言处理综论》英文版第二版 2、 《统计自然语言处理基础》英文版 3、 《用Python进行自然语言处理》,NLTK配套书 4、 《Learning Python第三版》 ,Python入门经典书籍,详细而不厌其烦 5、 《自然语言处理中的模式识别》 6、 《EM算法及其扩展》 7、 《统计学习基础》 8、《 自然语言理解 》英文版(似乎只有前9章) 9、 《Fundamentals of Speech Recognition》 ,质量不太好,不过第6章关于HMM的部分比较详细,作者之一便是Lawrence Rabiner; 10、概率统计经典入门书:《概率论及其应用》(英文版,威廉*费勒著)    第一卷    第二卷    DjVuLibre阅读器 (阅读前两卷书需要) 11、一本利用Perl和Prolog进行自然语言处理的介绍书籍:《 An Introduction to Language Processing with Perl and Prolog 》 12、国外机器学习书籍之:  1) Programming Collective Intelligence ,中文译名《集体智慧编程》,机器学习数据挖掘领域近年出的入门好书,培养兴趣是最重要的一环,一上来看大部头很容易被吓走的  2) Machine Learning ,机器学习领域无可争议的经典书籍,下载完毕将后缀改为pdf即可。豆瓣评论 by 王宁):老书,牛人。现在看来内容并不算深,很多章节有点到为止的感觉,但是很适合新手(当然,不能新到连算法和概率都不知道)入门。比如决策树部分就很精彩,并且这几年没有特别大的进展,所以并不过时。另外,这本书算是对97年前数十年机器学习工作的大综述,参考文献列表极有价值。国内有翻译和影印版,不知道绝版否。  3) Introduction to Machine Learning 13、国外数据挖掘书籍之:  1) Data.Mining.Concepts.and.Techniques.2nd ,数据挖掘经典书籍 作者 : Jiawei Han/Micheline Kamber 出版社 : Morgan Kaufmann 评语 : 华裔科学家写的书,相当深入浅出。  2) Data Mining:Practical Machine Learning Tools and Techniques 14、国外模式识别书籍之:  1) Pattern Recognition  2) Pattern Recongnition Technologies and Applications  3) An Introduction to Pattern Recognition  4) Introduction to Statistical Pattern Recognition  5) Statistical Pattern Recognition 2nd Edition  6) Supervised and Unsupervised Pattern Recognition  7) Support Vector Machines for Pattern Classification 15、国外人工智能书籍之:  1) Paradigms of Artificial Intelligence Programming: Case Studies in Common LISP 二、课件: 1、哈工大刘挺老师的 统计自然语言处理 课件; 2、哈工大刘秉权老师的 自然语言处理 课件; 3、中科院计算所刘群老师的 计算语言学讲义 课件; 4、中科院自动化所宗成庆老师的 自然语言理解 课件; 5、北大常宝宝老师的 计算语言学 课件; 6、北大詹卫东老师的 中文信息处理基础 的课件及相关代码; 7、MIT Regina Barzilay教授的 自然语言处理 课件,52nlp上翻译了前5章; 8、MIT大牛Michael Collins的 Machine Learning Approaches for Natural Language Processing (面向自然语言处理的机器学习方法)课件; 9、Michael Collins的 Machine Learning (机器学习)课件; 10、SMT牛人Philipp Koehn Advanced Natural Language Processing (高级自然语言处理)课件; 11、Philipp Koehn Empirical Methods in Natural Language Processing 课件; 12、Philipp Koehn Machine Translation (机器翻译)课件; 三、语言资源和开源工具: 1、Brown语料库:  a) XML格式的brown语料库 ,带词性标注;  b) 普通文本格式的brown语料库 ,带词性标注;  c) 合并并去除空行、行首空格,用于词性标注训练: browntest.zip 2、 NLTK官方提供的语料库资源列表 3、 OpenNLP上的开源自然语言处理工具列表 4、斯坦福大学自然语言处理组维护的 统计自然语言处理及基于语料库的计算语言学资源列表 5、 LDC上免费的中文信息处理资源 6、中文分词相关工具:  1)Java版本的MMSEG: mmseg-v0.3.zip ,作者为solol,详情可参见:《 中文分词入门之篇外 》 四、文献: 1、ACL-IJCNLP 2009论文全集:  a) 大会论文Full Paper第一卷  b) 大会论文Full Paper第二卷  c) 大会论文Short Paper合集  d) ACL09之EMNLP-2009合集  e) ACL09 所有workshop论文合集   
个人分类: 研究方法|6120 次阅读|1 个评论
【立委科普:机器翻译】
liwei999 2009-12-13 04:09
MACHINE TRANSLATION By Wei Li liwei999 AT gmail.com (In GB code) 本文是作者应约为科技辞书写的辞条, 现略加修改, 力求深入浅出, 既反映本学 科的最新发展水平, 又能让一般读者容易理解。 立委 一九九六年六月二十五日 于 加拿大温哥华 ------------------------------------------------------------------------------- 机 器 翻 译 立 委 又称自动翻译, 是按照规定的算法由电子计算机进行语言翻译。它是计算语言学的主要研究领域之一。 机器翻译通常由机器词典和语言规则库支持, 其对象为自然语言。机器翻译是一种自然语言处理应用软件。与此相对应, 还有一种系统软件, 专门用于把用计算机语言编写的程序自动翻译成可执行的机器代码, 这在计算机科学中叫编译器或解释器。编译理论和技术已经相当成熟, 它与自然语言的机器翻译有相通之处。 与计算机语言相比, 自然语言有两个明显的特点: 首先, 自然语言普遍存在同形多义现象。在词汇层, 一词多义, 词类同形等现象随处可见, 而且越是常用的词其意义和用法越多; 在句法层, 结构同形也相当普遍, 同一种结构也可能表达多种含义和关系。因此, 区分同形和多义成为机器翻译的首要任务。 其次, 自然语言是规则性和习惯性的矛盾统一体。自然语言中, 几乎没有一条语法规则没有例外。然而, 如果把语言规则组织成从具体到抽象的层级体系, 区别个性规则和共性规则的层次, 建立个性和共性的联系方式, 就为解决这一矛盾创造了条件。因此, 在设计机器翻译系统的算法时, 如何把握和处理个性与共性的关系, 在很大程 度上决定了系统的前途。 机器翻译通常包括五个环节: 源语输入; 源语分析; 源语到目标语的转换; 目标语生成; 目标语输出。 源语到目标语的转换 (1) 源语输入 ============================ 目标语输出 I 形态分析 ====================== 形态生成 II 句法分析 ============= 句法生成 III 语义分析 ===== 语义生成 语用加工 , 知识推理 (2) 元语言 对于书面语, 输入和输出是纯技术性环节。语音机器翻译则还必须赋予计算机以听和说的能力, 这是语音识别和语音合成所研究的课题。 源语分析的结果用某种中间形式表示。转换包括词汇转换和结构转换, 它反映源语和目标语的对比差异。生成是分析的逆过程。可见, 只有转换才必须同时涉及两种语言, 源语分析和目标语生成可以相互独立。这种设计思想称作转换法, 是当前机器翻译系统的主流。当然, 也可以把转换放到分析或生成中, 用所谓直接法进行自动翻 译。 直接法和转换法各有其优缺点。运用直接法的系统结构紧凑, 翻译过程比较直观,规则的编制易于参照现成的双语词典、对比语法以及前人长期积累的翻译经验。其主要缺点是, 由于分析和生成不能独立, 使得分析和生成都难以深入; 另外, 对于多种语言之间的自动翻译, 直接法是不适合的。转换法也有缺点: 尽管可以分析得比较深 入, 但多了一个环节, 多了许多接口信息, 处理不好反而影响译文质量; 另外, 在不同语系的语言之间, 要想得到较高质量的翻译, 其转换模块(主要是词汇转换)势必很大, 大到与分析和生成模块不相称的地步, 这差不多等于回到了直接法。看来, 对两个差别比较大的语言进行自动翻译, 直接法还是很有效的。 究竟分析到哪一步实施转换, 是由系统的设计目标, 加工对象和研究深度等条件决定的。从上图可以看出, 分析越深入, 转换便越少, 最终达到没有转换。分析一下两极的情形是很有意思的, 即: (1) 只有转换的翻译; (2) 没有转换的翻译。 只有转换的翻译是一一对应的翻译, 不需要分析和生成。翻译只是机械的数据库查询和匹配过程, 谈不上任何理解。需要指出的是, 对于语言中纯粹的成语和习惯表达法, 这种翻译方法不仅是有效的, 往往也是必需的。 机器翻译的另一极是建立在充分理解基础上, 毋须转换的自动翻译, 这是从实质上对人的翻译过程的模拟。这时候, 源语分析才是真正的自然语言理解, 机器翻译才真正属于人工智能。然而, 这里遇到两个难题: 一是知识处理问题; 二是所谓元语言问题。 考察人的翻译活动, 可以发现, 人是靠丰富的知识在理解的基础上从事翻译的。这些知识既包括语言知识, 也包括世界知识(常识、专业知识等)。如何组织这些包罗万象的百科全书一样的知识, 以便适应机器处理和运用的需要, 是人工智能所面临的根本性课题。 另一方面, 人类可以用语言交流思想, 语言可以相互翻译, 必定有某种共同的东西作为基础, 否则一切交流和翻译都是不可思议的。概念, 或者更准确地说, 概念因子(即构成各种概念的元素)是全人类一致的。概念与概念间所具有的逻辑关系和结构也是全人类共同的。如果人们可以把这种共同的东西研究清楚, 把它定义成元语言, 源语分析以元语言作为其终极表达, 目标语生成也以元语言作为出发点, 就不需要任何转换了。这时候, 源语分析和目标语生成便完全独立, 每一种语言只需要一套针对元语言的分析和生成系统, 就可以借助于它自动翻译成任何其他语言。研究元语言是认知科学中的一个难题, 有待于语言学家, 逻辑学家, 心理学家, 数学家和哲学家的共同努力。有意义的是, 研究机器翻译的学者们设计过种种近似元语言的方案, 作为多种语言之间自动翻译的媒介语, 取得了一定的成果和经验。 总之, 虽然机器翻译的最终出路在于人工智能的理论和技术的突破, 但在条件不成熟的时候过份强调机器翻译的人工智能性质, 一味追求基于知识和理解的自动翻译, 对于应用型机器翻译系统的研制, 往往没有益处。 除了上述的两极, 人们根据转换所处的层次, 把机器翻译系统大致分为三代: 第I代是词对词的线性翻译, 其核心是一部双语词典, 加上简单的形态加工(削尾和加尾)。I代系统不能重新安排词序, 不能识别结构同形, 更谈不上多义词区分。 第II代系统强调句法分析, 因此能够求解出句子的表层结构及元素间的句法关系 (分析结果通常表现为带有节点信息的结构树), 从而可以根据源语和目标语的对比差异进行句法结构的转换和词序调整, 这就从线性翻译飞跃到有结构层次的平面翻译。然而, 在没有语义的参与下, 虽然可以识别句法结构的同形, 但却不能从中作出合适 的选择; 多义词区分问题也基本上无法解决。 第III代系统以语义分析为主, 着重揭示语句的深层结构及元素间的逻辑关系,可以解决大部分结构同形和多义词区分问题。 目前, 多数机器翻译系统处于II代,或II代和III代之间。纯粹以语义分析为核心的III代系统只做过小规模的实验(Wilks, 1971), 但也取得了令人瞩目的成就。从工程和实用考虑, 大型商品化机译系统的研制, 采用句法分析与语义分析相结合的方法, 是比较切合目前的研究水平和实际需要的。 从方法上看, 语言规则和算法分开是自动翻译技术上的一大进步, 算法从而成为系统的控制器和规则的解释器。早期的机器翻译系统并没有专门的语言规则库, 而是把规则编在程序中, 这带来三个严重的缺陷: 第一, 规则的每一点修改都要牵涉程序的变动; 第二, 无法提高机器翻译算法的抽象度, 从而影响了语言处理的深度和效率; 第三, 不利于语言学家和计算机专家的分工合作。 值得强调的是, 规则与算法分开以后, 只是从形式上为规则的增删修改提供了方便, 真正的方便取决于规则的结构体系, 具体地说, 就是规则与规则的相互独立程度。如果规则彼此依赖, 牵一发而动全身, 就谈不上修改规则的自由。这样的网状规则系统在规则数达到一定限量以后, 就无法改进了: 往往改了这条, 影响那条, 越改越糟, 最终可能导致系统的报废。因此, 在规则和算法分开以后, 有必要强调规则与规则分开。 随着信息社会的到来, 人工翻译的低效率已远远不能满足社会的需求, 迫切需要计算机帮助人们翻译。目前, 世界上已有一批机器翻译系统投放市场或投入运用, 更多的系统正在积极研制中。而英汉机器翻译也已有高科技产品问市。在大陆,继“译星”一鸣惊人后, 近年又有两套英汉系统分别投放市场, 一套为中国社会科学院语言 研究所和北京高立电脑公司所研制开发,另一套是中国科学院的863项目,竞争日趋激烈。机器翻译经过40多年的发展, 对语言的认识逐步深入, 发展了许多行之有效的语言处理技术。其前景是令人乐观的。 寄自加拿大 姐妹篇:【立委科普:信息抽取】: http://www.starlakeporch.net/bbs/read.php?45,20654 何人可12月 6th, 2008 at 5:18 pm 贤弟十二年前的旧作今天读来仍有不少新意,如基于语义分析的机译,和语言规则的独立性的重要。这些年我一直在关注NLP和MT的进展,但机器翻译的出路是在哪儿呢?我认为基于概念的机器翻译是个方向,不知你是否有所涉及,有何心得? liwei12月 6th, 2008 at 7:08 pm 何兄謬爱。我其实已经离开这个领域不少时间了,知识陈旧了。 从应用上看,由于海量双语对照文库的存在,由 IBM 研究人员等开端的统计一派现在成为业界主流,基于对等翻译单位(translation unit, 可以是词,词组或成语)的统计信息的系统已经达到实用开发的程度。这实际上是词汇转换(lexical transfer)路线的翻版,直接在源语和目标语之间建立联系,跳过显性的概念手段。 所谓基于概念的翻译原理上没有问题。概念从最低处说包括从词到概念的转换,涉及多义词区分(word sense disambiguation)的难题(从概念转换到目标语的词原则上不是难题,即便一个概念对应多个目标词,选错了也不影响整体意义,影响的是翻译的地道程度)。WSD本身是NLP中最艰难的问题之一。如果基于概念进一步包括“表层结构”到深层逻辑结构的转换的话,那么基于概念的翻译也就是我文中所说的基于理解的翻译了,真正属于人工智能的范畴了。 【姐妹篇】 【立委随笔:机器翻译万岁】 《立委科普:自然语言处理领域中的语义路线及其代表人物》 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|9821 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-27 07:21

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部