科学网

 找回密码
  注册

tag 标签: 计算语言学

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

计算语言学的尴尬
热度 1 liwei999 2016-6-22 15:06
白: 我关心“老婆情人”在那个语境下为啥不是定中结构。 老王卖瓜自开涮, 创新形容瓜特甜。 老婆情人小三见, 买回刀劈报仇般, 我: 没看懂。似乎有个 context: 老婆情人小三见 == 老婆情人见小三 or 老婆情人小三见 == 老婆见情人小三 ? 诗人特权害死人 Nick: 老婆情人小三见==三缺一 洪: 老婆/情人/小三见 两者兼顾,读诗看图,歧义何出?误解消除。 情人/小三,心理概念;原型维度,因人而殊。 RW: 情人/老婆,心理概念;原型维度,因人而殊。 我: 情人(lover)与小三当然不同。小三虽然没有法统地位,但既然排了次序,就有了事实的地位(“事实婚姻”的事实)。因此还有小四小五之说,这个次序也可能有新来后到的意思,或反映了喜新厌旧,数字越大新人可能越受“老爷”的宠(沿袭三妻四妾的旧制度思维),虽然事实的地位在俗众的心目中似乎越低。 陈: 情人一般是有夫之妇?小三是未婚? 我: 情人比较浪漫,超脱,爱情唯上。与世俗的地位和次序脱钩,倒是有某种秘密的刺激。 Nick: 小三是有上位企图的,情人没有。so情人就是炮友的意思。法国人那种关系都叫情人?我: 情人一旦转成小三 就低下了浪漫的头 失去了独立性 成了金屋藏的娇。广义的情人 也可以转成夫人 实现从浪漫到世俗的脱胎换骨。窄义的情人 专对已婚而言 那是法国英国贵族爱玩的公开的秘密游戏。 白: 你们都是发散思维,就我死啃一个点,结果没人回应。 我: 白老师的问题是老婆小三之间的顿号,是怎么进入人的语言心理的?虽然根本就没看见顿号的影子。为什么顿号不是“的”? 为什么呢? 因为大数据! 白老师这次不是“窃喜”,而是感叹心有灵犀了吧 @白老师 “大数据” 是不是你心中老婆情人parsing的标准答案 白: @wei 大数据中,老婆情人的对举用法远多于修饰用法,这是肯定的。另外老婆的情人有个更简约的用法“情敌”,放着不用偏要拐着弯说,浪费能源。现实中两个因素都在起作用。 我: 白老师的问题是太能干 这个世界不够他玩的。又是语言学 又是金融平台 又是什么块什么链。否则的话 拉出来我们搭个档 做做 NLP 多刺激。就依照你那个 RNN 还是啥的路子走。别人的路子不敢信服。别人也很少懂这一边。 白: 身不由己啊 我: 说什么两条路线斗争 宗教门派之别 主流非主流 眼珠转与不转 这些都不是本质 本质就是鸡同鸭讲。隔行如隔山 同行也隔山。隔了山还讲个球。鸡犬之声相闻 老死不相往来。白马非马 计算语言学亦非语言学 只剩下语言的计算 这就是【计算语言学】的尴尬。这是一个非常奇怪的交叉学科 两路完全不是一个类型的人 没有 chemistry 没有基本的共同背景、世界观和方法学 没有共同语言 兴趣迥异 无法正常对话 更甭提恋爱结婚 最简单的办法 就是一派灭了另一派 眼不见为净。结果就是虽然被扫地出门了 语言学对于多数的殿堂内人 依然是格格不入 而又回避不了。某些主流 NLP 大牛 不懂语言学常识的 并不鲜见 这在任何其他学科都是不可思议的。 但是语言学比共产主义还更像一个幽灵,一直在殿堂徘徊 主流可以不转眼珠 可是心里并不是想象的那么有底气 一个潮流来 可以鸡血一下 忘记幽灵的飘荡 但幽灵始终徘徊。 【相关】 【文傻和理呆的世纪悲剧(romance tragedy)】 【科普随笔:NLP主流的傲慢与偏见】 没有语言学的 CL 走不远 老教授回函:理性主义回摆可能要再延迟10几年 【科普随笔:NLP的宗教战争?】 Church – 计算语言学课程的缺陷 (翻译节选) 泥沙龙笔记:从乔姆斯基大战谷歌Norvig说起 【NLP主流的反思:Church – 钟摆摆得太远(1):历史回顾】 【Church – 钟摆摆得太远(5):现状与结论】 《泥沙龙笔记:【钟摆摆得太远】高大上,但有偏颇》 【泥沙龙笔记:语法工程派与统计学习派的总结】 【科普小品:NLP 的锤子和斧头】 【新智元笔记:两条路线上的NLP数据制导】 置顶:立委科学网博客NLP博文一览(定期更新版)】 《朝华午拾》总目录 发布于
个人分类: 立委科普|4087 次阅读|2 个评论
李斌博士学术报告通知:汉语认知属性数据库的构建
timy 2013-10-15 19:16
学术报告通知 题 目 : 汉语认知属性数据库的构建 报告人 : 李斌博士 南京师范大学副教授 时 间 : 2013 年 10 月 20 日(星期日)下午 15 : 30~17 : 30 地 点 : 南京理工大学第 3 教学楼 -303 报告提要 : 汉语中的“猪”,既肥又懒又笨。这样简单而丰富的日常认知意义却被语文词典所忽略,本研究则注重汉语常用名词的认知属性的采集和分析工作。利用搜索引擎,从互联网上自动抓取大量的认知属性,在自动分词、词性标注的基础上,进行可视化,以应用于词典编纂、汉语教学、文本理解等领域。 报告人简介 : 李斌( 1981~ ),南京师范大学文学院计算语言学方向副教授。 1999~2003 年就读于南京师范大学文学院汉语言文学(文科基地)专业,获学士学位。 2006 年、 2009 年,继续在文学院攻读研究生,分获计算语言学方向硕士和博士学位。后留校任教,讲授《数据结构》、《数理逻辑》、《人工智能》、《数据库编程》等本科课程。 2010 年 ~2013 年,南京大学计算机科学与技术系在职博士后。研究领域包括词法分析、句法分析、认知语义计算、语料库技术、语法理论等方面。现主持国家社会科学基金青年项目一项,南京大学计算机系国家重点实验室招标课题一项,参与完成国家自然科学基金、国家社会科学基金、 211 工程项目等多个研究项目。 报告人 E-mail : libin.njnu@gmail.com 欢迎校内外各界人士参加! 二零一三年十月十五日
个人分类: 自然语言处理|9162 次阅读|0 个评论
Church - 计算语言学课程的缺陷 (翻译节选)
热度 2 liwei999 2013-10-3 08:16
节选译自: K.Church2011. A Pendulum SwungToo Far . Linguistics issues in Language Technology, Volume 6, Issue 5. 3.5无视历史注定要重复历史错误 在多数情况下,机器学习、信息检索和语音识别方面的实证复兴派干脆无视 PCM(Pierce,Chomsky and Minsky)的论点,虽然神经网络给感知机增加隐藏层可以看作是对敏斯基和帕佩特批评的让步。尽管如此,敏斯基和帕佩特(1988)对敏斯基和帕佩特(1969年)【感知机】出版以来的20年领域进展之缓慢深表失望。 “在编写这一版时,我们本来准备根据进展‘把这些理论更新’。但是,当我们发现自本书1969年第一版以来,没有看见什么有意义的进展,我们认为保留原文更为有利...只需加一个尾声即可。...这个领域进展如此缓慢的原因之一是,不熟悉领域历史的研究人员继续犯别人以前已经犯过的错误。有些读者听说该领域没有什么进步,可能会感到震惊。难道感知机类的神经网络(新名称叫connectionism,连通主义)没有成为热烈讨论的主题么?是的,的确存在很大的兴趣,很多的讨论。可能确实也有些现在的发现在未来也许会显出重要性。但可以肯定地说,领域的概念基础并没有明显改变。今天引起兴奋的问题似乎与前几轮的兴奋大同小异...。我们的立场依然是当年我们写这本书时的立场:我们相信这个领域的工作是极为重要和丰富的,但我们预计其增长需要一定程度的批判性分析,可这种分析在我们更浪漫的倡导者那里却一直似乎没有人愿意去做,也许因为连通主义的精神似乎变得与严谨分析南辕北辙。” ( Minsky and Papert 1988, 前言,第vii页) 计算语言学课程的缺陷 正如敏斯基和帕佩特上面指出的,我们之所以不断犯同样的错误与我们的教学有关。辩论的一方在当代计算语言学教科书中不再提及,已被淡忘,需要下一代人重新认识和复活它。当代的计算语言学教科书很少介绍 PCM三位前辈。皮尔斯在汝拉夫斯基和马丁编著的教科书(Jurafskyand Martin 2000)以及曼宁等编著的两套教科书中(Manning and Schütze 1999;Manning et al. 2008)根本没有提及。敏斯基对感知机的批评只在三本教科书之一中简要提起(Manningand Schütze 1999,第603页)。刚入门的新学生也许意识不到所谓“相关的学习算法”(见下列粗斜体)其实包含了当今领域非常流行的方法,如线性和logistic回(linear and logistic regression)。 “一些其他的梯度下降算法( gradient descent algorithms)也有类似的收敛定理,但是多数情况下,收敛只能达到局部最优。…感知机收敛能达到全局最优是因为它们选用了线性分离机这样比较简单的分类模型。很多重要的问题是线性不可分的,其中最著名的是异或(XOR)问题。… 决策树(decision tree)算法可以处理这样的问题,而感知机则不能。研究人员在对神经网络的最初热情(Rosenblatt 1962)以后,开始意识到这些局限。其结果是,对于神经网络及其 相关的学习算法 的兴趣很快消退,此后几十年一直一蹶不振。敏斯基和帕佩特的论文(Minskyand Papert 1969)通常被认为是这类学习算法式微的起点。” 曼宁等 2008 版教科书(Manning et al. 2008)在神经网络算法描述上,有简短的文献指向敏斯基和帕佩特1988年的论文(Minsky and Papert 1988),但并未提及文中的尖锐批评: “对上面提到但本章未及细述的算法感兴趣的读者可以参阅以下文献:神经网络方面有Bishop (2006),线性和logistic回归方面有Hastie et al. (2001) 以及 Minsky and Papert (1988)”(Manning et al. 2008,第292页)”。 根据这样的文献指引,一个学生可能得出错误印象,以为敏斯基和帕佩特是这些神经网络算法(以及当今流行的线性和 logistic回归这类方法)的赞许者。 毕晓普明确指出,敏斯基和帕佩特绝不是感知机和神经网络的赞许者,而且把它们认作 “不正确的构想” (“incorrect conjecture”)予以排斥(Bishop2006,第193页)。毕晓普把神经网络在实际应用中的普及看做是对敏斯基和帕佩特批评的反证,认为并非如他们所说的那样“没有多少改变”,“多层网络并不比感知机更有能力识别连通性(connectedness)”。 当代教科书应该教授给学生像神经网络这类有用的近似方法的优点和缺点。辩论双方都大有可言。排除任何一方的论证都是对我们的下一代不负责任,尤其是当其中一方的批评是如此的尖锐,用到 “不正确的构想”和“没有多少改变”这样的说法。 乔姆斯基比皮尔斯和敏斯基在当代教科书中被提及多一些。曼宁和舒兹的教科书( Manning and Schütze 1999)引用乔姆斯基10次,汝拉夫斯基和马丁的教科书(Jurafsky and Martin 2000)的索引中共有27处文献指向乔姆斯基。第一本书中较少引用是因为它专注于一个相对狭窄的话题,统计型自然语言处理。而第二本教科书涉及面广泛得多,包括音韵学和语音。因此,第二本书还引用了乔姆斯基的音韵学工作(Chomskyand Halle 1968)。 两本教科书都提到乔姆斯基对有限状态方法的批评,以及这些批评在当时对经验主义方法论的打击性效果。但是话题迅速转移到描述这些方法的复兴,却相对较少讨论其论点,经验主义回归的动因及其对目前实践以及未来的影响。 汝拉夫斯基和马丁的教科书第 230-231页写道(Jurafsky and Martin 2000): “在一系列极具影响力的论文中,始于乔姆斯基(1956),包括乔姆斯基(1957)以及米勒和乔姆斯基(1963) (Miller and Chomsky1963),诺姆·乔姆斯基认为,‘有限状态的马尔可夫过程’虽然可能是有用的工程近似方法,却不可能成为人类语法知识的完整认知模型。当时的这些论证促使许多语言学家和计算语言学家完全脱离了统计模型。 “N元模型的回归开始于耶利内克等(Jelinek, Mercer, Bahl)的工作。…” 两本教科书介绍 N元文法都是从引用其优缺点的讨论开始(Jurafsky and Martin 2000, 第191页): “但是必须认识到,所谓‘一个句子的概率’是一个完全无用的概念,无论怎样理解这个术语。” (Chomsky 1965, 第57页) “任何时候,只要一个语言学家离开研究组,识别率就会上升。”(FredJelinek,当时他在IBM 语音组, 1988) 曼宁和舒兹( 1999,第2页)是以这样的引用开始讨论的: “统计的考量对于理解语言的操作与发展至关重要。”(Lyons1968, 第98页) “一个人对合法语句的产生和识别能力不是基于统计近似的概念之类。”(Chomsky 1957, 第16页) 这样正反面观点的引用确实给学生介绍了争议的存在,但却不能真正帮助学生明白这些争议意味着什么。我们应提醒学生,乔姆斯基反对的是一些如今极其流行的有限状态的方法,包括 N元文法和隐马尔可夫模型,因为他相信这些方法无法捕捉远距离的依从关系(例如,一致关系的限制条件和wh-位移现象)。 乔姆斯基的立场直到今天仍然是有争议的,本文审阅者之一的反对意见也佐证了这种争议。我不希望此时在这场辩论中站在某一方。我只是要求我们应该教给下一代辩论的双方说辞,使他们不需要重新发现任何一方。 计算语言学学生应该接受普通语言学和语音学的培训 为了给进入这行的学生为低垂水果采摘完后的情形做好准备,今天的学生教育应该向广度发展,他们应该全面学习语言学的主要分支,如句法、词法、音韵学、语音学、历史语言学以及语言共性。我们目前毕业的计算语言学学生视野太窄,专业性太强,他们对于一个很专门的领域具有深入的知识(如机器学习和统计型机器翻译),但可能没听说过很多著名的语言学现象,譬如,格林伯格共性( Greenberg’s Universals), 提升(Raising), 等同( Equi), 量词辖域(quantifier scope), 空(gapping), 孤岛条件(islandconstraints)等。我们应该确保参与指代(co-reference)研究的学生都知道c-统制(c-command) 和指称相异(disjointreference)。 当学生在计算语言学会议上宣讲论文之前,他们应该了解形式语言学(FormalLinguistics)对此问题的标准处理。 语音识别工作的学生需要了解词的重音(如: Chomsky and Halle 1968)。音韵学重音对于下游语音和和声学过程具有相当的影响。 图 3 “politics” and “political”的谱图显示有三个/l/同位音。在重音前后出现不同的音位变体。 语音识别目前没有充分利用单词重音特征是一个不小的遗憾,因为重音强调是语音信号中最突出的特性之一。 T图3显示了最小对立体 “politics”和“political”的波形和谱图。这两个词千差万别,目前的技术着重于语音单位层面的区别: 1. “Politics”以 –s 结尾,而“political”以-al结尾。 2. 与 “politics” 不同,“political”中第一个元音是弱化的央元音(schwa)。 重音的区别更为突出。在诸多与重音有关的区别中,图 3突出了重音前与重音后/l/同位音之间的区别。另外还有对/t/音的影响。“politics”中 /t/ 是送气音,但在“political”中却是闪音。 目前,在语音单位层面( segmental level),仍有大量低悬水果的工作,但这些工作终有完结之时。我们应该教给语音识别的学生有关音韵学和词重音的知识,以便他们在技术瓶颈已经超越语音单位层面以后依然游刃有余。既然存在与重音相关超过三元语音单位的远距离关系,重音方面的进展需要对目前流行的近似方法的长处与缺陷均有深入的理解。语音识别方面的基础性进展,譬如能有效使用重音,很可能要依赖于基础技术的进步。 ~~~~~~~~~~~~~~~~~~~~~~~~ 3.5 Those WhoIgnore History Are Doomed To Repeat It Forthe most part, the empirical revivals in Machine Learning, Information Retrieval and Speech Recognition have simply ignored PCM's arguments, though in the case of neural nets, the addition of hidden layers to perceptrons could be viewed asa concession to Minsky and Papert. Despite such concessions, Minsky and Papert(1988) expressed disappointment with the lack of progress since Minsky andPapert (1969). “In preparing this edition we were tempted to‘bring those theories up to date.’ But when we found that little of significance had changed since 1969, when the book was first published, we concluded that it would be more useful to keep the original text ... and add an epilogue. ... One reason why progress has been so slow in this field is that researchers unfamiliar with its history have continued to make many of the same mistakes that others have made before them. Some readers may be shocked to hear it said that little of significance has happened in the field. Have not perceptron-like networks - under the new name connectionism - become a major subject of discussion. ... Certainly, yes, in that there is a great deal of interest anddiscussion. Possibly yes, in the sense that discoveries have been made thatmay, in time, turn out to be of fundamental importance. But certainly no, in that there has been little clear-cut change in the conceptual basis of the field. The issues that give rise to excitement today seem much the same as those that were responsible for previous rounds of excitement. ... Our position remains what it was when we wrote the book: We believe this realm of work to be immensely important and rich, but we expect its growth to require a degree of critical analysis that its more romantic advocates have always been reluctant to pursue- perhaps because the spirit of connectionism seems itself to go somewhat against the grain of analytic rigor.(Minsky and Papert 1988,Prologue, p. vii) Gaps in Courses on Computational Linguistics Part of the reason why we keep making the same mistakes, as Minsky and Papert mentioned above, has to do with teaching. One side of the debate is written out of the textbooks and forgotten, only to be revived/reinvented by the next generation. Contemporary textbooks in computational linguistics have remarkably little to say about PCM. Pierce isn't mentioned in Jurafsky andMartin (2000), Manning and Schütze (1999) or Manning et al. (2008). Minsky'scriticism of Perceptrons is briefly mentioned in just one of the three textbooks: Manning and Schütze (1999, p. 603). A student new to the field might not appreciate that the reference to “ related learning algorithms ” (see bold italics below) includes a number of methods that are currently very popular such as linear and logistic regression. “There are similar convergence theorems for some other gradient descent algorithms, but in most cases convergence will only be to a local optimum. . . .Perceptrons converge to a global optimum because they select a classifier from a class of simpler models, the linear separators. There are many important problems that are not linearly separable, the most famous being the XOR problem. . . . A decision tree can learn such a problem whereas a perceptron cannot. After some initial enthusiasm about Perceptrons (Rosenblatt, 1962), researchers realized these limitations. As a consequence, interest in perceptrons and related learning algorithms faded quickly and remained low for decades. The publication of Minsky and Papert (1969) is often seen as the point at which the interest in this genre of learning algorithms started to wane.” Manning et al. (2008) have a brief reference to Minsky and Papert (1988)as a good description of perceptrons, with no mention of the sharp criticism. “Readers interested in algorithms mentioned, but not described in this chapter, may wish to consult Bishop (2006) for neural networks, Hastie et al. (2001) for linear and logistic regression, and Minsky and Papert (1988) for the perceptron algorithm.” Based on this description, a student might come away with the mistaken impression that Minsky and Papert are fans of perceptrons (and currently popular relatedmethods such as linear and logistic regression). Bishop (2006, p. 193) makes it clear that Minsky and Papert are no fans of perceptrons and neural networks, but dismisses their work as “incorrect conjecture”. Bishop points to widespread use of neural networks in practical application ascounter-evidence to Minsky and Papert's claim above that “not much has changed”and “multilayer networks will be no more able to recognize connectedness than are perceptrons.” Contemporary textbooks ought to teach both the strengths and the weaknessesof useful approximations such as neural networks. Both sides of the debate have much to offer. We do the next generation a disservice when we dismiss one side or the other with harsh words like “incorrect conjecture” and “not much haschanged.” Chomsky receives more coverage than Pierce and Minsky in contemporary textbooks.There are 10 references to Chomsky in the index of Manning and Schütze (1999)and 27 in the index of Jurafsky and Martin (2000). The first textbook has fewer references because it focuses on a relatively narrow topic, Statistical Natural Language Processing, whereas the second textbook takes a broader cut across awider range of topics including phonology and speech. Thus, the secondtextbook, unlike the first textbook, cites Chomsky's work in phonology: Chomskyand Halle (1968). Both textbooks mention Chomsky's criticism of finite-state methods and the devastating effect that they had on empirical methods at the time, though they quickly move on to describe the revival of such methods, with relativelylittle discussion of the argument, motivations for the revival, andimplications for current practice and the future. “In a series of extremely influential papers starting with Chomsky (1956) and including Chomsky (1957) and Miller and Chomsky (1963), Noam Chomskyargued that “finite-state Markov processes,” while a possibly useful engineering heuristic, were incapable of being a complete cognitive model of human grammatical knowledge. These arguments led many linguists and computational linguists away from statistical models altogether. “The resurgence of N-gram models came from Jelinek, Mercer, Bahl.…” Both books also start the ngram discussion with a few quotes, pro and con. “But it must be recognized that the notion ‘probability of a sentence’ is an entirely useless one, under any known interpretation of this term” (Chomsky1965, p. 57) “Anytime a linguist leaves the group the recognition rate goes up.”(Fred Jelinek, then of IBM speech group, 1988) Manning and Schütze (1999, p. 2) starts the discussion with these quotes: “Statistical considerations are essential to an understanding of the operation and development of languages.” (Lyons 1968, p. 98) “One's ability to produce and recognize grammatical utterances is not based on notions of statistical approximations and the like.”( Chomsky 1957, p. 16) Such quotes introduce the student to the existence of a controversy, but they don't help the student appreciate what it means for them. We should remind students that Chomsky objected to a number of finite-state methods that are extremely popular today including ngrams and Hidden Markov Models because he believed such methods cannot capture long-distance dependences (e.g., agreement constraints and wh-movement). Chomsky's position remains controversial to this day, as evidenced by anobjection from one of the reviewers. I do not wish to take a position on this debate here. I am merely asking that we teach both sides of this debate to the next generation so they won't reinvent whichever side we fail to teach. Educating Computational Linguistics Students in General Linguistics andPhonetics To prepare students for what might come after the low hanging fruit has been picked over, it would be good to provide today's students with a broad education that makes room for many topics in Linguistics such as syntax, morphology, phonology, phonetics, historical linguistics and language universals. We are graduating Computational Linguistics students these days that have very deep knowledge of one particular narrow sub-area (such asmachine learning and statistical machine translation) but may not have heard of Greenberg's Universals, Raising, Equi, quantifier scope, gapping, island constraints and so on. We should make sure that students working on co-reference know about c-command and disjoint reference. When students present a paper at a Computational Linguistics conference, they should be expected to knowthe standard treatment of the topic in Formal Linguistics. Students working on speech recognition need to know about lexical stress (e.g., Chomsky and Halle (1968)). Phonological stress has all sorts of consequences on downstream phonetic and acoustic processes. Speech recognizers currently don't do much with lexical stress which seemslike a missed opportunity since stress is one of the more salient properties in the speech signal. Figure 3 shows wave forms and spectrograms for the minimal pair: “politics” and “political.” There are many differences between these two words. The technology currently focuses on differences at the segmental level: 1.“Politics” ends with -s whereas “political” ends with -al. 2. The first vowel in “political” is a reduced schwa unlike the firstvowel in “politics.” The differences in stress are even more salient. Among the many stress-related differences, Figure 3 calls out the differences between pre-stress and post-stress allophones of /l/. There are also consequences in the /t/s; /t/ isaspirated in “politics” and flapped in “political.” Currently, there is still plenty of low-hanging fruit to work on at the segmentallevel, but eventually the state of the art will get past those bottlenecks. Weought to teach students in speech recognition about the phonology andacoustic-phonetics of lexical stress, so they will be ready when the state ofthe art advances past the current bottlenecks at the segmental level. Since there are long-distance dependencies associated with stress that span over more than tri-phones, progress on stress will require a solid understanding of the strengths and weaknesses of currently popular approximations. Fundamental advances in speech recognition, such as effective use of stress, will likely require fundamental advances to the technology. 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|8207 次阅读|5 个评论
【Church - 钟摆摆得太远(5):现状与结论】
热度 1 liwei999 2013-7-31 15:24
【立委按】 【 NLP主流的傲慢与偏见 】系列刚写了三篇。 中国NLP(Natural Language Processing)前辈董振东老师来函推荐两篇来自主流的反思文章。 董老师说,主流中有识之士对深陷成见之中的NLP一边倒的状况, 有相当忧虑和反思。 Church (2011) 对NLP的回顾和反思的文章【 钟摆摆得太远】 (A Pendulum Swung Too Far)是一篇杰作,值得反复研读。 文章在语言研究中经验主义和理性主义此消彼长循环往复的大背景下 ,考察NLP最近20年的历程以及今后20年的趋势。 它的主旨是,我们这一代NLP学者赶上了经验主义的黄金时代( 1990迄今),把唾手可得的果子统统用统计摘下来了, 留给下一代NLP学人的,都是高高在上的果实。 20多年统计一边倒的趋势使得我们的NLP教育失之偏颇, 应该怎样矫正才能为下一代NLP学人做好创新的准备, 结合理性主义,把NLP推向深入?忧思溢于言表。原文很长, 现摘要译介如下。 【Church - 钟摆摆得太远(5)】 立委编译自: K.Church 2011. A Pendulum Swung Too Far. Linguistics issues in Language Technology, Volume 6, Issue 5. 无视历史注定要重蹈覆辙 在大多数情况下,机器学习、信息检索和语音识别方面的实证复兴派简单地无视PCM 的论辩,虽然在神经网络领域,感知机附加的隐藏层可以看作是对明斯基和帕佩特批评的让步。尽管如此,明斯基和帕佩特对他们所著的《感知机》出版20 年以来领域进展之缓慢深表失望。 “在准备这一版时,我们本来准备‘把这些理论更新’。但是,当我们发现自本书1969 年第一次出版以来,没有什么有意义的进展,我们认为保留原文更有意义……只需加一个后记即可……这个领域进展如此缓慢的原因之一是,不熟悉领域历史的研究人员继续犯别人以前已经犯过的错误。有些读者听说该领域没有什么进步,可能会感到震惊。难道感知机类的神经网络(新名称叫联接主义)没有成为热烈讨论的主题吗?……当然不是,该领域存在很多令人感兴趣的问题和讨论。可能确实也有些现在的发现也会随着时间逐渐显出重要性。但可以肯定的是,领域的基础概念并没有明显改变。今天令人兴奋的问题似乎与前几轮大同小异……我们的立场依然是当年我们写这本书时的立场:我们相信这个领域的工作是极为重要和丰富的,但我们预计其发展需要一定程度的批判性分析,可那些更富浪漫精神的倡导者却一直不愿意去做这种分析,也许因为连通主义的精神似乎变得与严谨分析南辕北辙。 多层网络并不比感知机更有能力识别连通性。” 计算语言学课程的缺陷 正如上面明斯基和帕佩特指出的,我们不断犯同样错误的部分原因与我们的教学有关。辩论的一方在当代计算语言学教科书中已被遗忘,不再提及,只能靠下一代人重新认识和复原。当代的计算语言学教科书很少介绍PCM 三位前辈。在汝拉夫斯基(Jurafsky) 和马丁(Martin) 编著的教科书以及曼宁(Manning) 等编著的两套教科书中根本没有提及皮尔斯。三本教科书中只有一本简要提起明斯基对感知机的批评。刚刚进入此领域的学生也许意识不到所谓“相关学习算法”包含了很多当今非常流行的方法,如线性回归和logistic回归。 “一些其他的梯度下降算法(gradient descent algorithms) 有类似的收敛定理,但是在大多数情况下,收敛只能达到局部最优。……感知机收敛能达到全局最优是因为它们从线性分离机这样一类比较简单的模型中选择分类器。很多重要的问题是线性不可分的,其中最著名的是异或问题。……决策树算法可以学习解决这类问题,而感知机则不能。研究人员在对感知机最初的热情 消褪以后,开始意识到这些局限性。其结果是,对感知机及相关学习算法的兴趣很快消褪,此后几十年一直一蹶不振。明斯基和帕佩特的论文《感知机》通常被看作是这类学习算法开始消褪的起点。” 曼宁等人的2008 版教科书中有简短的文献指向明斯基和帕佩特1988 年的论文,称其对感知机有不错的描述,但并未提及他们的尖锐批评: “对文中提到但本章未进行细述的算法,感兴趣的读者可以参阅以下文献:神经网络方面的毕夏普(Bishop) 、线性和logistic回归方面的黑斯蒂(Hastie) 等人以及感知机算法方面的明斯基和帕佩特等的论文。” 基于这样的描述,学生可能会得出错误印象,以为明斯基和帕佩特是感知机算法(以及当今流行的线性和logistic 回归相关方法)的支持者。 毕夏普明确指出,明斯基和帕佩特绝不是感知机和神经网络的赞许者,而且把它们认作“不正确的构想”予以排斥。毕夏普把神经网络在实际应用中的普及看作是对明斯基和帕佩特上述批评意见的反击证明,认为并非如他们所说的那样“没有多少改变”、“多层网络并不比感知机更有能力识别连通性”。 当代教科书应该教给学生认识神经网络这类有用的近似方法的优点和缺点。辩论双方都大有可言。排除任何一方的论证都是对我们的下一代不负责任,尤其是当其中一方的批评是如此的尖锐,用到“不正确的构想”和“没有多少改变”这样的说法。 乔姆斯基比皮尔斯和明斯基在当代教科书中被提及得多一些。曼宁和舒兹(Schütze) 的教科书引用乔姆斯基的论文10次,汝拉夫斯基和马丁的教科书的索引中共有27 处引用乔姆斯基的论文。第一本书中较少引用是因为它专注于一个相对狭窄的话题——统计型自然语言处理。而第二本教科书涉及面广泛得多,包括音韵学和语音。因此,第二本书还引用了乔姆斯基在音韵学方面的工作。 两本教科书都提到乔姆斯基对有限状态方法的批评,以及这些批评在当时对经验主义方法论的抨击效果。但是话题迅速转移到描述这些方法的复兴,而对这一复兴的论辩、动因及其对目前实践和未来的影响的讨论则相对较少。 “由乔姆斯基1956 年的论文开始的一系列极具影响力的论文中,包括乔姆斯基1957 年的论文以及米勒(Miller) 和乔姆斯基1963 年的论文,乔姆斯基认为,‘有限状态的马尔可夫过程’虽然是可能有用的工程探索,却不可能成为人类语法知识的完整认知模型。当时的这些论辩促使许多语言学家和计算语言学家完全脱离了统计模型。 N 元模型的回归开始于耶利内克(Jelinek)、默瑟(Mercer)、巴尔(Bahl) 等人的工作……” 两本教科书对N 元文法的讨论都是从引用其优缺点开始: “但是必须认识到,无论怎样解读,‘一个句子的概率’都是一个完全无用的概念……。” “任何时候,只要一个语言学家离开本研究组,识别率就会上升。”(弗雷德·耶利内克(Fred Jelinek),当时他在IBM 语音组,1988) 曼宁和舒兹是以这样的引用开始讨论的: “统计的考量对于理解语言的操作与发展至关重要。” “一个人对合法语句的产生和识别能力不是基于统计近似之类的概念。” 这种正反面观点的引用确实向学生介绍了争议的存在,但却不能真正帮助学生领会这些争议意味着什么。我们应提醒学生,乔姆斯基反对的是如今极其流行的一些有限状态方法,包括N 元文法和隐式马尔可夫模型,因为他相信这些方法无法捕捉远距离的依存关系(例如一致关系的限制条件和wh- 位移现象)。 乔姆斯基的立场直到今天仍然是有争议的,本文审阅者之一的反对意见也佐证了这种争议。我不希望站在这场辩论中的某一方。我只是要求应该教给下一代双方的辩论。对于任一方,都不至于由于我们疏于教授而使他们需要重新“发现”。 计算语言学学生应该接受普通语言学和语音学的培训 为了让进入这行的学生对低枝果实采摘完后的情形做好准备,今天的教育最好向广度发展。学生应该全面学习语言学的主要分支,如句法、词法、音韵学、语音学、历史语言学以及语言共性。我们目前毕业的计算语言学的学生在一个特定的较窄的子领域具有丰富的知识(如机器学习和统计型机器翻译),但可能没听说过格林伯格共性(Greenberg’s universals)、提升(raising)、等同(equi)、 量词辖域(quantifier scope)、 空缺(gapping)、孤岛条件(island constraints) 等语言学现象。我们应该确保从事共指关系(co-reference) 研究的学生都知道成分统制(c-command) 和指称相异(disjoint reference)。当学生在计算语言学会议上宣讲论文的时候,他们应该已经了解形式语言学(formal linguistics) 对此问题的标准处理。 从事语音识别工作的学生需要了解词汇重音(如文献)。音韵学重音对于下游的语音和声学过程具有各种各样的影响。 图3 “politics”and“political”的谱图显示有三个/l/同位音。在重音前后出现不同的音位变体。 语音识别目前没有充分利用词汇重音特征是一个不小的遗憾,因为重音是语音信号中较为突出的特性之一。图3 显示了最小对立体 (minimal pair)“ politics”和“political”的波形和谱图。这两个词千差万别,目前的技术着重于语音单位层面的区别: “politics”以 –s 结尾,而“political”以-al 结尾。 与“politics” 不同,“political”的第一个元音是弱化的非重读音节的元音(schwa)。 重音的区别更为突出。在诸多与重音有关的区别中,图3 突出显示了重音前与重音后/l/ 的音位变体之间的区别。另外还有对/t/ 音的影响。“politics”中 /t/是送气音,但在“political”中却是闪音。 目前,在语音单位层面,仍有大量低枝果实可以采摘,但这些工作终有完结之时。我们应该教给语音识别领域的学生有关音韵学和声学语音学的词汇重音知识,以便他们在目前的技术水平超越语音单位层面的瓶颈时依然游刃有余。由于重音存在超过三元音素的远距离依存关系,重音方面的进展需要对目前流行的近似方法的长处与缺陷均有深入的理解。语音识别方面的基础性进展,例如能有效使用重音,很可能要依赖于技术的根本性进步。 结论 学界前辈皮尔斯、乔姆斯基和明斯基曾经严重质疑过当年流行后来复活了的一些经验主义方法。他们的反对意见涉及许多当代流行的方法,包括机器学习(线性分离机)、信息检索(向量空间模型)、语言模型(N 元文法)、语音识别(隐式马尔可夫模型)和条件随机场。 学生们需要学习如何有效地使用流行的近似模型。乔姆斯基指出了N 元文法的缺陷,明斯基分析了线性分离机的局限性。许多局限性很明显(由自身算法设计带来的),但即便如此,对其支持与反对之间的争辩有时仍然非常激烈。有时,其中一方的论点不会被写进教科书,只有等到下一代人去重新发现和复兴这些被遗忘的思想。我们应该鼓励下一代学者充分了解辩论双方的论据,即使他们选择站在一方或另一方。 20 世纪90 年代,当我们复兴经验主义时,我们选择了实用主义的理由来反对我们导师的观点。数据从未如此丰富,我们能拿它做什么呢?我们认为,做简单的事情比什么都不做要好。让我们去采摘一些低枝果实。虽然三元模型不能捕捉到一切语言现象,但它往往比其他方法更有效。捕捉我们可以轻易捕获的一致性事实,要比好高骛远试图捕捉更多语言事实而最终得到更少要好。 这些说辞在20 世纪90 年代有很大的意义,特别是学术界在前一波繁荣期提出了很多不切实际的期望。但是今天的学生在不久的将来可能会面临一系列非常不同的挑战。当大多数低枝果实采摘完毕,他们应该做些什么呢? 具体就机器翻译而言,统计方法的复兴(例如文献)由于实用主义的原因,始于采用有限状态方法。但随着时间的推移,研究人员已经越来越接受使用句法捕捉远距离的依存关系,尤其是当源语与目标语缺乏平行语料库,或者当两种语言具有非常不同的词序的时候(例如,从主谓宾词序的语言(如英语)翻译到以动词收尾的语言(如日语))。展望未来,我们可以预料到机器翻译的研究会越来越多地使用越来越丰富的语言学表达。同样,很快也将有一天,重音将成为语音识别的重要依据。 既然计算语言学教科书不可能涵盖所有这些内容,我们就应该与其他相关科系的同事合作,确保学生能接受到广泛的教育,足以让他们为所有可能的未来做好准备。 选自《 中国计算机学会通讯 》第9卷第12期。本文译自 Linguistics issues in Language Technology , 2011; 6(5) K. Church 的“A Pendulum Swung Too Far”一文。译者:李维(美国网基公司首席科学家。主要研究方向为信息抽取、舆情挖掘等)唐天(美国网基公司首席科学家助理兼助理工程师。主要研究方向为自然语言处理和机器学习)。机器之心授权转载。 【补记】 任何时候,只要一个语言学家离开研究组,识别率就会上升。“ (Fred Jelinek,1988) (关于这句名言,可参见 【立委随笔:文傻和理呆的世纪悲剧(romance tragedy)】 ) 原文【参考文献】列表 References Bishop, Christopher. 2006. Pattern Recognition and Machine Learning. New York: Springer. Bloomfield, Leonard. 1933. Language. New York: Henry Holt. ISBN 90-272- 1892-7. Brown, Peter, John Cocke, Stephen Pietra, Vincent Pietra, Frederick Jelinek, Robert Mercer, and Paul Roossin. 1988. A statistical approach to language translation. In COLING. Brown, Peter, Vincent Pietra, Stephen Pietra, and Robert Mercer. 1993. The mathematics of statistical machine translation: Parameter estimation. Computational Linguistics 19:263–311. Chomsky, Noam. 1956. Three models for the description of language. In IRE Transactions on Information Theory, vol. 2, pages 113–124. Chomsky, Noam. 1957. Syntactic Structures. The Hague: Mouton. Chomsky, Noam. 1965. Aspects of the Theory of Syntax. Cambridge, MA: MIT Press. Chomsky, Noam and Morris Halle. 1968. The Sound Pattern of English. New York: Harper Row. Church, Kenneth. 1980. On memory limitations in natural language processing. Tech. Rep. MIT/LCS/TR-245, MIT. Church, Kenneth. 1988. A stochastic parts program and noun phrase parser for unrestricted text. In In Proceedings of the Second Conference on Applied Natural Language Processing, pages 136–143. Church, Kenneth and Robert Mercer. 1993. Introduction to the special issue on computational linguistics using large corpora. Computational Linguistics 19:1–24. Firth, John Rupert. 1957. A synopsis of linguistic theory 1930-1955. In Special Volume of the Philological Society. Oxford: Oxford University Press. Francis, W. Nelson and Henry Kucera. 1982. Frequency Analysis of English Usage. Boston: Houghton Mifflin. Hall, David, Daniel Jurafsky, and Christopher Manning. 2008. Studying the History of Ideas Using Topic Models. In EMNLP, pages 363–371. Hastie, Trevor, Robert Tibshirani, and Jerome Friedman. 2001. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer- Verlag. Hutchins, John. 1996. ALPAC: The (In)famous report. In MT News International , pages 9–12. Jurafsky, Daniel and James Martin. 2000. Speech and Language Processing: An Introduction to Natural Language Processing, Speech Recognition, and Computational Linguistics. Prentice-Hall. Lyons, John. 1968. Introduction to theoretical linguistics. Cambridge, England: Cambridge University Press. Manning, Christopher, Prabhakar Raghavan, and Hinrich Sch¨utze. 2008. Introduction to Information Retrieval . Cambridge University Press. ISBN 0521865719. Manning, Christopher and Hinrich Sch¨utze. 1999. Foundations of Statistical Natural Language Processing. Cambridge, MA: MIT Press. Miller, George and Noam Chomsky. 1963. Finitary Models of Language Users. In D. Luce, R. Bush, and E. Galanter, eds., Handbook of Mathematical Psychology, vol. 2, pages 419–491. New York: Wiley. Minsky, Marvin and Seymour Papert. 1969. Perceptrons. Cambridge, MA: MIT Press. Minsky, Marvin and Seymour Papert. 1988. Perceptrons. Cambridge, MA: MIT Press. Pierce, John. 1961. An Introduction to Information Theory: Symbols, Signals and Noise. New York: Dover Publications, Inc. Pierce, John. 1969. Whither Speech Recognition. Journal of the Acoustical Society of America 46(4P2):1049–1051. Pierce, John. 1970. Whither Speech Recognition II. Journal of the Acoustical Society of America 47(6B):1616–1617. Pierce, John, John Carroll, Eric Hamp, David Hays, Charles Hockett, Anthony Oettinger, and Alan Perlis. 1966. Language and Machines: Computers in Translation and Linguistics. Washington, D.C.: National Academy of Sciences, National Research Council. Roe, David and Jay Wilpon. 1993. Whither Speech Recognition: The Next 25 Years. IEEE Communications 31(11):54–63. Rosenblatt, Frank. 1962. Principles of Neurodynamics; Perceptrons and the Theory of Brain Mechanisms. Washington: Spartan Books. Simon, Herb. 1960. Management by machines: How much and how soon? The Management Review 49:12–19 and 68–80. Sinclair, John. 1987. Looking Up: An Account of the COBUILD Project in Lexical Computing. Glasgow: Collins. Sinclair, John, Patrick Hanks, Gwyneth Fox, Rosamund Moon, and Penny Stock, eds. 1987. Collins COBUILD English Language Dictionary. Glasgow: Collins. Steedman, Mark. 2008. On Becoming a Discipline. Computational Linguistics 34(1):137–144. Tukey, John. 1977. Exploratory Data Analysis. Reading, MA: Addison- Wesley. Weizenbaum, Joseph. 1976. Computer Power and Human Reason. San Francisco: W. H. Freeman. 【NLP主流的反思:Church - 钟摆摆得太远(1)】 【Church - 钟摆摆得太远(2):乔姆斯基论】 【Church - 钟摆摆得太远(3):皮尔斯论】 【Church - 钟摆摆得太远(4):明斯基论】 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|7404 次阅读|3 个评论
【立委科普:NLP 联络图 (之一)】
热度 3 liwei999 2012-11-6 10:29
【立委科普:NLP 联络图 (之一)】
“NLP 不是魔术,但是,其结果有时几乎就是魔术一般神奇。” 引自: http://www.confidencenow.com/nlp-seduction.htm 【立委按】说明一点 写这篇nlp联络图科普的时候 深度学习还没火。 ai 还没有摇身一变 ,被 dl 所窃取。当时的机器学习界 还在鄙视 取笑 并与 ai 保持距离。没想到现如今 ai 居然被看成了 dl 的同义词 突然成了香饽饽。言必称神经,连 NLP也被窃取了,也与 dl化了等号。符号逻辑派的AI与规则系统的NLP,做了一辈子,到头来连“家”都没了。一切皆是学习,一切都要神经。但我相信天变了,道却不变,因此下面的联络图或可超越神经一统天下的狭隘思维。 拨乱反正,谈何容易。还是一家之言, 愿者上钩吧。 【立委原按】 样板戏《智取威虎山》里面, 杨子荣怀揣一张秘密联络图而成为土匪头子座山雕的座上客,因为在山头林立的江湖,谁掌握了联络图,谁就可以一统天下。 马克思好像说过人是社会关系的总和,专业领域又何尝不是如此。 在关系中定义和把握 NLP ,可以说是了解一门学问及其技术的钟南山捷径。 老马识途,责无旁贷,遂精雕细刻,作联络图四幅与同仁及网友分享。 此联络图系列可比林彪元帅手中的红宝书,急用先学,有立竿见影之奇效。重要的是,学问虽然日新月异,永无止境,然而天下大势,在冥冥中自有其不变之理。四图在手,了然于心,可以不变应万变,无论研究还是开发,必不致迷失革命大方向。 (NLP Word Cloud, courtesy of ourselves who built the NLP engine to parse social media to generate this graph ) 一个活跃的领域会不断产生新的概念,新的术语,没有一个合适的参照图,新人特别容易湮没其中。新术语起初常常不规范,同一个概念不同的人可能使用不同的术语,而同一个术语不同的人也可能有不同的解读。常常要经过一个混沌期,研究共同体才逐渐达成规范化的共识。无论是否已经达成共识,关键是要理解术语的背后含义 (包括广义、窄义、传统定义,以及可能的歧义)。加强对于术语的敏感性,不断探究以求准确定位新概念/新术语在现有体系的位置,是为专业人员的基本功。本文 将 围绕这四幅自制联络图, 对 NLP 相关的术语做一次地毯式梳理和解说。本文提到的所有术语,中文一律加 下划线 ,英文斜体( Italics ),大多有中英文对照,有的术语还给出超链,以便读者进一步阅读探索。 在我们进入 NLP 系列联络图内部探究其奥秘之前,有必要澄清 自然语言处理 ( NLP )的一般概念及其上位概念,以及与 NLP 平起平坐或可以相互替换的一些术语。 NLP 这个术语是根据“自然语言”这个问题领域而命名的宽泛概念。 顾名思义, 自然语言处理 就是以 自然语言 为对象的计算机处理。 无论为了什么目标,无论分析深浅,只要涉及电脑处理 自然语言 , 都在 NLP 之列。 所谓 自然语言 ( Natural language )指的即是我们日常使用的语言,英语、俄语、 日语、汉语等,它与 人类语言 ( Human language )是同义词,主要为区别 形式语言 ( Formal language ),包括 计算机语言 ( Computer language )。自然语言是人类交流最自然最常见的形式, 不仅仅是口语,书面语也在海量增长, 尤其是移动互联网及其社交网络普及的今天。比较 形式语言 , 自然语言 复杂得多,常有省略和歧义,具有相当的处理难度(hence 成就了 NLP 这个专业及其我们的饭碗)。顺便一提,在 自然语言 灰色地带的还有 那些 人造语 ( Artificial language )方案,特别是广为流传的 世界语 ( Esperanto ),它们的形式与 自然语言 无异,也是为人类交流而设计, 不过是起源上不太“自然”而已,其分析处理当然也属 NLP 。(笔者N多年前的 机器翻译 专业的硕士课题就是一个把 世界语 全自动翻译成英语和汉语的系统,也算填补了一项空白。) 与 NLP 经常等价使用的术语是 计算语言学 ( Computational Linguistics , or, CL )。顾名思义, 计算语言学 是 计算机科学 ( Computer Science )与 语言学 ( Linguistics )之间的交叉学科。事实上, NLP 和 CL 是同一个行当的两面, NLP 注重的是实践, CL 则是一门学问(理论)。可以说, CL 是 NLP 的科学基础, NLP 是 CL 的应用过程。由于 CL 与数理等基础学科不同,属于面相应用的学问,所以 CL 和 NLP 二者差不多是同一回事儿。其从业人员也可以从这两个侧面描述自己,譬如,笔者在业界可称为 NLP工程师 ( NLP engineer ),在学界则是 计算语言学家 ( Computational linguist )。当然,在大学和研究所的 计算语言学家 ,虽然也要做 NLP 系统和实验,但学问重点是以实验来支持理论和算法的研究。在工业界的 NLP 工程师 们,则注重 real life 系统的实现和相关产品的开发,奉行的多是白猫黑猫论,较少理论的束缚。 另外一个经常与 NLP 平行使用的术语是 机器学习 ( Machine Learning , or, ML )。严格说起来, 机器学习 与 NLP 是完全不同层次的概念,前者是方法,后者是问题领域。然而,由于 机器学习 的万金油性质(谁说机器学习不万能,统计学家跟你急),加之 ML 已经成为 NLP 领域(尤其在学界)的主流方法,很多人除了 机器学习 ,忘记或者忽视了 NLP 还有 语言规则 的方法,因此在他们眼中, NLP 就是 机器学习 。其实,机器学习并不局限于 NLP 领域,那些用于语言处理的 机器学习 算法也大多可以用来做很多其他 人工智能 ( Artificial Intelligence , or AI )的事儿,如 股市预测 ( Stock market analysis )、 信用卡欺诈监测 ( Detecting credit card fraud )、 机器视觉 ( Computer vision )、 DNA测序分类 ( Classifying DNA sequences ), 甚至 医疗诊断 ( Medical diagnosis ) 。 在 NLP 领域,与 机器学习 平行的传统方法还有 语言学家 ( linguist )或 知识工程师 ( knowledge engineer )手工编制的 语言规则 ( Linguistic rules , or hand-crafted rules ),这些规则的集合称 计算文法 ( Computational grammar ),由 计算文法 支持(or 编译 )的系统叫做 规则系统 ( Rule system )。 机器学习 和 规则系统 这两种方法各有利弊,可以取长补短。统而言之, 机器学习 擅长 文件分类 ( Document classification ),从宏观上 粗线条 ( course-grained )把握语言现象, 计算文法 则擅长细致深入的语言学分析,从细节上捕捉语言现象。如果把语言看成森林,语句看成林中形态各异的树木,总体而言,机器学习是见林不见木,计算文法则见木不见林(本来这是很自然的互补关系,但双方都有少数“原教旨主义极端派”不愿承认对方的长处,呵呵)。从效果上看, 机器学习 常常以覆盖面胜出,业内的术语叫 高查全率 ( High recall ),而 计算文法 则长于分析的精度,即 高查准率 ( High precision )。由于 自然语言 任务比较 复杂,一个实用系统( Real-life system )常常需要在在 粗线条 和 细线条 ( fine-grained )以及 查全 与 查准 之间取得某种平衡,因此结合两种方法的 NLP 混合式系统 ( Hybrid system )往往更加实惠好用。一个简单有效的结合方式是把系统建立成一个 后备式模型 ( back-off model ),对每个主要任务,先让 计算文法 做高精度低覆盖面的处理,再行 机器学习 出来的 统计模型 ( Statistical model ),以便粗线条覆盖遗留问题。 值得一提的是, 传统 AI 也倚重手工编制的 规则系统 ,但是它与语言学家的 计算文法 有一个根本的区别: AI 规则系统 远远不如 计算文法 现实可行。 AI 的 规则系统 不仅包括比较 容易把握 ( tractable )和 形式化 ( formalized )的语言(学)规则,它们还试图涵盖包罗万象的常识(至少是其中的核心部分)以及其他知识,并通过精巧设计的逻辑推理系统把这些知识整合起来。可以说,AI 旨在从本质上模拟人的智能过程,因雄心太大而受挫,以致多年来进展甚微。过去的辉煌也只表现在极端狭窄的领域的 玩具系统 (后来也发展了一支比较实用的 专家系统 ),当时 统计模型 还是没有睡醒的雄狮。以 ML 为核心以 大数据 ( Big data )为支撑的统计方法的兴起,让 AI 相形见绌。有意思的是,虽然 人工智能 (台湾同胞称 人工智慧 )听上去很响亮,可以唤起普罗大众心中的某种科学幻想奇迹(因此常常为电子产品的包装推销商所青睐),在科学共同体中却相当落寞:有不少统计学家甚至把 AI 看成一个过气的笑话。虽然这里难免有王婆卖瓜的偏见,但 传统 AI 的方法论及其好高骛远不现实也是一个因素。也许在未来会有 AI 的复兴,但是在可预见的将来,把人类智能当作联接输入输出的黑匣子的 机器学习 方法,显然已经占了上风。 由此看来, ML 与 AI 的关系,颇似 NLP 与 CL 的关系,外延几乎重合, ML 重在 AI 的应用(包括 NLP ),而 AI 理应为 ML 的理论指导。可是,由于方法学上的南辕北辙,以 知识表达 ( Knowledge representation )和 逻辑推理 ( Logical reasoning )为基础的 传统 AI 越来越难担当实用 智能系统 ( Intelligent systems )的理论指导, 智能系统 的地盘逐渐为 以 统计学 和 信息论 为基础的 机器学习 所占领。国宝熊猫般珍稀的坚持 传统AI 的 逻辑学家 (如 cyc 发明人 Douglas Lenat 老先生)与 擅长 ML 的 统计学家 (多如恐龙)虽然问题领域几乎完全重合,解决方案却形如陌路,渐行渐远。 还有一个几乎与 自然语言处理 等价的术语,叫 自然语言理解 ( Natural Language Understanding , or NLU )。从字面上,这个义为“机器理解语言”的术语 NLU 带有浓厚的 人工智能 的烂漫主义意味,不象“机器处理语言”那样直白而现实主义,但实际上,使用 NLP 还是 NLU, 正如使用 NLP 还是 CL 一样, 往往是不同圈子人的不同习惯,所指基本相同。说基本相同,是因为 NLP 也可以专指浅层的语言处理(譬如后文会提到的 浅层分析 Shallow parsing ),而 深度分析 ( Deep parsing )却是 NLU 的题中应有之义,浅尝辄止的不能登 NLU/AI 的大雅之堂。 不妨这样看,带上 AI 的眼镜看,此物为 NLU ;而以 ML 而观之,则此物只能是 NLP 。 此外, 自然语言技术 或 语言技术 (Natural language technology)也是 NLP 的通俗化表达。 既然 NLP 的等价物 CL 有两个parents, 计算机科学 和 语言学 , NLP 的上位概念也自然可以有两位: NLP 既可以看作是计算机科学的一个应用分支,也可以看作是语言学的一个应用分支。事实上,广义的 应用语言学 ( Applied linguistics )是包含 计算语言学 和 NLP 的,不过由于 计算语言学 作为一个独立学科已经站住脚跟半个多世纪了(其主要学刊是《 Computational Linguistics 》,学会是 ACL,顶级国际会议包括 ACL 年会和 COLING 等),(窄义的) 应用语言学 现在更多用来表示语言教学和翻译这样的实用领域,不再下辖 计算语言学 这个分支。 从功能上看, NLP 与 ML 一样,同属于 人工智能 的范畴,特别是 自然语言理解 以及 NLP 的种种应用,如 机器翻译 。所以,广义的 人工智能 既是 机器学习 的上位概念,也是 自然语言处理 的上位概念。然而,如上所说, 窄义或传统的 人工智能 强调知识处理包括 常识推理 ( common-sense reasoning ),与现行的 ML 和 NLP 的 数据制导 ( data-driven )现状颇有距离,因此有 NLP 学者刻意保持与 传统AI 的距离以示不屑为伍。 千头万绪,纲举目张,下文分四个层次、用四幅联络图来讲解 NLP per se 。四个层次分别是: 1. 语言层(linguistic level); 2. 抽取 层(extraction level); 3. 挖掘 层(mining level); 4. 应用层(app level)。 这四个层次的关系,基本就是自底而上的支持关系:1 ==》2 ==》 3 ==》4。显然, NLP 的核心 句法分析器 ( Parser )处于第一层, 而《 自动民调 》、《 问答系统 》、《 机器翻译 》这样的系统则是第四层应用的例子。 需要说明的是,NLP 的对象自然语言有两种形式, 语音 ( Speech )和 文本 ( Text ),因此NLP自然涵盖语音方面的两个重要方向:1. 教授电脑听懂人话的 语音识别 ( Speech recognition );2. 教授电脑说人话的 语音合成 ( Speech synthesis )。由于笔者对 语音处理 ( Speech processing )比较外行,本系列专谈针对文本的 NLP ,视 语音识别 和 语音合成 为 文本处理 ( Text processing )的 前奏和后续。事实上,在实际的语言系统中, 语音处理 和 文本处理 的分工正是如此,譬如 NLP 在手机上最新应用如 苹果的 Siri 就是先行 语音识别 ,输出文本结果,再行 文本分析 ,然后根据分析理解的结果采取行动(根据主人指令去查天气预报、股票、播放某支音乐等等)。 净手焚香阅好图 净手焚香阅好图 我把 NLP 系统从核心引擎直到应用,分为四个阶段,对应四张框架图。 最底层最核心的是 deep parsing,就是对自然语言的自底而上层层推进的自动分析器,这个工作最繁难,但是它是绝大多数NLP系统的我称之为带有核武器性质的基础技术,因为自然语言作为非结构数据因此而被结构化了。面对千变万化的语言表达,只有结构化了,patterns 才容易抓住,信息才好抽取,语义才好求解。这个道理早在乔姆斯基1957年语言学革命后提出表层结构到深层结构转换的时候,就开始成为(计算)语言学的共识了。结构树不仅是表达句法关系的枝干(arcs),还包括负载了各种信息的单词或短语的叶子(nodes)。结构树虽然重要,但一般不能直接支持产品,它只是系统的内部表达,作为语言分析理解的载体和语义落地为应用的核心支持。 接下来的一层是抽取层 (extraction),如上图所示。它的输入是结构树,输出是填写了内容的 templates,类似于填表:就是对于应用所需要的情报,预先定义一个表格出来,让抽取系统去填空,把语句中相关的词或短语抓出来送进表中事先定义好的栏目(fields)去。这一层已经从原先的领域独立的 parser 进入面对领域、针对应用和产品需求的任务了。 值得强调的是,抽取层是面向领域的语义聚焦的,而前面的分析层则是领域独立的。因此,一个好的架构是把分析做得很深入很逻辑,以便减轻抽取的负担。在深度分析的逻辑语义结构上做抽取,一条抽取规则等价于语言表层的千百条规则。这就为领域转移创造了条件。 有两大类抽取,一类是传统的信息抽取(IE),抽取的是事实或客观情报:实体、实体之间的关系、涉及不同实体的事件等,可以回答 who did what when and where (谁在何时何地做了什么)之类的问题。这个客观情报的抽取就是如今火得不能再火的知识图谱(knowledge graph)的核心技术和基础,IE 完了以后再加上下一层挖掘里面的整合(IF:information fusion),就可以构建知识图谱。另一类抽取是关于主观情报,舆情挖掘就是基于这一种抽取。我过去五年着重做的也是这块,细线条的舆情抽取(不仅仅是褒贬分类,还要挖掘舆情背后的理由来为决策提供依据)。这是 NLP 中最难的任务之一,比客观情报的 IE 要难得多。抽取出来的信息通常是存到某种数据库去。这就为下面的挖掘层提供了碎片情报。 很多人混淆了抽取(information extraction) 和下一步的挖掘(text mining),但实际上这是两个层面的任务。抽取面对的是一颗颗语言的树,从一个个句子里面去找所要的情报。而挖掘面对的是一个 corpus,或数据源的整体,是从语言森林里面挖掘有统计价值的情报。在信息时代,我们面对的最大挑战就是信息过载,我们没有办法穷尽信息海洋,因此,必须借助电脑来从信息海洋中挖掘出关键的情报来满足不同的应用。因此挖掘天然地依赖统计,没有统计,抽取出来的信息仍然是杂乱无章的碎片,有很大的冗余,挖掘可以整合它们。 很多系统没有深入做挖掘,只是简单地把表达信息需求的 query 作为入口,实时(real time)去从抽取出来的相关的碎片化信息的数据库里,把 top n 结果简单合并,然后提供给产品和用户。这实际上也是挖掘,不过是用检索的方式实现了简单的挖掘就直接支持应用了。 实际上,要想做好挖掘,这里有很多的工作可做,不仅可以整合提高已有情报的质量。而且,做得深入的话,还可以挖掘出隐藏的情报,即不是元数据里显式表达出来的情报,譬如发现情报之间的因果关系,或其他的统计性趋势。这种挖掘最早在传统的数据挖掘(data mining)里做,因为传统的挖掘针对的是交易记录这样的结构数据,容易挖掘出那些隐含的关联(如,买尿片的人常常也买啤酒,原来是新为人父的人的惯常行为,这类情报挖掘出来可以帮助优化商品摆放和销售)。如今,自然语言也结构化为抽取的碎片情报在数据库了,当然也就可以做隐含关联的情报挖掘来提升情报的价值。 第四张架构图是NLP应用(apps)层。在这一层,分析、抽取、挖掘出来的种种情报可以支持不同NLP产品和服务。从问答系统到知识图谱的动态浏览(谷歌搜索中搜索明星已经可以看到这个应用),从自动民调到客户情报,从智能助理到自动文摘等等。 这算是我对NLP基本架构的一个总体解说。根据的是20多年在工业界做NLP产品的经验。18年前,我就是用一张NLP架构图忽悠来的第一笔风投,投资人自己跟我们说,这是一张 million dollar slide 。如今的解说就是从那张图延伸拓展而来。 天变还是不变,道是不变的。 本篇的英语译文见(the English translation of this piece is now available at my blog below): OVERVIEW OF NATURAL LANGUAGE PROCESSING (1/5) by Wei Li 【 立委科普: NLP 白皮书 】(姐妹篇,in English) 【附录: 立委NLP相关博文汇总一览 】 余致力自然语言处理(NLP)凡29年,其目的在求交流之通畅,信息之自由,语言之归一,世界之大同。积29年之经验,深知欲达此目的,必须启蒙后进, 普及 科学,同心协力,共建通天之塔,因作文鼓而吹之。处理尚未成功,同志仍需努力。 【立委科普:自然语言系统架构简说】 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|24841 次阅读|8 个评论
【立委随笔:文傻和理呆的世纪悲剧(romance tragedy)】
热度 4 liwei999 2012-10-15 20:45
不是冤家不碰头 St atisticians vs. Linguists: Deep-seated Antagonists? (Or Protagonists in NLP?) Chemistry? No! 【一辈子只做一件事,幸也不幸?】 不知道多少次电脑输入 NLP(自然语言处理),出来的都是“你老婆”。难怪 NLP 跟了我一辈子,or 我跟了 NLP 一辈子。不离不弃。 在当今的社会,有多少人学了一个专业,喜欢上一个专业,就一条路走到黑?尤其是信息产业和技术,瞬息万变,不是被时代淘汰,就是被市场淘汰。前者譬如知识来不及更新,长江后浪推前浪,前浪死在沙滩上。不是说么,搞软件的,中年做不了经理,走技术路线的基本没戏:小年轻头脑多灵光,知识多新鲜,Facebook 和 Google 的创始人不都是娃娃嘛,后生可畏,此之谓也。后者呢,譬如入行的专业太超前,“太科学”,技术不成熟,不能实用,市场无法消化,那也只好转行。这样的例子在身边朋友中常见。 事实上,跟我同辈的学我这行的,除了在大学研究院的象牙塔做教授研究员的以外,几乎全部转行了。师兄中很精明能干的几位也都转行了,不是因为不喜欢 NLP,而是市场还不能消化。当然,转行的师兄们也都做得很好,事业很发展,生活很安逸。 我背负着语言学的沉重包袱,居然survived到今天,简直是奇迹。当然,95%靠运气,上苍的眷顾,譬如博士刚完就天上掉馅饼, 不早不晚一头撞上了美国的科技大跃进 ,泡沫起处有黄金,躲都躲不过。一路下来,直到今天,NLP 的工业曙光已然显现。 说到语言学的沉重包袱,业内人士都理解这是什么含义。Google 的吴军写过一本非常深入浅出的NLP和机器学习的入门书《 数学之美 》(他把晦涩干巴的统计公式和算法及其背后的人和事,能写到如此少妇能解,引人入胜,值得向后学强力推荐)。他转述了这么一个令语言学家心惊肉跳的业内掌故,一个理呆和文傻的浪漫悲剧。说是我们这行的一位机器学习的大牛,出道时与水性杨花的语言学家眉来眼去要搞合作,结果是语言学家觅得他欢,兴趣转移去写歌剧了。郎有情,妾无意,把他dump吊在那里了。大牛也是人,带着初恋失败似的恼怒,从此怨恨上了语言学家。在后来的系统中,几乎全部倚靠数据和自动学习算法,不断排挤语言学家。他的名言是:每当我开除一个语言学家,我的系统的正确率就提高数个百分点。在他眼中,语言学家就是一帮腐儒,只见树木不见森林,成事不足败事有余,不如炒丫鱿鱼,一了百了。 这位大牛当然有偏见。可他说的也是事实,这年头语言学和语言学家都不好做。数据爆炸的时代,语言学家无法垄断语言材料,代 social or 圣人言,稍不留神,即弄巧成拙。(传统)语言学不硬(据传属文科),语言学家当然也硬不起来。不见语言学家们爱吵架,为个小小的 self(反身代词),正室偏房的身份定位问题就闹了个鸡犬不宁,各种妻妾理论(Binding theories)和规则满天飞,互不服气,发论(战)文无数,跟三十年代文人为两个口号(国防文学vs大众文学)争辩到天昏地暗有一比。不怪让统计理呆们瞧不起。大事做不来,小事常 overdone,徒为系统增加 overhead,根本不讲 cost-effectiveness,依靠语言学家,还不如依靠数据。事实证明,这帮理呆不仅仅是会数数的精算师,他们也确实搞出了名堂,譬如统计型机器翻译(最漂亮的可算是 Google Translate ),譬如语音识别(最性感的要数 苹果爱疯的Siri小蜜) ,这些传统的NLP应用,到统计学家手中都做到了大规模实用,不服不行。统计学家不可一世,登门入室做掌门人是大势所趋。成为主流的统计学家和沦落为二等公民的语言学家这种尴尬还会存续很长一段时间。此乃箴言:永远不要与主流正面冲突。主流即合理。顺昌逆亡。 可是他们也有软肋。一是他们语言学实在太差,没有sense,离不开数据。结果呢,凡是缺乏数据的地方,丫就抓瞎了。二来呢,他们一根筋,凡是复杂的问题一律需要简化才可施行,说到底,再牛的算法也经不起组合爆炸。简化不了呢,或者简化以后成了一笔绕晕丫的糊涂账,他们也抓瞎。背后说人坏话不宜多,点到为止。 认真说起来,还是要二者精诚合作,方可取得真经。不是冤家不碰头,看造化了。 【后记】 白老师评说: “不要小看冲冠一怒引发的执着,它会让人把自己钟爱的思路压榨到极致,让不具备同样执着的对手奉陪不起。” 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|9276 次阅读|6 个评论
香港城市大学揭春雨副教授学术报告通知(自然语言处理相关)
timy 2011-9-13 21:58
学术报告通知 学术报告一 1. 时 间 : 9 月22 日 下午 3:00 2. 地 点 : 经管院41 5 3. 报告名称 : 基于语料库比较的术语自动识别方法 及其应用于文学比较研究 4. 报告提纲 本讲座讲述一种基于语料库比较的术语自动识别方法,我们在香港法律语料上的试验证明其有效性,进而展示此方法的基本思想在文学比较研究上的一个成功应用,就是简单的李白杜甫诗歌文本比较就能给出若干非常有趣的发现。 学术报告二 1. 时 间 : 9 月26 日 下午 3:50 2. 地 点 : 经管院 614 3. 报告名称 : 中文信息处理概览 4. 报告提纲 本讲座旨在对中文信息处理领域做一个入门性概览,简介在不同语言学层面上(例如字词句等)所涉的主要问题,然后集中介绍讲者多年所从事的若干研究论题,包括汉语自动分词、自动术语识别、句法分析和机器翻译等,作者及其研究小组在若干相关国际性学术评测中名列前茅。 揭春雨诗歌赏读 1. 时 间 : 9 月21 日 晚上 7 : 00 2. 地 点 : 经管院 105 3. 活动介绍 这次活动将以讲者的作品选例为基础,交流现代汉诗创作和欣赏,也会评介一些相关基本概念和时论,希望对大学生们提升诗歌以及相关艺术的鉴赏水平有所助益。讲者近年借学术之便在若干大学举行类似活动,场次反响热烈,超乎预想,希望这次也能让同学们广有所得。特别欢迎有创作趣向者参与及讨论。 附:报告人简介 揭春雨博士,副教授, 1964 年生于雷州半岛, 1985 年毕业于清华计算机系,是较早从事中文信息处理学术特别是汉语自动分词的先行者之一,曾在社科院和香港城市大学攻读语言学硕士,后留学卡内基梅隆( Carnegie Mellon )大学,又转赴英国谢菲尔德 (Sheffield) 大学师从自然语言处理界学术大师维尔克斯 (Yorick Wilks) 教授,获计算机博士学位,回香港城市大学任教至今,为博、硕士导师,获终身教职,在国际会议学术刊物上发表论文近百篇,学术兴趣包括计算语言学、计算术语学、机器翻译和计算诗学等。更多信息请参见揭春雨副教授个人主页: http://personal.cityu.edu.hk/~ctckit/ 。 欢迎校内外各界人士参加! 南京理工大学经济管理学院 信息管理系 二零一一年九月十三日
个人分类: 自然语言处理|7107 次阅读|0 个评论
语义标注软件及其网址Annotation Tools
热度 1 carldy 2011-5-25 22:51
这里链接的是部分语义标注软件及其网址,供大家参考。 引用请注明出处: http://annotation.semanticweb.org/annotationtool_view Annotation Tools The best known tools around annotation and authoring are listed here. If you have a new tool please let us know.Simply write a mail and tell us about it. SHOE Knowledge Annotator Annotea Annozilla SMORE Yawas Melita GATE Briefing Associate SemanticWord Semantic Markup Plug-In for MS Internet Explorer OntoMat Annotizer KIM Semantic Annotation Platform MnM
个人分类: 个人收藏 My favorites|4002 次阅读|0 个评论
在美国大学讲堂上介绍言本位成果Lecture at U C Berkeley
geneculture 2011-3-2 18:19
在美国大学讲堂上介绍言本位成果Lecture at U C Berkeley
汉语不仅在普通语言学中没有地位,而且,中文在计算语言学中也没有地位。这是为什么呢?在我看来,主要是: 1.以汉语作为实例的普通语言学基础研究由于字词之争而搁浅。 2.以中文作为实例的计算语言学以及程序语言学、形式语言学的综合研究由于满足于基于ASCII的Unicode标准的应用而忽略了信息学基础研究所致。 本人关于“言本位”的科学研究论文和“间接形式化”的技术发明专利正是针对被学界搁浅和忽略上述两个症结而展开并产生了实质性的突破,其应用前景十分广阔。 美国加州大学伯克利分校 语言和信息两个方面的专家与本人交流之后其学科带头人均看到了该突破的意义。以下 美国加州大学伯克利分校 的专家评语和几次面对面交流的实际评判极大地鼓舞了本人,对加速推广该两方面的研究成果将十分有益。特公布让大家分享。 RecLetterProfZou (1)from-lan.pdf
个人分类: 双语信息处理|1491 次阅读|1 个评论
[转载]CFP: 第五届全国青年计算语言学研讨会
timy 2010-4-8 15:22
http://nlp.csai.tsinghua.edu.cn/ywcl2010/ywcl2010.html 第五届全国青年计算语言学研讨会(YWCL 2010)征稿通知,欢迎大家踊跃投稿! 全国青年计算语言学研讨会(前称全国学生计算语言学研讨会)是由中国中文信息学会发起的系列学术会议,每两年举办一次,旨在加强计算语言学研究领域学生之间的学术交流和合作,促进国内计算语言学的研究和应用,提高计算语言学人才培养的水平。该研讨会的突出特点是,其全部活动完全由学生自己组织,交流形式灵活多样,除了大会专题报告外,会议还将组织学生与学生之间、学生与专家、学生与企业之间面对面的交流。 第一届全国学生计算语言学研讨会(SWCL2002) 于2002年 8月在北京大学计算语言学研究所、 第二届全国学生计算语言学研讨会(SWCL2004)于2004年8月在北京语言大学信息科学学院、第三届全国学生计算语言学研讨会(SWCL2006) 于2006年8月在沈阳航空工业学院人机智能研究中心、第四届全国学生计算语言学研讨会(SWCL2008)于2008年7月在山西大学计算机系成功举行。2009年7月在烟台大学举行的第十届全国计算语言学学术会议上,根据与会代表的意见,从2010年起,将全国学生计算语言学研讨会易名为 全国青年计算语言学研讨会,但保持研讨会的宗旨不变。第五届全国青年计算语言学研讨会(YWCL2010)将于2010年10月11日-13日在武汉华中师范大学召开。 青年计算语言学研讨会对计算语言学以及相关学科的在读博士生、硕士生、本科生免收会议费(差旅费和食宿费自理),同时将资助部分边远贫困地区学生参加会议的差旅与食宿费用。会议也欢迎相关领域的教师和研究人员参加。会议将评选优秀论文并给予一定奖励,同时向计算机类核心期刊《中文信息学报》推荐并尽快发表。 为了进一步扩大影响,将本研讨会逐步办成一个国际性的计算语言学方面的学生论坛,本届会议将尝试邀请外籍学生和专家参加,也鼓励中国留学生回国参加会议。同时,为了促进在读学生与计算语言学相关领域企业的相互了解,会议拟邀请部分知名 IT企业赴会进行产品展示、技术报告,并组织相应的交流活动。 青年学生是面向新世纪科研战线的生力军,而学生计算语言学研讨会则是计算语言学和相关专业青年学生学习和交流的生动课堂,会议竭诚期待您的参与。关于会议的最新信息,请参见会议网站 http://nlp.csai.tsinghua.edu.cn/ywcl2010/ywcl2010.html 主要议题(包括但不限于) * 计算语言学的理论基础:知识表示、语料库语言学、记忆模型、机器学习、知识获取和推理技术等;   * 计算语言学的资源研究及建设:分词词表、语料库、树库、语法词典、语义词典、概念词典、ontology、知识库等;   * 词法分析、句法分析和语义分析:分析策略、分析中的计算问题、相关技术展望;   * 话语和篇章的分析与生成:话语的心理学和语言学模型、篇章分析、话语生成;   * 机器翻译技术、系统及评测方法;   * 自然语言处理的应用技术及系统:汉语自动分词、信息检索、信息抽取、信息过滤、自动文摘、问答系统、自动校对、文本自动分类、语义 Web 、文本挖掘、人机接口技术、智能拼音汉字转换、语音识别、文语转换、对外汉语教学等;   * 与自然语言处理相关的语言学研究;   * 服务于计算语言学的支撑环境和软件技术。 论文要求 * 来稿要求在理论或应用技术上确有新意、叙述清楚、行文流畅。   * 论文须未公开发表过,全文不超过8000字,中文或英文均可,但每篇论文均应有中英文两种文字标题、作者姓名、单位、电子邮件和不超过 200字的摘要。   * 会议将评选部分优秀论文,给予一定奖励并向《中文信息学报》推荐发表。    * 投稿方式:直接登录会议网站 http://nlp.csai.tsinghua.edu.cn/ywcl2010/ 上传论文;如用电子投稿有困难,请将论文一式三份与存有电子文档的计算机软盘一份(请注明YWCL2010投稿字样)寄至:北京清华大学智能技术与系统国家重点实验室 李鹏 邮编:100084。 重要日期 * 论文提交截止:      2010 年4月25日   * 论文录用通知:      2010 年5月25日   * 论文最终定稿:      2010 年6月15日   * 研讨会:         2010 年10月11日 13日
个人分类: 研究方法|2781 次阅读|0 个评论
立委履历
liwei999 2010-2-19 05:28
立委履历 (一)工作经历 2006.11-至今 首席科学家 架构师,自然语言平台和核心技术设计者 所设计研发的自然语言平台支持新一代搜索引擎,用于企业市场,主要搜索互联网上的商业情报,包括产品技术信息,客户反馈,等。该产品为多家财富500强的研究部门和市场部门采用,证明了它提供的价值是其他搜索引擎和工具难以取代的。 1997/11 至 2006/03 Cymfony 公司,研究开发部,美国纽约州水牛城(Buffalo, New York) 主研究员(Principal Research Scientist) 自然语言处理副总裁(Vice President,NLP) (1999始) 撰写研究基金申请计划,先后赢得18项美国政府”小企业创新研究基金”(SBIR: Small Business Innovative Research),担任其课题负责人(PI: Principal Investigator or co-PI),研究开发新一代基于自然语言处理(NLP: Natural Language Processing)的信息抽取(IE: Information Extraction)技术。 该技术集中体现在 Cymfony 公司所开发的 InfoXtract(TM) 软件系列,包括 InfoXtract NLP/IE 引擎,组建技术,词典语法资源,有限状态转录机工具箱(Finite State Transducer Toolkit),机器自动学习工具箱(Machine Learning Toolkit)及开发平台。 在此基础上开发的软件产品 Brand Dashboard 和 Digital Consumer Insight,实时扫描处理数千种媒体报道,自动抽取品牌报道关键信息,过滤整合,分析数据全面反映品牌走势,为大企业创保作为无形资产的名优品牌提供决策参考,达到人工分析难以企及的广度及统计学意义上的精度。 2000 年帮助成功引进华尔街高科技风险基金一千一百万,使Cymfony由有两三个员工的从事互联网一般业务的公司发展成为具有70多员工,设立三处办公楼(美国波士顿,布法罗,和印度孟买分公司),引进专业管理人员及制订信息技术(IT: Information Technology)市场营销计划的高科技中小企业。 1999 年指导 Cymfony 研发部参与由美国国家标准技术局(NIST:National Institute of Standards and Technology)主持评判的第八届”文本检索大会”(TREC-8: Text Retrieval Conference)专项竞赛“自然语言问答系统”,获得第一名。 Cymfony 的技术及成长先后被多种媒体报道,包括《财富》,《华尔街日报》,《布法罗新闻》,及中文版《世界日报》。Cymfony 由于在一系列 SBIR 研究中成绩突出,被提名竞逐“2002 全美小企业最优合同项目年度奖”(2002 US Small Business Administration Prime Contractor of the Year Award)。 1987-1991 中国社会科学院语言研究所,北京 助理研究员 从事外汉机器翻译,自然语言处理及中文信息处理等领域的研究。 1988-1991 高立软件公司,北京 高级工程师(兼职) 从事高立英汉机器翻译系统 GLMT 的开发研究。主要工作有: 开发及调试八百条机器语法规则 设计及实现系统的语义模块背景知识库 培训及指导八人小组建立并开发有六万多词条的机器翻译词典及具有上万词典规则的专家词典规则库的开发 推动高立公司将 GLMT 1.0 产品化(1992) 该机译技术成功转化到香港韦易达公司袖珍电子词典系列产品中 GLMT于1992年1月在北京新技术产业开发试验区通过鉴定,先后获得北京市科技进步奖、新加坡INFORMATICS’92国际博览会计算机应用软件银奖和92年第二届中国科技之光博览会电子行业金奖,被列入火炬计划。 1988 承接荷兰 BSO 软件公司合同项目,撰写为多语种机器翻译服务的“汉语依从关系形式句法”,获得好评。 (二)教育经历 2001年 获加拿大 Simon Fraser University 计算语言学专业博士学位 学位论文 “汉语短语结构文法中的词法句法接口研究” (The Morpho-syntactic Interface in a Chinese Phrase Structure Grammar) 该汉语形式文法成功运用于英汉双向机器翻译系统的实验,证明同一部文法可以用于双向系统的汉语分析和综合。 攻读博士期间,多次担任计算机系自然语言实验室(Natural Language Lab)助研(Research Assistant)及语言学系助教(Teaching Assistant)或临时讲师(Sessional Instructor) 1991-1992年 英国曼彻斯特理工大学计算语言学中心(CCL/UMIST)博士候选人 1986年 获中国社会科学院研究生院语言学系机器翻译专业硕士学位 学位论文”从世界语到英语和汉语自动翻译”:这是国内少有的一对多机器翻译系统的研究探索。 1982年 安庆师范学院外语系英语专业学士学位 (三)获奖 2001年获本系杰出成就奖(Outstanding Achievement Award), Department of Linguistics, Simon Fraser University (award given to the best PhD graduates from the department) 1995-1997获加拿大卑诗省科学委员会 G.R.E.A.T. 奖学金 (G.R.E.A.T. Award, Scienc Council, B.C. CANADA), 旨在促进应用性博士课题与当地高科技企业的结合 1997年获校长研究资助(President’s Research Stipend) 1996年获新加坡 ICCC 大会特别旅行资助,宣讲论文 1995年获研究生奖学金(Graduate Fellowship) 1992年与傅爱平合作的机器翻译数据库应用程序获中国社会科学院软件二等奖 1991年获中英友好奖学金(中国教育部,英国文化委员会及包玉刚基金会联合提供)赴英深造 (四)其他专业活动 2002-2005,担任新加坡《中文和计算杂志》国际编委 1998-2004 担任企业导师(Industrial Advisor),先后指导20多位博士或硕士侯选人从事有工业应用前景的暑期实习研究课题(实习生来自纽约州立大学布法罗分校计算机系或语言学系) (五)论文发表记录 Srihari, R, W. Li and X. Li, 2006. Question Answering Supported by Multiple Levels of Information Extraction, a book chapter in T. Strzalkowski S. Harabagiu (eds.), Advances in Open- Domain Question Answering. Springer, 2006, ISBN:1-4020-4744-4. Srihari, R., W. Li, C. Niu and T. Cornell. 2006. InfoXtract: A Customizable Intermediate Level Information Extraction Engine. Journal of Natural Language Engineering, 12(4), 1-37, 2006. Niu,C., W. Li, R. Srihari, and H. Li. 2005. Word Independent Context Pair Classification Model For Word Sense Disambiguation. Proceedings of Ninth Conference on Computational Natural Language Learning (CoNLL-2005). Srihari, R., W. Li, L. Crist and C. Niu. 2005. Intelligence Discovery Portal based on Corpus Level Information Extraction. Proceedings of 2005 International Conference on Intelligence Analysis Methods and Tools. Niu, C., W. Li and R. Srihari. 2004. Weakly Supervised Learning for Cross-document Person Name Disambiguation Supported by Information Extraction. In Proceedings of ACL 2004. Niu, C., W. Li, R. Srihari, H. Li and L. Christ. 2004. Context Clustering for Word Sense Disambiguation Based on Modeling Pairwise Context Similarities. In Proceedings of Senseval-3 Workshop. Niu, C., W. Li, J. Ding, and R. Rohini. 2004. Orthographic Case Restoration Using Supervised Learning Without Manual Annotation. International Journal of Artificial Intelligence Tools, Vol. 13, No. 1, 2004. Niu, C., W. Li and R. Srihari 2004. A Bootstrapping Approach to Information Extraction Domain Porting. AAAI-2004 Workshop on Adaptive Text Extraction and Mining (ATEM), California. Srihari, R., W. Li and C. Niu. 2004. Corpus-level Information Extraction. In Proceedings of International Conference on Natural Language Processing (ICON 2004), Hyderabad, India. Li, W., X. Zhang, C. Niu, Y. Jiang, and R. Srihari. 2003. An Expert Lexicon Approach to Identifying English Phrasal Verbs. In Proceedings of ACL 2003. Sapporo, Japan. pp. 513-520. Niu, C., W. Li, J. Ding, and R. Srihari 2003. A Bootstrapping Approach to Named Entity Classification using Successive Learners. In Proceedings of ACL 2003. Sapporo, Japan. pp. 335-342. Li, W., R. Srihari, C. Niu, and X. Li. 2003. Question Answering on a Case Insensitive Corpus. In Proceedings of Workshop on Multilingual Summarization and Question Answering - Machine Learning and Beyond (ACL-2003 Workshop). Sapporo, Japan. pp. 84-93. Niu, C., W. Li, J. Ding, and R.K. Srihari. 2003. Bootstrapping for Named Entity Tagging using Concept-based Seeds. In Proceedings of HLT/NAACL 2003. Companion Volume, pp. 73-75, Edmonton, Canada. Srihari, R., W. Li, C. Niu and T. Cornell. 2003. InfoXtract: A Customizable Intermediate Level Information Extraction Engine. In Proceedings of HLT/NAACL 2003 Workshop on Software Engineering and Architecture of Language Technology Systems (SEALTS). pp. 52-59, Edmonton, Canada. Li, H., R. Srihari, C. Niu, and W. Li. 2003. InfoXtract Location Normalization: A Hybrid Approach to Geographic References in Information Extraction. In Proceedings of HLT/NAACL 2003 Workshop on Analysis of Geographic References. Edmonton, Canada. Li, W., R. Srihari, C. Niu, and X. Li 2003. Entity Profile Extraction from Large Corpora. In Proceedings of Pacific Association for Computational Linguistics 2003 (PACLING03). Halifax, Nova Scotia, Canada. Niu, C., W. Li, R. Srihari, and L. Crist 2003. Bootstrapping a Hidden Markov Model for Relationship Extraction Using Multi-level Contexts. In Proceedings of Pacific Association for Computational Linguistics 2003 (PACLING03). Halifax, Nova Scotia, Canada. Niu, C., Z. Zheng, R. Srihari, H. Li, and W. Li 2003. Unsupervised Learning for Verb Sense Disambiguation Using Both Trigger Words and Parsing Relations. In Proceedings of Pacific Association for Computational Linguistics 2003 (PACLING03). Halifax, Nova Scotia, Canada. Niu, C., W. Li, J. Ding, and R.K. Srihari 2003. Orthographic Case Restoration Using Supervised Learning Without Manual Annotation. In Proceedings of the Sixteenth International FLAIRS Conference, St. Augustine, FL, May 2003, pp. 402-406. Srihari, R. and W. Li 2003. Rapid Domain Porting of an Intermediate Level Information Extraction Engine. In Proceedings of International Conference on Natural Language Processing 2003. Srihari, R., C. Niu, W. Li, and J. Ding. 2003. A Case Restoration Approach to Named Entity Tagging in Degraded Documents. In Proceedings of International Conference on Document Analysis and Recognition (ICDAR), Edinburgh, Scotland, Aug. 2003. Li, H., R. Srihari, C. Niu and W. Li 2002. Location Normalization for Information Extraction. In Proceedings of the 19th International Conference on Computational Linguistics (COLING-2002). Taipei, Taiwan. Li, W., R. Srihari, X. Li, M. Srikanth, X. Zhang and C. Niu 2002. Extracting Exact Answers to Questions Based on Structural Links. In Proceedings of Multilingual Summarization and Question Answering (COLING-2002 Workshop). Taipei, Taiwan. Srihari, R. and W. Li. 2000. A Question Answering System Supported by Information Extraction. In Proceedings of ANLP 2000. Seattle. Srihari, R., C. Niu and W. Li. 2000. A Hybrid Approach for Named Entity and Sub-Type Tagging. In Proceedings of ANLP 2000. Seattle. Li. W. 2000. On Chinese parsing without using a separate word segmenter. In Communication of COLIPS 10 (1). pp. 19-68. Singapore. Srihari, R. and W. Li. 1999. Information Extraction Supported Question Answering. In Proceedings of TREC-8. Washington Srihari, R., M. Srikanth, C. Niu, and W. Li 1999. Use of Maximum Entropy in Back-off Modeling for a Named Entity Tagger, Proceedings of HKK Conference, Waterloo, Canada W. Li. 1997. Chart Parsing Chinese Character Strings. In Proceedings of the Ninth North American Conference on Chinese Linguistics (NACCL-9). Victoria, Canada. W. Li. 1996. Interaction of Syntax and Semantics in Parsing Chinese Transitive Patterns. In Proceedings of International Chinese Computing Conference (ICCC’96). Singapore W. Li and P. McFetridge 1995. Handling Chinese NP Predicate in HPSG, Proceedings of PACLING-II, Brisbane, Australia Uej Li. 1991. Lingvistikaj trajtoj de la lingvo internacia Esperanto. In Serta gratulatoria in honorem Juan Régulo, Vol. IV. pp. 707-723. La Laguna: Universidad de La Laguna Z. Liu, A. Fu, and W. Li. 1989. JFY-IV Machine Translation System. In Proceedings of Machine Translation SUMMIT II. pp. 88-93, Munich. 刘倬,傅爱平,李维 (1992). 基于词专家技术的机器翻译系统,”机器翻译研究新进展”,陈肇雄编辑,电子工业出版社,第 231-242 页,北京 李维,刘倬 (1990). 机器翻译词义辨识对策,《中文信息学报》,1990年第一期,第 1-13 页,北京 刘倬,傅爱平,李维 (1989), JFY-IV 机器翻译系统概要,《中文信息学报》,1989年第四期,第 1-10 页,北京 李维 (1988). E-Ch/A 机器翻译系统及其对目标语汉语和英语的综合,《中文信息学报》,1988年第一期,第 56-60 页,北京 其他发表 (略)
个人分类: 立委其人|6435 次阅读|2 个评论
立委专业背景
liwei999 2010-2-19 05:14
立委,计算语言学博士 背景概况: 1997年到美国纽约州水牛城(Buffalo)Cymfony创业,帮助公司创始人Srihari教授,把一个两三人的公司发展到70多人,三处 Offices (Buffalo, Boston, and Bangalore), 在业界具有一定影响的中小型企业。先从美国政府申请研发项目基金,后联系华尔街风险投资人的天使启动金(100万美元)和第一轮投资(一千万美元),得以设计自然语言处理(Natural Language Processing)平台,平衡机器学习和规则处理,开发了产品。 Cymfony公司核心技术InfoXtract的设计人,并亲手实现 shallow parsing, deep parsing,relationship and event extraction 等关键模块。作为项目负责人(Principal Investigator), 前后成功获得美国政府17个小企业研究创新资助项目(Small Business Innovative Research Phase 1, Phase 2 and Enhancement Grants),计900万美元。 对于信息抽取 (Information Extraction) 这个自然语言处理最具应用前景的方向有深入全面的研究,对其发展蓝图,应用价值有独到的体会和全景的认识。 我在这方面的设计思想主要体现在几篇项目最后报告(SBIR Final Reports)上,对政府有关科研项目的确立有直接影响。信息抽取的这一相对较新的研究方向,业界普遍认为应用潜力很大,因为它直接弥补了传统搜索技术的不足,同时由于抽取的目标已知,从而变得切实可行,避免了对于自然语言深度理解以及人工智能(比如常识推理)的过度依赖。 我领导的团队在政府资助机构建立了很好的信誉。作为政府项目资助人,AFRL信息提取小组由于资助了Cymfony的研发项目并导致该技术同时转化到商业产品和政府机关的实用系统,2004年荣获产品转化奖,这也是对我们工作成就的肯定。 我的研究组在搜索业界年度盛会TREC(Text Retrieval Conference)首届自然语言问答系统比赛(TREC-8/QA Track)中,用信息抽取技术支持问答系统,获第一名,对问答系统领域的发展有广泛影响。在国际学术刊物和大会发表论文多篇。 有技术转化成产品的经验(和教训):Cymfony公司旗舰产品 Brand Dashboard 和 Digital Consumer Insight 系统中的关键功能,比如,brand tagging, message tracking and quote extraction, 都是我亲自设计和实现的。该产品在业界和用户中反响很好,曾经多次获奖。Cymfony 几度被业界杂志 KMWorld 列为100家对于知识管理行业最具有影响的企业之一(100 Companies that matter in Knowledge Management)。此前,我们的产品 The Brodeur Brand Dashboard powered by Cymfony: A Tool for Measurement and Analysis 曾获一系列软件奖: MITX 2004年决赛奖 (finalist for the MITX Awards), Finalist For 19th Annual Codie Award, 2003 Massachusetts Interactive Media Council (MIMC) Awards. ( ),等。《财富》杂志,《华尔街日报》等对本公司及其产品均有报道。 2006年夏天,Cymfony 的水牛城 office 跟波士顿总部分开(spin-off),成立 Janya Inc.公司,专营政府项目。2007年二月专营战略广告资讯的跨国公司 TNS Media Intelligence 并购了波士顿的 Cymfony 公司。公司spin-off以后,我留在 Janya Inc. 继续研发副总的职责。此后不久,我决定以此作为转折点,离开相对闭塞的水牛城,寻找其他发展机会,南下某创投公司担任首席计算语言学家(Chief Computatiuonal Linguist),帮助公司设计开发新一代搜索引擎,面向企业市场。 作为资深计算语言学家,我设计并领导开发的自然语言平台 (NLP Platform) 作为产品技术核心取代了初期产品的内核,使得我们面向互联网的新一代搜索引擎的准确度大幅度提高(查准率提高了3-5倍),深受客户欢迎。CEO把这个变化比喻为从家常菜转变成了专业厨师质量的菜肴,使得我们的产品可以 scale up. 我们的一位财富500强的客户,惊异于我们的搜索结果,评价道:“真是最令人惊叹的产品:诺姆乔姆斯基与比尔盖茨相会了!” 这可以算是对语言学(乔姆斯基是全世界最知名的语言学家,MIT讲座教授)大规模的应用于软件工业界的最高评价了。作为技术创新人员,我对此深感自豪。 具有扎实的语言学背景和多年自然语言处理的实践。在Cymfony/Janya期间,与大学SUNY/Buffalo计算机系和语言学系有密切联系,作为工业导师(industrial advisor),前后指导过两个系的20多个实习生。同时在公司内部,也培训过一批又一批语言处理开发人员和词典人员。 我有中文信息处理和机器翻译的丰富经验和良好训练,得益于汉语形式语法研究的博士课题及此前在中国社会科学院的研究以及当年在中关村的高立英汉机器翻译系统的开发和产品化。在社会科学院语言研究所工作期间,作为技术骨干,在刘倬教授领导下,跟高立公司合作,把机器翻译研究项目成功转化为产品GLMT,该项目获得国内外多项奖项,包括在新加坡INFORMATICS’92国际博览会计算机应用软件银奖。多年来,作为中文信息处理的国际会议和期刊的编辑和审稿人,一直追踪该领域的发展,对这个领域有总体的把握。我认为,中文信息处理面临根本的突破,突破点是研究开发具有鲁棒性和高效的汉语浅层自动分析器 (shallow parser),以此为平台,可以根本上缩小中文处理与西方主要语言处理之间的差距。无论研究还是应用,这都是一个激动人心的研发方向。 作为第一个应用,中文舆情挖掘系统已经产品化,服务于财富500强企业客户。 有组织能力和沟通能力,与华尔街投资人,政府项目管理人和企业职业经理人员以及各种不同背景的软件工程师、语言学家和研究人员沟通自如。
个人分类: 立委其人|6373 次阅读|2 个评论
【立委科普:教机器识英文】
liwei999 2010-2-10 07:10
【置顶:立委科学网博客NLP博文一览(定期更新版)】 2008-09-20 我们教机器理解语言(Natural Language Understanding),基本的一条就是通过句法分析 (parsing) 解析出句子的意义。什么是一个句子的意义呢?举个例子: John loves Mary. 上述句子有三个构句成分:约翰,玛丽,爱。认识这些词不难,一部词典就成,但这不等于能听懂这个句子,因为句子的意义不是其成分词汇意义的简单相加。同样的词汇,不同的组合,构成不同的句子,就有不同的意义,说明了句子结构分析对于语言理解具有决定性的作用。比较下列各组句子: 1a. John loves Mary. 1b. Mary is loved by John. 1c. John’s love for Mary (is amazing) 1d. Mary’s love by John (is amazing). 2a. Mary loves John. 2b. John is loved by Mary. 2c. Mary’s love for John (is amazing) 2d. John’s love by Mary (is amazing) 3a. John’s Mary is loved. 3b. the love for John’s Mary (is amazing) 4a. Mary’s John is loved. 4b. the love for Mary’s John (is amazing). 以上各组句子里面,虚词和词缀(如is,-ed,’s,the)有所不同,词序排列不同,而基本实词成分是相同的。句式各不相同,有主动态句型,有被动态句型,有用动词love,也有名词love,但是每组的句子中心意义是相同的。句法分析(parsing)的最终目的就是把语言中意义相同但说法不同的句式解码成相同的表达形式(称为逻辑形式 logical form),达成理解。以上述4组句子为例,怎么才叫理解了这些句子呢?如果解析出下列逻辑关系,就可以认为理解了。 1组:约翰是“爱”的的施予者,玛丽是“爱”的对象。 2组:玛丽是“爱”的的施予者,约翰是“爱”的对象。 3组:(约翰的)玛丽是(某人)“爱”的对象。 4组:(玛丽的)约翰是(某人)“爱”的对象。 我们自然语言工作者编制机器语法,为的就是教会机器自动分析(parse)句子,把语言不同句式的种种说法(所谓表层结构 surface structures)解码成如上例所示的能表达结构意义的逻辑关系(所谓深层结构 deep structure)。其重点就是解析动作行为(love)及其施(如约翰)受(如玛丽)关系,即,逻辑主谓宾(logical subject-verb-object SVO)的解构。上述4组句子解构后的形式表达如下: 1组:LOVE: Subj=JOHN; Obj=MARY. 2组:LOVE: Subj=MARY; Obj=JOHN. 3组:LOVE: Obj= 4组:LOVE: Obj= 除了主谓宾的主干以外,句子的意义当然还包括枝节意义,譬如实体的修饰语(e.g. the “beautiful” Mary),行为动作的时间地点条件方式等状语 (e.g. John loves Mary “dearly”),但是,逻辑主谓宾总是句子意义的核心。严格地说,句子的主干应该是“主谓宾补” (S-V-O-C) 四项,因为有些行为动作还需要第二个宾语或者宾语补足语意义才完整。 教会电脑自动理解句子意义有什么用处呢?用处大得很,用处之一是使搜索智能化,直接得到你想要的答案,而不像牵狗一样搜索的结果是成千上万个网页。比如,你有一个疑问:微软收购了哪些公司?你只要告诉带有语言智能的搜索器,Subj=Microsoft, Verb=acquire/buy, Obj=? 逻辑主谓宾武装起来的智能搜索就可以轻易搜得所有媒体报道过的微软兼并过的公司,给你列出一长列来。这是传统搜索引擎 Google, Yahoo, 和 MSN 无法做到的。 下面是笔者开发的英语自动分析机的一个运行实例。输入是英语句子,输出是逻辑主谓宾补。笔者用汉语简单加了一些注解。 这是输入: A U.N. cease-fire resolution has authorized up to 15,000 U.N. peacekeepers to help an equal number of Lebanese troops extend their authority into south Lebanon as Israel withdraws its soldiers. 这是 S-V-O-C 输出: name=”SubjPred” has authorized 动词 A U.N. cease-fire resolution 主语 name=”PredObj” has authorized 动词 up to 15,000 U.N. peacekeepers 宾语 name=”PredInf” has authorized 动词 to help 补语 name=”LSubjPred” to help 动词 up to 15,000 U.N. peacekeepers 主语 name=”PredObj” to help 动词 an equal number of Lebanese troops 宾语 name=”PredComp” to help 动词 extend 补语 name=”LSubjPred” extend 动词 an equal number of Lebanese troops 主语 name=”PredObj” extend 动词 their authority 宾语 name=”PredPrep” extend 动词 into south Lebanon 补语 name=”SubjPred” withdraws 动词 Israel 主语 name=”PredObj” withdraws 动词 its soldiers 宾语 笔者的目标就是制造一台世界上最善解人意的智能机器,大家说的鬼子话它大多听得懂。教机器学人话是既刺激好玩又具有实用价值的干活,笔者教了十几年了,乐此不疲。 Comments (2) yechq 12月 6th, 2008 at 11:18 am edit “笔者的目标就是制造一台世界上最善解人意的智能机器,大家说的鬼子话它大多听得懂。” 好大口气,目前成果如何? liwei 12月 6th, 2008 at 2:19 pm edit 原来是关门吹牛的帖子,出来见光时忘记删改了,不能当真的。 关门在老友中间吹牛基本上与夜行怕鬼吹口哨壮胆类似。呵呵。 谢谢,我去修改一下。
个人分类: 立委科普|6246 次阅读|0 个评论
[转载]CFP: Workshop on Multiword Expressions in COLING 2010
timy 2010-1-30 10:51
First Call for Paper Submissions COLING 2010 Workshop on Multiword Expressions: from Theory to Applications (MWE 2010) http://multiword.sf.net/mwe2010 endorsed by the Special Interest Group on the Lexicon of the Association for Computational Linguistics (SIGLEX) Beijing, China Submission deadline: May 30, 2010 ================================================================= Multiword Expressions (MWEs) are a ubiquitous component of natural languages and appear steadily on a daily basis, both in specialized and in general-purpose communication. While easily mastered by native speakers, their interpretation poses a major challenge for automated analysis due to their flexible and heterogeneous nature. Therefore, the automated processing of MWEs is desirable for any natural language application that involves some degree of semantic interpretation, e.g., Machine Translation, Information Extraction, and Question Answering. In spite of the recent advances in the field, there is a wide range of open problems that prevent MWE treatment techniques from full integration in current NLP systems. In MWE'2010, we will be interested in major challenges in the overall process of MWE treatment, asking for original research related but not limited to the following topics: * MWE resources: Although underused in most current state-of-the-art approaches, resources are key for developing real-world applications capable of interpreting MWEs. We call for papers describing the process of building MWE resources, constructed both manually and automatically from text corpora; we are also interested in assessing the usability of such resources in various MWE tasks. * Hybrid approaches: We invite research on integrating heterogeneous MWE treatment techniques and resources in NLP applications. Such hybrid approaches can aim, for example, at the combination of results from symbolic and statistical approaches, at the fusion of manually built and automatically extracted resources, or at the design of language learning techniques. * Domain adaptation: Real-world NLP applications need to be robust to deal with texts coming from different domains. We thus call for papers assessing the performance of MWE methods across domains or describing domain adaptation techniques for MWEs. * Multilingualism: Parallel and comparable corpora are gaining popularity as a resource for automatic MWE discovery and treatment. We are also interested in the integration of MWE processing in multilingual applications such as machine translation and multi-lingual information retrieval, as well as in porting existing monolingual MWE approaches to new languages. SUBMISSIONS We invite submissions of original and unpublished work as full papers. All submissions must follow the COLING 2010 formatting requirements (available soon at www.coling-2010.org ). Reviewing will be double-blind, and thus no author information should be included in the papers; self-reference should be avoided as well. Papers that do not conform to these requirements will be rejected without review. Accepted papers will appear in the workshop proceedings and will be presented orally. IMPORTANT DATES May 30, 2010: Paper submission deadline Jun 30, 2010: Notification of acceptance Aug 21-22 or Aug 28, 2010: Workshop (exact date to be determined) PROGRAM COMMITTEE Inaki Alegria (University of the Basque Country, Spain) Dimitra Anastasiou (Limerick University, Ireland) Timothy Baldwin (University of Melbourne, Australia) Colin Bannard (University of Texas at Austin, USA) Francis Bond (Nanyang Technological University , Singapore) Paul Cook (University of Toronto, Canada) Beatrice Daille (Nantes University, France) Gael Dias (Beira Interior University, Portugal) Stefan Evert (University of Osnabrueck, Germany) Roxana Girju (University of Illinois at Urbana-Champaign, USA) Nicole Gregoire (University of Utrecht, The Netherlands) Chikara Hashimoto (National Institute of Information and Communications Technology, Japan) Marti Hearst (University of California at Berkeley, USA) Ulrich Heid (Stuttgart University, Germany) Kyo Kageura (University of Tokyo, Japan) Min-Yen Kan (National University of Singapore, Singapore) Adam Kilgarriff (Lexical Computing Ltd, UK) Su Nam Kim (University of Melbourne, Australia) Anna Korhonen (University of Cambridge, UK) Brigitte Krenn (Austrian Research Institute for Artificial Intelligence, Austria) Cvetana Krstev (University of Belgrade, Serbia) Begona Villada Moiron (University of Groningen, The Netherlands) Rosamund Moon (University of Birmingham, UK) Jan Odijk (University of Utrecht, The Netherlands) Stephan Oepen (Stanford University, USA and University of Oslo, Norway) Darren Pearce (London Knowledge Lab, UK) Pavel Pecina (Charles University, Czech Republic) Scott Piao (Lancaster University, UK) Thierry Poibeau (Universite Paris-Nord, France) Elisabete Ranchhod (University of Lisbon, Portugal) Barbara Rosario (Inter Research, USA) Diarmuid Saghdha (University of Cambridge, UK) Violeta Seretan (University of Geneva, Switzerland) Stan Szpakowicz (University of Ottawa, Canada) Beata Trawinski (University of Tuebingen, Germany) Vivian Tsang (Bloorview Research Institute, Canada) Kyioko Uchiyama (Keio University, Japan) Ruben Urizar (University of the Basque Country, Spain) Tony Veale (University College Dublin, Ireland) WORKSHOP ORGANIZERS AND CONTACT Eric Laporte (Universite Paris-Est, France) Preslav Nakov (National University of Singapore, Singapore) Carlos Ramisch (University of Grenoble, France) Aline Villavicencio (Federal University of Rio Grande do Sul, Brazil)
个人分类: 研究方法|3052 次阅读|0 个评论
ZZ: 《牛津计算语言学手册》导读
timy 2009-10-24 20:17
转载于: http://www.lingviko.net/feng/CLHandbook.pdf 《牛津计算语言学手册》 导读 (The Oxford Handbook of Computational Linguistics,《牛津计算语言学手册》, 外语教学与研究出版社、牛 津大学出版社合作出版,2009 年9 月,北京,ISBN: 978-7-5600-6913-3) 冯志伟 一、 计算语言学的发展历史与现状 计算语言学(Computational Linguistics)是当代语言学中的一个新兴学科,在这门学科的发展过程中,曾经在计算机科学、电子工程、语言学、心理学、认知科学等不同的领域分别进行过研究。之所以出现这种情况,是由于计算语言学包括了一系列性质不同而又彼此交叉的学科。这里,我们简要介绍计算语言学的萌芽期、发展期、繁荣期,并分析计算语言学当前的一些特点。 计算语言学的萌芽期 从20 世纪40 年代到50 年代末这个时期是计算语言学的萌芽期。 在计算语言学这个术语出现之前,关于语言与计算的研究早就开始了。有四项基础性的研究特别值得注意: -- 一项是关于马尔可夫模型的研究, -- 一项是关于可计算性理论和图灵机模型的研究, -- 一项是关于概率和信息论模型的研究, -- 一项是关于形式语言理论的研究。 早在1913 年,俄罗斯著名数学家A. Markov(马尔可夫)就注意到俄罗斯诗人普希金的叙事长诗《欧根?奥涅金》(Ougene Onegin)中语言符号出现概率之间的相互影响,他试图以语言符号的出现概率为实例,来研究随机过程的数学理论,提出了马尔可夫链(Markov Chain)的思想,他的这个开创性的成果用法文发表在俄罗斯皇家科学院的通报上2。后来A. Markov 的这一思想发展成为在计算语言学中广为使用的马尔可夫模型(Markov model), 是当代计算语言学最重要的理论支柱之一。 在计算机出现以前,英国数学家A. M. Turing(图灵)就预见到未来的计算机将会对自 然语言研究提出新的问题。 1936 年,Turing 向伦敦权威的数学杂志投了一篇论文,题为《论可计算数及其在判定问题中的应用》。在这篇开创性的论文中,Turing 给可计算性下了一个严格的数学定义,并提出著名的图灵机(Turing Machine)的数学模型。图灵机不是一种具体的机器,而是一种抽象的数学模型,使用这样的数学模型可以制造一种十分 简单但运算能力极强的计算装置,用来计算所有能想象得到的可计算函数。1950 年10 月,Turing 在《机器能思维吗》一文中指出:我们可以期待,总有一天机器会同人在一切的智能领域里竞争起来。但是,以哪一点作为竞争的出发点呢?这是一个很难决定的问题。许多人以为可以把下棋之类的极为抽象的活动作为最好的出发点,不过,我更倾向于支持另一种主张,这种主张认为,最好的出发点是制造出一种具有智能的、可用钱买到的机器, 然后,教这种机器理解英语并且说英语。这个过程可以仿效小孩子说话的那种办法来进行。 Turing 提出,检验计算机智能高低的最好办法是让计算机来讲英语和理解英语,他天才地预见到计算机和自然语言将会结下不解之缘。 20 世纪50 年代提出的自动机理论来源于Turing 在1936 年提出的可计算性理论和图灵机模型,Turing 的划时代的研究工作被认为是现代计算机科学的基础。Turing 的工作首先导致了McCulloch-Pitts 的神经元(neuron)理论。一个简单的神经元模型就是一个计算的单元,它可以用命题逻辑来描述。接着,Turing 的工作还导致了Kleene 关于有限自动机和正则表达式的研究。 1948 年,美国学者Shannon(香农)使用离散马尔可夫过程的概率模型来描述语言的自动机。 Shannon 的另一个贡献是创立了信息论(Information Theory)。他把通过诸如通信信道或声学语音这样的媒介传输语言的行为比喻为噪声信道(noisy channel)或者解码(decoding)。Shannon 还借用热力学的术语熵(entropy)来作为测量信道的信息能力或者语言的信息量的一种方法,并且他用概率技术首次测定了英语的熵。 1956 年,美国语言学家N. Chomsky(乔姆斯基)从Shannon 的工作中吸取了有限状态马尔可夫过程的思想,首先把有限状态自动机作为一种工具来刻画语言的语法,并且把有限状态语言定义为由有限状态语法生成的语言。这些早期的研究工作产生了形式语言理论(formal language theory)这样的研究领域,采用代数和集合论把形式语言定义为符号的序列。Chomsky 在研究自然语言的时候首先提出了上下文无关语法(Context-free Grammar),后来,Backus 和 Naur 等在描述ALGOL 程序语言的工作中,分别于1959 年和1960 年也独 立地发现了这种上下文无关语法。这些研究都把数学、计算机科学与语言学巧妙地结合起来。 Chomsky 在计算机出现的初期把计算机程序设计语言与自然语言置于相同的平面上,用统一的观点进行研究和界说。他在《自然语言形式分析导论》一文中,从数学的角度给语言提出了新的定义,指出: 这个定义既适用于自然语言,又适用于逻辑和计算机程序设计理论中的人造语言。在《语法的形式特性》一文中,他专门用了一节的篇幅来论述程序设计语言,讨论了有关程序设计语言的编译程序问题,这些问题,是作为组成成分结构的语法的形式研究,从数学的角度提出来,并从计算机科学理论的角度来探讨的。他在《上下文无关语言的代数理论》一文中提出:我们这里要考虑的是各种生成句子的装置,它们又以各种各样的方式,同自然语言的语法和各种人造语言的语法二者都有着密切的联系。我们将把语言直接地看成在符号的某一有限集合 V 中的符号串的集合,而 V 就叫做该语言的词汇......,我们把语法看成是对程序设计语言的详细说明,而把符号串看成是程序。在这里乔姆斯基把自然语言和程序设计语言放在同一平面上,从数学和计算机科学的角度,用统一的观点来加以考察,对语言、词汇等语言学中的基本概念,获得了高度抽象化的认识。 Markov, Turing, Shannon 和Chomsky 这四位著名学者对于语言和计算关系的探讨,是计算语言学萌芽期最重要的研究成果。 在应用研究中,计算语言学首先在语音的计算方面取得了令人兴奋的成绩。1946 年,knig 等研究了声谱,为尔后语音识别奠定了基础。20 世纪50 年代,第一个机器语音识别器研制成功。1952 年,Bell 实验室的研究人员研制的语音识别系统,可以识别由一个单独的说话人说出的10 个任意的数目字。该系统存储了10 个依赖于说话人的模型,它们粗略地代表了数目字的头两个元音的共振峰。Bell 实验室的研究人员采用选择与输入具有最高相关 系数模式的方法来进行语音识别,达到了97-99%的准确率。 在20 世纪50 年代末期到60 年代中期,处于萌芽期的计算语言学明显地分成两个阵营:一个是符号派(symbolic),一个是随机派(stochastic)。 符号派的工作可分为两个方面。 一方面是50 年代后期以及60 年代初期和中期Chomsky 等的形式语言理论和生成句法研究,很多语言学家和计算机科学家热衷于研究剖析算法,1960 年,John Cocke 提出使用二分的上下文无关规则来分析自然语言的Cocke 算法,接着,Younger 和Kasami 等分别进行这种算法的研究,形成了Cocke-Younger-Kasami 算法(简称CYK 算法),同时提出的分析算法还有自顶向下分析算法、自底向上分析算法、动态规划算法。这样以来,形式语法理论便成为了一种可以计算的理论,被直接应用到自然语言的计算机处理中,成为了自然语言自动剖析的有力工具。美国语言学家Zelig Harris 研制了最早的完整的英语自动剖析系统转换与话语分析课题(Transformation and Discourse Analysis Project,简称TDAP),这个剖析系统于1958 年6 月至1959 年7 月在宾夕法尼亚大学研制成功。 符号派另一方面的工作是人工智能的研究。在1956 年夏天,John McCarthy,MarvinMinsky,Claude Shannon 和Nathaniel Rochester 等学者汇聚到一起,组成了一个为期两个月的研究组,讨论关于他们称之为人工智能(Artificial Intelligence,简称AI)的问题。尽管有少数的AI 研究者着重于研究随机算法和统计算法(包括概率模型和神经网络),但是大多数的AI 研究者着重研究推理和逻辑问题。Newell 和Simon 研制了逻辑理论家(Logic Theorist)和通用问题解答器(General Problem Solver)等可以自动进行逻辑推理的系统。 早期的自然语言理解系统几乎都是按照他们的观点建立起来的。这些简单的系统把模式匹配和关键词搜索与简单试探的方法结合起来进行推理和自动问答,它们都只能在某一个领域内使用。在60 年代末期,学者们又研制了更多的形式逻辑系统。 随机派主要是一些来自统计学专业和电子学专业的研究人员。在20 世纪50 年代后期,他们使用贝叶斯方法(Bayesian method)来解决最优字符识别的问题。1959 年,Bledsoe和Browning 建立了用于文本识别的贝叶斯系统,该系统使用了一部大词典,首先计算出词典的单词中所观察的字母系列的似然度,然后把单词中每一个字母的似然度相乘,就可以求出整个字母系列的似然度来。1964 年,Mosteller 和Wallace 用贝叶斯方法解决了在《联邦主义者》(The Federalist)文章中的原作者的分布问题。 20世纪50 年代还出现了基于转换语法的第一个人类语言计算机处理的可严格测定的心理模型;并且还出现了第一个联机语料库:布朗美国英语语料库(Brown corpus),该语料库包含100 万单词的语料,样本来自不同文体的500 多篇书面文本,涉及的文体有新闻、中篇小说、写实小说、科技文章等。这些语料是布朗大学(Brown University)在1963-64 年收集的。 计算语言学萌芽期的这些出色的基础性研究和应用性研究,为计算语言学的理论和技术奠定了坚实的基础。计算语言学从萌芽期一开始,就把不同的学科紧密地结合起来,带有明显的边缘性交叉学科的特点,可以说,计算语言学是在各个相关学科的交融和协作中萌芽成长起来的。 机器翻译是计算语言学最重要的应用领域。在计算语言学的萌芽期,机器翻译研究得到长足的进展。 1946 年,美国宾夕法尼亚大学的J. P. Eckert(埃克特)和J.W.Mauchly(莫希莱)设计并制造出了世界上第一台电子计算机ENIAC,电子计算机惊人的运算速度,启示着人们考虑翻译技术的革新问题。因此,在电子计算机问世的同一年,英国工程师A.D. Booth(布斯)和美国洛克菲勒基金会副总裁W. Weaver(韦弗)在讨论电子计算机的应用范围时,就提出了利用计算机进行语言自动翻译的想法。1947 年3 月6 日,Booth 与Weaver 在纽约的洛克 菲勒中心会面,Weaver 提出,如果将计算机用在非数值计算方面,是比较有希望的。在Weaver 与Booth 会面之前,Weaver 在1947 年3 月4 日给控制论学者N. Wiener(维纳)写信,讨论了机器翻译的问题,Weaver 说:我怀疑是否真的建造不出一部能够作翻译的计算机?即使只能翻译科学性的文章(在语义上问题较少),或是翻译出来的结果不怎么优雅(但能够理解),对我而言都值得一试。可是,Wiener 给Weaver 泼了一瓢冷水,他在4 月30日给Weaver 的回信中写道:老实说,恐怕每一种语言的词汇,范围都相当模糊;而其中表示的感情和言外之意,要以类似机器翻译的方法来处理,恐怕不是很乐观的。不过Weaver仍然坚持自己的意见。1949 年,Weaver 发表了一份以《翻译》为题的备忘录,正式提出了机器翻译问题。在这份备忘录中,他除了提出各种语言都有许多共同的特征这一论点之外,还有两点值得我们注意: 第一,他认为翻译类似于解读密码的过程。他说:当我阅读一篇用俄语写的文章的时候,我可以说,这篇文章实际上是用英语写的,只不过它是用另外一种奇怪的符号编了码而已,当我在阅读时,我是在进行解码。 在这段话中。Weaver 首先提出了用解读密码的方法进行机器翻译的想法,这种想法成为后来噪声信道理论的滥觞,是统计机器翻译的重要的理论依据。 备忘录中还记载了一个有趣的故事,布朗大学数学系的R. E. Gilmam (吉尔曼)曾经解读了一篇长约一百个词的土耳其文的密码,而他既不懂土耳其文,也不知道这篇密码是用土耳其文写的。 Weaver 认为,Gilman 的成功足以证明解读密码的技巧和能力不受语言的影响,因而可以用解读密码的办法来进行机器翻译。 第二,他认为原文与译文说的是同样的事情,因此,当把语言A 翻译为语言B 时,就意味着,从语言A 出发,经过某一通用语言 ( Universal Language)或中间语言(Interlingua),然后转换为语言B,这种通用语言或中间语言,可以假定是全人类共同的。 可以看出,Weaver 把机器翻译仅仅看成一种机械的解读密码的过程,他远远没有看到机器翻译在词法分析、句法分析以及语义分析等方面的复杂性。 早期机器翻译系统的研制受到Weaver 的上述思想的很大影响,许多机器翻译研究者都把机器翻译的过程与解读密码的过程相类比,试图通过查询词典的方法来实现词对词的机器翻译,因而译文的可读性很差,难于付诸实用。 由于学者的热心倡导,实业界的大力支持,美国的机器翻译研究一时兴盛起来。1954 年,美国乔治敦大学在国际商用机器公司(IBM 公司)的协同下,用IBM-701 计算机,进行了世界上第一次机器翻译试验,把几个简单的俄语句子翻译成英语,接着,苏联、英国、日本也进行了机器翻译试验,机器翻译出现热潮。 1952 年,在美国的MIT 召开了第一次机器翻译会议,在1954 年,出版了第一本机器翻译的杂志,这个杂志的名称就叫做Machine Translation(《机器翻译》)。尽管人们自然语言的计算方面进行了很多的研究工作,但是,直到20 世纪60 年代中期,才出现了computational linguistics(计算语言学)这个术语,而且,在刚开始的时候,这是术语是偷偷摸摸地、羞羞涩涩地出现的。 1965 年Machine Translation 杂志改名为Machine Translation and Computational Linguistics(《机器翻译和计算语言学》)杂志,在杂志的封面上,首次出现了Computational Linguistics这样的字眼,但是,and Computational Linguistics这三个单词是用特别小号的字母排印的。这说明,人们对于计算语言学是否能够算为一门真正的独立的学科还没有把握。计算语言学刚刚登上学术这个庄严的殿堂的时候,还带有千呼万唤始出来,犹抱琵琶半遮面那样的羞涩,以致于人们不敢用Machine Translation 同样大小的字母来排印它。当时Machine Translation 杂志之所以改名,是因为在1962 年美国成立了机器翻译和计算语言学学会(Association for machine Translation and Computational Linguistics),通过改名可以使杂志的名称与学会的名称保持一致。 根据这些史料,我们认为,远在1962 年,就出现了计算语言学这个学科了,尽管它在刚出现的时候还是偷偷摸摸的,显示出少女般的羞涩。但是,无论如何,计算语言学这个新兴的学科终于萌芽了,她破土而出,悄悄地登上了学术的殿堂。 1964 年,美国科学院成立了语言自动处理谘询委员会(Automatic Language Processing Advisory Committee,简称ALPAC 委员会),调查机器翻译的研究情况,并于1966 年11 月公布了一个题为《语言与机器》的报告,简称ALPAC 报告5,这个报告对机器翻译采取了否定的态度,报告宣称:在目前给机器翻译以大力支持还没有多少理由;这个报告还指出,机器翻译研究遇到了难以克服的语义障碍(semantic barrier)。在ALPAC 报告的影响下,许多国家的机器翻译研究低潮,许多已经建立起来的机器翻译研究单位遇到了行政上和经费上的困难,在世界范围内,机器翻译的热潮突然消失了,出现了空前萧条的局面。 美国语言学家David Hays 是ALPAC 委员会的成员之一,他参与起草了ALPAC 报告,在ALPAC 报告中,他建议,在放弃机器翻译这个短期的工程项目的时候,应当加强语言和自然语言计算机处理的基础研究,可以把原来用于机器翻译研制的经费使用到自然语言处理的基础研究方面,David Hays 把这样的基础研究正式命名为Computational Linguistics(计算语言学)。所以,我们可以说,计算语言学这个学科名称最早出现于1962 年,而在1966年才在美国科学院的ALPAC 报告中正式得到学术界的承认。 计算语言学的发展期 20 世纪60 年代中期到80 年代末期年是计算语言学的发展期。 在计算语言学的发展期,各个相关学科的彼此协作,联合攻关,取得了一些令人振奋的 成绩。 统计方法在语音识别算法的研制中取得成功。其中特别重要的是隐马尔可夫模型(Hidden Markov Model)和噪声信道与解码模型(Noisy channel model and decoding model)。这些模型是分别独立地由两支队伍研制的。一支是Jelinek,Bahl,Mercer 和IBM的华生研究中心的研究人员,另一支是卡内基梅隆大学(Carnegie Mellon University)的Baker等,Baker 受到普林斯顿防护分析研究所的Baum 和他的同事们的工作的影响。ATT 的贝尔实验室(Bell laboratories)也是语音识别和语音合成的中心之一。 逻辑方法在计算语言学中取得了很好的成绩。1970 年,Colmerauer 和他的同事们使用逻辑方法研制了Q 系统(Q-system)和变形语法(metamorphosis grammar)并在机器翻译中得到应用,Colmerauer 还是 Prolog 语言的先驱者,他使用逻辑程序设计的思想设计了Prolog 语言。1980 年Pereira 和Warren 提出的定子句语法(Definite Clause Grammar)也是在计算语言学中使用逻辑方法的成功范例之一。1979 年Kay 对于功能语法(functional grammar)的研究,1982 年Bresnan 和Kaplan 在词汇功能语法(Lexical Function Grammar, 简称LFG)方面的工作,都是特征结构合一(feature structure unification)研究方面的重要成果,他们的研究引入了复杂特征(complex feature)的概念,与此同时,我国学者冯志伟提出了多叉多标记树形图模型(Multiple-branched Multiple-labeled Tree Model,简称MMT 模型),在他设计的多语言机器翻译FAJRA 中采用了多标记(Multiple label)的概念。多标记的概念与复杂特征的概念实质上是一致的,这些关于自然语言特征结构 研究成果,都有效地克服了Chomsky 短语结构语法的生成能力过强的缺陷。 在这个时期,自然语言理解(natural language understanding)也取得明显的成绩。自然语言理解肇始于Terry Winograd 在1972 年研制的SHRDLU 系统,这个系统能够模拟一个嵌入玩具积木世界的机器人的行为。该系统的程序能够接受自然语言的书面指令(例如,Move the red block on top of the smaller green one ),从而指挥机器人摆弄玩具积木块。这是一个非常复杂而精妙的系统。这个系统还首次尝试建立基于Halliday(韩礼德)系统语法(systemic grammar)的全面的英语语法。Winograd 的模型还清楚地说明,句法剖析也应该重视语义和话语的模型。1977 年,Roger Schank 和他在耶鲁大学的同事和学生们建立了一些语言理解程序,这些程序构成一个系列,他们重点研究诸如脚本、计划和目的这样的人类的概念知识以及人类的记忆机制。他们的工作经常使用基于网络的语义学理论,并且在他们的表达方式中开始引进Fillmore(费尔摩)在1968年提出的关于深层格(deep case)的概念。 在自然语言理解研究中也使用过逻辑学的方法,例如 1967 年Woods 在他研制的LUNAR 问答系统中,就使用谓词逻辑来进行语义解释。 计算语言学在话语分析(discourse analysis)方面也取得了很大的成绩。基于计算的话语分析集中探讨了话语研究中的四个关键领域:话语子结构的研究、话语焦点的研究、自动参照消解的研究、基于逻辑的言语行为的研究。1977 年,Crosz 和她的同事们研究了话语中的子结构(substructure)和话语焦点;1972 年,Hobbs 开始研究自动参照消解(automatic reference resolution)。在基于逻辑的言语行为研究中,Perrault 和Allen 在1980 年建立了信念-愿望-意图(Belief-Desire-Intention,简称BDI)的框架。 在1983-1993 年的十年中,计算语言学研究者对于过去的研究历史进行了反思,发现过去被否定的有限状态模型和经验主义方法仍然有其合理的内核。在这十年中,计算语言学的研究又回到了50 年代末期到60 年代初期几乎被否定的有限状态模型和经验主义方法上去,之所以出现这样的复苏,其部分原因在于1959 年Chomsky 对于Skinner 的言语行为(Verbal Behavior)的很有影响的评论在80 年代和90 年代之交遭到了理论上的反对。 这种反思的第一个倾向是重新评价有限状态模型,由于Kaplan 和Kay 在有限状态音系学和形态学方面的工作,以及Church 在句法的有限状态模型方面的工作,显示了有限状态模型仍然有着强大的功能,因此,这种模型又重新得到计算语言学界的注意。 这种反思的第二个倾向是所谓的重新回到经验主义;这里值得特别注意的是语音和语言处理的概率模型的提出,这样的模型受到IBM 公司华生研究中心的语音识别概率模型的强烈影响。这些概率模型和其他数据驱动的方法还传播到了词类标注、句法剖析、名词短语附着歧义的判定以及从语音识别到语义学的联接主义方法的研究中去。 此外,在这个时期,自然语言的生成研究也取得了引人瞩目的成绩。 计算语言学的繁荣期 从20 世纪90 年代开始,计算语言学进入了繁荣期。1993 年7 月在日本神户召开的第四届机器翻译高层会议(MT Summit IV)上,英国著名学者哈钦斯(J. Hutchins)在他的特约报告中指出,自1989 年以来,机器翻译的发展进入了一个新纪元。这个新纪元的重要标志是,在基于规则的技术中引入了语料库方法,其中包括统计方法,基于实例的方法,通过语料加工手段使语料库转化为语言知识库的方法,等等。这种建立在大规模真实文本处理基 础上的机器翻译,是机器翻译研究史上的一场革命,它将会把计算语言学推向一个崭新的阶段。随着机器翻译新纪元的开始,计算语言学进入了它的繁荣期。 在20 世纪90 年代的最后五年(1994-1999),计算语言学的研究发生了很大的变化,出现了空前繁荣的局面。这主要表现在如下三个方面。 第一,概率和数据驱动的方法几乎成为了计算语言学的标准方法。句法剖析、词类标注、参照消解、话语处理、机器翻译的算法全都开始引入概率,并且采用从语音识别和信息检索中借过来的基于概率和数据驱动的评测方法。 第二,计算语言学的应用研究日新月异。由于计算机的速度和存储量的增加,使得在计算语言学的一些应用领域,特别是在语音合成、语音识别、文字识别、拼写检查、语法检查这些应用领域,有可能进行商品化的开发。自然语言处理的算法开始被应用于增强交替通信(Augmentative and Alternative Communication,简称AAC)中,语音合成、语音识别和文字识别的技术被应用于移动通信(mobile communication)中。除了传统的机器翻译和 信息检索等应用研究进一步得到发展之外,信息抽取(information extraction)、问答系统(question answering system)、自动文摘(text summarization)、术语的自动抽取和标引(term extraction and automatic indexing)、文本数据挖掘(text data mining)、自然语言接口(natural language interaction),计算机辅助语言教学(computer-assisted language learning)等新兴的应用研究都有了长足的进展,此外,自然语言处理技术在多媒体系统(multimedia system)和多模态系统(multimodal system)中也得到了应用。计算语言学的应用研究出现了日新月异的局面。 第三,多语言在线自然语言处理技术迅猛发展。随着网络技术的发展,因特网(Internet)逐渐变成一个多语言的网络世界,因特网上的机器翻译、信息检索和信息抽取的需要变得更加紧迫。目前,在因特网上除了使用英语之外,越来越多地使用汉语、西班牙语、葡萄牙语、德语、法语、俄语、日语、韩国语等英语之外的语言。从2000 年到2005 年,因特网上使用英语的人数仅仅增加了126.9%,而在此期间,因特网上使用俄语的人数增加了664.5%,使用葡萄牙语的人数增加了327.3%,使用中文的人数增加了309.6%,使用法语的人数增加了235.9%。因特网上使用英语之外的其他语言的人数增加得越来越多,英语在因特网上独霸天下的局面已经打破,因特网确实已经变成了多语言的网络世界,因此,网络上的不同自然语言之间的计算机自动处理也就变得越来越迫切了。网络上多语言的机器翻译、信息检索、信息抽取正在迅猛地发展。语言辨别( language identification )、跨语言信息检索(cross-language information retrieval)、双语言术语对齐(bilingual terminology alignment)和 语言理解助手(comprehension aids)等计算语言学的多语言在线处理技术(multilingual on-line processing)已经成为了互联网技术的重要支柱。 在信息时代,科学技术的发展日新月异,新的信息、新的知识如雨后春笋地不断增加,出现了信息爆炸(information explosion)的局面。现在,世界上出版的科技刊物达165000种,平均每天有大约2 万篇科技论文发表。专家估计,我们目前每天在因特网上传输的数据量之大,已经超过了整个19 世纪的全部数据的总和;我们在新的21 世纪所要处理的知识总量将要大大地超过我们在过去2500 年历史长河中所积累起来的全部知识总量。而所有的这些信息主要都是以语言文字作为载体的,也就是说,网络世界主要是由语言文字构成的。 为了说明计算语言学的重要性,我们可以把它与物理学做如下的类比:我们说物理学之所以重要,是因为物质世界是由物质构成的,而物理学恰恰是研究物质运动的学科;我们说计算语言学之所以重要,是因为网络世界主要是由语言文字构成的,而计算语言学恰恰是研究语言文字自动处理的学科。 可以预见,知识日新月异的增长和网络技术突飞猛进的进步,一定会把计算语言学的研究推向一个崭新的阶段。计算语言学有可能成为当代语言学中最有发展潜力的学科,计算语言学已经给有着悠久传统的古老的语言学注入了新的生命力,在计算语言学的推动下,语言学有可能真正成为当代科学百花园中的一门名副其实的领先学科。 当前计算语言学发展的四个特点 21 世纪以来,由于互联网的普及,自然语言的计算机处理成为了从互联网上获取知识的重要手段,生活在信息网络时代的现代人,几乎都要与互联网打交道,都要或多或少地使用计算语言学的研究成果来帮助他们获取或挖掘在广阔无边的互联网上的各种知识和信息,因此,世界各国都非常重视计算语言学的研究,投入了大量的人力、物力和财力。 当前国外计算语言学研究有四个显著的特点: 第一,随着语料库建设和语料库语言学的崛起,大规模真实文本的处理成为计算语言学的主要战略目标:在过去的四十多年中,从事计算语言学系统开发的绝大多数学者,都把自己的目的局限于某个十分狭窄的专业领域之中,他们采用的主流技术是基于规则的句法-语义分析,尽管这些应用系统在某些受限的子语言(sub-language)中也曾经获得一定程度的成功,但是,要想进一步扩大这些系统的覆盖面,用它们来处理大规模的真实文本,仍然有很大的困难。因为从自然语言系统所需要装备的语言知识来看,其数量之浩大和颗粒度之精细,都是以往的任何系统所远远不及的。而且,随着系统拥有的知识在数量上和程度上发生的巨大变化,系统在如何获取、表示和管理知识等基本问题上,不得不另辟蹊径。这样,就提出了大规模真实文本的自动处理问题。1990年8月在芬兰赫尔辛基举行的第13届国际计算语言学会议(即COLING'90)为会前讲座确定的主题是:处理大规模真实文本的理论、方法和工具,这说明,实现大规模真实文本的处理将是计算语言学在今后一个相当长的时期内的战略目标。为了实现战略目标的转移,需要在理论、方法和工具等方面实行重大的革新。1992年6月在加拿大蒙特利尔举行的第四届机器翻译的理论与方法国际会议(TMI-92)上,宣布会议的主题是机器翻译中的经验主义和理性主义的方法。所谓理性主义,就是指以生成语言学为基础的方法,所谓经验主义,就是指以大规模语料库的分析为基础的方法。从中可以看出当前计算语言学关注的焦点。当前语料库的建设和语料库语言学的崛起,正是计算语言学战略目标转移的一个重要标志。随着人们对大规模真实文本处理的日益关注,越来越多的学者认识到,基于语料库的分析方法(即经验主义的方法)至少是对基于规则的分析方法(即理性主义的方法)的一个重要补充。因为从大规模和真实这两个因素来考察,语料库才是最理想的语言知识资源。但是,要想使语料库名符其实地成为自然语言的知识库,就有必要首先对语料库中的语料进行自动标注,使之由生语料变成熟语料,以便于人们从中提取丰富的语言知识。 第二,计算语言学中越来越多地使用机器自动学习的方法来获取语言知识。传统语言学基本上是通过语言学家归纳总结语言现象的手工方法来获取语言知识的,由于人的记忆能力有限,任何语言学家,哪怕是语言学界的权威泰斗,都不可能记忆和处理浩如烟海的全部的语言数据,因此,使用传统的手工方法来获取语言知识,犹如以管窥豹,以蠡测海,这种获取语言知识的方法带有很大的主观性。传统语言学中啧啧地称道的所谓例不过十不立,反 例不过十不破的朴学精神,貌似严格,实际上,在浩如烟海的语言数据中,以十个正例或十个反例就轻而易举地来决定语言规则的取舍,难道就能够万无一失地保证这些规则是可靠的吗?这是大大地值得怀疑的。当前的计算语言学研究提倡建立语料库,使用机器学习的方法,让计算机自动地从浩如烟海的语料库中获取准确的语言知识。机器词典和大规模语料库的建设,成为了当前计算语言学的热点。这是语言学获取语言知识方式的巨大变化,作为 21 世纪的语言学工作者,应该注意到这样的变化,逐渐改变传统的获取语言知识的手段。 第三,计算语言学中越来越多地使用统计数学方法来分析语言数据。使用人工观察和内省的方法,显然不可能从浩如烟海的语料库中获取精确可靠的语言知识,必须使用统计数学的方法。目前,计算语言学中的统计数学方法已经相当成熟,如果我们认真地学会了统计数学,努力地掌握了统计数学,就会使我们在获取语言知识的过程中如虎添翼。目前,在机器翻译中使用统计方法获得了很好的成绩,统计机器翻译(statistical machine translation,简称SMT)成为了机器翻译的主流技术。 2003 年7 月,在美国马里兰州巴尔的摩(Baltimore, Maryland)由美国商业部国家标准与技术研(IST/TIDES (National Institute of Standards and Technology) 主持的评比中,来自德国亚琛大学(Achen University)的年青的博士研究生奥赫(F. J. Och)获最好成绩。他使用统计方法,在很短的时间之内就构造了阿拉伯语和汉语到英语的若干个机器翻译系统。伟大的希腊科学家Archimedes(阿基米德)说过:只要给我一个支点,我就可以移动地球。(Give me a place to stand on, and I will move the world.),而这次评比中,Och 也模仿着Archimedes 说:只要给我充分的并行语言数据,那么,对于任何的两种语言,我就可以在几小时之内给你构造出一个机器翻译系统。(Give me enough parallel data, and you can have translation system for any two languages in a matter of hours.)这反映了新一代的机器翻译研究者朝气蓬勃的探索精神和继往开来的豪情壮志。看来,Och 似乎已经找到了机器翻译的有效方法,至少按照他的路子走下去,也许有可能开创出机器翻译研究的一片新天地,使我们在探索真理的曲折道路上看到了耀眼的曙光。过去我们研制一个机器翻译系统往往需要几年的时间,而现在采用Och 的方法构造机器翻译系统只要几个小时就可以了,研制机器翻译系统的速度已经大大地提高了。这是当前计算语言学中令人兴奋的新进展。 第四,计算语言学中越来越重视词汇的作用,出现了词汇主义(lexicalism)的倾向。词汇信息在自然语言的计算机处理中起着举足轻重的作用,单词之间的相似度(similarity)的计算、词汇的搭配关系(lexical collocation)和词汇联想关系(lexical association)的自动获取、动词的次范畴框架(subcategorization frame)的自动获取、词汇语义学(lexical semantics)等都是当前计算语言学研究的热点。在统计方法中引入了词汇信息,可以大大地提高统计分析的精确度,在句法分析中引入词汇信息,可以减少结构上歧义,提高句法分析的效率。机器可读词典和词汇知识库成为了自然语言处理最关键、最重要的语言资源。 我国计算语言学已经取得不少成绩,但是,与国际水平相比,差距还很大。计算语言学是国际性的学科,我们应该参与到国际计算语言学的研究中去,用国际的水平和国际的学术规范来要求我们的研究。这样,学习和了解国外计算语言学的研究成果和最新动态,就显得非常重要了。 《牛津计算语言学手册》由Ruslan Mitkov(米特科夫)教授主编,收录了包括语言学家、计算机专家和语言工程人员在内的49 位学者撰写的38 章针对计算语言学主要领域的综述性文章,各章的写作风格力求一致,使得全书前后关联,浑然一体,可读性强。《牛津计算语言学手册》内容丰富,全面地反映了国外计算语言学的最新成果,是我们了解国外计算语言学发展动向的一个窗口,正好满足了我们学习和了解国外计算语言学的研究成果和最新 动态的要求。 本书主编Ruslan Mitkov 是计算语言学家与语言工程专家,他毕业于德国德累斯顿大学(Dresden University),现为由英国伍尔弗汉普顿大学(University of Wolverhampton)教授,他的研究兴趣是回指消解、机器翻译和自动索引,曾于2002 年出版过《回指消解》(Anaphora Resolution)的专著。著名计算语言学家Martin Kay(马丁?凯伊)为本书作序,Martin Kay是美国斯坦福大学语言学教授,曾任计算语言学会主席、国际计算语言学委员会主席,是国际计算语言学界的领军人物。 二、 本书主要内容 本书内容分三大部分:1. 与计算语言学有关的语言学基础理论(1-9 章),2. 计算语言学中自然语言的处理、方法与资源(10-26 章),3. 计算语言学的应用(27-38 章)等三大部分,几乎涵盖了计算语言学的所有领域。书末有按照字母顺序编排的计算语言学术语表,每个术语均有简要的定义和解释,便于读者查询。下面我们分别介绍各章的内容。 第一章音系学(phonology) 介绍了描写音系学和计算音系学的基本知识,着重介绍了非线性音系学中的有限状态模型,音位的特征-值矩阵描述方法以及音系学研究中的计算工具。 第二章形态学(morphology) 介绍了诸如语素、词、屈折、派生等形态学的基本知识,分析了形态学对于音系学的影响,着重介绍计算形态学中的有限状态分析方法,并介绍了双层形态学和双层规则的形式化描述方法,最后介绍了结构段形态学。 第三章词典学(lexicography) 首先简要地回顾了词典学的发展历史,接着讨论了人编词典在计算机应用中的不足,说明了计算词典学对于传统的词典编纂技术提出了挑战。本章着重讨论了词汇在计算语言学中的功能以及计算技术在词典编纂中的作用。说明了计算技术改变了词典编纂工作的面貌,为新型词典的编纂提供了有力的技术手段。本章强调地指出,计算机辅助的词典编纂应该成为今后词典编纂工作的发展方向。 第四章句法学(syntax) 首先列举了一些有趣的句法现象,分析了这些现象在计算上的意义,接着介绍正则语法和有限状态语法、上下文无关的短语结构语法、转换语法、扩充转移网络、各种基于约束的特征结构语法(功能语法、词汇功能语法、中心语驱动的短语结构语法、PATR 语法),最后,介绍了两种在语言学上和计算上有意义的句法框架(广义短语结构语法、树邻接语法)。 第五章语义学(semantics) 集中介绍计算语义学的基本内容。首先讨论语义的表示问题,介绍了语义的高阶逻辑(higher-order-logic)表示法和语义的特征值矩阵(Attribute-Value Matrix)表示法;接着讨论句法语义接口,介绍了并行对应模型(Parallel Correspondence Model,简称PCM);针对 Frege 的组成性原则(principle of compositionality),介绍了非组成性的语义学;最后,介绍了语义解释的动态模型。 第六章话语(discourse) 首先列举了一些话语平面的现象,阐明了话语研究的对象是句子之间的关联问题,计算语言学中的话语研究要揭示句子之间关联的机制。接着讨论参照表示(referring expressions)和话语结构(discourse structure),说明参照表示的工作原理和参照表示的选择方法,并讨论主题(theme)与述题(rheme),话题(topic)与焦点(focus),以及预设(presupposition)、蕴含(implicature)等问题。最后讨论话语树(discourse tree),介绍了修辞结构理论(rhetorical structure theory)和中心理论(centering theory)。 第七章语用学和对话(pragmatics and dialogue) 讨论语用学及其在计算机对话模型中的应用。首先介绍言语行为(speech act)、言外力(illocutionary force)、合作原则(cooperative principle,简称CP)、关联(relevance)等语用学的基本概念,并且介绍了意图(intention)、信念(belief)、知识(knowledge)和推论(inference)等与概念表达有关的问题。着重讨论了计算语用学中的对话模型(dialogue model),说明了从话语行为到对话行为的计算机制,并介绍了话语的管理模型(dialogue management models)。 第八章形式语法与形式语言(formal grammars and languages) 介绍形式语言理论的基本知识,分别论述了形式语法和自动机,把形式语法看成是语言的生成装置,把自动机看成语言的识别装置。为了便于文科读者理解本章的内容,对于一些基本概念都给出了定义和实例,但是对于一些基本的结论则不在数学上加以证明。首先介绍了Chomsky 的形式语法,给出了形式语法的Chomsky 分类,分别讨论了上下文无关语言(context-free languages)、线性和正则语言(linear and regular languages)、半线性语言(semilinear languages)、上下文有关语言( context-sensitive languages )、柔性上下文有关语言(mildly context-sensitive languages)。接着介绍自动机理论,分别讨论了有限自动机(finite automata)、下推自动机(pushdown automata)、线性有界自动机(linear bounded automata)、图灵机(Turing machine)。 第九章计算复杂性(complexity) 介绍自然语言处理中的计算复杂性问题。首先介绍复杂性的度量方法和复杂性的类别,分别讨论了多项式算法(Polynomial algorithm,简称P)和非确定多项式算法(Nondeterministic Polynomial algorithm,简称NP),并介绍了自然语言处理中关于NP 完全问题(NP-complete problem)的一些研究。接着,讨论正则语言问题的计算复杂性,介绍了确定性(determinism)和非确定性(non-determinism)的概念、线性(linearity)和有限状态特性(finite-stateness)的概念,说明了有限状态方法的可应用性。然后,讨论上下文无关语言的计算复杂性,介绍了基于搜索的上下文无关识别(search-based context-free recognition)、自顶向下识别(top-down recognition)、线性时间与空间中的确定性语法识别(deterministic grammar recognition in linear time and space)。最后,讨论了概率语法和启发式搜索、并行处理和实际效用等问题,说明计算复杂性分析在理解自然语言的复杂性以及在建立实际的自然语言处理系统中的用途。 第十章文本切分(text segmentation) 介绍两方面的内容:一方面是词例还原(tokenization),一方面是句子分离(sentence splitting)。词例还原的目标是把文本中的单词、标点符号、数字、字母数字字符切分出来,以便进行进一步的处理。本章分别介绍了单词自动切分、缩写切分(例如,Mr., Dr., kg.中的黑点)、连字符处理(例如,self-asessment,forty-two, F-16中的连字符)的技术,并且讨论了汉语和日语等东方语言中词例还原(也就是切词)的特殊问题。句子分离的目标是把文本中的句子分离出来,在很多自然语言处理系统中,都需要进行句子分离。本章介绍了基于规则的句子分离、基于统计的句子分离、非规范输入文本中的句子分离等技术。 第十一章词类标注(part-of-speech tagging) 介绍了词类标注器(POS tagger)的设计技术以及兼类词的消歧(disambiguation)方法。简要回顾了词类标注发展的历史,介绍了基于局部性手写规则的词类标注器、基于n-元语法的词类标注器、基于隐马尔科夫模型(Hidden Markov Models)的词类标注器、基于机器学习的词类标注器、基于全局性手写规则的词类标注器、基于混合方法的词类标注器,重点介绍了手工消歧语法(handwritten disambiguation grammars)。 第十二章句法剖析(parsing) 介绍了自动句法剖析的基本概念和关键技术。句法剖析的深度因自然语言处理的具体要求的不同而不同,有浅层的句法剖析(shallow parsing),也有深层的句法剖析(deep parsing)。本章首先介绍了浅层句法剖析,这种剖析只要把句子剖析为语块(chunks)就可以了。接着,介绍了依存剖析(dependency parsing)。在介绍上下文无关剖析(context-free parsing)时,比较详细地讨论了CYK 算法、自底向上剖析、左角分析法、自底向上的活性线图分析法(bottom-up active chart)。在介绍基于合一的剖析(unification-based parsing)时,讨论了特征-值矩阵。剖析时可能得到若干个结果,因此,还讨论了剖析结果的歧义消解问题。最后,讨论了剖析算法准确性的评测、剖析程序的效率以及剖析语法覆盖面的度量方法等问题。 第十三章词义消歧(word-sense disambiguation,简称WSD) 讨论如何在上下文中确定多义词的准确意义。首先介绍了在计算语言学研究的早期提出的WSD的优选语义学方法、词专家剖析方法,这些方法由于缺乏可供使用的词汇资源,出现了知识获取的瓶颈问题(knowledge acquisition bottleneck),这些问题由于大规模词汇库和知识库的出现而得到缓解,又由于统计方法和机器学习方法的应用而可以从语料库中获取精确的数据来加以避免。近年来,在WSD 中普遍使用基于词典的方法、联结主义方法(connectionist)、统计方法、机器学习方法,取得了很大的进步。最后讨论WSD 的评测,介绍了SENSEVAL 的评测活动,并介绍WSD 的一些实际应用。 第十四章回指消解(anaphora resolution) 首先列举了一些回指现象,说明了回指现象的各种变体。接着讨论回指消解所需要的知识源、回指消解的过程、回指消解在自然语言处理中的应用。最后回顾了回指消解研究的发展历史和现状,讨论了今后回指消解研究中应当注意的问题。 第十五章自然语言生成(natural language generation,简称NLG) 介绍了自然语言生成研究的理论和实践问题,力图说明在人们的心智上以及在计算机中,语言究竟是怎样产生出来的。自然语言生成是一个知识密集的问题,可以从语言学、认知科学和社会学的角度来探讨。可以把自然语言生成看成一个映射问题,也可以把它看成一个选择问题,还可以把它看成一个规划问题。自然语言生成可以分为四个问题:宏观规划(macroplanning)、微观规划(microplanning)、表层实现(surface realization)、物理表达(physical presentation)。对于宏观规划,介绍了说话内容的规划、文本的规划、以及使用修辞结构理论的规划方法,对于微观规划,着重介绍了词汇生成的问题,最后介绍了表层生成的技术。 第十六章语音识别(speech recognition) 研究如何把作为声学信号的声波转换为单词的序列。现在,最有效的语音识别方法是语音信号统计建模的方法。本章简要地介绍了语音识别中的主要方法和技术:声学语音信号的建模,语音识别中的词汇表示,语音识别中的语言模型,解码。重点介绍独立于说话人的大词汇量连续语音识别(large-vocabulary continuous speech recognition,简称LVCSR)的最新的技术。目前,语音识别主要应用于自动听写机的设计、口语对话系统、语音文献的自动转写、语音信息检索等领域中。最后讨论了语音识别 技术将来的研究方向。 第十七章文本-语音合成(text-to-speech synthesis,,简称TTS) 介绍文本-语音合成的最新成果。TTS 既涉及到自然语言处理技术,也涉及到数字信号处理的技术。本章主要从自然语言处理的角度来介绍TTS。首先介绍TTS 系统的概貌以及它的商业应用价值,然后描述TTS 系统的功能结构以及TTS 系统的组成部分,TTS 系统中的自动形态-句法分析、自动语音分析、自动韵律生成,说明了如何从文本中近似地计算语音的声调和时长。最后,介绍声波生成的两种技术:规则合成技术(synthesis by rules)与毗连合成技术(concatenative synthesis)。 第十八章有限状态技术(finite-state technology) 首先举例介绍有限状态语言、词汇转录机、重写规则等基本概念,然后介绍基本正则表达式的运算方法和复杂的正则表达式,最后讨论有限状态网络的形式特性。 第十九章统计方法(statistical methods) 介绍计算语言学中的统计方法。目前,统计方法成为自然语言处理的主流方法。本章首先介绍数理统计的基本概念(如,样本空间、概率测度、随机变量、条件概率、熵、随机过程)以及如何把它们在应用于自然语言的模拟问题,分别介绍了隐马尔科夫模型(hidden Markov models)和最大熵模型(maximum-entropy models),最后介绍了这些模型的一些技术细节,如,韦特比搜索(Viterbi search)、最大熵方程(maximum-entropy equation)等。 第二十章机器学习(machine learning) 介绍了如何通过有指导的训练实例(supervise training examples)来自动地获取语言资源中蕴含的决策树(decision-tree)和规则(rules),描述了怎样从经过标注的训练实例中进行推理的各种算法和知识表达技术,并介绍了如何使用已经获得的知识来进行分类的基于实例的分类方法(instance-based categorization),较详细地介绍了k-邻近分类算法(k nearest-neighbour categorization algorithm)。这些机器学习的技术可以应用来解决计算语言学中的形态分析、词类标注、句法剖析、词义自动歧义消解、信息抽取、前指消解等各种各样的问题。 第二十一章词汇知识的获取(lexical knowledge acquisition) 首先介绍了词汇知识自动获取的一些背景,包括词汇知识的形式、词汇知识获取的资源和工具,单词的共现和相似度,然后介绍了从语料库中自动获取词汇的搭配关系(lexical collocation)和联想关系(lexical association)的方法,词汇相似度(similarity)计算与叙词表(thesaurus)构建的方法,动词的次范畴框架(subcategorization frame)的获取方法,分析了词汇语义学(lexical semantics)和词汇知识获取的关系,最后介绍了从机器可读的词典中获取词汇知识的方法。由于在自然语言处理中越来越重视词汇知识的作用,自然语言处理的形式模型中越来越多地采用词汇化(lexicalized)的方法,词汇知识的自动获取是当前计算语言学研究的亮点之一。 第二十二章评测(evaluation) 专门讨论自然语言处理系统的评测问题。评测是推动自然语言处理研究发展的一个重要手段,评测的结果对于自然语言处理系统的投资者、开发者和使用者都是很有价值的。在自然语言处理技术发展的早期主要使用基于技术的评测(technology-based evaluation),在自然语言处理技术比较成熟的时候,就可以使用以用户为中心的评测(user-centred evaluation)。根据评测时的输入与输出,评测技术又可以分为分析成分的评测(evaluation of analysis components)、输出技术的评测(evaluation of output technologies)和交互系统的评测(evaluation of interactive systems)。分析成分的评测把语言映射为它的内部表达作为输出(例如,有标记的片段、树形图、抽象的意义表达式等)。输出技术的评测要把处理的结果用具体的语言表示出来(例如,文摘、生成的文本、翻译的译文等),这种评测可以分别使用内部评测指标(intrinsic measures)和外部评测指标(extrinsic measures)来进行。交互系统的评测容许用户与系统进行交互。本章总结了评测的各种技术,并指出它们的优点和缺点。 第二十三章子语言和可控语言(sublanguage and controlled language) 首先讨论了在限定语义领域中的计算语言学,指出了在当前的水平之下,在某些限定领域中应用自然语言处理技术的必要性。然后举例说明了某些自发地形成的子语言,分析了子语言的特性,讨论了子语言在机器翻译、文本数据抽取、自然语言生成、自动文摘中应用的问题。接着讨论可控语言,分析了使用可控语言的必要性和局限性,介绍了可控语言的一个实例--简化英语AECMA。最后讨论子语言与可控语言的关系,分析了把子语言转变为可控语言的途径。 第二十四章语料库语言学(corpus linguistics) 主要讨论了语料库在自然语言处理中的应用问题。首先从语料的抽样框架、语料的代表性、语料的平衡性等方面说明了建立语料库的基本要求,简要地回顾了语料库的发展历史,然后着重地讨论了语料库的标注(annotation)问题。标注过的语料库的优点是:开发和研究上的方便性,使用上的可重用性,功能上的多样性,分析上的清晰性。学术界对于语料库标注的批评主要来自两方面:一方面认为,语料库经过标注之后失去了客观性,所得到的语料库是不纯粹的;另一方面认为,手工标注的语料库准确性高而一致性差,自动或半自动的标注一致性高而准确性差,语料库的标注难以做到两全其美,而目前大多数的语料库标注都需要人工参与,因而很难保证语料库标注的一致性。在分析了语料库在自然语言处理中的应用问题之后,作者指出,不论标注过的语料库还是没有标注过的语料库,在自然语言处理中都是有用的,语料库语言学有助于计算语言学的发展。 第二十五章知识本体(ontology) 讨论了知识本体及其在自然语言处理中的应用。首先分别介绍了哲学传统的知识本体、认知和人工智能传统的知识本体、语言学传统的知识本体,并讨论了语言学中的知识本体与词汇语义学的关系。然后说明,在自然语言处理中,知识本体可以用来帮助系统进行语言的结构分析(例如,英语中的PP 附着问题、错拼更正、句法检错、语音识别),也可以用来进行局部的自然语言理解(例如,信息检索中的问题搜索、文本分类),并具体说明了知识本体在信息检索、信息抽取、自动文摘、语义相似度计算、词义消歧中的应用。 第二十六章树邻接语法(tree-adjoining grammar,简称TAG) 介绍一种局部化的语法形式模型:树邻接语法(TAG)和词汇化的树邻接语法(lexicalized tree-adjoining grammar,简称LTAG)。首先讨论上下文无关语法CFG 的局部化问题,说明TAG 与CFG 的不同:TAG以句法结构树作为核心操作对象,在树的基础上来组织语言知识,它的产生式规则也对应着树结构,它以线性的一维形式来表达二维的树结构,而CFG 以符号串作为操作对象,CFG是一个基于符号串的形式语法,而TAG 是基于树的形式语法。然后讨论上下文无关语法CFG的词汇化问题,介绍了LTAG。LTAG 对于TAG 的扩充主要在于把每一个初始树(initial tree)和辅助树(auxiliary tree)都与某一个或某一些叫做抛锚点(anchor)的具体单词关联起来。最后讨论LTAG 的一些重要特性及其与别的形式系统的关系。 第二十七章机器翻译:总体回顾(machine translation: general overview) 介绍了从20世纪50 年代到90 年代的基于规则的机器翻译系统(rule-based machine translation,简称rule-based MT)的主要概念和方法:直接翻译方法、中间语言方法、转换方法、基于知识的方法,并介绍了主要的机器翻译工具,简要回顾了机器翻译的历史。 第二十八章机器翻译:新近的发展(machine translation: latest developments) 介绍了当前机器翻译系统的研究、开发和应用的情况,讨论了经验主义的机器翻译系统:基于实例的机器翻译(example-based MT)和统计机器翻译(statistical MT),并把它们与传统的基于规则的机器翻译系统进行了对比,同时还介绍了把各种方法融为一炉的混合机器翻译系统(hybrid MT)。在当前基于规则的机器翻译的开发中,回指消解的研究以及基于中间语言和基于知识的机器翻译的研究取得较大的进展,本章也做了介绍,此外,还介绍了口语的机器翻译,讨论了少数民族语言和不发达语言的机器翻译前景,讨论了因特网上的机器翻译(特别是网页翻译)的问题。最后,介绍了译者的电子翻译工具,特别讨论了双语语料库、翻译记忆、双语上下文索引等问题,并介绍了一些面向译者的词处理工具。 第二十九章信息检索(information retrieval) 主要介绍文本的信息检索。信息检索系统的任务在于,对于用户提出的提问或者命题,给出与之有关文献的集合,作为检索的结果。首先分析了信息检索系统的软件组成成分,包括文献处理、提问处理、检索匹配技术,然后讨论自然语言处理技术对于信息检索的推动和促进作用,讲述了如何使用自然语言处理所得到的形态信息、短语信息、句法信息来改进信息检索中的索引技术,并且指出,当前的趋向是使用语义信息来进行信息检索。最后展望信息检索的发展前景。 第三十章信息抽取(information extraction,简称IE) 讨论如何从自由文本中自动地识别特定的实体(entities)、关系(relation)和事件(events)的方法和技术。本章主要讨论两种类型的信息抽取:一种是名称的自动抽取(extraction of names)。一种是事件的自动抽取(extraction of events),并介绍书写抽取规则的方法。对于名称的自动抽取,介绍了名称标注器(name tagger),对于事件抽取,介绍了事件识别器(event recognizer)。同时,还介绍了如何从已经标注了有关名称或事件信息的文本语料库中自动地学习抽取规则的方法,这种方法也就是信息抽取的统计模型。最后介绍了信息抽取的评测和应用。 第三十一章问答系统(question answering,简称QA) 讨论如何从大规模真实的联机文本中对于指定的提问找出正确回答的方法和技术,这是文本信息处理的一个新的发展趋向。由于QA 要对于指定的提问给出一套数量不多的准确回答,在技术上,它更接近于信息检索(information retrieval),而与传统的文献检索(document retrieval)有较大的区别,QA要生成一个相关文献的表作为对于用户提问的回答。与信息抽取相比,QA 要回答的提问可以是任何的提问,而信息抽取只需要抽取事先定义的事件和实体。在开放领域的QA 系统中,使用有限状态技术和领域知识,把基于知识的提问处理、新的文本标引形式以及依赖于经验方法的回答抽取技术结合起来,这样,就把信息抽取技术大大地向前推进了一步。本章首先介绍了QA 系统的类别和QA 系统的体系结构,接着介绍了开放领域QA 系统中的提问处理、开放领域QA 系统中提问类型以及关健词抽取技术,并讨论了开放领域QA 系统中的文献处理方法和提问抽取方法,最后展示了QA 系统的发展前景。 第三十二章自动文摘(text summarization) 介绍对单篇或多篇文本进行自动文摘的方法。首先讨论自动文摘的性质和自动文摘的过程。接着介绍自动文摘的三个阶段:第一阶段是主题辨认(topic identification),第二阶段是主题融合(topic fusion),第三阶段是文摘生成(summary generation);并介绍了多文本的自动文摘。最后介绍自动文摘的评测方法,讨论了自动文摘评测的两个指标:压缩比(compression ratio,简称CR)和内容保留率(retention ratio,简称RR)。 第三十三章术语抽取和自动索引(term extraction and automatic indexing) 介绍术语自动处理的技术。术语广泛地出现在科技文献中,术语的自动识别对于科技文献的分析、理解、生成、翻译具有关键性的作用。随着网络的普及和数字技术的发展,出现在互联网、政府、工业部门和数字图书馆中的专业文献日益增多,术语的自动处理对于这些文献的信息检索、跨语言问答、多媒体文本自动索引、计算机辅助翻译、自动文摘等都具有重要作用。本 章把面向术语的语言自动处理分为术语发现(term discovery)和术语识别(term recognition)两个部分,分别介绍了主要的技术和系统,最后介绍了双语言术语的自动抽取技术。 第三十四章文本数据挖掘(text data mining,简称TDM) 介绍本文数据挖掘技术。文本数据挖掘的目的在于从大规模真实文本数据中发现或推出新的信息,找出文本数据集合的模型,发现文本数据中所隐含的趋势,从文本数据的噪声中分离出有用的信号。本章首先讨论文本数据挖掘与信息检索的区别,分析了文本数据挖掘与计算语言学和范畴元数据(category metadata)的关系。本章举出实例,具体地说明了怎样使用生物医学文献中的文本数据来推测偏头痛(migraine headaches)的病因,怎样使用专利文献中的文本数据来揭示专利文本与已经发表的研究文献之间的关系,并介绍了LINDI(Linking Information for Novel Discovery and Insight)系统,这个系统的软件能够根据大规模的文本集合来发现文本中蕴含的重要的新信息。 第三十五章自然语言接口(natural language interaction 简称NLI) 介绍计算机自然语言接口系统。这样的NLI 系统可以把用户使用口头的自然语言或书面的自然语言提出的问题转化为计算机可以处理的形式。首先介绍了NLI 系统的基本组成部分、意义表达语言(meaning representation language,简称MRL)、同义互训软件(paraphraser)、问题生成软件(response generator)以及可移植工具(portability tools)。然后介绍口语对话系统(spoken dialogue systems,简称SDS),分别介绍了SDS 的单词识别软件、任务模型、用户模型、话 语模型、对话管理软件、消息生成软件、语音合成软件。最后讨论SDS 系统的灵活性、现状以及将来的应用前景。 第三十六章多模态和多媒体系统中的自然语言(natural language in multimodal and mltimedia systems) 讨论自然语言在多模态系统和多媒体系统应用中的重要作用,说明了怎样把自然的口语或书面语与多媒体输入协同地融合为一体,怎样把自然语言与其他的媒体结合起来以生成更加有效的输出,怎样使用自然语言处理技术来改善多媒体文献的存取。首先介绍包含自然语言的多模态和多媒体输入的分析问题,讨论了怎样把自然语言处理技术作为多模态分析的基础,怎样把不同的模态结合起来的技术。接着介绍包含自然语言的多媒体输出的生成问题,讨论了怎样把自然语言处理技术作为多媒体生成的基础,并讨论了不同模态的调和问题(包括不同模态的配置、不同模态输出的裁剪、模态输出中空间和时间的配合)。还讨论了用于多媒体数据存取的自然语言处理技术(包括基于自然语言处理的图形和图像检索、图形和图像数据库的自然语言接口、多媒体信息的自然语言摘要)。最后讨论在多媒体环境中使用语言的问题。 第三十七章计算机辅助语言教学中的自然语言处理(natural language processing in computer-assisted language learning) 介绍在计算机辅助语言教学(computer-assisted language learning,简称CALL)中使用自然语言处理技术的问题。首先介绍CALL 的发展历史,接着介绍在自然语言处理背景下的CALL,语料库与CALL,双语语料库,讨论自然语言处理技术在形态学教学、语法教学、偏误的识别和诊断中的应用。最后讨论自然语言处理技术在CALL 中应用的评估问题。 第三十八章多语言的在线自然语言处理(multilingual on-line natural languageterminology alignment)和语言理解助手(comprehension aids) 4 个方面的研究情况。语言辨别的目的在于让计算机自动地判断书面文本是用什么语言写的,这显然是多语言自动处理必须经过的第一步。跨语言信息检索CLIR 的目的在于使用一种语言提问来检索其他语言文本的信息。本章介绍了在CLIR 中的译文发现技术(finding translation)、翻译变体的修剪技术(pruning translation alternatives)、翻译变体的加权技术(weighting translation alternatives)。在这些应用中,双语言词典或多语言词典是最重要的资源,而这些词典的覆盖面可以使用双语言术语对齐的技术来提升。语言理解助手的目的在于给用户提供软件工具来理解外语写的文本,而不必使用全自动机器翻译的技术。本章介绍了施乐公司欧洲研究中心(Xerox Research Centre Europe,简称XRCE)的语言理解助手LocoLex 和语义模型,并介绍了施乐公司使用语言助手来改善数字图书馆Callimaque 的技术。 本章最后附有各章作者简介、计算语言学术语表,作者索引、主题索引。 三、 本书的简要评价 本书是手册性的专著,有如下三个明显特点: ? 专家执笔:本书的38 章是分别由各个领域内的46 位知名专家执笔的,由于这些专家对于自己的领域都是精研通达的内行,有力地保证了本书的学术质量和专业水平。 ? 涵盖全面:本书几乎涵盖了计算语言学的所有领域,反映了当前计算语言学的最新成就,使我们对于计算语言学获得全面而系统的认识。 ? 深入浅出;本书各章写作风格一致,内容协调,浑然一体,特别适合对计算语言学感兴趣和刚入门的读者阅读。本书使用流畅的文笔和有趣的实例来介绍艰深的技术问题,尤其适合于文科背景的读者阅读。 我国曾经翻译出版过有关计算语言学和自然语言处理的大部头专著,如《自然语言处理综论》(电子工业出版社出版,2005 年)被称为自然语言处理教材的黄金标准。但是,这部专著主要是针对理工科背景的读者写的,数学公式较多,文科背景的读者阅读和理解起来常常会感到困难。与《自然语言处理综论》比较,本书尽量不使用繁难的数学公式,文笔浅显而流畅,内容新颖而有趣,更加适合于文科背景的读者阅读。目前计算语言学这个新兴的学科不仅吸引了大量理工科背景的研究人员,同时,也有不少文科背景的研究人员投身到计算语言学的研究行列中来,本书的出版正好满足文科背景的研究人员需要。当然,由于本书内容涵盖面广,专业性强,对于理工科背景的研究人员也有很大的参考价值。 四、 有关计算语言学的其他参考文献 冯志伟,自然语言的计算机处理 ,上海,上海外语教育出版社,1996 。 冯志伟,应用语言学综论 ,广州,广东教育出版社,1999。 冯志伟,计算语言学基础 ,商务印书馆,2001年。 冯志伟,机器翻译研究 ,北京,中国对外翻译出版公司,2001。 冯志伟,自然语言处理的形式模型 ,纪念中国科学技术大50 周年校庆校友文库,中国科学技术大学出版社,,2008。 Carstensen Kai-Uwe et al, Computerlinguistik und Sprachtechnologie, Eine Einfhrung , Heidelberg/Berlin, Spektrum Akademischer Verlag, 2004. Daniel Jurafsky, James H. Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition , Upper Saddle River, New Jersey, Prentice Hall, 2000. (中文译本,冯志伟、孙乐 译,《自然语言处理综论》,电子工业出版社,2005 。) Bill Manaris, Natural language processing: A human-computer interaction perspective , Advances in Computers, Volume 47,1999.
个人分类: 研究方法|10166 次阅读|0 个评论
中信所第五期青年学术沙龙:文献标引与领域词汇获取相关主题
timy 2009-4-14 12:53
关于举办中信所第五期青年学术沙龙的通知   题目: 文献综合自动标引与词语聚类研究 时间:4月17日(周五)下午2:00 地点:中信所办公大楼333室 承办单位:研究生部 形式:沙龙以研讨为主,拟请暨南大学副教授刘华博士做主题发言,报告大纲如下:     1. 基于关键词主题度的文献综合自动标引研究 良好的信息组织和资源表示是高质量信息利用的基石,文献综合自动标引,即类目、主题词和摘要的标引,是信息组织和资源表示的核心。 目前,文献自动标引基本上是类目、主题词和摘要分别标引,分成三个研究领域:文本分类、主题词标引和自动文摘。 实际上,文献综合自动标引有其共同基础,例如,文本分类的关键步骤类向量构建是基于词语权重计算和选择的,主题词标引更是直接以主题特征明显的词语为标引项,自动文摘的句子权重计算也以词语权重计算为基础。因此,文献综合自动标引都是基于词语权重计算,力图凸显主题特征明显的特征词(如领域术语)。三者在关键词主题度计算的基础,可以合而为一。 关键词是标识和表达文档主题概念的词语,关键词的主要特征是主题性。针对关键词的领域不均匀性和邻界域两个特征,提出并模拟计算了关键词表征文本主题特征程度的主题度。以关键词及其主题度为领域知识,完成了一个文献综合自动标引系统,集成文本分类、主题词标引和自动文摘功能。    2.  词语聚类研究 领域知识获取是文本处理中的基础关键技术,目前,有许多方法来获取领域词语,主要分为两类:基于规则和基于统计的。基于规则的方法主要利用人工构建好的领域知识在大规模语料中利用模板匹配的方式获取领域词语。也有一些知识库主要依靠专家手工构建,如WordNet、HowNet。基于统计的方法简单快速,主要利用机器学习的方法进行领域词语获取,如基于Bootstrapping、互信息、TFIDF等的领域词语自动获取。 本报告将简要介绍如何利用大规模分类语料库中关键词标引的特征提取方法自动获取领域词语。并演示相关的实验结果。 主题发言人介绍 : 刘华,男,1975年生,博士、暨南大学副教授。1998年从湖南科技大学中文系毕业,获学士学位,爱好文学;2002年从云南师大毕业,获硕士学位,主攻语言学;2005年毕业于北京语言大学中文信息处理专业,师从张普教授,获博士学位,主攻计算机软件和计算语言学。 目前主要从事信息组织、信息检索、数据挖掘及自然语言处理等领域的教学与科研工作,特别是在文本分类、主题词标引、自动文摘、新词语发现和词语聚类方面有一定的研究。曾参与或主持的项目包括863项目、973项目、国家语言文字应用十五科研课题重大项目、国家社科基金项目(主持、在研)、国家语委项目(主持、在研)、广东省社科项目(主持、在研)等。近3年来在国内外期刊和会议上发表学术论文20余篇,EI、ISTP收录论文3篇。 参加人员:中信所学术沙龙成员,所内广大青年职工。 所学术委员会 所青年学术沙龙 2009年4月13日 欢迎感兴趣者参加,并能参加讨论。
个人分类: 同行交流|4599 次阅读|0 个评论
冯志伟:《语料库语言学与计算语言学研究丛书》 序 【转载】
timy 2009-3-28 21:17
转载于: http://www.lingviko.net/feng/clcl.pdf 《语料库语言学与计算语言学研究丛书》 1 序 冯志伟 语料库语言学与计算语言学研究丛书旨在向国内读者推荐语料库语言学与计算语言学这两个学科最新和最经典的外文著作。语料库语言学的语料要建立在计算机上,而计算语言学则专门研究自然语言的计算机处理,这两个学科都要使用计算机,都与计算机有着不解之缘。这篇序言主要介绍这两个学科的学术背景,并且讨论这两个学科之间的关系,以方便读者的阅读和理解。 1.语料库语言学研究简介 语料库是为一个或多个应用目标而专门收集的、有一定结构的、有代表性的、可被计算机程序检索的、具有一定规模的语料的集合。语料库应该按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片段来建立。从其本质上讲,语料库实际上是通过对自然语言运用的随机抽样,以一定大小的语言样本来代表某一研究中所确定的语言运用总体。 语料库一般可分为如下类型: ●按语料选取的时间划分,可分为历时语料库(diachroniccorpus)和共时语料库(synchroniccorpus)。 ●按语料的加工深度划分,可分为标注语料库(annotatedcorpus)和非标注语料库(non-annotatedcorpus)。 ●按语料库的结构划分,可分为平衡结构语料库(balancestructurecorpus)和自然随机结构的语料库(randomstructurecorpus)。 ●按语料库的用途划分,可分为通用语料库(generalcorpus)和专用语料库(specializedcorpus)。专用语料库又可以进一步根据使用的目的来划分,例如,又可以进一步分为语言学习者语料库(learnercorpus)、语言教学语料库(pedagogicalcorpus)。 ●按语料库的表达形式划分,可分为口语语料库(spokencorpus)和文本语料库(textcorpus)。 ●按语料库中语料的语种划分,可分为单语种语料库(monolingualcorpora)和多语种语料库(multilingualcorpora)。多语种语料库又可以再分为比较语料库(comparablecorpora)和平行语料库(parallelcorpora)。 比较语料库的目的侧重于特定语言现象的对比,而平行语料库的目的侧重于获取对应的翻译实例 。 ●按语料库的动态更新程度划分,可分为参考语料库(referencecorpus)和监控语料库(monitorcorpus)。参考语料库原则上不作动态更新,而监控语料库则需要不断地进行动态更新。 早在1897年,德国语言学家Kaeding就使用大规模的语言材料来统计德语单词在文本中的出现频率,编写了《德语频率词典》(J.Kaeding,H.ufigkeitsw.rterbuchderdeutschenSprache,Steglitz:publishedbytheauthor,1897)。由于当时还没有计算机,Kaeding使用的语言材料不是机器可读的(machinereadable),所以他的这些语言材料还不能算真正意义上的语料库,但是Kaeding使用大规模语言资料来编写频率词典的工作,是具有开创性的。 1959年,英国伦敦大学教授RandolphQuirk提出建立英语用法调查的语言资料库,叫做SEU(SurveyofEnglishUsage),当时由于技术条件的限制,SEU是用卡片来建立的,也不是机器可读的。后来Quirk把这些语言资源逐步转移到计算机上,使之成为机器可读的语料库,并根据这个语料库领导编写了著名的《当代英语语法》(R.Quirk,TowardsadescriptionofEnglishusage,TransactionsofthePhilologicalSociety,pp.40-61,1960.)。 1964年,A.Juilland和E.Chang-Rodriguez根据大规模的西班牙语资料来编写《西班牙语单词频率词典》(A.JuillandandE.Chang-Rodriguez,FrequencyDictionaryofSpanishWords,TheHague,Mouton,1964.)。在收集语言资料时,注意到了抽样框架、语言资料的平衡性、语言资料的代表性等问题。 1979年,美国Brown大学的NelsonFrancis和HenryKucera在计算机上建立了机器可读的BROWN语料库(布朗语料库),这是世界上第一个根据系统性原则采集样本的平衡结构语料库,规模为100万词次,并用手工做了词类标注(partofspeechtagging)。 BROWN语料库是一个代表当代美国英语的语料库 (W.Francis,Problemsofassembling,describingandcomputerizinglargecorpora,ScripterVerlag,pp.110-123,1979.)。 接着,英国Lancaster大学的GeoffreyLeech教授提出倡议,挪威Oslo学的StigJohansson教授主持完成,最后在挪威Bergen大学的挪威人文科学计算中心联合建立了 LOB语料库(LOB是Lancaster,Oslo和Bergen的首字母缩写),规模与Brown语料库相当。这是一个代表当代英国英语的语料库 。 欧美各国学者利用BROWN和LOB这两个语料库开展了许多大规模的研究,取得了引人注目的成绩。 近年来,语料库语言学的研究硕果累累,关于这些研究成果,我在《应用语言学中的语料库》(世界图书出版公司、剑桥大学出版社2006年版)一书的导读中已经做过介绍,有兴趣的读者可以参看。 从20世纪90年代初、中期开始,语料库逐渐由单语种向多语种发展,多语种语料库开始出现。目前多语种语料库的研究正朝着不断扩大库容量、深化加工和不断拓展新领域等方向继续发展。随着从事语言研究和机器翻译研究的学者对多语种语料库重要性的逐渐认识,国内外很多研究机构都致力于多语种语料库的建设,并利用多语种语料库对各种各样的语言现象进行了深入的探索 。 在建设或研究语料库的时候,我们应当注意语料库的代表性、结构性和平衡性,还要注意语料库的规模,并制定语料的元数据规范。下面分别讨论这些问题。这只是我个人的意见,供读者参考。 首先讨论语料库的代表性 。 语料库对于其应用领域来说,要具有足够的代表性,这样,才能保证基于语料库得出的知识具有较强的普遍性和较高的完备性。 真实的语言应用材料是无限的,因此语料库样本的有限性是无法回避的。承认语料库样本的有限性,在语料的选材上,就要尽量追求语料的代表性,要使有限的样本语料尽可能多地反映无限的真实语言现象的特征。语料库的代表性不仅要求语料库中的样本取自于符合语言文字规范的真实的语言材料,而且要求语料库中的样本要来源于正在使用中的语言材料,包括各种环境下的、规范的或非规范的语言应用。语料库的代表性还要求语料具有时代性,能反映语言的发展变化和当代的语言生活规律。只有通过具有代表性的语料库,才能让计算机了解真实的语言应用规律,才有可能让计算机不仅能够理解和处理规范的语言,而且还能够处理不规范的但被广泛接受的语言、甚至包含有若干错误的语言。 再来讨论语料库的结构性。 语料库是有目的地收集的语料的集合,不是任意语言材料的堆积,因此要求语料库具有一定的结构。在目前计算机已经普及的技术条件下,语料库必须是以电子文本形式存在的、计算机可读的语料集合。语料库的逻辑结构设计要确定语料库子库的组成情况,定义语料库中语料记录的码、元数据项、每个数据项的数据类型、数据宽度、取值范围、完整性约束等。 我们还有必要来讨论语料库的平衡性。 平衡因子是影响语料库代表性的关键特征。在平衡语料库中,语料库为了达到平衡,首先要确定语料的平衡因子。影响语言应用的因素很多,如:学科、年代、文体、地域、登载语料的媒体、使用者的年龄、性别、文化背景、阅历、语料的用途(公函、私信、广告)等。不能把所有的特征都作为平衡因子,只能根据实际需要来选取其中的一个或者几个重要的指标作为平衡因子。最常用的平衡因子有学科、年代、文体、地域等。应该根据平衡语料库的用途来评测语料库所选择的平衡因子的恰当性。 在建设语料库时,还应当考虑语料库的规模。 大规模的语料库对于语言研究,特别是对于计算语言学的研究具有不可替代的作用。但随着语料库的增大,垃圾语料带来的统计垃圾问题也越来越严重。而且,当语料库达到一定的规模后,语料库的功能并不会随着其规模同步地增长。我们应根据实际的需要来决定语料库的规模,语料库规模的大小应当以是否能够满足其需要来决定。 我们还应当考虑语料库的元数据(metadata)问题。 语料库的元数据对语料库研究具有重要的意义。我们可通过元数据了解语料的时间信息、地域信息、作者信息、文体信息等各种相关信息;也可通过元数据形成不同的子语料库,满足不同兴趣研究者的研究需要;还可通过元数据对不同的子语料库进行比较,研究和发现一些对语言应用和语言发展可能有影响的因素;元数据还可记录语料的知识版权信息、语料库的加工信息和管理信息。 由于在汉语书面文本中词与词之间没有空白,不便于计算机处理,因此,汉语书面文本的语料库一般都要做切词和词性标注。汉语书面文本经过切词和词性标注之后,带有更多的信息,更加便于使用。 不过,关于语料库的标注(annotation)问题,学术界还存在不同的看法。有的学者主张对语料进行标注,认为标注过的语料库具有开发和研究上的方便性、使用上的可重用性、功能上的多样性、分析上的清晰性等优点。有的学者则对语料库标注提出批评。学术界对于语料库标注的批评主要来自两方面:一方面认为,语料库经过标注之后失去了客观性,所得到的标注语料库是不纯粹的,带有标注者对于语言的主观认识;另一方面认为,手工标注的语料库准确性高但一致性差,自动或半自动的标注一致性高但准确性差,语料库的标注难以做到两全其美,而目前大多数的语料库标注都需要人工参与,因而很难保证语料库标注的一致性(J.Sinclair,Corpus,Concordance,Collocation,OxfordUniversityPress,1991)。我们认为,不论标注过的语料库还是没有标注过的语料库都是有用的,其中都隐藏着丰富的语言学信息等待着我们去挖掘,我们甚至可以使用机器学习的技术,从语料库中自动地获取语言知识,不论标注过的语料库还是没有标注过的语料库都有助于语言学的发展。 近年来,在语料库的建立和开发中逐渐创造了一些独特的方法,提出了一些初步的原则,并且对这些方法和原则在理论上进行了探讨和总结,逐渐形成了语料库语言学(corpuslinguistics)。由于语料库是建立在计算机上的,因此,语料库语言学是语言学和计算机科学交叉形成的一门边缘学科。目前语料库语言学主要是利用语料库对语言的某个方面进行研究,是一种新的研究手段,同时也逐步建立了自己学科的理论体系,正处于迅速的发展过程之中。 语料库语言学是一种新的获取语言知识的方法。描写语言学基本上是通过语言学家用手工方法或内省的方法,从有限的语料资料中归纳总结个别的语言数据来获取语言知识的。由于人的记忆能力有限,任何语言学家,哪怕是语言学界的权威泰斗,都不可能记忆和处理浩如烟海的全部语言数据,因此,使用传统的手工方法来获取语言知识,犹如以管窥豹,以蠡测海。这种获取语言知识的方法不仅效率极低,而且带有很大的主观性。我国传统语言学中倡导的所谓例不过十不立,反例不过十不破的朴学精神貌似严格,实际上,在浩如烟海的语言数据中,以十个正例或十个反例就轻而易举地来决定语言规则的取舍,难以万无一失地保证这些规则的可靠性。语料库语言学提倡建立语料库,在计算机的辅助下,使用统计的方法或机器学习的方法,自动或半自动地从浩如烟海的语料库中获取准确的语言知识。随着因特网日新月异的发展,因特网上有着无比丰富的文本语言数据,其中有经过标注的结构化的语言数据,也有未经过标注的非结构化的语言数据,我们可以从因特网上这些大量的语言数据中自动或半自动地获取语言知识。这是语言学获取语言知识方式的巨大变化,在语言学的发展历史上具有革命性的意义。我们应该敏锐地注意到这样的变化,努力学习语料库语言学的理论和方法,逐渐改变获取语言知识的手段。 语料库语言学也为语言研究人员提供了一种新的思维角度,辅助人们的语言直觉和内省判断,从而克服语言研究者本人的主观性和片面性。我们预计,语料库方法将会逐渐成为语言学研究的主流方法,受到语言研究者的普遍欢迎。 语料库语言学还为语言研究的现代化提供了强有力的手段。语料库把语言学家从艰苦繁重的手工劳动中解放出来,使语言学家可以集中精力来研究和思考其他重要问题,这对于促进语言学研究的现代化具有不可估量的作用。 目前,语料库语言学主要研究机器可读自然语言文本的采集、存储、检索、统计、自动切分、词性标注、语义标注,并研究具有上述功能的语料库在词典编纂、语言教学、语言定量分析、词汇研究、词语搭配研究、语法研究、多语言跨文化研究、法律语言研究、作品风格分析等领域中的应用,已经初步展现出这门新兴学科强大的生命力,并且也影响和推动了计算语言学的发展。 2.计算语言学研究简介 1946年美国宾夕法尼亚大学的J.P.Eckert和J.W.Mauchly设计并制造出了世界上第一台电子计算机ENIAC,电子计算机惊人的运算速度,启示着人们考虑传统翻译技术的革新问题。为了探索如何用计算机来改进翻译技术,1952年在美国的MIT召开了第一次机器翻译会议,1954年美国乔治敦大学在国际商用机器公司(IBM公司)的协同下,用IBM-701计算机,进行了世界上第一次机器翻译试验,把几个简单的俄语句子翻译成英语,拉开了人类历史上使用计算机来处理自然语言的序幕。接着,苏联、英国、日本也进行了机器翻译试验,机器翻译出现热潮。 为了推动机器翻译的研究,1954年美国出版了第一本机器翻译的杂志,这个杂志的名称叫做MachineTranslation(《机器翻译》)。1965年MachineTranslation杂志改名为MachineTranslationandComputationalLinguistics(《机器翻译和计算语言学》)杂志,在杂志的封面上,首次出现了ComputationalLinguistics这个新学科的名字,令人遗憾的是,andComputationalLinguistics这三个单词是用特别小号的字母排印的,与大号字母排印的MachineTranslation形成强烈的对照。这说明,当时学者们对于计算语言学是否能够算为一门真正的独立的学科还没有确实的把握。计算语言学刚刚登上学术这个庄严的殿堂的时候,还带有千呼万唤始出来,犹抱琵琶半遮面那样的羞涩,以至于这个刊物不敢用与MachineTranslation同样大小的字母来排印它。当时MachineTranslation杂志之所以改名,是因为在1962年美国成立了机器翻译和计算语言学学会AssociationformachineTranslationandComputationalLinguistics),通过改名可以使杂志的名称与学会的名称保持一致。根据这些史料,我们认为,远在1962年,就出现了计算语言学这个学科了,尽管它在刚出现的时候还是偷偷摸摸的,显示出少女般的羞涩,然而,它却悄悄地登上了庄严的学术殿堂。 40多年来,计算语言学发展迅速,逐渐建立了完整的理论和方法,成为了一门独立的学科,取得了很大的成绩,在当代语言学中引人注目。 由于计算机的速度和存储量的增加,使得计算语言学在语音合成(speechsynthesis)、语音识别(speechrecognition)、文字识别(characterrecognition)、拼写检查(spellingcheck)、语法检查(grammarcheck)这些应用领域,进行了商品化的开发。除了早期就开始的机器翻译(machinetranslation)和信息检索(informationretrieval)等应用研究进一步得到发展之外,计算语言学在信息抽取(informationextraction)、问答系统(questionansweringsystem)、自动文摘(textsummarization)、术语的自动抽取和标引(termextractionandautomaticindexing)、文本数据挖掘(textdatamining)、自然语言接口(naturallanguageinteraction),计算机辅助语言教学(computer-assistedlanguagelearning)等新兴的应用研究中,都有了长足的进展,计算语言学的技术在多媒体系统(multimediasystem)和多模态系统(multimodalsystem)中也得到了应用。 3.语料库语言学和计算语言学之间的关系 在过去的40多年中,从事计算语言学应用系统开发的绝大多数学者,都把自己的目的局限于某个十分狭窄的专业领域之中,他们采用的主流技术是基于规则的句法-语义分析,尽管这些应用系统在某些受限的子语言(sub-language)中也曾经获得一定程度的成功,但是,要想进一步扩大这些系统的覆盖面,用它们来处理大规模的真实文本,仍然有很大的困难。因为从计算语言学应用系统所需要装备的语言知识来看,其数量之浩大和颗粒度之精细,都是以往的任何系统所远远不及的。而且,随着系统拥有的知识在数量上和程度上发生的巨大变化,系统在如何获取、表示和管理知识等基本问题上,不得不另辟蹊径。这样,在计算语言学中就提出了大规模真实文本的自动处理问题。 1990年8月在芬兰赫尔辛基举行的第13届国际计算语言学会议(即COLING'90)为会前讲座确定的主题是:处理大规模真实文本的理论、方法和工具,这说明,实现大规模真实文本的处理已经成为计算语言学在今后相当长的时期内的战略目标。为了实现战略目标的转移,计算语言学需要在理论、方法和工具等方面实行重大的革新。1992年6月在加拿大蒙特利尔举行的第四届机器翻译的理论与方法国际会议(TMI-92)上,宣布会议的主题是机器翻译中的经验主义和理性主义的方法。所谓理性主义,就是指基于规则(rule-based)的方法,所谓经验主义,就是指以大规模语料库的分析为基础的方法,也就是基于语料库(corpus-based)的方法。语料库的建设和语料库语言学的崛起,为计算语言学战略目标转移提供了语言资源方面的保证。随着人们对大规模真实文本处理的日益关注,越来越多的学者认识到,基于语料库的方法(即经验主义的方法)至少是对基于规则的方法(即理性主义的方法)的一个重要补充。因为从大规模和真实这两个因素来考察,语料库才是最理想的语言知识资源。当前的计算语言学研究提倡建立语料库,使用机器学习(machinelearning)的方法,让计算机自动地从浩如烟海的语料库中获取准确的语言知识。在每两年召开一次的自然语言处理中的经验主义方法会议(EmpiricalMethodsinNaturalLanguageProcessing,简称EMNLaP)上,基于语料库的机器学习方法成为了会议的主流议题。计算语言学和语料库语言学发生了鱼水难分的密切联系。 21世纪,这种基于语料库的机器学习方法在计算语言学中进一步以惊人的步伐加快了它的发展的速度。我认为,计算语言学的加速发展在很大的程度上受到下面三种彼此协同的因素的推动。第一个因素是带标记语料库的建立。在语言数据联盟(LinguisticDataConsortium,简称LDC)和其他相关机构的帮助下,计算语言学的研究者可以方便地获得口语和书面语的大规模的语料库,而且其中还包括数量可观的标注过的语料库,如宾州树库(PennTreebank),布拉格依存树库(PragueDependencyTreeBank),宾州命题语料库(PropBank),宾州话语树库(PennDiscourseTreebank),修辞结构库(RSTBank)和TimeBank。这些语料库是带有句法、语义、语用、修辞结构等不同层次的标记的标准文本语言资源。这些标注语料库的存在使得计算语言学的研究可以使用有监督的机器学习方法(supervisedmachinelearning)来处理那些在传统上非常复杂的自动句法分析和自动语义分析等问题。这些标注语料库也推动了计算语言学中有竞争性的评测机制的建立,不再采用传统的人工评测方法而采用机器自动评测方法,评测的范围涉及到自动句法分析、信息抽取、词义排歧、问答系统、自动文摘等领域。 第二个因素是统计机器学习技术的成熟。对于机器学习的日益增长的重视,导致了计算语言学的研究者与统计机器学习的研究者更加频繁地交流,彼此之间互相影响。支持向量机技术(supportvectormachine)、最大熵技术(maximumentropy)、多项逻辑回归(multinomiallogisticregression)、图式贝叶斯模型(graphicalBayesianmodels)等统计机器学习技术在计算语言学中得到了普遍的应用,深受计算语言学研究者的欢迎。 第三个因素是高性能计算机系统的发展。高性能计算机系统的广泛应用,为机器学习系统的大规模训练和效能发挥提供了有利的条件,而这些在上一个世纪是难以想象的。 进入21世纪以来,除了有监督的机器学习方法之外,大规模的无监督统计学习方法(unsupervisedstatisticalmachinelearning)在计算语言学中也得到了广泛的关注。机器翻译(machinetranslation)和主题模拟(topicmodeling)等领域中统计方法的进步,说明了在计算语言学也可以只训练完全没有标注过的语料库来构建机器学习系统,这样的系统也可以得到有成效的应用。由于建造可靠的标注语料库要花费很高的成本,建造的难度很大,在很多问题中,这成为了使用有监督的机器学习方法的一个限制性因素。因此, 今后在计算语言学研究中将会更多地使用无监督的机器学习技术 。我们相信,计算语言学和语料库语言学的联系将会更加密切,进一步发展到水乳交融的程度。 世界图书出版公司北京公司为了引进国外关于语料库语言学和计算语言学的专著和论文集,出版了这套语料库语言学与计算语言学丛书。这套丛书可以帮助读者更好地了解这两门新兴学科的发展概貌,扩大读者的语言学视野,吸引更多的读者来关注这两门新兴的学科。 这套语料库语言学与计算语言学研究丛书目前收入6本国外有关语料库语言学研究的论文集和专著,1本国外有关计算语言学的专著,今后还会不断引进其他最新的相关著作,力求反映当前语料库语言学和计算语言学的研究成果和发展动向。    《语料库语言学的进展》(AdvancesinCorpusLinguistics) 是第23届国际英语语料库语言学年会的论文选集,包括22篇论文,反映了语料库语言学的最新发展情况。论文中心内容是讨论理论、直觉和语料的关系以及语料库在语言学研究中的作用。大多数论文是关于英语某个特定方面的经验研究,从词汇和语法到话语和语用,涉及面很广。此外,还讨论了语言变异、语言发展、语言教学、英语与其他语言的跨语言比较、语言研究软件工具的研制等问题。论文的作者中有许多著名的语言学家,如M.A.K.Halliday、JohnSinclair、GeoffreyLeech和MichaelHoey等。本文集既注意理论,又注意方法,清楚地显示了在经验主义方法的影响下语料库语言学这个新兴学科正在稳步地发展中。 《通过语料分析进行教与学》(TeachingandLeaningbydoingcorpusanalysis) 是第四次教学与语言语料库国际会议文集(2000年7月1924日在Graz举行)。该文集反映了在语言教学中应用语料库取得的进展,不论把语料库作为一种资源还是作为一种方法,它对于语言的教学或研究都有积极的作用。文集强调了发现式学习(discoverylearning)的重要性,指出发现式学习在课堂教学和课外研讨中都有很好的效果。文集还强调了在使用中学习口语和书面语的重要性,提出要充分利用现代的语料库来学习、翻译和描述语言。文集主张以学生为中心,以基于语料库的语言调查为手段来进行语言教学。文集所收的文章既有回顾性的,也有前瞻性的,在这些文章中,作者们描述了他们使用语料库来教学的实践与担心,成功与失败,让读者来分享他们的教学经验。 《语言学中的数学方法》(MathematicalMethodsinLinguistics) 是一本关于计算语言学的专著。全书包括A,B,C,D,E五篇。A篇讲述集合论,B篇讲述逻辑和形式系统,C篇讲述抽象代数,D篇讲述作为形式语言的英语,E篇讲述形式语言、形式语法和自动机。如果读者从A篇开始,一篇一篇地仔细阅读,反复推敲,认真做练习,逐步深入下去,就可以升堂入室,了解到语言学中使用的主要的数学方法。现代语言学的研究,特别是面向计算机的语言学研究,离开了数学将寸步难行。在这种情况下,语言学工作者有必要进行更新知识的再学习,学习一点与语言学研究有关的数学知识,从而改进自己的知识结构。本书是专门为语言学工作者写的,讲数学问题时都紧紧扣住语言,深入浅出,实例丰富,作者还精心设计了大量的练习,书末附有练习答案选,正好满足了语言学工作者更新知识的迫切需要,是一本不可多得的优秀读物。 《超句法表示结构的形式与功能》(Formandfunctionofparasyntacticrepresentationstructure) 根据真实的语料数据,从功能的视角来研究韵律和句法之间的相互作用。作者介绍了Halliday关于声调是一个信息单位的解释,Halford关于从韵律方面和句法方面定义谈话单位(talkunit)的思想,Esser关于抽象表达结构的概念,在这些理论的基础上,作者建立了一个修正的谈话单位模式(modifiedtalkunitmodel)。这种谈话单位模式是一种超句法的模式(parasyntacticunit),既要进行定量的分析,也要进行功能的分析,并在声调单位的边界处来研究韵律状态和句法状态的相互作用。这项研究的数据是从LondonLund英语口语语料库中采集的,样本包含50000个单词。研究结果表明,使用韵律和句法之间的相互作用,可以更有效地对语言信息进行结构化的描述。本研究应用了语料库语言学的方法来分析谈话单位在风格和语用方面的潜在特征,对于英语口语进行功能主义和经验主义的分析,具有开创性。 《应用语料库语言学:多维视角》(AppliedCorpusLinguistics:AMultidimensionalPerspective) 是美国印第安纳大学跨文化交流中心第四届北美研讨会的文集(2002年11月在Indiananpolis举行),作者来自美国、比利时、中国、法国、德国、爱尔兰、荷兰、西班牙等8个国家,内容涉及基于语料库的课堂教学、口语话语分析、书面语话语分析、网络话语分析等。整个文集分为两部分:第一部分是语料库语言学在口语话语分析和书面语话语分析中的应用;第二部分是语料库语言学在直接教学法中的应用。 《拓展基于语料研究的范围》(ExtendingtheScopeofCorpus basedResearch) 是北亚利桑那大学现代英语和中古英语计算机文档国际会议的文集,该会议于2001年在Arizona举行。这次会议的主题是对语料库语言学的新挑战。这种新挑战包括:改进语料库语言学的方法论标准,划清基于语料库的研究与理论语言学之间的界限,进一步探讨语料库语言学在语言教学中的应用。文集中的文章清楚地显示了基于语料库的研究正在迎击这样的挑战。 《应用语言学中的语料库》(CorporainAppliedLinguistics) 以丰富而有趣的实例说明了语料库在应用语言学中的作用,本书广泛地使用了COBUILD英语银行(BankofEnglish)语料库中丰富的语言材料,把应用语言学与语料库密切地结合起来,对于如何在应用语言学中发挥语料库的作用,提出了许多独到的见解。本书还讨论了语料库对应用语言学的重要性和它的局限性。语料库对应用语言学的重要性在于:语料库是收集和存储语言数据的一种手段,借助词语索引(concordancelist)和频率(frequency),语料库可以大大地改善人们的语言直觉,弥补内省方法的不足,从而克服主观性和片面性。而语料库的局限性是:语料库只能给我们关于某种语言现象频率高低的信息,但不能给我们某种语言现象是否可能的信息;语料库只能告诉我们语言事实本身,但不能进行推理;语料库只能给我们提供例证,但不能对例证提供解释,对例证的解释要依靠语言学家对于语言的直觉和内省;此外,文本语料库还不能提供关于声调、手势以及社会背景方面的信息等。 世界图书出版公司北京公司出版的这套语料库语言学和计算语言学研究丛书内容丰富而新颖,是反映这两个学科当前发展情况的一面镜子。读者可以通过这面镜子,对当前的语料库语言学和计算语言学有一个鸟瞰式的认识。希望广大读者喜爱这套丛书,从阅读中开阔眼界,获得新知。是为序。 2008-12-6 --------------------------------------------------------------------------------------------- 1 .《语料库语言学与计算语言学研究丛书》,世界图书出版公司出版。
个人分类: 自然语言处理|9158 次阅读|2 个评论
北京大学计算语言学研究所俞士汶教授"自然语言处理与自然语言理解"报告PPT
liuysd 2009-3-12 14:48
2009月3月11日,北京大学计算语言学研究所俞士汶教授在中国科学技术信息研究所的学术报告,如期进行,报告由中信所武夷山总工程师主持,报告短暂而热烈,会场出现了少有的加登子的现象(中信所从事自然语言处理研究的人员不是太多)。 尽管如此,由于各种原因,还是有一些想到会但未能如愿的相关研究人员,如南理工的章成志博士等进行了留言,南师大曲维光教授也发邮件表示了遗憾与羡慕,为此,我把俞老师的PPT上传至博客,希望能够实现更大范围的共享,均因智者而受益! 俞士汶教授学术报告PPT
个人分类: 学术报告|6952 次阅读|2 个评论
自然语言处理与计算语言学书籍汇总【ZZ】
热度 1 timy 2009-2-22 21:11
这里汇总整理了18本自然语言处理与计算语言学的相关书籍介绍,按国外书籍(1~4),国内书籍(5~18),其中国内书籍又按自然语言处理(5~9),计算语言学(10~13),中文信息处理(14~17),文选(18)顺序整理,如果有遗漏,欢迎补充! 一、自然语言处理与计算语言学书籍汇总之一:国外书籍 1、 《Speech and Language Processing》 a) 作者: Daniel Jurafsky / James H. Martin b) 副标题: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition c) ISBN: 9780130950697 d) 定价: USD 97.00 e) 出版社: Prentice Hall f) 装帧: Paperback g) 第一版出版年: 2000-01-26;第二版出版年:2006 h) 相关网站: http://www.cs.colorado.edu/~martin/slp.html i) 英文简介:This book takes an empirical approach to language processing, based on applying statistical and other machine-learning algorithms to large corpora.Methodology boxes are included in each chapter. Each chapter is built around one or more worked examples to demonstrate the main idea of the chapter. Covers the fundamental algorithms of various fields, whether originally proposed for spoken or written language to demonstrate how the same algorithm can be used for speech recognition and word-sense disambiguation. Emphasis on web and other practical applications. Emphasis on scientific evaluation. Useful as a reference for professionals in any of the areas of speech and language processing. j) 中文译名:自然语言处理综论 k) 译者: 冯志伟 / 孙乐 l) ISBN: 9787121007767 m) 页数: 588 页 n) 出版社: 电子工业出版社 o) 定价: 78.0 p) 装帧: 平装 q) 出版年: 2005 r) 中文简介:本书是一本全面系统地讲述计算机自然语言处理的优秀教材。本书英文版出版之后好评如潮,国外许多著名大学纷纷把本书选为自然语言处理和计算语言学课程的主要教材,该书被誉为该领域教材的黄金标准。本书包含的内容十分丰富,分为四个部分,共21章,深入细致地探讨了计算机处理自然语言的词汇、句法、语义、语用等各个方面的问题,介绍了自然语言处理的各种现代技术。从层次的角度看,本书的论述是按照自然语言的不同层面逐步展开的,首先论述单词的自动形态分析,接着论述自动句法分析,然后论述各种语言单位的自动语义分析,最后论述连贯文本的自动分析、对话与会话的智能代理以及自然语言生成。从技术的角度看,本书介绍了正则表达式、有限状态自动机、文本- 语音转换、发音与拼写的概率模型、词类自动标注、N元语法、隐马尔可夫模型、上下文无关语法、特征与合一、词汇化剖析与概率剖析、一阶谓词演算、词义排歧、修辞结构理论、机器翻译等非常广泛的内容。本书具有覆盖全面、注重实用、强调评测、语料为本四大特色。在本书的配套网站上,还提供了相关的资源和工具,便于读者在实践中进一步提高。 2、 Foundations of Statistical Natural Language Processing a) 作者: Christopher D. Manning / Hinrich Schuetze b) ISBN: 9780262133609 c) 页数: 680 d) 定价: USD 82.00 e) 出版社: The MIT Press f) 装帧: Hardcover g) 出版年: 1999-06-18 h) 相关网站: http://nlp.stanford.edu/fsnlp/ i) 英文简介:Statistical approaches to processing natural language text have become dominant in recent years. This foundational text is the first comprehensive introduction to statistical natural language processing (NLP) to appear. The book contains all the theory and algorithms needed for building NLP tools. It provides broad but rigorous coverage of mathematical and linguistic foundations, as well as detailed discussion of statistical methods, allowing students and researchers to construct their own implementations. The book covers collocation finding, word sense disambiguation, probabilistic parsing, information retrieval, and other applications. j) 中文译名:统计自然语言处理基础 k) 译者: 苑春法 l) ISBN: 9787505399211 m) 页数: 418 n) 出版社: 电子工业出版社 o) 定价: 55.0 p) 装帧: 平装 q) 出版年: 2005-1-1 r) 中文简介:近年来,自然语言处理中的统计学方法已经逐渐成为主流。本书是一本全面系统地介绍统计自然语言处理技术的专著,被国内外许多所著名大学选为计算语言学相关课程的教材。本书涵盖的内容十分广泛,分为四个部分,共16章,包括了构建自然语言处理软件工具将用到的几乎所有理论和算法。全书的论述过程由浅入深,从数学基础到精确的理论算法,从简单的词法分析到复杂的语法分析,适合不同水平的读者群的需求。同时,本书将理论与实践紧密联系在一起,在介绍理论知识的基础上给出了自然语言处理技术的高层应用(如信息检索等)。在本书的配套网站上提供了许多相关资源和工具,便于读者结合书中习题,在实践中获得提高。 3、 Natural Language Understanding (2nd Edition) a) 作者: James Allen b) ISBN: 9780805303346 c) 定价: USD 66.00 d) 出版社: Addison Wesley e) 装帧: Paperback f) 出版年: 1994-08-03 g) 英文简介:From a leading authority in artificial intelligence, this book delivers a synthesis of the major modern techniques and the most current research in natural language processing. The approach is unique in its coverage of semantic interpretation and discourse alongside the foundational material in syntactic processing. h) 中文译名:自然语言理解 i) 译者: 刘群 j) ISBN: 9787121007552 k) 页数: 508 l) 定价: 59.0 m) 出版社: 电子工业出版社 n) 装帧: 平装 o) 出版年: 2005-01-01 p) 中文简介: 本书是讲授自然语言理解的经典教材。书中全面而深入地介绍了自然语言理解领域中使用的理论和技术,共分为句法处理、语义解释和上下文与世界知识三大部分。具体探讨了上下文无关文法、 chart句法分析器、转移网络形式体系、逻辑形式语言、知识表示、篇章结构和语用推理以及会话agent等多方面的内容。本书理论与实践并重,阐述清晰,简明易懂。世界多所院校采用本书作为自然语言理解的教材。对本领域的研究人员而言,本书也是一本优秀的参考书。 4、 Statistical Language Learning a) 作者: Charniak, Eugene b) ISBN: 9780262531412 c) 定价: $22.00 d) 出版社: The MIT Press e) 出版年:1996年9月1日 f) 英文简介:Eugene Charniak breaks new ground in artificial intelligence research by presenting statistical language processing from an artificial intelligence point of view in a text for researchers and scientists with a traditional computer science background. New, exacting empirical methods are needed to break the deadlock in such areas of artificial intelligence as robotics, knowledge representation, machine learning, machine translation, and natural language processing (NLP). It is time, Charniak observes, to switch paradigms. This text introduces statistical language processing techniques word tagging, parsing with probabilistic context free grammars, grammar induction, syntactic disambiguation, semantic word classes, word-sense disambiguation along with the underlying mathematics and chapter exercises. Charniak points out that as a method of attacking NLP problems, the statistical approach has several advantages. It is grounded in real text and therefore promises to produce usable results, and it offers an obvious way to approach learning: one simply gathers statistics. Language, Speech, and Communication 二、自然语言处理与计算语言学书籍汇总之二:国内书籍 这里汇总整理了18本自然语言处理与计算语言学的相关书籍介绍,按国外书籍(1~4),国内书籍(5~18),其中国内书籍又按自然语言处理(5~9),计算语言学(10~13),中文信息处理(14~17),文选(18)顺序整理,如果有遗漏,欢迎补充! 5、 统计自然语言处理 a) 作者: 宗成庆 b) ISBN: 9787302165989 c) 页数: 475 d) 定价: 66 e) 出版社: 清华大学出版社 f) 装帧: 平装 g) 出版年: 2008-5-1 h) 内容简介:本书全面介绍了统计自然语言处理的基本概念、理论方法和最新研究进展,内容包括形式语言与自动机及其在自然语言处理中的应用、语言模型、隐马尔可夫模型、语料库技术、汉语自动分词与词性标注、句法分析、词义消歧、统计机器翻译、语音翻译、文本分类、信息检索与问答系统、自动文摘和信息抽取、口语信息处理与人机对话系统等,既有对基础知识和理论模型的介绍,也有对相关问题的研究背景、实现方法和技术现状的详细阐述。 6、 自然语言的计算机处理 a) 作者: 冯志伟 b) ISBN: 9787810460361 c) 页数: 523 d) 定价: 20 e) 出版社: 上海外语教育出版社 f) 出版年: 1996 g) 简介:自然语言处理(Natural Language Processing, 简称NLP)就是利用电子计算机为工具对人类特有的书面形式和口头形式的自然语言的信息进行各种类型处理和加工的技术,这种技术现在已经形成一门专门的边缘性交叉性学科,它涉及语言学、数学和计算机科学,横跨文科、理科和工科三大知识领域。自然语言处理的目的在于建立各种自然语言处理系统,如机器翻译系统、自然语言理解系统、情报自动检索系统、电子词典和术语数据库系统、计算机辅助教学系统、语音自动识别系统、语音自动合成系统、文字自动识别系统等。由于自然语言处理离不开电子计算机,因此,自然语言处理又可以叫做自然语言的计算机处理(Natural Language Processing by Computer),以强调电子计算机对自然语言处理的作用。 7、 自然语言理解:一种让机器懂得人类语言的研究(第2版) a) 作者: 姚天顺 / 朱靖波 b) ISBN: 9787302054351 c) 页数: 470 d) 定价: 39.8 e) 出版社: 清华大学出版社 f) 装帧: 平装 g) 出版年: 2002-10-1 h) 简介:自然语言理解是人工智能的一个重要分支,主要研究如何利用计算机来理解和生成自然语言。本书重点介绍了自然语言理解所涉及的各个方面,包括语法分析、语义分析、概念分析、语料库语言学、词汇语义驱动、中间语言、WordNet、词汇树邻接文法、链接文法、基于语段的机器翻译方法、内识别与文本过滤、机器翻译的评测等,既有对基础知识的介绍,又有对最新研究进展的综述,同时还结合了作者多年的研究成果。本书可作为高等院校计算机、人工智能等专业的高年级本科生或研究生的教材及教学参考书,也可供从事中文信息处理、数据挖掘以及人工智能研究的相关人员参考。 8、 自然语言处理技术基础 a) 作者: 王小捷、常宝宝 b) ISBN: 9787563505272 c) 页数: 146 d) 定价: 19.0 e) 出版社: 北京邮电大学出版社 f) 装帧: 平装 g) 出版年: 2002-12-01 h) 简介:本书包括了三个方面的内容。第一部分介绍基于规则的自然语言处理技术,分别从语法和语义两个层面入手。首先介绍了几种语法系统的形式化表示方案,在此基础上,介绍了几种典型的上下文无关句法分析和基于复杂特征的句法分析方法。在语义层面,分别从词义和句义两个层次介绍了进行词义和句义分析的方法。第二部分介绍基于统计的自然语言处理技术,包括词汇层的一些统计语言模型以及在句法层的概率上下文无关语法。第三部分介绍一种重要的应用机器翻译,分别从规则和统计两个方面来介绍它的理论和实现。 9、 计算机自然语言处理 a) 作者: 王晓龙 b) ISBN: 730210089 c) 页数: 170 d) 定价: 23.0 e) 出版社: 清华大学出版社 f) 装帧: 精装 g) 出版年: 2005-04-01 h) 简介:计算机自然语言处理技术在我国现代化及信息化建设中起着越来越重要的作用,我国政府已经将它列入国家中长期科学技术发展纲领。近年来,语言处理技术, 特别是基于国际互联网的中文语言处理技术正在引起我国广大科技工作者的高度重视。本书既全面阐述了中文语言处理技术的特殊规律,又借鉴了国内外学者在计算语言学领域里的最新成就,还包括了作者的实践经验和体会。本书可以作为计算机相关专业研究生的专业课教材,也可供相关专业高年级大学生和从事自然语言处理技术研究和应用的科技人员参考。 10、 计算语言学概论 a) 作者: 俞士汶 b) ISBN: 9787100037969 c) 页数: 357 d) 定价: 20 e) 出版社: 商务印书馆 f) 装帧: 平装 g) 出版年: 2003-9-1 h) 简介:本教材从基础算法和应用三个方面,较为系统地介绍计算语言学的基础理论、相关的自然语言处理技术和应用。 11、 计算语言学基础 a) 作者: 冯志伟 b) ISBN: 9787100032841 c) 页数: 280 d) 定价: 16.0 e) 出版社: 商务印书馆 f) 装帧: 平装 g) 出版年: 2001-8-1 h) 内容简介:《计算语言学基础》从语言学的角度,回顾了计算语言学的产生和发展的历史,从词汇的计算机处理、自动句法分析、自动语义分析等方面,系统地讲述计算语言学的基础知识,特别是介绍了计算语言学的基本理论和方法。这是一本计算语言学的基础性入门读物,作者尽量考虑到计算语言学跨学科的特点。叙述力求深入浅出,文字力求简明扼要,可供语言学工作者、计算机工作者、计算语言学工作者以及对语言信息处理有兴趣的广大读者阅读。 12、 计算语言学导论 a) 作者: 翁富良 / 王野翊 b) ISBN: 9787500420804 c) 页数: 207 d) 出版社: 中国社会科学出版社 e) 定价: 20.0 f) 装帧: 平装 g) 出版年: 2005-10-01 h) 简介:语言是反映人的思维的最重要的一面镜子,又是人与人之间交流的最重要的媒介。对语言的研究,是一个经久不衰的古老课题。几千年来,中外学者从语言与思维、语言与现实的关系等不同角度。在词源、注释、分类、语法等各个方面开展了广泛的研究。近一两百年来,西方学者在逻辑学、数学和分析哲学方面的成果,大大推动了语言形式他的研究。而随着计算机科学的发展,建立语言的形式化计算模型成为语言学的重要课题。计算语言学作为以形式化的计算模型来分析、理解和处理语言的科学也就应运而生。而信息革命的展开,更使计算语言学的研究达到了一个空前的程度。 13、 计算语言学 a) 作者: 刘颖 b) ISBN: 9787302057888 c) 页数: 185 d) 定价: 22.0 e) 出版社: 清华大学出版社 f) 装帧: 平装 g) 出版年: 2002-10-01 h) 内容简介:计算语言学是一门涉及语言学、计算机科学和数学等多门学科交叉的学科,覆盖面很广,本书侧重最经典的工作,阐述计算语言学的基本理论和方法。主要介绍现代句法理论和语义理论,词法、句法和语义阶段重要的分析算法及语料库和统计语言学。本书结构完整,层次分明,条理清楚。既便于教学,又便于自学。 (注:转载于:我爱自然语言处理: www.52nlp.cn ,略有调整)
个人分类: 自然语言处理|9881 次阅读|3 个评论
征文信息两则
timy 2009-1-12 22:33
全国第十届计算语言学学术会议(CNCCL-2009) Deadline: 2009年4月10日 第十届汉语词汇语义学研讨会征文通知(CLSW2009) Deadline: 2009年3月20日
个人分类: 同行交流|3817 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-4 00:20

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部