节选译自: K.Church2011. A Pendulum SwungToo Far . Linguistics issues in Language Technology, Volume 6, Issue 5. 3.5无视历史注定要重复历史错误 在多数情况下,机器学习、信息检索和语音识别方面的实证复兴派干脆无视 PCM(Pierce,Chomsky and Minsky)的论点,虽然神经网络给感知机增加隐藏层可以看作是对敏斯基和帕佩特批评的让步。尽管如此,敏斯基和帕佩特(1988)对敏斯基和帕佩特(1969年)【感知机】出版以来的20年领域进展之缓慢深表失望。 “在编写这一版时,我们本来准备根据进展‘把这些理论更新’。但是,当我们发现自本书1969年第一版以来,没有看见什么有意义的进展,我们认为保留原文更为有利...只需加一个尾声即可。...这个领域进展如此缓慢的原因之一是,不熟悉领域历史的研究人员继续犯别人以前已经犯过的错误。有些读者听说该领域没有什么进步,可能会感到震惊。难道感知机类的神经网络(新名称叫connectionism,连通主义)没有成为热烈讨论的主题么?是的,的确存在很大的兴趣,很多的讨论。可能确实也有些现在的发现在未来也许会显出重要性。但可以肯定地说,领域的概念基础并没有明显改变。今天引起兴奋的问题似乎与前几轮的兴奋大同小异...。我们的立场依然是当年我们写这本书时的立场:我们相信这个领域的工作是极为重要和丰富的,但我们预计其增长需要一定程度的批判性分析,可这种分析在我们更浪漫的倡导者那里却一直似乎没有人愿意去做,也许因为连通主义的精神似乎变得与严谨分析南辕北辙。” ( Minsky and Papert 1988, 前言,第vii页) 计算语言学课程的缺陷 正如敏斯基和帕佩特上面指出的,我们之所以不断犯同样的错误与我们的教学有关。辩论的一方在当代计算语言学教科书中不再提及,已被淡忘,需要下一代人重新认识和复活它。当代的计算语言学教科书很少介绍 PCM三位前辈。皮尔斯在汝拉夫斯基和马丁编著的教科书(Jurafskyand Martin 2000)以及曼宁等编著的两套教科书中(Manning and Schütze 1999;Manning et al. 2008)根本没有提及。敏斯基对感知机的批评只在三本教科书之一中简要提起(Manningand Schütze 1999,第603页)。刚入门的新学生也许意识不到所谓“相关的学习算法”(见下列粗斜体)其实包含了当今领域非常流行的方法,如线性和logistic回(linear and logistic regression)。 “一些其他的梯度下降算法( gradient descent algorithms)也有类似的收敛定理,但是多数情况下,收敛只能达到局部最优。…感知机收敛能达到全局最优是因为它们选用了线性分离机这样比较简单的分类模型。很多重要的问题是线性不可分的,其中最著名的是异或(XOR)问题。… 决策树(decision tree)算法可以处理这样的问题,而感知机则不能。研究人员在对神经网络的最初热情(Rosenblatt 1962)以后,开始意识到这些局限。其结果是,对于神经网络及其 相关的学习算法 的兴趣很快消退,此后几十年一直一蹶不振。敏斯基和帕佩特的论文(Minskyand Papert 1969)通常被认为是这类学习算法式微的起点。” 曼宁等 2008 版教科书(Manning et al. 2008)在神经网络算法描述上,有简短的文献指向敏斯基和帕佩特1988年的论文(Minsky and Papert 1988),但并未提及文中的尖锐批评: “对上面提到但本章未及细述的算法感兴趣的读者可以参阅以下文献:神经网络方面有Bishop (2006),线性和logistic回归方面有Hastie et al. (2001) 以及 Minsky and Papert (1988)”(Manning et al. 2008,第292页)”。 根据这样的文献指引,一个学生可能得出错误印象,以为敏斯基和帕佩特是这些神经网络算法(以及当今流行的线性和 logistic回归这类方法)的赞许者。 毕晓普明确指出,敏斯基和帕佩特绝不是感知机和神经网络的赞许者,而且把它们认作 “不正确的构想” (“incorrect conjecture”)予以排斥(Bishop2006,第193页)。毕晓普把神经网络在实际应用中的普及看做是对敏斯基和帕佩特批评的反证,认为并非如他们所说的那样“没有多少改变”,“多层网络并不比感知机更有能力识别连通性(connectedness)”。 当代教科书应该教授给学生像神经网络这类有用的近似方法的优点和缺点。辩论双方都大有可言。排除任何一方的论证都是对我们的下一代不负责任,尤其是当其中一方的批评是如此的尖锐,用到 “不正确的构想”和“没有多少改变”这样的说法。 乔姆斯基比皮尔斯和敏斯基在当代教科书中被提及多一些。曼宁和舒兹的教科书( Manning and Schütze 1999)引用乔姆斯基10次,汝拉夫斯基和马丁的教科书(Jurafsky and Martin 2000)的索引中共有27处文献指向乔姆斯基。第一本书中较少引用是因为它专注于一个相对狭窄的话题,统计型自然语言处理。而第二本教科书涉及面广泛得多,包括音韵学和语音。因此,第二本书还引用了乔姆斯基的音韵学工作(Chomskyand Halle 1968)。 两本教科书都提到乔姆斯基对有限状态方法的批评,以及这些批评在当时对经验主义方法论的打击性效果。但是话题迅速转移到描述这些方法的复兴,却相对较少讨论其论点,经验主义回归的动因及其对目前实践以及未来的影响。 汝拉夫斯基和马丁的教科书第 230-231页写道(Jurafsky and Martin 2000): “在一系列极具影响力的论文中,始于乔姆斯基(1956),包括乔姆斯基(1957)以及米勒和乔姆斯基(1963) (Miller and Chomsky1963),诺姆·乔姆斯基认为,‘有限状态的马尔可夫过程’虽然可能是有用的工程近似方法,却不可能成为人类语法知识的完整认知模型。当时的这些论证促使许多语言学家和计算语言学家完全脱离了统计模型。 “N元模型的回归开始于耶利内克等(Jelinek, Mercer, Bahl)的工作。…” 两本教科书介绍 N元文法都是从引用其优缺点的讨论开始(Jurafsky and Martin 2000, 第191页): “但是必须认识到,所谓‘一个句子的概率’是一个完全无用的概念,无论怎样理解这个术语。” (Chomsky 1965, 第57页) “任何时候,只要一个语言学家离开研究组,识别率就会上升。”(FredJelinek,当时他在IBM 语音组, 1988) 曼宁和舒兹( 1999,第2页)是以这样的引用开始讨论的: “统计的考量对于理解语言的操作与发展至关重要。”(Lyons1968, 第98页) “一个人对合法语句的产生和识别能力不是基于统计近似的概念之类。”(Chomsky 1957, 第16页) 这样正反面观点的引用确实给学生介绍了争议的存在,但却不能真正帮助学生明白这些争议意味着什么。我们应提醒学生,乔姆斯基反对的是一些如今极其流行的有限状态的方法,包括 N元文法和隐马尔可夫模型,因为他相信这些方法无法捕捉远距离的依从关系(例如,一致关系的限制条件和wh-位移现象)。 乔姆斯基的立场直到今天仍然是有争议的,本文审阅者之一的反对意见也佐证了这种争议。我不希望此时在这场辩论中站在某一方。我只是要求我们应该教给下一代辩论的双方说辞,使他们不需要重新发现任何一方。 计算语言学学生应该接受普通语言学和语音学的培训 为了给进入这行的学生为低垂水果采摘完后的情形做好准备,今天的学生教育应该向广度发展,他们应该全面学习语言学的主要分支,如句法、词法、音韵学、语音学、历史语言学以及语言共性。我们目前毕业的计算语言学学生视野太窄,专业性太强,他们对于一个很专门的领域具有深入的知识(如机器学习和统计型机器翻译),但可能没听说过很多著名的语言学现象,譬如,格林伯格共性( Greenberg’s Universals), 提升(Raising), 等同( Equi), 量词辖域(quantifier scope), 空(gapping), 孤岛条件(islandconstraints)等。我们应该确保参与指代(co-reference)研究的学生都知道c-统制(c-command) 和指称相异(disjointreference)。 当学生在计算语言学会议上宣讲论文之前,他们应该了解形式语言学(FormalLinguistics)对此问题的标准处理。 语音识别工作的学生需要了解词的重音(如: Chomsky and Halle 1968)。音韵学重音对于下游语音和和声学过程具有相当的影响。 图 3 “politics” and “political”的谱图显示有三个/l/同位音。在重音前后出现不同的音位变体。 语音识别目前没有充分利用单词重音特征是一个不小的遗憾,因为重音强调是语音信号中最突出的特性之一。 T图3显示了最小对立体 “politics”和“political”的波形和谱图。这两个词千差万别,目前的技术着重于语音单位层面的区别: 1. “Politics”以 –s 结尾,而“political”以-al结尾。 2. 与 “politics” 不同,“political”中第一个元音是弱化的央元音(schwa)。 重音的区别更为突出。在诸多与重音有关的区别中,图 3突出了重音前与重音后/l/同位音之间的区别。另外还有对/t/音的影响。“politics”中 /t/ 是送气音,但在“political”中却是闪音。 目前,在语音单位层面( segmental level),仍有大量低悬水果的工作,但这些工作终有完结之时。我们应该教给语音识别的学生有关音韵学和词重音的知识,以便他们在技术瓶颈已经超越语音单位层面以后依然游刃有余。既然存在与重音相关超过三元语音单位的远距离关系,重音方面的进展需要对目前流行的近似方法的长处与缺陷均有深入的理解。语音识别方面的基础性进展,譬如能有效使用重音,很可能要依赖于基础技术的进步。 ~~~~~~~~~~~~~~~~~~~~~~~~ 3.5 Those WhoIgnore History Are Doomed To Repeat It Forthe most part, the empirical revivals in Machine Learning, Information Retrieval and Speech Recognition have simply ignored PCM's arguments, though in the case of neural nets, the addition of hidden layers to perceptrons could be viewed asa concession to Minsky and Papert. Despite such concessions, Minsky and Papert(1988) expressed disappointment with the lack of progress since Minsky andPapert (1969). “In preparing this edition we were tempted to‘bring those theories up to date.’ But when we found that little of significance had changed since 1969, when the book was first published, we concluded that it would be more useful to keep the original text ... and add an epilogue. ... One reason why progress has been so slow in this field is that researchers unfamiliar with its history have continued to make many of the same mistakes that others have made before them. Some readers may be shocked to hear it said that little of significance has happened in the field. Have not perceptron-like networks - under the new name connectionism - become a major subject of discussion. ... Certainly, yes, in that there is a great deal of interest anddiscussion. Possibly yes, in the sense that discoveries have been made thatmay, in time, turn out to be of fundamental importance. But certainly no, in that there has been little clear-cut change in the conceptual basis of the field. The issues that give rise to excitement today seem much the same as those that were responsible for previous rounds of excitement. ... Our position remains what it was when we wrote the book: We believe this realm of work to be immensely important and rich, but we expect its growth to require a degree of critical analysis that its more romantic advocates have always been reluctant to pursue- perhaps because the spirit of connectionism seems itself to go somewhat against the grain of analytic rigor.(Minsky and Papert 1988,Prologue, p. vii) Gaps in Courses on Computational Linguistics Part of the reason why we keep making the same mistakes, as Minsky and Papert mentioned above, has to do with teaching. One side of the debate is written out of the textbooks and forgotten, only to be revived/reinvented by the next generation. Contemporary textbooks in computational linguistics have remarkably little to say about PCM. Pierce isn't mentioned in Jurafsky andMartin (2000), Manning and Schütze (1999) or Manning et al. (2008). Minsky'scriticism of Perceptrons is briefly mentioned in just one of the three textbooks: Manning and Schütze (1999, p. 603). A student new to the field might not appreciate that the reference to “ related learning algorithms ” (see bold italics below) includes a number of methods that are currently very popular such as linear and logistic regression. “There are similar convergence theorems for some other gradient descent algorithms, but in most cases convergence will only be to a local optimum. . . .Perceptrons converge to a global optimum because they select a classifier from a class of simpler models, the linear separators. There are many important problems that are not linearly separable, the most famous being the XOR problem. . . . A decision tree can learn such a problem whereas a perceptron cannot. After some initial enthusiasm about Perceptrons (Rosenblatt, 1962), researchers realized these limitations. As a consequence, interest in perceptrons and related learning algorithms faded quickly and remained low for decades. The publication of Minsky and Papert (1969) is often seen as the point at which the interest in this genre of learning algorithms started to wane.” Manning et al. (2008) have a brief reference to Minsky and Papert (1988)as a good description of perceptrons, with no mention of the sharp criticism. “Readers interested in algorithms mentioned, but not described in this chapter, may wish to consult Bishop (2006) for neural networks, Hastie et al. (2001) for linear and logistic regression, and Minsky and Papert (1988) for the perceptron algorithm.” Based on this description, a student might come away with the mistaken impression that Minsky and Papert are fans of perceptrons (and currently popular relatedmethods such as linear and logistic regression). Bishop (2006, p. 193) makes it clear that Minsky and Papert are no fans of perceptrons and neural networks, but dismisses their work as “incorrect conjecture”. Bishop points to widespread use of neural networks in practical application ascounter-evidence to Minsky and Papert's claim above that “not much has changed”and “multilayer networks will be no more able to recognize connectedness than are perceptrons.” Contemporary textbooks ought to teach both the strengths and the weaknessesof useful approximations such as neural networks. Both sides of the debate have much to offer. We do the next generation a disservice when we dismiss one side or the other with harsh words like “incorrect conjecture” and “not much haschanged.” Chomsky receives more coverage than Pierce and Minsky in contemporary textbooks.There are 10 references to Chomsky in the index of Manning and Schütze (1999)and 27 in the index of Jurafsky and Martin (2000). The first textbook has fewer references because it focuses on a relatively narrow topic, Statistical Natural Language Processing, whereas the second textbook takes a broader cut across awider range of topics including phonology and speech. Thus, the secondtextbook, unlike the first textbook, cites Chomsky's work in phonology: Chomskyand Halle (1968). Both textbooks mention Chomsky's criticism of finite-state methods and the devastating effect that they had on empirical methods at the time, though they quickly move on to describe the revival of such methods, with relativelylittle discussion of the argument, motivations for the revival, andimplications for current practice and the future. “In a series of extremely influential papers starting with Chomsky (1956) and including Chomsky (1957) and Miller and Chomsky (1963), Noam Chomskyargued that “finite-state Markov processes,” while a possibly useful engineering heuristic, were incapable of being a complete cognitive model of human grammatical knowledge. These arguments led many linguists and computational linguists away from statistical models altogether. “The resurgence of N-gram models came from Jelinek, Mercer, Bahl.…” Both books also start the ngram discussion with a few quotes, pro and con. “But it must be recognized that the notion ‘probability of a sentence’ is an entirely useless one, under any known interpretation of this term” (Chomsky1965, p. 57) “Anytime a linguist leaves the group the recognition rate goes up.”(Fred Jelinek, then of IBM speech group, 1988) Manning and Schütze (1999, p. 2) starts the discussion with these quotes: “Statistical considerations are essential to an understanding of the operation and development of languages.” (Lyons 1968, p. 98) “One's ability to produce and recognize grammatical utterances is not based on notions of statistical approximations and the like.”( Chomsky 1957, p. 16) Such quotes introduce the student to the existence of a controversy, but they don't help the student appreciate what it means for them. We should remind students that Chomsky objected to a number of finite-state methods that are extremely popular today including ngrams and Hidden Markov Models because he believed such methods cannot capture long-distance dependences (e.g., agreement constraints and wh-movement). Chomsky's position remains controversial to this day, as evidenced by anobjection from one of the reviewers. I do not wish to take a position on this debate here. I am merely asking that we teach both sides of this debate to the next generation so they won't reinvent whichever side we fail to teach. Educating Computational Linguistics Students in General Linguistics andPhonetics To prepare students for what might come after the low hanging fruit has been picked over, it would be good to provide today's students with a broad education that makes room for many topics in Linguistics such as syntax, morphology, phonology, phonetics, historical linguistics and language universals. We are graduating Computational Linguistics students these days that have very deep knowledge of one particular narrow sub-area (such asmachine learning and statistical machine translation) but may not have heard of Greenberg's Universals, Raising, Equi, quantifier scope, gapping, island constraints and so on. We should make sure that students working on co-reference know about c-command and disjoint reference. When students present a paper at a Computational Linguistics conference, they should be expected to knowthe standard treatment of the topic in Formal Linguistics. Students working on speech recognition need to know about lexical stress (e.g., Chomsky and Halle (1968)). Phonological stress has all sorts of consequences on downstream phonetic and acoustic processes. Speech recognizers currently don't do much with lexical stress which seemslike a missed opportunity since stress is one of the more salient properties in the speech signal. Figure 3 shows wave forms and spectrograms for the minimal pair: “politics” and “political.” There are many differences between these two words. The technology currently focuses on differences at the segmental level: 1.“Politics” ends with -s whereas “political” ends with -al. 2. The first vowel in “political” is a reduced schwa unlike the firstvowel in “politics.” The differences in stress are even more salient. Among the many stress-related differences, Figure 3 calls out the differences between pre-stress and post-stress allophones of /l/. There are also consequences in the /t/s; /t/ isaspirated in “politics” and flapped in “political.” Currently, there is still plenty of low-hanging fruit to work on at the segmentallevel, but eventually the state of the art will get past those bottlenecks. Weought to teach students in speech recognition about the phonology andacoustic-phonetics of lexical stress, so they will be ready when the state ofthe art advances past the current bottlenecks at the segmental level. Since there are long-distance dependencies associated with stress that span over more than tri-phones, progress on stress will require a solid understanding of the strengths and weaknesses of currently popular approximations. Fundamental advances in speech recognition, such as effective use of stress, will likely require fundamental advances to the technology. 【置顶:立委科学网博客NLP博文一览(定期更新版)】
【立委按】 【 NLP主流的傲慢与偏见 】系列刚写了三篇。 中国NLP(Natural Language Processing)前辈董振东老师来函推荐两篇来自主流的反思文章。 董老师说,主流中有识之士对深陷成见之中的NLP一边倒的状况, 有相当忧虑和反思。 Church (2011) 对NLP的回顾和反思的文章【 钟摆摆得太远】 (A Pendulum Swung Too Far)是一篇杰作,值得反复研读。 文章在语言研究中经验主义和理性主义此消彼长循环往复的大背景下 ,考察NLP最近20年的历程以及今后20年的趋势。 它的主旨是,我们这一代NLP学者赶上了经验主义的黄金时代( 1990迄今),把唾手可得的果子统统用统计摘下来了, 留给下一代NLP学人的,都是高高在上的果实。 20多年统计一边倒的趋势使得我们的NLP教育失之偏颇, 应该怎样矫正才能为下一代NLP学人做好创新的准备, 结合理性主义,把NLP推向深入?忧思溢于言表。原文很长, 现摘要译介如下。 【Church - 钟摆摆得太远(5)】 立委编译自: K.Church 2011. A Pendulum Swung Too Far. Linguistics issues in Language Technology, Volume 6, Issue 5. 无视历史注定要重蹈覆辙 在大多数情况下,机器学习、信息检索和语音识别方面的实证复兴派简单地无视PCM 的论辩,虽然在神经网络领域,感知机附加的隐藏层可以看作是对明斯基和帕佩特批评的让步。尽管如此,明斯基和帕佩特对他们所著的《感知机》出版20 年以来领域进展之缓慢深表失望。 “在准备这一版时,我们本来准备‘把这些理论更新’。但是,当我们发现自本书1969 年第一次出版以来,没有什么有意义的进展,我们认为保留原文更有意义……只需加一个后记即可……这个领域进展如此缓慢的原因之一是,不熟悉领域历史的研究人员继续犯别人以前已经犯过的错误。有些读者听说该领域没有什么进步,可能会感到震惊。难道感知机类的神经网络(新名称叫联接主义)没有成为热烈讨论的主题吗?……当然不是,该领域存在很多令人感兴趣的问题和讨论。可能确实也有些现在的发现也会随着时间逐渐显出重要性。但可以肯定的是,领域的基础概念并没有明显改变。今天令人兴奋的问题似乎与前几轮大同小异……我们的立场依然是当年我们写这本书时的立场:我们相信这个领域的工作是极为重要和丰富的,但我们预计其发展需要一定程度的批判性分析,可那些更富浪漫精神的倡导者却一直不愿意去做这种分析,也许因为连通主义的精神似乎变得与严谨分析南辕北辙。 多层网络并不比感知机更有能力识别连通性。” 计算语言学课程的缺陷 正如上面明斯基和帕佩特指出的,我们不断犯同样错误的部分原因与我们的教学有关。辩论的一方在当代计算语言学教科书中已被遗忘,不再提及,只能靠下一代人重新认识和复原。当代的计算语言学教科书很少介绍PCM 三位前辈。在汝拉夫斯基(Jurafsky) 和马丁(Martin) 编著的教科书以及曼宁(Manning) 等编著的两套教科书中根本没有提及皮尔斯。三本教科书中只有一本简要提起明斯基对感知机的批评。刚刚进入此领域的学生也许意识不到所谓“相关学习算法”包含了很多当今非常流行的方法,如线性回归和logistic回归。 “一些其他的梯度下降算法(gradient descent algorithms) 有类似的收敛定理,但是在大多数情况下,收敛只能达到局部最优。……感知机收敛能达到全局最优是因为它们从线性分离机这样一类比较简单的模型中选择分类器。很多重要的问题是线性不可分的,其中最著名的是异或问题。……决策树算法可以学习解决这类问题,而感知机则不能。研究人员在对感知机最初的热情 消褪以后,开始意识到这些局限性。其结果是,对感知机及相关学习算法的兴趣很快消褪,此后几十年一直一蹶不振。明斯基和帕佩特的论文《感知机》通常被看作是这类学习算法开始消褪的起点。” 曼宁等人的2008 版教科书中有简短的文献指向明斯基和帕佩特1988 年的论文,称其对感知机有不错的描述,但并未提及他们的尖锐批评: “对文中提到但本章未进行细述的算法,感兴趣的读者可以参阅以下文献:神经网络方面的毕夏普(Bishop) 、线性和logistic回归方面的黑斯蒂(Hastie) 等人以及感知机算法方面的明斯基和帕佩特等的论文。” 基于这样的描述,学生可能会得出错误印象,以为明斯基和帕佩特是感知机算法(以及当今流行的线性和logistic 回归相关方法)的支持者。 毕夏普明确指出,明斯基和帕佩特绝不是感知机和神经网络的赞许者,而且把它们认作“不正确的构想”予以排斥。毕夏普把神经网络在实际应用中的普及看作是对明斯基和帕佩特上述批评意见的反击证明,认为并非如他们所说的那样“没有多少改变”、“多层网络并不比感知机更有能力识别连通性”。 当代教科书应该教给学生认识神经网络这类有用的近似方法的优点和缺点。辩论双方都大有可言。排除任何一方的论证都是对我们的下一代不负责任,尤其是当其中一方的批评是如此的尖锐,用到“不正确的构想”和“没有多少改变”这样的说法。 乔姆斯基比皮尔斯和明斯基在当代教科书中被提及得多一些。曼宁和舒兹(Schütze) 的教科书引用乔姆斯基的论文10次,汝拉夫斯基和马丁的教科书的索引中共有27 处引用乔姆斯基的论文。第一本书中较少引用是因为它专注于一个相对狭窄的话题——统计型自然语言处理。而第二本教科书涉及面广泛得多,包括音韵学和语音。因此,第二本书还引用了乔姆斯基在音韵学方面的工作。 两本教科书都提到乔姆斯基对有限状态方法的批评,以及这些批评在当时对经验主义方法论的抨击效果。但是话题迅速转移到描述这些方法的复兴,而对这一复兴的论辩、动因及其对目前实践和未来的影响的讨论则相对较少。 “由乔姆斯基1956 年的论文开始的一系列极具影响力的论文中,包括乔姆斯基1957 年的论文以及米勒(Miller) 和乔姆斯基1963 年的论文,乔姆斯基认为,‘有限状态的马尔可夫过程’虽然是可能有用的工程探索,却不可能成为人类语法知识的完整认知模型。当时的这些论辩促使许多语言学家和计算语言学家完全脱离了统计模型。 N 元模型的回归开始于耶利内克(Jelinek)、默瑟(Mercer)、巴尔(Bahl) 等人的工作……” 两本教科书对N 元文法的讨论都是从引用其优缺点开始: “但是必须认识到,无论怎样解读,‘一个句子的概率’都是一个完全无用的概念……。” “任何时候,只要一个语言学家离开本研究组,识别率就会上升。”(弗雷德·耶利内克(Fred Jelinek),当时他在IBM 语音组,1988) 曼宁和舒兹是以这样的引用开始讨论的: “统计的考量对于理解语言的操作与发展至关重要。” “一个人对合法语句的产生和识别能力不是基于统计近似之类的概念。” 这种正反面观点的引用确实向学生介绍了争议的存在,但却不能真正帮助学生领会这些争议意味着什么。我们应提醒学生,乔姆斯基反对的是如今极其流行的一些有限状态方法,包括N 元文法和隐式马尔可夫模型,因为他相信这些方法无法捕捉远距离的依存关系(例如一致关系的限制条件和wh- 位移现象)。 乔姆斯基的立场直到今天仍然是有争议的,本文审阅者之一的反对意见也佐证了这种争议。我不希望站在这场辩论中的某一方。我只是要求应该教给下一代双方的辩论。对于任一方,都不至于由于我们疏于教授而使他们需要重新“发现”。 计算语言学学生应该接受普通语言学和语音学的培训 为了让进入这行的学生对低枝果实采摘完后的情形做好准备,今天的教育最好向广度发展。学生应该全面学习语言学的主要分支,如句法、词法、音韵学、语音学、历史语言学以及语言共性。我们目前毕业的计算语言学的学生在一个特定的较窄的子领域具有丰富的知识(如机器学习和统计型机器翻译),但可能没听说过格林伯格共性(Greenberg’s universals)、提升(raising)、等同(equi)、 量词辖域(quantifier scope)、 空缺(gapping)、孤岛条件(island constraints) 等语言学现象。我们应该确保从事共指关系(co-reference) 研究的学生都知道成分统制(c-command) 和指称相异(disjoint reference)。当学生在计算语言学会议上宣讲论文的时候,他们应该已经了解形式语言学(formal linguistics) 对此问题的标准处理。 从事语音识别工作的学生需要了解词汇重音(如文献)。音韵学重音对于下游的语音和声学过程具有各种各样的影响。 图3 “politics”and“political”的谱图显示有三个/l/同位音。在重音前后出现不同的音位变体。 语音识别目前没有充分利用词汇重音特征是一个不小的遗憾,因为重音是语音信号中较为突出的特性之一。图3 显示了最小对立体 (minimal pair)“ politics”和“political”的波形和谱图。这两个词千差万别,目前的技术着重于语音单位层面的区别: “politics”以 –s 结尾,而“political”以-al 结尾。 与“politics” 不同,“political”的第一个元音是弱化的非重读音节的元音(schwa)。 重音的区别更为突出。在诸多与重音有关的区别中,图3 突出显示了重音前与重音后/l/ 的音位变体之间的区别。另外还有对/t/ 音的影响。“politics”中 /t/是送气音,但在“political”中却是闪音。 目前,在语音单位层面,仍有大量低枝果实可以采摘,但这些工作终有完结之时。我们应该教给语音识别领域的学生有关音韵学和声学语音学的词汇重音知识,以便他们在目前的技术水平超越语音单位层面的瓶颈时依然游刃有余。由于重音存在超过三元音素的远距离依存关系,重音方面的进展需要对目前流行的近似方法的长处与缺陷均有深入的理解。语音识别方面的基础性进展,例如能有效使用重音,很可能要依赖于技术的根本性进步。 结论 学界前辈皮尔斯、乔姆斯基和明斯基曾经严重质疑过当年流行后来复活了的一些经验主义方法。他们的反对意见涉及许多当代流行的方法,包括机器学习(线性分离机)、信息检索(向量空间模型)、语言模型(N 元文法)、语音识别(隐式马尔可夫模型)和条件随机场。 学生们需要学习如何有效地使用流行的近似模型。乔姆斯基指出了N 元文法的缺陷,明斯基分析了线性分离机的局限性。许多局限性很明显(由自身算法设计带来的),但即便如此,对其支持与反对之间的争辩有时仍然非常激烈。有时,其中一方的论点不会被写进教科书,只有等到下一代人去重新发现和复兴这些被遗忘的思想。我们应该鼓励下一代学者充分了解辩论双方的论据,即使他们选择站在一方或另一方。 20 世纪90 年代,当我们复兴经验主义时,我们选择了实用主义的理由来反对我们导师的观点。数据从未如此丰富,我们能拿它做什么呢?我们认为,做简单的事情比什么都不做要好。让我们去采摘一些低枝果实。虽然三元模型不能捕捉到一切语言现象,但它往往比其他方法更有效。捕捉我们可以轻易捕获的一致性事实,要比好高骛远试图捕捉更多语言事实而最终得到更少要好。 这些说辞在20 世纪90 年代有很大的意义,特别是学术界在前一波繁荣期提出了很多不切实际的期望。但是今天的学生在不久的将来可能会面临一系列非常不同的挑战。当大多数低枝果实采摘完毕,他们应该做些什么呢? 具体就机器翻译而言,统计方法的复兴(例如文献)由于实用主义的原因,始于采用有限状态方法。但随着时间的推移,研究人员已经越来越接受使用句法捕捉远距离的依存关系,尤其是当源语与目标语缺乏平行语料库,或者当两种语言具有非常不同的词序的时候(例如,从主谓宾词序的语言(如英语)翻译到以动词收尾的语言(如日语))。展望未来,我们可以预料到机器翻译的研究会越来越多地使用越来越丰富的语言学表达。同样,很快也将有一天,重音将成为语音识别的重要依据。 既然计算语言学教科书不可能涵盖所有这些内容,我们就应该与其他相关科系的同事合作,确保学生能接受到广泛的教育,足以让他们为所有可能的未来做好准备。 选自《 中国计算机学会通讯 》第9卷第12期。本文译自 Linguistics issues in Language Technology , 2011; 6(5) K. Church 的“A Pendulum Swung Too Far”一文。译者:李维(美国网基公司首席科学家。主要研究方向为信息抽取、舆情挖掘等)唐天(美国网基公司首席科学家助理兼助理工程师。主要研究方向为自然语言处理和机器学习)。机器之心授权转载。 【补记】 任何时候,只要一个语言学家离开研究组,识别率就会上升。“ (Fred Jelinek,1988) (关于这句名言,可参见 【立委随笔:文傻和理呆的世纪悲剧(romance tragedy)】 ) 原文【参考文献】列表 References Bishop, Christopher. 2006. Pattern Recognition and Machine Learning. New York: Springer. Bloomfield, Leonard. 1933. Language. New York: Henry Holt. ISBN 90-272- 1892-7. Brown, Peter, John Cocke, Stephen Pietra, Vincent Pietra, Frederick Jelinek, Robert Mercer, and Paul Roossin. 1988. A statistical approach to language translation. In COLING. Brown, Peter, Vincent Pietra, Stephen Pietra, and Robert Mercer. 1993. The mathematics of statistical machine translation: Parameter estimation. Computational Linguistics 19:263–311. Chomsky, Noam. 1956. Three models for the description of language. In IRE Transactions on Information Theory, vol. 2, pages 113–124. Chomsky, Noam. 1957. Syntactic Structures. The Hague: Mouton. Chomsky, Noam. 1965. Aspects of the Theory of Syntax. Cambridge, MA: MIT Press. Chomsky, Noam and Morris Halle. 1968. The Sound Pattern of English. New York: Harper Row. Church, Kenneth. 1980. On memory limitations in natural language processing. Tech. Rep. MIT/LCS/TR-245, MIT. Church, Kenneth. 1988. A stochastic parts program and noun phrase parser for unrestricted text. In In Proceedings of the Second Conference on Applied Natural Language Processing, pages 136–143. Church, Kenneth and Robert Mercer. 1993. Introduction to the special issue on computational linguistics using large corpora. Computational Linguistics 19:1–24. Firth, John Rupert. 1957. A synopsis of linguistic theory 1930-1955. In Special Volume of the Philological Society. Oxford: Oxford University Press. Francis, W. Nelson and Henry Kucera. 1982. Frequency Analysis of English Usage. Boston: Houghton Mifflin. Hall, David, Daniel Jurafsky, and Christopher Manning. 2008. Studying the History of Ideas Using Topic Models. In EMNLP, pages 363–371. Hastie, Trevor, Robert Tibshirani, and Jerome Friedman. 2001. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer- Verlag. Hutchins, John. 1996. ALPAC: The (In)famous report. In MT News International , pages 9–12. Jurafsky, Daniel and James Martin. 2000. Speech and Language Processing: An Introduction to Natural Language Processing, Speech Recognition, and Computational Linguistics. Prentice-Hall. Lyons, John. 1968. Introduction to theoretical linguistics. Cambridge, England: Cambridge University Press. Manning, Christopher, Prabhakar Raghavan, and Hinrich Sch¨utze. 2008. Introduction to Information Retrieval . Cambridge University Press. ISBN 0521865719. Manning, Christopher and Hinrich Sch¨utze. 1999. Foundations of Statistical Natural Language Processing. Cambridge, MA: MIT Press. Miller, George and Noam Chomsky. 1963. Finitary Models of Language Users. In D. Luce, R. Bush, and E. Galanter, eds., Handbook of Mathematical Psychology, vol. 2, pages 419–491. New York: Wiley. Minsky, Marvin and Seymour Papert. 1969. Perceptrons. Cambridge, MA: MIT Press. Minsky, Marvin and Seymour Papert. 1988. Perceptrons. Cambridge, MA: MIT Press. Pierce, John. 1961. An Introduction to Information Theory: Symbols, Signals and Noise. New York: Dover Publications, Inc. Pierce, John. 1969. Whither Speech Recognition. Journal of the Acoustical Society of America 46(4P2):1049–1051. Pierce, John. 1970. Whither Speech Recognition II. Journal of the Acoustical Society of America 47(6B):1616–1617. Pierce, John, John Carroll, Eric Hamp, David Hays, Charles Hockett, Anthony Oettinger, and Alan Perlis. 1966. Language and Machines: Computers in Translation and Linguistics. Washington, D.C.: National Academy of Sciences, National Research Council. Roe, David and Jay Wilpon. 1993. Whither Speech Recognition: The Next 25 Years. IEEE Communications 31(11):54–63. Rosenblatt, Frank. 1962. Principles of Neurodynamics; Perceptrons and the Theory of Brain Mechanisms. Washington: Spartan Books. Simon, Herb. 1960. Management by machines: How much and how soon? The Management Review 49:12–19 and 68–80. Sinclair, John. 1987. Looking Up: An Account of the COBUILD Project in Lexical Computing. Glasgow: Collins. Sinclair, John, Patrick Hanks, Gwyneth Fox, Rosamund Moon, and Penny Stock, eds. 1987. Collins COBUILD English Language Dictionary. Glasgow: Collins. Steedman, Mark. 2008. On Becoming a Discipline. Computational Linguistics 34(1):137–144. Tukey, John. 1977. Exploratory Data Analysis. Reading, MA: Addison- Wesley. Weizenbaum, Joseph. 1976. Computer Power and Human Reason. San Francisco: W. H. Freeman. 【NLP主流的反思:Church - 钟摆摆得太远(1)】 【Church - 钟摆摆得太远(2):乔姆斯基论】 【Church - 钟摆摆得太远(3):皮尔斯论】 【Church - 钟摆摆得太远(4):明斯基论】 【置顶:立委科学网博客NLP博文一览(定期更新版)】
这里链接的是部分语义标注软件及其网址,供大家参考。 引用请注明出处: http://annotation.semanticweb.org/annotationtool_view Annotation Tools The best known tools around annotation and authoring are listed here. If you have a new tool please let us know.Simply write a mail and tell us about it. SHOE Knowledge Annotator Annotea Annozilla SMORE Yawas Melita GATE Briefing Associate SemanticWord Semantic Markup Plug-In for MS Internet Explorer OntoMat Annotizer KIM Semantic Annotation Platform MnM
立委履历 (一)工作经历 2006.11-至今 首席科学家 架构师,自然语言平台和核心技术设计者 所设计研发的自然语言平台支持新一代搜索引擎,用于企业市场,主要搜索互联网上的商业情报,包括产品技术信息,客户反馈,等。该产品为多家财富500强的研究部门和市场部门采用,证明了它提供的价值是其他搜索引擎和工具难以取代的。 1997/11 至 2006/03 Cymfony 公司,研究开发部,美国纽约州水牛城(Buffalo, New York) 主研究员(Principal Research Scientist) 自然语言处理副总裁(Vice President,NLP) (1999始) 撰写研究基金申请计划,先后赢得18项美国政府”小企业创新研究基金”(SBIR: Small Business Innovative Research),担任其课题负责人(PI: Principal Investigator or co-PI),研究开发新一代基于自然语言处理(NLP: Natural Language Processing)的信息抽取(IE: Information Extraction)技术。 该技术集中体现在 Cymfony 公司所开发的 InfoXtract(TM) 软件系列,包括 InfoXtract NLP/IE 引擎,组建技术,词典语法资源,有限状态转录机工具箱(Finite State Transducer Toolkit),机器自动学习工具箱(Machine Learning Toolkit)及开发平台。 在此基础上开发的软件产品 Brand Dashboard 和 Digital Consumer Insight,实时扫描处理数千种媒体报道,自动抽取品牌报道关键信息,过滤整合,分析数据全面反映品牌走势,为大企业创保作为无形资产的名优品牌提供决策参考,达到人工分析难以企及的广度及统计学意义上的精度。 2000 年帮助成功引进华尔街高科技风险基金一千一百万,使Cymfony由有两三个员工的从事互联网一般业务的公司发展成为具有70多员工,设立三处办公楼(美国波士顿,布法罗,和印度孟买分公司),引进专业管理人员及制订信息技术(IT: Information Technology)市场营销计划的高科技中小企业。 1999 年指导 Cymfony 研发部参与由美国国家标准技术局(NIST:National Institute of Standards and Technology)主持评判的第八届”文本检索大会”(TREC-8: Text Retrieval Conference)专项竞赛“自然语言问答系统”,获得第一名。 Cymfony 的技术及成长先后被多种媒体报道,包括《财富》,《华尔街日报》,《布法罗新闻》,及中文版《世界日报》。Cymfony 由于在一系列 SBIR 研究中成绩突出,被提名竞逐“2002 全美小企业最优合同项目年度奖”(2002 US Small Business Administration Prime Contractor of the Year Award)。 1987-1991 中国社会科学院语言研究所,北京 助理研究员 从事外汉机器翻译,自然语言处理及中文信息处理等领域的研究。 1988-1991 高立软件公司,北京 高级工程师(兼职) 从事高立英汉机器翻译系统 GLMT 的开发研究。主要工作有: 开发及调试八百条机器语法规则 设计及实现系统的语义模块背景知识库 培训及指导八人小组建立并开发有六万多词条的机器翻译词典及具有上万词典规则的专家词典规则库的开发 推动高立公司将 GLMT 1.0 产品化(1992) 该机译技术成功转化到香港韦易达公司袖珍电子词典系列产品中 GLMT于1992年1月在北京新技术产业开发试验区通过鉴定,先后获得北京市科技进步奖、新加坡INFORMATICS’92国际博览会计算机应用软件银奖和92年第二届中国科技之光博览会电子行业金奖,被列入火炬计划。 1988 承接荷兰 BSO 软件公司合同项目,撰写为多语种机器翻译服务的“汉语依从关系形式句法”,获得好评。 (二)教育经历 2001年 获加拿大 Simon Fraser University 计算语言学专业博士学位 学位论文 “汉语短语结构文法中的词法句法接口研究” (The Morpho-syntactic Interface in a Chinese Phrase Structure Grammar) 该汉语形式文法成功运用于英汉双向机器翻译系统的实验,证明同一部文法可以用于双向系统的汉语分析和综合。 攻读博士期间,多次担任计算机系自然语言实验室(Natural Language Lab)助研(Research Assistant)及语言学系助教(Teaching Assistant)或临时讲师(Sessional Instructor) 1991-1992年 英国曼彻斯特理工大学计算语言学中心(CCL/UMIST)博士候选人 1986年 获中国社会科学院研究生院语言学系机器翻译专业硕士学位 学位论文”从世界语到英语和汉语自动翻译”:这是国内少有的一对多机器翻译系统的研究探索。 1982年 安庆师范学院外语系英语专业学士学位 (三)获奖 2001年获本系杰出成就奖(Outstanding Achievement Award), Department of Linguistics, Simon Fraser University (award given to the best PhD graduates from the department) 1995-1997获加拿大卑诗省科学委员会 G.R.E.A.T. 奖学金 (G.R.E.A.T. Award, Scienc Council, B.C. CANADA), 旨在促进应用性博士课题与当地高科技企业的结合 1997年获校长研究资助(President’s Research Stipend) 1996年获新加坡 ICCC 大会特别旅行资助,宣讲论文 1995年获研究生奖学金(Graduate Fellowship) 1992年与傅爱平合作的机器翻译数据库应用程序获中国社会科学院软件二等奖 1991年获中英友好奖学金(中国教育部,英国文化委员会及包玉刚基金会联合提供)赴英深造 (四)其他专业活动 2002-2005,担任新加坡《中文和计算杂志》国际编委 1998-2004 担任企业导师(Industrial Advisor),先后指导20多位博士或硕士侯选人从事有工业应用前景的暑期实习研究课题(实习生来自纽约州立大学布法罗分校计算机系或语言学系) (五)论文发表记录 Srihari, R, W. Li and X. Li, 2006. Question Answering Supported by Multiple Levels of Information Extraction, a book chapter in T. Strzalkowski S. Harabagiu (eds.), Advances in Open- Domain Question Answering. Springer, 2006, ISBN:1-4020-4744-4. Srihari, R., W. Li, C. Niu and T. Cornell. 2006. InfoXtract: A Customizable Intermediate Level Information Extraction Engine. Journal of Natural Language Engineering, 12(4), 1-37, 2006. Niu,C., W. Li, R. Srihari, and H. Li. 2005. Word Independent Context Pair Classification Model For Word Sense Disambiguation. Proceedings of Ninth Conference on Computational Natural Language Learning (CoNLL-2005). Srihari, R., W. Li, L. Crist and C. Niu. 2005. Intelligence Discovery Portal based on Corpus Level Information Extraction. Proceedings of 2005 International Conference on Intelligence Analysis Methods and Tools. Niu, C., W. Li and R. Srihari. 2004. Weakly Supervised Learning for Cross-document Person Name Disambiguation Supported by Information Extraction. In Proceedings of ACL 2004. Niu, C., W. Li, R. Srihari, H. Li and L. Christ. 2004. Context Clustering for Word Sense Disambiguation Based on Modeling Pairwise Context Similarities. In Proceedings of Senseval-3 Workshop. Niu, C., W. Li, J. Ding, and R. Rohini. 2004. Orthographic Case Restoration Using Supervised Learning Without Manual Annotation. International Journal of Artificial Intelligence Tools, Vol. 13, No. 1, 2004. Niu, C., W. Li and R. Srihari 2004. A Bootstrapping Approach to Information Extraction Domain Porting. AAAI-2004 Workshop on Adaptive Text Extraction and Mining (ATEM), California. Srihari, R., W. Li and C. Niu. 2004. Corpus-level Information Extraction. In Proceedings of International Conference on Natural Language Processing (ICON 2004), Hyderabad, India. Li, W., X. Zhang, C. Niu, Y. Jiang, and R. Srihari. 2003. An Expert Lexicon Approach to Identifying English Phrasal Verbs. In Proceedings of ACL 2003. Sapporo, Japan. pp. 513-520. Niu, C., W. Li, J. Ding, and R. Srihari 2003. A Bootstrapping Approach to Named Entity Classification using Successive Learners. In Proceedings of ACL 2003. Sapporo, Japan. pp. 335-342. Li, W., R. Srihari, C. Niu, and X. Li. 2003. Question Answering on a Case Insensitive Corpus. In Proceedings of Workshop on Multilingual Summarization and Question Answering - Machine Learning and Beyond (ACL-2003 Workshop). Sapporo, Japan. pp. 84-93. Niu, C., W. Li, J. Ding, and R.K. Srihari. 2003. Bootstrapping for Named Entity Tagging using Concept-based Seeds. In Proceedings of HLT/NAACL 2003. Companion Volume, pp. 73-75, Edmonton, Canada. Srihari, R., W. Li, C. Niu and T. Cornell. 2003. InfoXtract: A Customizable Intermediate Level Information Extraction Engine. In Proceedings of HLT/NAACL 2003 Workshop on Software Engineering and Architecture of Language Technology Systems (SEALTS). pp. 52-59, Edmonton, Canada. Li, H., R. Srihari, C. Niu, and W. Li. 2003. InfoXtract Location Normalization: A Hybrid Approach to Geographic References in Information Extraction. In Proceedings of HLT/NAACL 2003 Workshop on Analysis of Geographic References. Edmonton, Canada. Li, W., R. Srihari, C. Niu, and X. Li 2003. Entity Profile Extraction from Large Corpora. In Proceedings of Pacific Association for Computational Linguistics 2003 (PACLING03). Halifax, Nova Scotia, Canada. Niu, C., W. Li, R. Srihari, and L. Crist 2003. Bootstrapping a Hidden Markov Model for Relationship Extraction Using Multi-level Contexts. In Proceedings of Pacific Association for Computational Linguistics 2003 (PACLING03). Halifax, Nova Scotia, Canada. Niu, C., Z. Zheng, R. Srihari, H. Li, and W. Li 2003. Unsupervised Learning for Verb Sense Disambiguation Using Both Trigger Words and Parsing Relations. In Proceedings of Pacific Association for Computational Linguistics 2003 (PACLING03). Halifax, Nova Scotia, Canada. Niu, C., W. Li, J. Ding, and R.K. Srihari 2003. Orthographic Case Restoration Using Supervised Learning Without Manual Annotation. In Proceedings of the Sixteenth International FLAIRS Conference, St. Augustine, FL, May 2003, pp. 402-406. Srihari, R. and W. Li 2003. Rapid Domain Porting of an Intermediate Level Information Extraction Engine. In Proceedings of International Conference on Natural Language Processing 2003. Srihari, R., C. Niu, W. Li, and J. Ding. 2003. A Case Restoration Approach to Named Entity Tagging in Degraded Documents. In Proceedings of International Conference on Document Analysis and Recognition (ICDAR), Edinburgh, Scotland, Aug. 2003. Li, H., R. Srihari, C. Niu and W. Li 2002. Location Normalization for Information Extraction. In Proceedings of the 19th International Conference on Computational Linguistics (COLING-2002). Taipei, Taiwan. Li, W., R. Srihari, X. Li, M. Srikanth, X. Zhang and C. Niu 2002. Extracting Exact Answers to Questions Based on Structural Links. In Proceedings of Multilingual Summarization and Question Answering (COLING-2002 Workshop). Taipei, Taiwan. Srihari, R. and W. Li. 2000. A Question Answering System Supported by Information Extraction. In Proceedings of ANLP 2000. Seattle. Srihari, R., C. Niu and W. Li. 2000. A Hybrid Approach for Named Entity and Sub-Type Tagging. In Proceedings of ANLP 2000. Seattle. Li. W. 2000. On Chinese parsing without using a separate word segmenter. In Communication of COLIPS 10 (1). pp. 19-68. Singapore. Srihari, R. and W. Li. 1999. Information Extraction Supported Question Answering. In Proceedings of TREC-8. Washington Srihari, R., M. Srikanth, C. Niu, and W. Li 1999. Use of Maximum Entropy in Back-off Modeling for a Named Entity Tagger, Proceedings of HKK Conference, Waterloo, Canada W. Li. 1997. Chart Parsing Chinese Character Strings. In Proceedings of the Ninth North American Conference on Chinese Linguistics (NACCL-9). Victoria, Canada. W. Li. 1996. Interaction of Syntax and Semantics in Parsing Chinese Transitive Patterns. In Proceedings of International Chinese Computing Conference (ICCC’96). Singapore W. Li and P. McFetridge 1995. Handling Chinese NP Predicate in HPSG, Proceedings of PACLING-II, Brisbane, Australia Uej Li. 1991. Lingvistikaj trajtoj de la lingvo internacia Esperanto. In Serta gratulatoria in honorem Juan Régulo, Vol. IV. pp. 707-723. La Laguna: Universidad de La Laguna Z. Liu, A. Fu, and W. Li. 1989. JFY-IV Machine Translation System. In Proceedings of Machine Translation SUMMIT II. pp. 88-93, Munich. 刘倬,傅爱平,李维 (1992). 基于词专家技术的机器翻译系统,”机器翻译研究新进展”,陈肇雄编辑,电子工业出版社,第 231-242 页,北京 李维,刘倬 (1990). 机器翻译词义辨识对策,《中文信息学报》,1990年第一期,第 1-13 页,北京 刘倬,傅爱平,李维 (1989), JFY-IV 机器翻译系统概要,《中文信息学报》,1989年第四期,第 1-10 页,北京 李维 (1988). E-Ch/A 机器翻译系统及其对目标语汉语和英语的综合,《中文信息学报》,1988年第一期,第 56-60 页,北京 其他发表 (略)
【置顶:立委科学网博客NLP博文一览(定期更新版)】 2008-09-20 我们教机器理解语言(Natural Language Understanding),基本的一条就是通过句法分析 (parsing) 解析出句子的意义。什么是一个句子的意义呢?举个例子: John loves Mary. 上述句子有三个构句成分:约翰,玛丽,爱。认识这些词不难,一部词典就成,但这不等于能听懂这个句子,因为句子的意义不是其成分词汇意义的简单相加。同样的词汇,不同的组合,构成不同的句子,就有不同的意义,说明了句子结构分析对于语言理解具有决定性的作用。比较下列各组句子: 1a. John loves Mary. 1b. Mary is loved by John. 1c. John’s love for Mary (is amazing) 1d. Mary’s love by John (is amazing). 2a. Mary loves John. 2b. John is loved by Mary. 2c. Mary’s love for John (is amazing) 2d. John’s love by Mary (is amazing) 3a. John’s Mary is loved. 3b. the love for John’s Mary (is amazing) 4a. Mary’s John is loved. 4b. the love for Mary’s John (is amazing). 以上各组句子里面,虚词和词缀(如is,-ed,’s,the)有所不同,词序排列不同,而基本实词成分是相同的。句式各不相同,有主动态句型,有被动态句型,有用动词love,也有名词love,但是每组的句子中心意义是相同的。句法分析(parsing)的最终目的就是把语言中意义相同但说法不同的句式解码成相同的表达形式(称为逻辑形式 logical form),达成理解。以上述4组句子为例,怎么才叫理解了这些句子呢?如果解析出下列逻辑关系,就可以认为理解了。 1组:约翰是“爱”的的施予者,玛丽是“爱”的对象。 2组:玛丽是“爱”的的施予者,约翰是“爱”的对象。 3组:(约翰的)玛丽是(某人)“爱”的对象。 4组:(玛丽的)约翰是(某人)“爱”的对象。 我们自然语言工作者编制机器语法,为的就是教会机器自动分析(parse)句子,把语言不同句式的种种说法(所谓表层结构 surface structures)解码成如上例所示的能表达结构意义的逻辑关系(所谓深层结构 deep structure)。其重点就是解析动作行为(love)及其施(如约翰)受(如玛丽)关系,即,逻辑主谓宾(logical subject-verb-object SVO)的解构。上述4组句子解构后的形式表达如下: 1组:LOVE: Subj=JOHN; Obj=MARY. 2组:LOVE: Subj=MARY; Obj=JOHN. 3组:LOVE: Obj= 4组:LOVE: Obj= 除了主谓宾的主干以外,句子的意义当然还包括枝节意义,譬如实体的修饰语(e.g. the “beautiful” Mary),行为动作的时间地点条件方式等状语 (e.g. John loves Mary “dearly”),但是,逻辑主谓宾总是句子意义的核心。严格地说,句子的主干应该是“主谓宾补” (S-V-O-C) 四项,因为有些行为动作还需要第二个宾语或者宾语补足语意义才完整。 教会电脑自动理解句子意义有什么用处呢?用处大得很,用处之一是使搜索智能化,直接得到你想要的答案,而不像牵狗一样搜索的结果是成千上万个网页。比如,你有一个疑问:微软收购了哪些公司?你只要告诉带有语言智能的搜索器,Subj=Microsoft, Verb=acquire/buy, Obj=? 逻辑主谓宾武装起来的智能搜索就可以轻易搜得所有媒体报道过的微软兼并过的公司,给你列出一长列来。这是传统搜索引擎 Google, Yahoo, 和 MSN 无法做到的。 下面是笔者开发的英语自动分析机的一个运行实例。输入是英语句子,输出是逻辑主谓宾补。笔者用汉语简单加了一些注解。 这是输入: A U.N. cease-fire resolution has authorized up to 15,000 U.N. peacekeepers to help an equal number of Lebanese troops extend their authority into south Lebanon as Israel withdraws its soldiers. 这是 S-V-O-C 输出: name=”SubjPred” has authorized 动词 A U.N. cease-fire resolution 主语 name=”PredObj” has authorized 动词 up to 15,000 U.N. peacekeepers 宾语 name=”PredInf” has authorized 动词 to help 补语 name=”LSubjPred” to help 动词 up to 15,000 U.N. peacekeepers 主语 name=”PredObj” to help 动词 an equal number of Lebanese troops 宾语 name=”PredComp” to help 动词 extend 补语 name=”LSubjPred” extend 动词 an equal number of Lebanese troops 主语 name=”PredObj” extend 动词 their authority 宾语 name=”PredPrep” extend 动词 into south Lebanon 补语 name=”SubjPred” withdraws 动词 Israel 主语 name=”PredObj” withdraws 动词 its soldiers 宾语 笔者的目标就是制造一台世界上最善解人意的智能机器,大家说的鬼子话它大多听得懂。教机器学人话是既刺激好玩又具有实用价值的干活,笔者教了十几年了,乐此不疲。 Comments (2) yechq 12月 6th, 2008 at 11:18 am edit “笔者的目标就是制造一台世界上最善解人意的智能机器,大家说的鬼子话它大多听得懂。” 好大口气,目前成果如何? liwei 12月 6th, 2008 at 2:19 pm edit 原来是关门吹牛的帖子,出来见光时忘记删改了,不能当真的。 关门在老友中间吹牛基本上与夜行怕鬼吹口哨壮胆类似。呵呵。 谢谢,我去修改一下。
First Call for Paper Submissions COLING 2010 Workshop on Multiword Expressions: from Theory to Applications (MWE 2010) http://multiword.sf.net/mwe2010 endorsed by the Special Interest Group on the Lexicon of the Association for Computational Linguistics (SIGLEX) Beijing, China Submission deadline: May 30, 2010 ================================================================= Multiword Expressions (MWEs) are a ubiquitous component of natural languages and appear steadily on a daily basis, both in specialized and in general-purpose communication. While easily mastered by native speakers, their interpretation poses a major challenge for automated analysis due to their flexible and heterogeneous nature. Therefore, the automated processing of MWEs is desirable for any natural language application that involves some degree of semantic interpretation, e.g., Machine Translation, Information Extraction, and Question Answering. In spite of the recent advances in the field, there is a wide range of open problems that prevent MWE treatment techniques from full integration in current NLP systems. In MWE'2010, we will be interested in major challenges in the overall process of MWE treatment, asking for original research related but not limited to the following topics: * MWE resources: Although underused in most current state-of-the-art approaches, resources are key for developing real-world applications capable of interpreting MWEs. We call for papers describing the process of building MWE resources, constructed both manually and automatically from text corpora; we are also interested in assessing the usability of such resources in various MWE tasks. * Hybrid approaches: We invite research on integrating heterogeneous MWE treatment techniques and resources in NLP applications. Such hybrid approaches can aim, for example, at the combination of results from symbolic and statistical approaches, at the fusion of manually built and automatically extracted resources, or at the design of language learning techniques. * Domain adaptation: Real-world NLP applications need to be robust to deal with texts coming from different domains. We thus call for papers assessing the performance of MWE methods across domains or describing domain adaptation techniques for MWEs. * Multilingualism: Parallel and comparable corpora are gaining popularity as a resource for automatic MWE discovery and treatment. We are also interested in the integration of MWE processing in multilingual applications such as machine translation and multi-lingual information retrieval, as well as in porting existing monolingual MWE approaches to new languages. SUBMISSIONS We invite submissions of original and unpublished work as full papers. All submissions must follow the COLING 2010 formatting requirements (available soon at www.coling-2010.org ). Reviewing will be double-blind, and thus no author information should be included in the papers; self-reference should be avoided as well. Papers that do not conform to these requirements will be rejected without review. Accepted papers will appear in the workshop proceedings and will be presented orally. IMPORTANT DATES May 30, 2010: Paper submission deadline Jun 30, 2010: Notification of acceptance Aug 21-22 or Aug 28, 2010: Workshop (exact date to be determined) PROGRAM COMMITTEE Inaki Alegria (University of the Basque Country, Spain) Dimitra Anastasiou (Limerick University, Ireland) Timothy Baldwin (University of Melbourne, Australia) Colin Bannard (University of Texas at Austin, USA) Francis Bond (Nanyang Technological University , Singapore) Paul Cook (University of Toronto, Canada) Beatrice Daille (Nantes University, France) Gael Dias (Beira Interior University, Portugal) Stefan Evert (University of Osnabrueck, Germany) Roxana Girju (University of Illinois at Urbana-Champaign, USA) Nicole Gregoire (University of Utrecht, The Netherlands) Chikara Hashimoto (National Institute of Information and Communications Technology, Japan) Marti Hearst (University of California at Berkeley, USA) Ulrich Heid (Stuttgart University, Germany) Kyo Kageura (University of Tokyo, Japan) Min-Yen Kan (National University of Singapore, Singapore) Adam Kilgarriff (Lexical Computing Ltd, UK) Su Nam Kim (University of Melbourne, Australia) Anna Korhonen (University of Cambridge, UK) Brigitte Krenn (Austrian Research Institute for Artificial Intelligence, Austria) Cvetana Krstev (University of Belgrade, Serbia) Begona Villada Moiron (University of Groningen, The Netherlands) Rosamund Moon (University of Birmingham, UK) Jan Odijk (University of Utrecht, The Netherlands) Stephan Oepen (Stanford University, USA and University of Oslo, Norway) Darren Pearce (London Knowledge Lab, UK) Pavel Pecina (Charles University, Czech Republic) Scott Piao (Lancaster University, UK) Thierry Poibeau (Universite Paris-Nord, France) Elisabete Ranchhod (University of Lisbon, Portugal) Barbara Rosario (Inter Research, USA) Diarmuid Saghdha (University of Cambridge, UK) Violeta Seretan (University of Geneva, Switzerland) Stan Szpakowicz (University of Ottawa, Canada) Beata Trawinski (University of Tuebingen, Germany) Vivian Tsang (Bloorview Research Institute, Canada) Kyioko Uchiyama (Keio University, Japan) Ruben Urizar (University of the Basque Country, Spain) Tony Veale (University College Dublin, Ireland) WORKSHOP ORGANIZERS AND CONTACT Eric Laporte (Universite Paris-Est, France) Preslav Nakov (National University of Singapore, Singapore) Carlos Ramisch (University of Grenoble, France) Aline Villavicencio (Federal University of Rio Grande do Sul, Brazil)
这里汇总整理了18本自然语言处理与计算语言学的相关书籍介绍,按国外书籍(1~4),国内书籍(5~18),其中国内书籍又按自然语言处理(5~9),计算语言学(10~13),中文信息处理(14~17),文选(18)顺序整理,如果有遗漏,欢迎补充! 一、自然语言处理与计算语言学书籍汇总之一:国外书籍 1、 《Speech and Language Processing》 a) 作者: Daniel Jurafsky / James H. Martin b) 副标题: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition c) ISBN: 9780130950697 d) 定价: USD 97.00 e) 出版社: Prentice Hall f) 装帧: Paperback g) 第一版出版年: 2000-01-26;第二版出版年:2006 h) 相关网站: http://www.cs.colorado.edu/~martin/slp.html i) 英文简介:This book takes an empirical approach to language processing, based on applying statistical and other machine-learning algorithms to large corpora.Methodology boxes are included in each chapter. Each chapter is built around one or more worked examples to demonstrate the main idea of the chapter. Covers the fundamental algorithms of various fields, whether originally proposed for spoken or written language to demonstrate how the same algorithm can be used for speech recognition and word-sense disambiguation. Emphasis on web and other practical applications. Emphasis on scientific evaluation. Useful as a reference for professionals in any of the areas of speech and language processing. j) 中文译名:自然语言处理综论 k) 译者: 冯志伟 / 孙乐 l) ISBN: 9787121007767 m) 页数: 588 页 n) 出版社: 电子工业出版社 o) 定价: 78.0 p) 装帧: 平装 q) 出版年: 2005 r) 中文简介:本书是一本全面系统地讲述计算机自然语言处理的优秀教材。本书英文版出版之后好评如潮,国外许多著名大学纷纷把本书选为自然语言处理和计算语言学课程的主要教材,该书被誉为该领域教材的黄金标准。本书包含的内容十分丰富,分为四个部分,共21章,深入细致地探讨了计算机处理自然语言的词汇、句法、语义、语用等各个方面的问题,介绍了自然语言处理的各种现代技术。从层次的角度看,本书的论述是按照自然语言的不同层面逐步展开的,首先论述单词的自动形态分析,接着论述自动句法分析,然后论述各种语言单位的自动语义分析,最后论述连贯文本的自动分析、对话与会话的智能代理以及自然语言生成。从技术的角度看,本书介绍了正则表达式、有限状态自动机、文本- 语音转换、发音与拼写的概率模型、词类自动标注、N元语法、隐马尔可夫模型、上下文无关语法、特征与合一、词汇化剖析与概率剖析、一阶谓词演算、词义排歧、修辞结构理论、机器翻译等非常广泛的内容。本书具有覆盖全面、注重实用、强调评测、语料为本四大特色。在本书的配套网站上,还提供了相关的资源和工具,便于读者在实践中进一步提高。 2、 Foundations of Statistical Natural Language Processing a) 作者: Christopher D. Manning / Hinrich Schuetze b) ISBN: 9780262133609 c) 页数: 680 d) 定价: USD 82.00 e) 出版社: The MIT Press f) 装帧: Hardcover g) 出版年: 1999-06-18 h) 相关网站: http://nlp.stanford.edu/fsnlp/ i) 英文简介:Statistical approaches to processing natural language text have become dominant in recent years. This foundational text is the first comprehensive introduction to statistical natural language processing (NLP) to appear. The book contains all the theory and algorithms needed for building NLP tools. It provides broad but rigorous coverage of mathematical and linguistic foundations, as well as detailed discussion of statistical methods, allowing students and researchers to construct their own implementations. The book covers collocation finding, word sense disambiguation, probabilistic parsing, information retrieval, and other applications. j) 中文译名:统计自然语言处理基础 k) 译者: 苑春法 l) ISBN: 9787505399211 m) 页数: 418 n) 出版社: 电子工业出版社 o) 定价: 55.0 p) 装帧: 平装 q) 出版年: 2005-1-1 r) 中文简介:近年来,自然语言处理中的统计学方法已经逐渐成为主流。本书是一本全面系统地介绍统计自然语言处理技术的专著,被国内外许多所著名大学选为计算语言学相关课程的教材。本书涵盖的内容十分广泛,分为四个部分,共16章,包括了构建自然语言处理软件工具将用到的几乎所有理论和算法。全书的论述过程由浅入深,从数学基础到精确的理论算法,从简单的词法分析到复杂的语法分析,适合不同水平的读者群的需求。同时,本书将理论与实践紧密联系在一起,在介绍理论知识的基础上给出了自然语言处理技术的高层应用(如信息检索等)。在本书的配套网站上提供了许多相关资源和工具,便于读者结合书中习题,在实践中获得提高。 3、 Natural Language Understanding (2nd Edition) a) 作者: James Allen b) ISBN: 9780805303346 c) 定价: USD 66.00 d) 出版社: Addison Wesley e) 装帧: Paperback f) 出版年: 1994-08-03 g) 英文简介:From a leading authority in artificial intelligence, this book delivers a synthesis of the major modern techniques and the most current research in natural language processing. The approach is unique in its coverage of semantic interpretation and discourse alongside the foundational material in syntactic processing. h) 中文译名:自然语言理解 i) 译者: 刘群 j) ISBN: 9787121007552 k) 页数: 508 l) 定价: 59.0 m) 出版社: 电子工业出版社 n) 装帧: 平装 o) 出版年: 2005-01-01 p) 中文简介: 本书是讲授自然语言理解的经典教材。书中全面而深入地介绍了自然语言理解领域中使用的理论和技术,共分为句法处理、语义解释和上下文与世界知识三大部分。具体探讨了上下文无关文法、 chart句法分析器、转移网络形式体系、逻辑形式语言、知识表示、篇章结构和语用推理以及会话agent等多方面的内容。本书理论与实践并重,阐述清晰,简明易懂。世界多所院校采用本书作为自然语言理解的教材。对本领域的研究人员而言,本书也是一本优秀的参考书。 4、 Statistical Language Learning a) 作者: Charniak, Eugene b) ISBN: 9780262531412 c) 定价: $22.00 d) 出版社: The MIT Press e) 出版年:1996年9月1日 f) 英文简介:Eugene Charniak breaks new ground in artificial intelligence research by presenting statistical language processing from an artificial intelligence point of view in a text for researchers and scientists with a traditional computer science background. New, exacting empirical methods are needed to break the deadlock in such areas of artificial intelligence as robotics, knowledge representation, machine learning, machine translation, and natural language processing (NLP). It is time, Charniak observes, to switch paradigms. This text introduces statistical language processing techniques word tagging, parsing with probabilistic context free grammars, grammar induction, syntactic disambiguation, semantic word classes, word-sense disambiguation along with the underlying mathematics and chapter exercises. Charniak points out that as a method of attacking NLP problems, the statistical approach has several advantages. It is grounded in real text and therefore promises to produce usable results, and it offers an obvious way to approach learning: one simply gathers statistics. Language, Speech, and Communication 二、自然语言处理与计算语言学书籍汇总之二:国内书籍 这里汇总整理了18本自然语言处理与计算语言学的相关书籍介绍,按国外书籍(1~4),国内书籍(5~18),其中国内书籍又按自然语言处理(5~9),计算语言学(10~13),中文信息处理(14~17),文选(18)顺序整理,如果有遗漏,欢迎补充! 5、 统计自然语言处理 a) 作者: 宗成庆 b) ISBN: 9787302165989 c) 页数: 475 d) 定价: 66 e) 出版社: 清华大学出版社 f) 装帧: 平装 g) 出版年: 2008-5-1 h) 内容简介:本书全面介绍了统计自然语言处理的基本概念、理论方法和最新研究进展,内容包括形式语言与自动机及其在自然语言处理中的应用、语言模型、隐马尔可夫模型、语料库技术、汉语自动分词与词性标注、句法分析、词义消歧、统计机器翻译、语音翻译、文本分类、信息检索与问答系统、自动文摘和信息抽取、口语信息处理与人机对话系统等,既有对基础知识和理论模型的介绍,也有对相关问题的研究背景、实现方法和技术现状的详细阐述。 6、 自然语言的计算机处理 a) 作者: 冯志伟 b) ISBN: 9787810460361 c) 页数: 523 d) 定价: 20 e) 出版社: 上海外语教育出版社 f) 出版年: 1996 g) 简介:自然语言处理(Natural Language Processing, 简称NLP)就是利用电子计算机为工具对人类特有的书面形式和口头形式的自然语言的信息进行各种类型处理和加工的技术,这种技术现在已经形成一门专门的边缘性交叉性学科,它涉及语言学、数学和计算机科学,横跨文科、理科和工科三大知识领域。自然语言处理的目的在于建立各种自然语言处理系统,如机器翻译系统、自然语言理解系统、情报自动检索系统、电子词典和术语数据库系统、计算机辅助教学系统、语音自动识别系统、语音自动合成系统、文字自动识别系统等。由于自然语言处理离不开电子计算机,因此,自然语言处理又可以叫做自然语言的计算机处理(Natural Language Processing by Computer),以强调电子计算机对自然语言处理的作用。 7、 自然语言理解:一种让机器懂得人类语言的研究(第2版) a) 作者: 姚天顺 / 朱靖波 b) ISBN: 9787302054351 c) 页数: 470 d) 定价: 39.8 e) 出版社: 清华大学出版社 f) 装帧: 平装 g) 出版年: 2002-10-1 h) 简介:自然语言理解是人工智能的一个重要分支,主要研究如何利用计算机来理解和生成自然语言。本书重点介绍了自然语言理解所涉及的各个方面,包括语法分析、语义分析、概念分析、语料库语言学、词汇语义驱动、中间语言、WordNet、词汇树邻接文法、链接文法、基于语段的机器翻译方法、内识别与文本过滤、机器翻译的评测等,既有对基础知识的介绍,又有对最新研究进展的综述,同时还结合了作者多年的研究成果。本书可作为高等院校计算机、人工智能等专业的高年级本科生或研究生的教材及教学参考书,也可供从事中文信息处理、数据挖掘以及人工智能研究的相关人员参考。 8、 自然语言处理技术基础 a) 作者: 王小捷、常宝宝 b) ISBN: 9787563505272 c) 页数: 146 d) 定价: 19.0 e) 出版社: 北京邮电大学出版社 f) 装帧: 平装 g) 出版年: 2002-12-01 h) 简介:本书包括了三个方面的内容。第一部分介绍基于规则的自然语言处理技术,分别从语法和语义两个层面入手。首先介绍了几种语法系统的形式化表示方案,在此基础上,介绍了几种典型的上下文无关句法分析和基于复杂特征的句法分析方法。在语义层面,分别从词义和句义两个层次介绍了进行词义和句义分析的方法。第二部分介绍基于统计的自然语言处理技术,包括词汇层的一些统计语言模型以及在句法层的概率上下文无关语法。第三部分介绍一种重要的应用机器翻译,分别从规则和统计两个方面来介绍它的理论和实现。 9、 计算机自然语言处理 a) 作者: 王晓龙 b) ISBN: 730210089 c) 页数: 170 d) 定价: 23.0 e) 出版社: 清华大学出版社 f) 装帧: 精装 g) 出版年: 2005-04-01 h) 简介:计算机自然语言处理技术在我国现代化及信息化建设中起着越来越重要的作用,我国政府已经将它列入国家中长期科学技术发展纲领。近年来,语言处理技术, 特别是基于国际互联网的中文语言处理技术正在引起我国广大科技工作者的高度重视。本书既全面阐述了中文语言处理技术的特殊规律,又借鉴了国内外学者在计算语言学领域里的最新成就,还包括了作者的实践经验和体会。本书可以作为计算机相关专业研究生的专业课教材,也可供相关专业高年级大学生和从事自然语言处理技术研究和应用的科技人员参考。 10、 计算语言学概论 a) 作者: 俞士汶 b) ISBN: 9787100037969 c) 页数: 357 d) 定价: 20 e) 出版社: 商务印书馆 f) 装帧: 平装 g) 出版年: 2003-9-1 h) 简介:本教材从基础算法和应用三个方面,较为系统地介绍计算语言学的基础理论、相关的自然语言处理技术和应用。 11、 计算语言学基础 a) 作者: 冯志伟 b) ISBN: 9787100032841 c) 页数: 280 d) 定价: 16.0 e) 出版社: 商务印书馆 f) 装帧: 平装 g) 出版年: 2001-8-1 h) 内容简介:《计算语言学基础》从语言学的角度,回顾了计算语言学的产生和发展的历史,从词汇的计算机处理、自动句法分析、自动语义分析等方面,系统地讲述计算语言学的基础知识,特别是介绍了计算语言学的基本理论和方法。这是一本计算语言学的基础性入门读物,作者尽量考虑到计算语言学跨学科的特点。叙述力求深入浅出,文字力求简明扼要,可供语言学工作者、计算机工作者、计算语言学工作者以及对语言信息处理有兴趣的广大读者阅读。 12、 计算语言学导论 a) 作者: 翁富良 / 王野翊 b) ISBN: 9787500420804 c) 页数: 207 d) 出版社: 中国社会科学出版社 e) 定价: 20.0 f) 装帧: 平装 g) 出版年: 2005-10-01 h) 简介:语言是反映人的思维的最重要的一面镜子,又是人与人之间交流的最重要的媒介。对语言的研究,是一个经久不衰的古老课题。几千年来,中外学者从语言与思维、语言与现实的关系等不同角度。在词源、注释、分类、语法等各个方面开展了广泛的研究。近一两百年来,西方学者在逻辑学、数学和分析哲学方面的成果,大大推动了语言形式他的研究。而随着计算机科学的发展,建立语言的形式化计算模型成为语言学的重要课题。计算语言学作为以形式化的计算模型来分析、理解和处理语言的科学也就应运而生。而信息革命的展开,更使计算语言学的研究达到了一个空前的程度。 13、 计算语言学 a) 作者: 刘颖 b) ISBN: 9787302057888 c) 页数: 185 d) 定价: 22.0 e) 出版社: 清华大学出版社 f) 装帧: 平装 g) 出版年: 2002-10-01 h) 内容简介:计算语言学是一门涉及语言学、计算机科学和数学等多门学科交叉的学科,覆盖面很广,本书侧重最经典的工作,阐述计算语言学的基本理论和方法。主要介绍现代句法理论和语义理论,词法、句法和语义阶段重要的分析算法及语料库和统计语言学。本书结构完整,层次分明,条理清楚。既便于教学,又便于自学。 (注:转载于:我爱自然语言处理: www.52nlp.cn ,略有调整)