白: 伟哥看过来,你的中递归 QJ: 咋了,堆栈溢出了? 雷: 呵呵,一山一寺酒一壶,三层。 我: 还真有这么狗血的不是人话的东西存在。服了我党苏州委员会。 另,再看里面的括号的中递归形式:《 ........《...》.........》,凭什么这样用括号呢?双单单双......。如果双单都用,应该是交错而行,否则索性一双到底或者一单到底。 wiki 上给的英文中递归(center recursion)的狗血例子是: A man that a woman loves A man that a woman that a child knows loves A man that a woman that a child that a bird saw knows loves A man that a woman that a child that a bird that I heard saw knows loves An interesting theoretical point is that sentences with multiple center embedding are grammatical, but unacceptable. Such examples are behind Noam Chomsky's comment that, “Languages are not 'designed for parsability' … we may say that languages, as such, are not usable.” (Chomsky, 1991) from https://en.wikipedia.org/wiki/Center_embedding 乔老爷的狗屁 grammatical 论,unacceptable 还 grammatical,如此信口开河,也只有乔老爷这样的人神才敢了。还有这个 languages are not designed for parsability 的论点,直接与语言的交际通讯本质相抵触。 The linguist Fred Karlsson provided empirical evidence in 2007 that the maximal degree of multiple center-embedding of clauses is exactly 3 in written language. He provided thirteen genuine examples of this type from various Indo-European languages (Danish, English, German, Latin, Swedish). No real examples of degree 4 have been recorded. In spoken language, multiple center-embeddings even of degree 2 are so rare as to be practically non-existing (Karlsson 2007). 也就是说,这种东西统计上是不存在的。是臆想出来的语言学问题,然后把整个 parsing community 给绕进去。雷司令为此搭进去好几年时光,试图去求解它,终于发现只要有中递归就不存在线性算法。 白: 去掉中递归,计算复杂性从接近立方级一下子变成了线性。吃水不忘挖井人啊…… 云: 不过计算机语言里这种递归比比皆是啊,尤其是 recursive decedent parser。 白: 人的短时记忆不允许。 7加减2,常委数量,也就是三到四对括号,再多了就晕菜。 这个可以佐证伟哥的统计结论 雷: 不怕一万,就怕万一,冷不丁的来 白: 嗯,那就反刍呗。in memory不要搞 我: 还有一个狗血的语言学问题,也是乔老爷造的孽:所谓 binding theory。本来是语言中很小的一个现象,结果被无限夸大,引发了无数论文和论战。由 Binding theory 的三条原则而来的有那么点实践意义的规则,我15年前指导一个实习生,用了不到两个小时就实现并调试完成,后来一直没遇到什么有统计意义的挑战。 可见,一个简单的工程问题,可以怎样地被理论家无限复杂化,烦琐哲学害死人。伟大的理论家害死一代学人。 【相关】 科学网—Chomsky's Negative Impact 【置顶:立委科学网博客NLP博文一览(定期更新版)】
生成语法的诞生,如果从《句法结构》的发表开始算起的话,至今已经有近60年了。60年的时间,对于一个从诞生到成长壮大的学科来说,既不算太短也不算太长。 不算太长,如果和诞生于17世纪以微积分为基本内容的近代数学相比;从牛顿、莱布尼茨草创微积分基本概念,经欧拉、高斯和柯西形成现代分析学,用了300年左右的时间; 不算太短,如果和诞生于19世纪的【数理逻辑】相比。从弗雷格创立一阶逻辑经康托尔集合论和戴德金与魏尔斯特拉斯的数学公理化的确立,再经怀特海和罗素统一数学和逻辑的宏大企图,最后定格于哥德尔的完整性定理和不完整性定理,数理逻辑成功地奠定现代形式科学基本框架,共用了50年左右的时间。 生成语法的60年不管时间长短,还是有许许多多值得后人总结、归纳、学习的东西。从政治学的角度来看,和前面所提及的分析学、数理逻辑不同,这些学科没有出现过首尾一贯的领军人物,一个人或一小撮人提出一个新观点,先是遭人怀疑、反对,然后有人捍卫,再出来有人完善、然后再提出新问题,再有后人出来解决。一旦出现重大问题,如无法达到一致则分为学术派别,最后出现某一天才人物定于一尊。而生成语法理论一出世就被光环笼罩,60年来只惟一人为尊,理论的发布、更新都由一个人或一个学府完成,其他学者或者补充完善、或者质疑,但这些“补充完善”或“质疑”的成果必须由“尊者”承认或纳入后期的升级版本,或被扬弃。如果有人和“尊者”意见始终不一致,那么只有自立门派、或者成为被“主流”遗弃的独行者。 生成语法理论一路走来,从草创经标准理论,扩大的标准理论到GB再走到现在的MP,能始终如一地跟着“尊者”走到底的实在寥寥无几。从当年最早推崇《句法结构》的Robert Lees,到早期的追随者Emmon Bach、Paul Postal、Edward Klima、Charles Fillmore、George Lakoff、James McCawley、John Ross、Joan Bresnan,都早已和“尊者”分道扬镳,或成为自创学派的掌门人,或转投其他理论。 生成语法的这条发展轨迹在近代科学史上十分罕见的,很需要认真地回顾。因自然规律随着“尊者”的逐渐淡出,生成语法理论面临着重大的历史转折期:to be or not to be。对此本人一直心有戚戚,这一两年一直在读关于生成语法的historiography研究,希望从中找到对未来有启示一些线索。 由于这个世界上有同样想法的人很多,本人最终找到这本《Linguistics and Formal Science》,英国人Marcus Tomalin写的非常有特色的书。作者在书中谈论的主题和选材视角可以说和我一直思考的问题非常相似甚至相同,就是:如何将生成语法理论放在“形式科学”这一更大的语境下考察,并试图将它与其它成熟的的形式科学、如数学、如逻辑学、如科学哲学相比较,特别是仅仅50年的时间就获得巨大成功的数理逻辑相比较,从中找出一些令人进一步深思的问题。 坦率的说,生成语法理论作为一门新兴学科发展并不尽人如意,特别是比较同期发展起来的计算机科学更是如此。我在以前的《句法结构》笔记中曾经提到,《句法结构》提出的问题往往是十分经典的、划时代的,而提出的解决方案却往往是靠不住的。这个观点推而广之适用于整个生成语法理论的发展史,还可以从另一个角度印证。生成语法研究了大量的、前人从未注意到的语言现象,包括句法的、音位的、语义的,但经得住历史考验的定说却不多。另一方面从“标准理论”开始,生成学派出现分歧,造就了现今众多的语言学流派。学派众多一方面说明研究者们对于所研究对象尚未形成一致意见,另一方面说明语言学研究对象的扩大,各个学派所研究的对象和范围既有重合的部分也有不重合的部分,将所有学派的研究对象看做是集合的合集的话,肯定会比单一学派研究的范围要广,而且每个学派对特定问题的研究深度也各不相同。作为一个合集,人类对语言的认识肯定要比60年前要前进了许多。 本篇笔记准备以《Linguistics and Formal Science》作为脚本,并参考其它文献(这些文献在本部著作中都有提及),详细分析生成语法理论的理论基础——形式科学的基本思想:公理化体系。 在展开话题之前,有一点本人要说明一下,关于【转换语法】、【转换生成语法】和【生成语法】的使用: 一、【转换语法】:指标准理论之前的理论,亦即《Aspects》发表之前的理论; 二、【转换生成语法】:指标准理论之后、GB前后的理论 三、【生成语法】:泛指PP理论,包括MP和其他非主流的语法理论如LFG、GPSG和HPSG 虽然本人在使用这些术语时内心已有所指,但没有明确指明,可能带给读者一些困惑或困难。 形式科学,是对数学、逻辑学、特别是数理逻辑、理论计算机科学、科学哲学以及相应的各个分支科学的总称。这些学科的重要特点之一就是采用公理化的方法建立该学科的知识结构。现代形式语法理论的目标之一就是向这些学科看齐,使得理论体系建立在一个坚实的、严密精确的科学基础上。和上述学科不同的是,形式语法理论所研究的对象是自然语言,需要对语言现象进行观察、采样、分析、测试,这一系列活动属于经验科学的范畴,毋宁说更像是物理学,与纯粹心智活动的经典形式科学有着相当大的区别。虽然数学理论最终可以应用到大量的实际问题中,但是现代数学的高度抽象,使得该学科更具有“先验”的特质:往往是一种数学理论在没有实践背景的情况下被提出,而理论成熟后才发现在其它实用科学中的应用。例如复数、布尔代数、数论,刚开始时只是作为数学家们为解决数学本身的问题而提出,没有任何实际应用背景。随着20世纪后半期信息科学的发展,这些理论才找到了应用场所。例如,复数已成为物理学的基本工具之一,而布尔代数是计算机科学的基础,数论的最新应用是密码学理论。而语言学,特别是形式语法理论,则是数学理论、特别是数理逻辑应用的新的用武之地。这说明,数学的先验性是其它学科无法比拟的。 而语言学研究本身,则分别受到自古以来两大对立哲学观点的影响:实证论和唯理论。大多数人将Chomsky的生成语法理论比附为唯理论,或心智主义学派,而将该理论的前驱结构主义学派看做是实证论的代表。不过,历史往往是复杂的,不是容易那么整齐划一的。关于这个话题容后再谈。现在我们关心的是形式科学、特别是公理化方法对形式语法理论的影响。在这里想要澄清一点的是,当我们用“形式语法理论”这个术语时,通常包括了主流的生成语法、其它相关的理论以及其衍生的理论,同时还包括了范畴语法——直接植根于逻辑和哲学的语法理论,以条件真值的模型论为基础的蒙太古语法以及不太被提及但在计算语言学中常用的“依存语法”理论;不过从影响力来讲,生成语法和其它语言理论不可同日而语,因此通常我将“形式语法理论”和“生成语法理论”常常“无预警”替换使用,尽管在严格意义上并不准确。 形式语法理论的最大特点之一就是和数学一样,使用大量的符号表达概念。使用符号的好处就是可以避免自然语言存在的模糊、二义性和解释上的不确定性。但是和数学不同的是,形式语法理论并不存在一个完备的、一致的形式语言作为描述工具。这些符号系统,只是零敲碎打地从各种形式科学——有些是逻辑学、有些是集合论有些是理论计算机科学——借用而来,从未形成一个完整的体系。其中的原因,依笔者之管见,第一是语法理论本身尚未成熟;第二尚未出现专门研究描述语言理论的形式语言的学问;第三,语言学最终能否像数理逻辑、或理论计算机科学一样成为可公理化的学科尚在争议之中。 在理解形式科学和形式语法理论的关系之前,需要先了解一下什么是公理化,它为什么成为精密科学向往的目标。 我们知道,几千年以来,人类在各种活动中积累了大量的知识和经验。对于如何记录、组织、传承这些知识从未有过什么系统性的方法,大部分都淹没在浩如烟海的用自然语言写成的著作之中。不过,一个令人惊奇的例外就是欧几里得的几何学。几何学知识本身,发源于古埃及和巴比伦作为土地丈量的基本工具。这些知识后来传播到希腊,最后,由古希腊人欧几里得(Euclid)整理写成了《几何原本》。《几何原本》是对当时所有已知几何知识的汇总。令人称奇的的是,这个汇总,并不是“几何大辞典”、“几何百科全书”、或“几何学教程”的形式,而是以命题的形式作为表达手段,以演绎推理作为派生手段,从寥寥数条“公理”(axiom)、公设(postulate)出发,派生出所有几何定理,从而构筑成整个几何学知识大厦的逻辑体系。《几何原本》所总结的几何知识固然伟大,但真正使得它流传千古的是它组织这些知识的方法:高度的逻辑性、成熟严密的结构,就是以今天的标准来衡量仍然令人仰视。而且这样高度发达的演绎推理系统,前无古人,没有参照系,仿佛已从欧氏头脑中突然形成一般。因此《几何原本》如何成形仍然是个谜。 直到19世纪之前2000年以来,《几何原本》的逻辑高度后人仍然无法企及,只有景仰和模仿的份。从莱布尼茨到弗雷格都试图用同样的方法对数学的其它知识重新进行组织:称之为“公理化”(axiomatization)。直到19世纪下半叶,由戴德金(Richard Dedekind)和魏尔斯特拉斯(Karl Weierstrass)利用集合论定义自然数,再通过自然数定义整数、有理数最后达到实数。一旦建立了严密的实数理论,数学分析这座现代知识的大厦就有了严格的基础,在此基础上再定义连续、极限和收敛,就建成了有史以来最宏伟的数学理论体系。与此同时,皮亚诺(Guiseppe Peano)则直接以自然数的基本命题作为公理,为严格定义实数理论创建了与《几何原本》相媲美的公理体系。从此,知识的公理化程度,成为某一学科成熟度的一种测量标准。公理化的出现不但为知识的记录和传承找到了最科学的方法,也为新学科的出现指明了发展的方向。在数理逻辑由哥德尔(Kurt Gödel)的定理奠定科学基础之后,20世纪后半叶,有人开始将其原理运用到自然语言的研究,其代表人物就是Richard Montague。Montague的基本观点就是:人工语言(一阶逻辑语言)本质上和自然语言没有什么不同,既然可以藉由公理化方法建立严格的逻辑语言,就没有理由对自然语言做不了同样的事。这种想法首先得到了1960年代生成语法学界的研究者的共鸣。以Emmon Bach为代表的生成语法研究者开始转向比“标准理论”更为形式化的语言研究:通常称之为Montague Grammar。Montague语法本质上是对自然语言语义的研究,严格地说是对英语一些语言片段的语义研究,这种研究后来和范畴语法——一种逻辑语法——相结合,产生了迄今为止最为严格精确的形式语法理论,成为最有可能“公理化”的自然语言语法理论之一。 而生成语法,作为Montague语法最初的灵感来源之一,却逐渐转向了语言与心理、语言与认知等心理学科的发展方向,甚至认为语言学最终应当归结为生物学的研究(linguistics is part of psychology, ultimately biology)。评论这个命题的是非不是本篇笔记的目的,但这个定义至少和《句法结构》中明确设定的语言学目标大不相同。 乔姆斯基写道: Linguists must be concerned with the problem of determining the fundamental underlying properties of successful grammars. The ultimate outcome of these investigations should be a theory of linguistic structure in which the descriptive devices utilized in particular grammars are presented and studied abstractly, with no specific reference to particular languages。 因此,与现行的PP理论(无论是GB古典形式还是MP现代形式)相对而言,我们这里所指称的“生成语法理论”,毋宁说是指《句法结构》意义上的“原始”生成语法。 现在回到Tomalin的著作《Linguistics and the Formal Science》。这本书的主题不是生成语法本身,而是影响这个理论的其它学科和理论。作者首先回顾了自生成语法诞生以来关注该理论和形式科学关系的相关著作,从1957年Robert Lees的《Review of Syntactice Structure》到2001年的最近论著,基本囊括了所有有影响的著作。作者认为生成语法标榜比别的语言学理论更科学是更接近“形式科学”公理化的要求,但令人惊奇的是,几十年来在汗牛充栋的生成语法著作当中竟无人在这个问题上给出一个详细、明确的分析和说明,因此构成了作者完成此书的最基本的动机。 然后,作者详细回顾了自牛顿、莱布尼茨微积分问世后几百年形式科学的建立过程以及与此相关的的三大学派:逻辑论、形式论(又称公理主义)和直觉论的基本观点。 从形式科学的基本观点出发,作者进一步从数学、特别是从形式论的公理主义角度分析了递归函数论、逻辑系统以及逻辑实证主义的后期代表人物的“建构性系统理论”(constructive system theory)、建构式唯名论(constructive nominalism)以及相继产生的形式语言学理论(formal linguistic theory)。最后,作者深入分析了Chomsky早期(1957年《句法结构》之前)句法理论的基本轮廓和思想传承以及从1955-1957这段时间内所谓“转换生成语法”最终产生的思想来源和过程。 作者关心的不是转换生成语法本身的理论价值,而是它是从哪里来的,为什么这个理论出世后是这样一个模样。这个理论为什么会出现在1950年代,是偶然的还是必然的。这些问题也正是笔者正在思考的问题。不过笔者还有一些问题在这篇著作中没有得到回答:为什么转换生成语法会成为今天这个模样?为什么这个理论引发了那么多的争议,而且这个争议不是从外部而是从这个学派的内部从而产生了那么多由此衍生的众多语言学流派。我们从中能够学到什么?我想,这不仅仅是我个人正在思考的问题,也是所有从事研究、正在学习的所有生成语法理论的爱好者们都应当思考的问题,尤其是在当下对生成语法理论的两极观点一极是竭力排斥、另一极是对乔氏顶礼膜拜盛行之际。 前面介绍了Tomalin 《Linguistics and the Formal Science》一书的大致轮廓,主题是《句法结构》之前Chomsky的句法理论以及形式科学对转换生成语法产生的历史影响。本篇笔记以及后续几篇笔记将重点讨论该书的第一章《Introduction》。 作者认为这一章只是个引子,目的是引出写作本书的动机,同时对其它类似著作提出了各种各样的批评。作为读者,我们并没有必要与作者站在同一立场看待这些批评。相反,我们可以以更客观、历史的态度,将作者引用的这些材料作为我们研究生成语法来龙去脉的一个向导,至少,省下我们的时间再去重新搜集历史材料。 Tomalin的著作写于2006年,作者所搜集的材料到2001年为止。因此,为了讨论更全面,本人又加上了两篇(详见【附录】) 这20篇材料,有些笔者曾经读过,有些没有读过甚至没有听说过。如果抛开书作者的观点,从纯粹的史料观点来看,我们大致可以看出这样一个脉络走向: 早期的著作大多出自生成语法理论第一线的研究者,随着该理论逐渐在语言学界占支配地位,著作的作者逐渐演变成熟悉生成语法的历史学者。 对生成语法理论由早期的全面推崇到后来的冷静分析再到后来、尤其是笔者所加的两篇、变成了全面质疑。当然,生成语法理论从一诞生就备受质疑,但多是来自学派外部的质疑,而自【标准理论】以后,更多的质疑是来自生成语法学派的内部,这一点,当我们分析Pullum的论文时再详细讨论。 本书作者Tomalin所收集的材料当然都围绕着一个主题:形式科学与生成语法之间的关系。作者对各个时期文献的批评基本就是一个:所有人都是点到为止,没有人对此问题进行过深入讨论;少数文献作家虽然有进一步的论述,但也是不合作者观点,被批评为“误导”“不正确”。从笔者的观点来看,这些文献不如说反映了不同时期的学者对同一问题的符合当时历史环境的看法。站在今天的立场上,重新审视这些观点,当然我们会得出和文献作者相异的结论。 我们应当从中学习的,包括从Tomalin的著作本身更多的应当是对生成语法理论更宏观、历史的把握,通过分析过去它的根源、它从哪里来,来放眼未来帮助我们洞悉它将往哪里去,什么是它的归宿。 本着这个目的,我们可以重新逐一审视作者所提供的这些文献的主要内容。 对于笔者曾经读过的文献,准备单独开篇讨论,并且会根据需要附加上更多的内容,但是目的和作者一样:探讨形式科学与生成语法理论的关系。本篇所讨论的文献基本上是笔者未读过的,或者早年读过但目前手头已没有任何可参照的文献。 1. Emmon Bach:1964 《An Introduction to Transformational Grammars》 Bach是笔者十分尊敬的一位学者。Bach早期的研究集中于英语和德语转换生成语法以及生成语法的理论基础。从1970年代末起,Bach的研究转向了Montague的语义论和范畴语法,不过是带着生成语法的问题研究Montague语法的。Tomalin书中所引述的Bach的著作应当是最早的转换语法的入门教科书之一。和通常的教科书一样,Bach介绍了转换语法的历史背景,并且重点强调了数学、逻辑学的演绎体系对生成语法理论的影响。下面是Tomalin书中的引用 In the last century a great deal has been learned about the structure of deductive systems (systems of logic, mathematics, axiom systems for various sciences). Logicians and mathematicians have been concerned more and more with studying various ‘language systems’ or ‘calculi’ from an abstract point of view. At the same time, modern linguistics has tended towards describing languages as abstract formalized systems. In many ways, the theory of language presented here may be considered the result of a convergence between these two currents. The grammars that we shall study are attempts to state the principles by which sentences of a language may be constructed, in much the same way that a formalized mathematical theory may be used to construct theorems. Bach在这里强调了两点: 1. 传统上数学和逻辑学对语言的关心,历史上逻辑学家不断试图建立严格描述数学的逻辑语言,并且对自然语言能否应作为逻辑表述语言有过各种各样的争论。 2. 现代语言学亦将语言看做是抽象的形式化的体系。Bach特别强调他这本教科书所介绍的语言理论(转换语法)正是这两种倾向的汇合点。语言的语法,其建构过程和利用数学的形式化方法(公理化方法)证明定理从原则上是一样的。 可以看出,在生成语法的早期阶段,没有人将这个理论与心理学、认知学联系起来,而更多的是将它看做是数学、逻辑在语言学中的一种应用。这也毫不奇怪:从19世纪弗雷格建立一阶语言开始,数学家、逻辑学家就一直对自然语言保持着高度的兴趣。不过,早期的数理逻辑学家们更多的是关注语义问题,关注自然语言是否可以准确表达逻辑命题的问题。例如20世纪初的数理逻辑学家罗素(Bertrand Russell)就提出过“误导形态说”(Misleading Form Thesis),认为自然语言的语法无法表达准确的逻辑命题,而只能“误导”、使人按照这个语法形式建立十分荒谬的的命题。这个观点被20世纪的逻辑实证主义学派全面继承,其代表人物之一塔斯基(Alfred Tarski)就认为逻辑语法和语义学无法应用到自然语言上,因为为自然语言建立严格精确的句法(这是进行严格语义解释的前提)是不可能的。《句法结构》的出现打破了这个成见,首次尝试为自然语言建立严格的语言结构理论。而当时Bach也已极大的热情将这个理论(转换语法)看做是这个划时代进步的最终结果。Tomalin在其著作中特别又强调了Bach的观点:第一、语言学和数学逐渐汇合已经有一个世纪;第二、构成过去10年(1954-1964)语言学研究最为持久的成果就是使用了从数理逻辑派生出来的研究方法。Tomalin批评Bach的书受限于教科书的目的而没能深入讨论这个问题。不过在笔者看来,Bach的观点确实反映了转换生成语法刚刚诞生之时学者们的普遍认知:没有将这个理论和心理学、语言习得这些超现代的问题联系起来,而是更多地继承了数理逻辑的传统:自然语言能否用形式化的方法严格精确地描述,就像数学可以用一阶语言精确描述一样;Chomsky的《句法结构》以及新诞生的“转换语法”理论让人们看到了曙光。Bach本人是真诚地相信这一点的,因此当生成语法后来的发展偏离了这个方向时,他义无返顾地转向了Montague语法和范畴语法。 2. Robert Lees 1957 《Reviews of Syntactic Structures》 《句法结构》之所以扬名于世在很大程度上和Robert Lees的这篇书评有关。特别是在本书中引用的那段已成为评价、赞颂《句法结构》和转换生成语法的标准语言: Chomsky’s book on syntactic structures is one of the first serious attempts on the part of a linguist to construct within the tradition of scientific theory- construction a comprehensive theory of language which may be understood in the same sense that a chemical, biological theory is ordinarily understood by experts in those fields. It is not a mere reorganization of the data into a new kind of library catalogue, nor another speculative philosophy about the nature of Man and Language, but rather a rigorous explication of our intuitions about our language in terms of an overt axiom system, the theorems derivable from it, explicit results which may be compared with new data and other intuitions, all based plainly on an overt theory of the internal structure of languages; and it may well provide an opportunity for the application of explicit measures of simplicity to decide preference of one form over another form of grammar. (译文:Chomsky关于句法结构的著作是从语言学家的立场在科学理论的传统内建立综合的语言理论的严肃尝试之一;这个理论可以看做是与化学、生物学等领域专家所理解的他们各自领域的理论具有完全相同的意义。它并不仅仅是对实验数据的重新组织使得图书馆为此新加一个学科名称、也不是另一个思辨哲学对人和语言的抽象思考,而是根据【明确的公理体系】(an overt axiom system)对我们关于语言的直觉进行的严格的阐述。从这个公理系统,派生出各个定理,以及可以和新的实验数据以及我们的其它直觉可比较的明确的结果。所有这一切都是建立在一个朴实无华的(plainly)有关语言内部结构的明确理论之上。这个理论还可能为应用明确的简洁性测试标准提供了机会以便能够确定一种语法形式是否优于另一种语法形式。) 这篇书评发表在《Language》1957第三期上,篇幅为35页。此时离《句法结构》发表仅仅几个月的时间。 本篇笔记不打算在这里全面介绍Lees的书评(值得单独开栏讨论),这里仅根据上述文字谈谈本人对Tomalin著作的看法。 首先,Lees认为乔氏第一次以语言学家的身份(on the part of a linguist)试图建一个在常规意义上的“科学”(如物理学、化学、生物学等公认的科学)范围内建立一个全面的语言学理论。Lees隐含的意思是,建立严密精确的语言学理论或曾经由语言学之外的学者尝试过,而在语言学内部从未有人做这样的事情。我们在上篇笔记讨论Bach的著作时曾经提到,100年以来,数学、逻辑和哲学家们都曾经在自己各自的领域提出过各种学说尝试解决语言的形式化问题。但这些努力大部分以各自领域有关的形式语言为研究对象,鲜有人对自然语言做过全面的分析。而语言学本身自索绪尔的结构主义学派诞生仍然处于襁褓期,此时的语言学家除了少数学者例如Bloomfield和Hjelmslev之外很少有人注意到语言学自然科学属性问题;人们往往将语言学看做是和文学、历史等学科类似的“人文学科”。Lees认为乔氏是语言学界第一人首次从自然科学的意义上尝试建立严格、精密的语言学理论。 关于这一点,虽然本书的作者在后面的章节里有详细的介绍,但在这里却完全没有提及,不得不说是一个遗憾。Tomalin在这里强调的是语言学理论的“严格”(rigorous),而这个“严格性”体现在Lees明确提出《句法结构》使用了公理化的演绎方法从而获得了“明确的”结果。不过Tomalin对Lees的书评颇有微词,认为Lees并没有完整地阐述形式科学和转换生成语法之间的关系。这个批评本人认为不算妥当,Lees的书评后面虽然给出了《句法结构》内容的一些细节而没有对前面引用的评语给出支持性的证据,特别是《句法结构》如何使用了公理演绎方法并没有展开论述,但《句法结构》的年代转换生成语法尚未产生,要求Lees的书评做这样的比较或有些时空错乱。 第二,Lees由于其教育、工作背景慧眼识真人,先于其他学者立刻看到了当时还是默默无闻的乔氏研究的真正价值,这一点值得称道。在写书评时,Lees已经在MIT从事机器翻译的工作,因此对语言形式化和精密科学化有着比旁人更深的渴求。在乔氏正式开山立派后,Lees不顾资历年龄均长于乔氏做了乔氏第一个“学生”,并在乔氏指导下,完成了PhD论文研究。其课题“动词的名物化问题”,成为转换生成语法学派历史上的第一批文献。不过具有讽刺意义的是,这个课题后来成为生成语法学派第一次大分裂的主要线索,并给了后来强烈反对乔氏理论的生成语义学派第一灵感。这些“江湖恩怨”,在Tomalin的著作中当然看不到,但Lees的研究对实践生成语法的早期理论做出了极大的贡献。 第三,从Lees的书评我们可以看到上世纪50年代由于计算机的发明,符号计算已经提上日程,人工智能研究已初露端倪,对自然语言的关注已经不仅仅是语言学家,而且包括了电子工程学、数学和逻辑学。科学家们热切地期望能有一个指导符号处理的全面综合的语言理论作为基础。乔氏的《句法结构》恰恰适逢其时,而作为有电子工程背景而从事机器翻译的Lees当然马上就意识到了乔氏研究的意义。自Lees的书评发表以后,《句法结构》开始广为人知,乔氏亦从此一跃而成为“著名的”语言学家,开始了60年语言学霸主地位的生涯。 纵观Lees的书评,由于受到时代的局限,对于和物理、化学和生物学能够类比的语言学是个什么样子无法给出一个清晰的图像,尽管书评用了大量的篇幅讨论了化学是如何从炼金术一步步演变过来的,我的感觉仿佛类比当时的语言学仍处在“炼金术”的水平,而乔氏的《句法结构》是将语言学从“炼金术”变成科学的里程碑。现在回过头来看,语言学从彼时经过60年的发展,仍然离精密科学有不小的距离。在当今的乔氏提出语言学最终是生物学的论断之后,语言学到底是什么又成为一个令人扑朔迷离的问题。 Tomlin的著作《Linguistics and Theory and Formal Science》(以后简称“Tomlin的著作”)的研究重点是《句法结构》之前的乔氏理论和思想,这一点确实是一个空白,可谓是一个独辟蹊径,而且是迄今为止关于这个课题的唯一著作。在后面的篇章中,Tomalin非常精彩地总结了转换生成语法理论的基本思想来源,系统阐述了形式科学,特别是20世纪初三大逻辑思潮逻辑主义、形式主义和直觉主义中形式主义(farmalism)思想对早期转换生成语法的影响。具体地说,这种影响包括了下述几个方面: 1.布龙菲尔德、布洛克、哈伍德(Harwood)的公理演绎方法; 2.递归函数理论:哥德尔、克里尼(Kleene)、波斯特(Post)和巴希尔(Bar-Hillel)的理论; 3.以阿伊杜凯维茨和(Ajdukiewicz)巴希尔为(Bar-Hillel)代表的古典范畴语法(AB语法)的逻辑系统; 4.结构式系统理论(constructional system theory) 5.基于逻辑实证主义的“建构式唯名论”(constructive nominalism) 6.卡尔纳普(Carnap)、布龙菲尔德、叶尔姆斯列夫(Hjelmslev)和哈里斯(Harris)的形式句法。 不过作者为了正当化自己的研究,引用了大量文献作为批评对象却有些不恰当,因为这些文献大多数是研究生成语法理论的整个历史或者是某一个历史片段,研究重点不同,为此将所有的文献作者称之为“不完整”、“不恰当”、“无视”等是不公平的。反之Tomalin本人在批评别人时也将焦点切换,从讨论形式科学对转换生成语法的影响转到其它一些议题,例如转换生成语法与结构主义语言学的传承关系、哲学理念以及转换生成语法是否使用了数学、使用了那些数学等等。虽然这些批评材料使我们知道了许多以前不知的转换生成语法研究文献,但焦点的模糊不亚于Tomalin对别人的批评。 3. Chomsky 1966《Cartesian Linguistics: A Chapter in the History of Rationalist Thought》 转换生成语法作为一个理论体系的建立是以乔氏的《Aspects of the Theory of Syntax》(以下简称《Aspects》)为标志的标准理论。《句法结构》和《Aspects》的内容、理念和目标完全不同。 从内容上看,《句法结构》强调的语言结构理论对语法的指导意义并因此引出了转换语法和短语结构语法。与此同时强调“句法”的“自主性”,语义不应当介入到句法研究中。而《Aspects》的内容更像是转换生成语法理论的百科全书,其范围已经从纯粹的语言学研究(更像是结构主义语言学)转向了语言和认知的关系,将“语法”这个纯粹的语言学概念上升到了认知科学的高度:语言能力(linguistic faculty);认为语言学不再是研究调查得来的“话语资料”(utterance corpus),而是研究存在于母语话者(native speaker)内在的“语法”:internalized grammar。 从理念上看,乔氏在《Aspects》中正式与结构主义语言学诀别,特别是与以逻辑实证主义为基础的唯名论(以Quine和Goodman为代表)的哲学思想做彻底的决裂,自此转换生成语法被贴上了唯理主义的标签。 由于《Aspects》还不足以说明标准理论的哲学理念,在《Aspects》的次年,乔氏又发表了《Cartesian Linguistics: A Chapter in the History of Rationalist Thought》,试图证明生成主义的理念是要再来一次“文艺复兴”。 乔氏写道: Transformational Generative Grammar could be viewed as ‘a reawakening of interest in questions that were, in fact, studied in a serious and fruitful way during the seventeenth, eighteenth and early nineteenth centuries’。 乔氏认为转换生成语法的历史灵感来自于几个世纪之前的Port Royal学派的“普遍语法”和Wilhelm von Humboldt的哲学理念。Tomalin对此呲之以鼻,认为“a somewhat disingenuous attempt”(有些故弄玄虚的尝试),并提出批评: Chomsky’s book has never really been taken seriously by linguistic historiographers, who tend to classify it as a work of ideological propaganda rather than as an objective historical assessment of the development of syntactic theory,… (语言学历史学家们从未严肃看待过乔氏的这本书,更倾向于把它归于一种意识形态宣传、而不是客观评价句法历史理论发展的著作)。 从目标上看,《句法结构》的语言学目标是建立指导建立个别语法的语法结构理论,亦即深入研究转换语法和短语结构语法。而在《Aspects》中,这个目标仅仅是另一个更宏伟目标的手段:研究母语话者的“语言能力”(linguistic faculty),使得转换生成语法理论更像是一种跨学科式的研究:其中包括了哲学、心理学、生理学和认知科学。但是研究手段则仍然停留在类似20世纪早期数理逻辑学家们使用的有些证明论式的(proof-theorectic)产生式系统。 当然,Tomalin的著作对《句法结构》以后的转换生成语法没有兴趣,对这些并没有过多的着墨。 4. John Lyons: 1970 《Chomsky》 Tomlin的著作还提到了John Lyons,一位资深的英国语言学家(他的《Introduction to Theorectical Linguistics》使本人受益终生)。Lyons在1970年代曾经写过一本小册子《Chomsky》,对乔氏极是非常客观的推崇。在谈到转换生成语法和美国结构主义语言学、特别是后布龙菲尔德学派时写道: Chomsky’s general views on linguistic theory as presented in Syntactic Structures are in most respects the same as those held by other members of the Bloomfieldians school, and notably by Zellig Harris. In particular, it may be noted that there is no hint, at this period, of the ‘rationalism’ that is so characteristic a feature of Chomsky’s more recent writing. His acknowledgement of the influence of the ‘empiricist’ philosophers, Nelson Goodman and Willard Van Orman Quine, would suggest that he shared their views; but there is no general discussion, in Syntactic Structures, of the philosophical and psycho- logical implications of grammar. 这段引文也出自Tomalin的著作,其中有几点值得注意: 1.《句法结构》的对于语言学的一般性观点和布龙菲尔德学派极其相近。 2.用唯理主义形容《句法结构》的思想根源不太恰当,只适合“当前的”(1970年代的)转换生成语法。 3.乔氏理论的思想来源是逻辑实证主义的思想家Quine和Goodman。 4.《句法结构》并没有讨论哲学或语法的心理学意义。 Lyons的评论的这四个要点,在我看来非常客观、恰当,而且和当时盲目吹捧乔氏、《句法结构》和转换生成语法的流行观点相当不同。而Tomalin对Lyons的批评纯属吹毛求疵: although Lyons returns to the topic of ‘the evolution of Chomsky’s thought from empiricism to rationalism’ (Lyons 1970: 38) later in the book, he does not discuss the influence of Goodman and Quine’s constructive nominalism upon Chomsky’s early work, nor does he assess Chomsky’s later rejection of nominalistic techniques. Instead, the focus of Lyons’ discussion is exclusively upon Chomsky’s better-known 1959 critique of behaviourism. Lyons的原著我只读过日译本,不过对我的影响却是深远的,首先使我早年对乔氏、对生成语法理论的狂热开始转向更加理性,通过多年的学习,更加认同Lyons的评价,而这些评价无一不和“市面上”的流行观点完全相反。 前述的著作始于上世纪50年代,止于70年代,时间跨度为近二十年左右。从1970年代起,随着生成语法理论在语言学界逐渐成为主流理论,其影响不再限于美国并开始扩散到欧洲、日本和韩国。这个时期的生成语法正在经历着“痛并快乐着”的阶段,首先,乔氏已经以标准理论一统江湖,转换生成语法理论已成为美国语言学占绝对支配地位的理论;但同时这个学派正在经历建派以来第一次大的分裂:生成语义学派一度使乔氏处于几乎被取而代之境地。要理解以下文献的内容,我们的关注点件集中在《句法结构》前后直到标准理论建立之际、亦即1950年代到1960年代中期十多年这个期间。 自《句法结构》成功之后,乔氏不再满足于作为和美国结构主义学派并列的地位,开始筹划更大的计划: 首先,乔氏要表明:这个语法理论不仅仅是语法结构的理论,而是包括了哲学、心理学、语言习得、认知科学和生物学的全领域的全新的综合科学。为了这个目标,乔氏的第一步就要在哲学思想上和语言学研究方法上与他的老师,包括Goodman、Quine和Harris彻底决裂,但这对乔氏来说是件很痛苦的事情。首先,早期的生成语法理论打着深深的逻辑实证主义的烙印,也是乔氏语言学思想的安身立命之所; 第二,转换语法的基本思想来自于Harris。即要与自己的老师分道扬镳又要继承发展老师的学术思想,这对任何人来说都不是轻而易举的事情。但乔氏为了自己的远大理想成功地做到了。他接过Harris“转换”这个基本思想对其进行了彻底的改造和包装。在Harris的理论中,转换只是探讨dicourse(文本篇章、话语)中句子之间存在的rephrasing(改述)关系,例如,一个带宾语的主动句可以“改述”为相应的被动句,一个直陈句子可以“改述”为it is引导的强调句等;在harris的语法理论中,这些句子没有前后主从之分,只是他们之间句法关系的转换机制。乔氏接过来之后,首先进行了改造,设定主动句(相对于被动句)、普通直陈句(相对于it is引导的强调句)为更基本的“核心句(kernel sentences)”,而被动句和it is引导的强调句则成为派生句。 第三,在这个思想的引导下,乔氏仔细研究了当时现存的另外两类句法分析方法: 由Bloomfield提出的直接成分分析法(immediate constituent,简称IC分析法),以及当时刚刚流行的由Claude Shannon提出的信息论(information theory),和由此派生的通信理论的基础马尔科夫链。由于信息论的出现,当时的语言学界出现了一股全面引进信息论思想特别是马尔科夫链所派生的后来称之为有限状态语法的语法模型。乔氏要想在语言学界出人头地,首先要做的的事就是证明IC分析和有限语法的局限性,第二宣传自己从Harris那里继承改造后的转换语法。第三,要从理论的高度建立一套评估语法系统的科学基准,这个基准,就是乔氏的老师Goodman的“系统简单化”原理(system simplicity)。 第四,在定下了这些宏伟目标之后,乔氏开始行动了,在他的博士论文《Transformational Analysis》中,第一次全面阐述了崭新的转换语法的基本原理,使得在Harris理论中简单的技术分析技巧变成了和有限语法、IC分析法并列的、高大上的句法结构分析法之一。这篇博士论文,几经修改后,于1975年以《Logical Structure of Linguistic Theory》的名称公开发表。为了使自己的思想为一般公众所知,乔氏将该论文简化,去除了技术性的分析细节,以展示的方式写成了不到100页的《句法结构》,经当时在MIT电子工程实验室做机器翻译研究的Robert Lees的书评推荐,一举成名。在此之后直到1959年,乔氏全力以赴充实转换语法的内容,并从有限状态语法、IC分析法和转换语法的更细致的分析中重新理顺了这三者之间的关系,在法国学者Schützenberger的协作下,建立了著名的、使之名垂青史的Chomsky Hierarchy(又称Chomsky-Schützenberger Hierarchy)。 第五,在功成名就之后,乔氏开始下一盘更大的棋,要建立个全新(brand new)的理论。要全新,就必须与过去决裂。因此乔氏的第一个行动就是从批评逻辑实证主义入手,这就反映在了1959年对Skinner《Verbal Behavior》中的逻辑实证主义的批判。这是乔氏与自己的老师、也是与过去的自己彻底决裂的宣言。随着在MIT地位的巩固,乔氏开始招兵买马,到处讲学,这使得转换语法吸引了大批年轻学子成为粉丝,后来与乔氏公开决裂的Paul Postal, Goerge Lakoff, John Ross,以及虽然没有公开翻脸但逐渐拉开距离的Jerrod Katz,Emmon Bach,Jackendoff等当时都是乔氏忠实的拥趸。待到兵强马壮之后,乔氏的雄心已经是一统江湖了。在离开了过去几十年赖以生存的逻辑实证主义的温床之后,乔氏要急于找到新的哲学安身立命之所,还是那位法国人让乔氏认识了17世纪的Port Royal的理性主义语法学派,这个学派给乔氏印象最深的就是所谓的Universal Grammar。随后,乔氏同时还读了德国Wilhelm von Humboldt的著作,在他那里也找到了灵感。这些思想成为乔氏对付结构主义语言学和逻辑实证主义的“批判的武器”。破旧是为了立新,为此,乔氏开始把转换进一步拔高,从语言结构理论进一步上升为心理学、认知科学的一部分。句法结构中的核心句概念开始和语法脱钩,在一统江湖的标准理论中变成了深不可测的“deep structure”。当《Aspects》发表时,由Harris简单的句法分析技巧到转换分析中的核心句,最后成功登顶,成为万人景仰的集哲学、心理学、认知学、语言学为一身的深层结构,这也是使转换语法开始迈向转换生成语法的奠基石。然后,就是利用Port Royal借壳上市,宣布转换生成语法是17世纪唯理主义语言学传统的“新的觉醒”:标志就是该学派的理念Universal Grammar在这个一统江湖的新的语法框架之下又一次复活了。 有了以上的故事作为背景,我们将一一审视以下这13部著作以及Tomalin对它们的批评。Tomalin对这些文献的关注点集中两个方面:第一:早期的转换语法和传统的结构主义语言学的关系;第二:指导青年乔氏研究语言学的基本哲学思想到底是什么?关于第一点,一派认为转换生成语法是认知革命,革命的对象就是结构主义语言学;另一派则认为:正是转换语法全面发扬光大了结构主义语言学的传统,是后者在新时期语言学理论的变种。关于第二点,一派认为乔氏在《句法结构》写作之前就已经是形式主义者,是唯理主义的信仰者,而另一派则认为,乔氏的思想是复杂的,尽管1959年时乔氏与过去经验论和实证主义决裂之年,但乔氏的出身决定了他多年后仍然根深蒂固地这个传统之中。 5. Finngeir Hiorth: 1974 《Chomsky: Linguistics and Philosophy》 这部著作是史上第一部完整地研究乔氏语言学哲学意义和来源的专著。 作者认为:1950年代初的乔氏未必真的相信形式的、纯符号的分析能解决语言学研究中的实验性问题,并对Bar-Hillel提出利用逻辑句法和语义与结构主义语言学方法相结合解决自然语言的句法问题公开表示质疑。作者认为,乔氏的早期思想来源于Goodman和W.V.Quine。而数学和逻辑对乔氏的影响体现在作者披露的乔氏与Yehoshua Bar-Hillel之间在1950年代的通信,特别提到了后者的老师:Rudolf Carnap,20世纪中期逻辑实证主义的代表人物之一。 6. Noam Chomksy: 1975 《Logical Structure of Linguistic Structure》 乔氏于1975年,正式出版了流传在学者之间的手稿。在这篇著作的前言中,乔氏回顾了自己的学习生涯和几个对自己影响最深的学者: 在哈里斯的建议下,我在滨州大学和哈佛大学读研究生时选修了逻辑、哲学和数学基础。给我印象最深的是Nelson Goodman对建构系统的研究,因为在一般性的方法论上,这个研究在某些方面和哈里斯的研究非常相似,这对我来说这个研究为似乎为研究分类程序提供了一个合适的学术基础,而我当时认为分类程序是语言学的核心问题。但是Goodman对归纳方法持续不断的批评好像又将我的眼界指向了另一个方向:在原则上归纳方法是不可取的。Goodman关于系统简单化的研究似乎(至少对我)也表明了语言学研究的非分类方法的可能性。而且Quine对逻辑实证主义的批评也使人有理由相信这种研究方法(即非分类)有几分道理。Quine认为科学理论的原则不断受到有系统的经验积累和随时可能调整的挑战,而诸如一般性的简单化的原则应当是指导性的原则。 Tomalin认为乔氏早期思想的来源基本上可以从上述文字找到线索:哈里斯的结构主义思想和Goodman、Quine的建构式理论。 7. Dell Hymes John Fought: 1975 《American Structurism》 作者在这里的全新思想是:后布龙菲尔德学派并不是铁板一块,并不存在一个统一的结构主义语言学学派,所以所谓乔氏对结构主义学派的最后清算云云是无稽之谈。布龙菲尔德之后的美国结构主义语言学家们其实各自的理论认知和研究实践大相径庭。而乔氏的语言学理论,借用Lyons的话,毋宁说是后布龙菲尔德时代一部分结构主义语言学家的句法研究方法战胜了同一学派的其它研究方法;具体地说,是哈里斯的句法转换学派战胜了以Trager和Smith为代表的传统结构主义研究方法。因此乔氏早期的转换语法,在Hymes和Fought看来只不过是哈里斯句法转换学说的一个变种而已。 8. Frederick Newmeyer: 1980/1986 《Linguistic Theory in America: the First Quarter-Century of Transformational Generative Grammar》 这部著作是史上第一部全面总结生成语法发展历史的专著。作者自称在意识形态上是马克思主义者,在语言学的立场上更接近生成语义学派。而他这部著作现在被称颂为生成语法的官方史。国内介绍生成语法的大部分书籍全都参考了这部著作,例如徐烈炯的《生成语法理论》。由于这部著作的强大影响力,Tomalin的批评基本可以无视,几个关键词足可窥见其批评立场:选择性的、莫名其妙地忽略… 关于乔氏对于结构主义语言学的态度,Newmeyer的观点已成为最流行的观点,从而成为国内所有介绍、评价生成语法的著作的唯一根据:乔氏全面批判了结构主义语言学的世界观和方法论,建立了以唯理主义为其核心思想的先验语言学理论。由于Newmeyer这部著作的巨大影响力,后来曾出版过第二版。如果有时间,本人将发表对这部著作的书评或读书笔记。 9. Stephen Murray: 1980《Gatekeepers and the Chomskian Revolution》 这部著作的最大特点就是第一次揭示了乔氏早期研究活动不但没有受到结构主义语言学派的阻挠和反对,相反,当时该学派的首领式人物Bernard Bloch曾经积极鼓励乔氏出版其著作。因此Murray认为早期转换生成语法与后布龙菲尔德的结构主义学派不但不是敌对关系反而是共生、甚至是继承和发展的关系。 10. Peter Matthews: 1993 《Grammatical Theory in the United States from Bloomfield to Chomsky》 这部著作被Tomalin称作1990年代研究生成语法史最重要的研究之一。正是在这部著作中,作者第一次将前面介绍过的Newmeyer的《Linguistic Theory in America》称作“转换生成语法的官方史”。而Matthews本人的著作可以看做是和Newmeyer著作观点的对立物:亦即,基本上属于Lyons、Hymes和Fought、Murray这条主线,认为乔氏的转换语法是对结构主义语言学的修正和发展,而不是全面批判。在这方面的证据,Murray的著作是拿出了史料证明结构主义语言学的领军人物之一Bloch对年轻乔氏的鼓励态度,而Matthews则是从学术角度考证了生成语法与结构主义语言学观点上的相似点。例如,生成语法认为句法一旦建立就可以对未知的句子的合法性有预知能力。这个观点其实早在1948年就由结构主义语言学的代表人物之一Hockett提出来了。Matthews的著作全面考察了在语言的形式和意义关系问题上后布龙菲尔德学派和乔氏的异同。 11. Randy Harris: 1993 《Linguistic Wars》 进入1990年代后,研究生成语法史逐渐成为时髦,开始出现大量文献,甚至走出了学术研究的象牙塔,成为“大众科学”的话题。在这方面《Linguistic Wars》是最显著的代表。对此Tomalin认为“过于调侃或油腔滑调不值得严肃对待”,因此完全略过不提。其实Harris的这本书可读性非常强,有些国内报告文学的味道。这本书最令人感兴趣的部分还是生成语义学派与乔氏的江湖恩怨,父子成仇、亲人反目的悲剧不亚于金庸小说笔下的武林传说。 12. Geoffrey Huck John Goldsmith 1995 《Ideology and Linguistic Theory: Noam Chomsky and the Deep Structure Debates》 这是本Tomalin少有的持正面看法的著作。因为作者提到了Goodman和Quine对乔氏早期思想的影响,特别是建构式系统的哲学思想和系统简单化的方法论,这使得Tomalin认为这部著作符合他为生成语法思想来源所划定的框框。Tomalin对这部书的批评仅限于不够深入等几个不太重要的领域。Tomalin最后的结论是这本书关心得是1960、1970年代语言学的意识形态战争而不是1957年之前转换语法的思想来源。 13. Carlos Otero Edited: 1994 《Chomsky: Critical Assessments》 1990年中期开始,随着越来越多的人加入到研究生成语法史的行列,1994年已经可以出版多名学者的论文集了。由Carlos Otero 主编的《Noam Chomsky: Critical Assessments》就是这个时期的代表作之一。从立场观点来看,则是对Newmeyer为代表的官方立场的重申和拔高:毫无保留地承认乔氏是对20世纪社会和文化影响最大的、最伟大的思想家之一。其中的基调论文的标题是:乔姆斯基和1950年代的认知革命:转换生成语法的出现。这部论文集汇集了多个学科的学者,包括数理逻辑、相对论、量子力学、计算机科学和其他现代科学的学者。不过,Tomalin认为主编者的基调论文有误导之嫌,因为论文将形式语法理论的历史根源定位于怀特海和罗素的Principia Mathematica,而不是Tomalin心目中的希尔伯特,所以Tomalin认为论文作者“clearly gives a false impresson”。尽管论文作者提到了哥德尔、丘奇、克里尼和波斯特的研究,Tomalin认为仍然不够,因为作者没有提及1940、1950年代语言学领域的研究,因此论文作者会误导读者以为乔氏是第一位关心数理语言学的学者。 14. Stephen Murray: 1994 《Theory Groups and the Study of Language in North America: A Social History》 同期出版的另一部著作,就是前面提到的论文作者Murray。和前面的著作一样,Murray继续发掘史料,研究1950年代转换语法成长过程。而Tomalin对作者的批评也持续不变,认为作者并未深究转换语法与形式科学之间的关系,只是延续了前一著作中关于转换语法和结构主义语言学历史联系的说法。Tomalin认为这部著作最出彩之处在于将生成语法看做是受到托马斯·库恩、特别是《科学革命的结构》的影响,将生成语法看做是一种科学理论。不过作者对生成语法的肯定只限于它的前半期,特别是草创期,而对1980年代以后的生成语法则持完全批判的态度。例如,Murray将1980年代后的乔氏形容为“上了年纪独裁者”(an ageing dictator),认为一群只知溜须拍马的家伙竞相向乔氏献上令人鄙视的华丽谀辞,而MIT对来自各方的批评充耳不闻。Murray认为,MIT已经成为独裁大本营而不是科学研究中心。这一段也是我本人看到的对乔氏后期理论最尖刻的批评。 15. Frederick Newmeyer 1996: 《Generative Linguistics: A Historical Perspective》 对于Newmeyer的这本新书,Tomalin的评价仍然是粗暴、负面的:assertive,superficial,contains numerous obscurities and errors,认为Newmeyer仍然坚持前一本书的观点,了无新意。 16. : 1999《The Emergence of the Modern Language Sciences》 上世纪末出版的两卷集的这部著作汇集了众多学者对生成语法史的最新看法。在这部著作中,出现了一些新提法,例如,Steinberg的论文只看标题就知道多么有刺激性:《How the Anti-Mentalist Skeletons in Chomsky's Closet Make Psychological Fiction of his Grammars》(乔氏衣橱中的反心智主义衣架是如何撑起他的心理语法的神话的)。这篇作者认为1950年代,乔氏是一位狂热的形式主义者和反心智主义者,虽然他从1959年开始转向了唯理论的立场,但从未与他早期的经验论彻底决裂。Tomalin的批评是,既然早期的乔氏是经验论者,为什么不提及Goodman对他的影响? 17. Giorgio Graffi: 2001 《200 Years of Syntax: A Critical Survey》 这是新千年开始后评价早期生成语法理论的第一部著作。这部著作是按照Tomalin的标准最合格的专著,因为它即提到了Goodman Quine对早年乔氏哲学思想的影响,也提到了哈里斯结构主义语言学与乔氏语言学思想的传承关系,甚至提到了Bar-Hillel对早期生成语法的贡献以及与乔氏关于逻辑句法和语义在语言学研究中的地位的讨论(甚至争论),Tomalin对这部著作的唯一批评是所有这些内容都是“too brief”。 18. Peter Matthews 2001 《A Short History of Structural Linguistics》 Tomalin列举的最后一部著作,认为这部著作只是重复该作者前一部著作观点,了无新意,不值一提。 笔者自己加上的最后两篇论文将放在本书笔记最后,其内容也是本书作者仅仅提及但没有详细讨论的有关Post的基于证明理论的规则产生式。 从上述的历史回顾我们可以看出,Tomalin的基本思路是:先去设定一个框架: 1. 乔氏的早期的哲学思想和语言学方法与形式科学的关系应当从哪里开始,Tomalin的设定是希尔伯特的形式主义,经Carnap,到Goodman和Quine;另一条主线就是Zellig Harris的结构主义语言学的句法分析; 2. 早期的转换语法和形式科学之间的继承关系; 以这两条主线作为基准,Tomalin认为这18篇文献没有一篇著作符合标准,这就促成了他写作本书最基本的动机。 【附录】作者按照时间顺序列出的历史文献: 1. Emmon Bach: 1964: 《An Introduction to Transformational Grammars》 2. Robert Lees: 1957 《Review of Syntactic Structure》3. Noam Chomsky: 1966 《Cartesian Linguistics: A Chapter in the History of Rationalist Thought》 4. John Lyons: 1970 《Chomsky》 5. Finngeir Hiorth: 1974 《Chomsky: Linguistics and Philosophy》 6. Noam Chomksy: 1975 《Logical Structure of Linguistic Structure》 7. Dell Hymes John Fought: 1975 《American Structurism》 8. Frederick Newmeyer: 1980/1986 《Linguistic Theory in America: the First Quarter-Century of Transformational Generative Grammar》 9. Stephen Murray: 1980《Gatekeepers and the Chomskian Revolution》 10. Peter Matthews: 1993 《Grammatical Theory in the United States from Bloomfield to Chomsky》 11. Randy Harris: 1993 《Linguistic Wars》 12. Geoffrey Huck John Goldsmith 1995 《Ideology and Linguistic Theory: Noam Chomsky and the Deep Structure Debates》 13. Collection 《Chomsky: Critical Assessments》edited by Carlos Otero: 1994 14. Stephen Murray: 1994 《Theory Groups and the Study of Language in North America: A Social History》 15. Frederick Newmeyer 1996: 《Generative Linguistics: A Historical Perspective》 16. Collection 《The Emergence of the Modern Language Sciences》: 1999 17. Giorgio Graffi: 2001 《200 Years of Syntax: A Critical Survey》 18. Peter Matthews 2001 《A Short History of Structural Linguistics》 19. Geoffrey Pullum: 2010 《Creation myths of generative grammar and the mathematics of Syntactic Structures》 20. Geoffrey Pullum: 2011《On the Mathematical Foundations of Syntactic Structures》
黄: 世界语不能算是自然语言吧。 世界语算是准自然语言。诞生不自然,发展自然了。 毛: 实际上有用世界语于日常生活和交流的吗? 有啊,在 “世界语国(Esperantio)”,我有系列博文谈世界语传奇,有空光临:《 我的世界语国 》, 还有《 朝华午拾:世界语之恋 》,名字都挺文傻的。没想到混到理呆的群里来了。 黄: @wei 为什么许多革命者喜欢世界语呢?就是说革命者倾向于拥抱新鲜事物?有创新精神? 黄老师,我觉得所有人都会喜欢世界语,如果有时间领略的话,不带偏见的话。关键是,我们一辈子匆匆忙忙谋生,无暇顾及罢了。世界语是可以让任何喜欢语言的人入迷的东西,不仅仅是革命者。 毛: 革命者倾向于理想化 世界语的魅力和美丽,毛老这样的可以 fell in love,不能自拔的。 北: 语言能用不就得了 严谨不见得是好事,世界语就是垃圾,毫无美感 你不知道你在说什么。美感是一种平衡,你不能领略这种平衡的美妙。 毛: 我觉得这正是一个缩影:革命者倾向于理想化并把事情推向极致,但是在实际生活中却行不通。 北: 同意毛老师 一致化 理想化是革命理想的缩影。 美感既可来自规则的完善,也可来自事物的模糊和朦胧。要看你倾向于科技还是艺术。 北: 从美感来说 语言的最主要功能不是准确表达,反而是不准确的表达。 毛老说得对。Beauty is in the eye of the beholder. 情人眼里出西施。美感无法强求一律。但是严谨度是可以测量的,简洁度是可以测量的,歧义度也是可以测量的。 毛老写程序,会觉得某些程序很美,而文傻写的程序就不美即便 working。这也是语言的美。 毛: 对,物理学家和码农的美感肯定跟诗人不一样。 北诗人也不比洪诗人。诗人之间美感也有不同。 qj: 如果语言无比严谨没有歧义,各位也就没有这工作机会了也没得争辩哈哈哈 那是,要都是世界语,我就没啥活做了,也没的神侃了。是人都可以写个世界语 parser 出来。当然还是比电脑语言难,但是毛老写个 Esperanto parser 没问题。 北: 如果无比严谨 那就是计算机语言了。世界上觉得程序比小说好看的人是有,但是太少了,根本无足轻重。 毛: 世界语也做不到上下文无关吧? 关于美的争论是不毛之争,没有什么价值。 北: 但是可以肯定,如果大家都说世界语是不美的。因为没有了变化和差异性。 上下文无关不无关,是乔姆斯基的陷阱。真个儿满拧。根本就不该使用这个概念来对自然语言做归类。记得30多年前,曾经有很多的论文陷入这个争论,自然语言是无关的,还是敏感的,还是微弱敏感的(mildly sensitive),完全不着边际。还是白老师说得好,本来就是一个毛毛虫,非要画几个圆圈,然后讨论哪一个圈合适自然语言。这是乔姆斯基误导了一代人的一个典型例子。 北: 我知道北京世界语协会的活动地点,在取灯胡同一个饭馆。 中国世界语运动在改革大潮中已经七零八落了。大家忙着挣钱和谋生,少有世界语情趣了。 北: 世界语衰落是历史的必然。 可是我现在自己跟自己还常常说世界语。我女儿受我的影响也学了,所以我们手机 text 对方时候常常用世界语:kara mia, kiel fartas vi? amegas vin! 毛: NLP是大数据处理中绕不过去的一环,以后要是一点不懂这个就不足以言大数据了。 毛: 世界语在世界上的现状怎样? 世界语容易受到两种人的欢迎,一种是革命者,一种是理呆,特别是码农或者学逻辑的人。 大约几千万人吧。大的城市,无论哪里,大多有世界语俱乐部。 毛: 当年瞿秋白就是学世界语的,是吗? 北: 多为迂腐木讷的持左派意见者 很多名人都学过,迷恋或推崇。毛老要是学了,我担保你拍案叫绝。 毛: 但是这个东西毕竟不接地气。 不在这个,在它活生生地揭示了一个语言可以做到怎样的简洁,而仍然保持表达力的丰富。这种极致是难以想象的。 毛: 你讲的也有道理,当年我读《反杜林论》就有点拍案叫绝的味道。 柴门霍夫在简洁和易学里面所玩的平衡是极其艺术的,他在世界语方案发布之前,已经烂熟于心。 用了一辈子世界语,可以找到一些瑕疵,当年可以有另外的设计。但是总体而言,这是在领略一个超级天才的超级表演。自然语言被认为那么复杂、深奥、那么地不逻辑和强盗。到了柴大师手中,变戏法一样,变成如此规整简单,但它仍然不失自然语言的本性,而不是电脑的语言。 北: 那只是一套规则,不是活的语言,我觉得已经失掉了。 毛: 世界语 ------〉 共产主义,柴门霍夫 ----〉 马克思,世界语学者 ----〉革命者 北: 同意毛老的类比,我的实际感受也是如此。 简单说两句 馋馋您 所有的词类都是明确的,没有例外: 名词 -o 动词 -i (-as -is -os -us -u) 形容词 -a 副词 -e 有美丽 bel-a 就有丑陋: mal-bel-a 有 高: alt-a 就有矮: mal-alt-a 有兄弟 frat-o 就有姐妹: frat-in-o 毛: 世界语规则 ----〉 计划经济规则 有爸爸 patr-o 就有妈妈:patr-in-o 有好 bon-a 就有不好 ne-bon-a,or ne bona 这样的语言不是太单调么?是的,要简洁,就免不了单调一些。但是柴大师的高明之处在于,他在把实词规范化以后,有意定义了一批小词,这些小词是需要死记的,但是我们前面说了,这对每一个自然语言都是如此,是语言形式的重要的种类,可以枚举,而且常用,因此没有多少记忆负担。结果,一个语句的单调性被弥补了。因为语句总是由各种小词把实词联接在一起的。语句听起来就开始有跌宕,不再像一个机器人说的话了。 你说他有多了不起。 毛: 不讲世界语的人 -----〉小生产者、自发资本主义、自由主义者 不懂情调的人。 毛: 被翻译成世界语的文学作品多吗? 第一本是《圣经》,柴老自己翻译的。他还翻译了一些名著,以表明语言的表达性。后来的人有很多致力于名著的翻译,包括国内的世界语者。 北: 翻译量不说明问题 得看有没有读者 我的远房师兄周流溪教授翻译了《离骚》。 基本上,所有的名著都有世界语译本了。 毛: 但是这些努力基本上都白费了。 是小众,但是薪火相传,不会灭绝。总有一部分人会被迷住,因此传承。谁知道呢,也许哪一天世界大同了,需要立一个共同中立的标准语,为了反对歧视和政治正确,世界语被选中了呢。 英语成为实际的世界语,连我这个英语专业的人都不平。什么鸟语言,,居然堂而皇之统一了世界。英语丑陋之处太多了。 毛: 所以这个东西跟共产主义的相似度确实很高。 那乔老爷应该喜欢世界语了? 没有报道。他好像没有评论过。乔老爷作为超级语言学家,其实懂的语言不多。有很多批评说,他的语言学受到他的语言能力的局限。 Michaeོl Mi: @wei 柴门斯基的母语如果是汉语,或者其他非拉丁语,设计出来的世界语会是怎样的?抑或无解? 我觉得无解,柴老已经最大限度地把欧洲语言抹平了。 毛: 如果有人采访乔老爷,这世界语倒是个很好的话题。尼克? 如果要想进一步抹平印欧语系和汉藏语系,难度太大,很难自然起来。 毛: 那时候还没有程序设计语言。如果放在现在,柴氏也许会干脆就定义一种形式语言? Michaeོl: 秀才认字读半边。抹平的难度应该不大。剩下的半边用来释义即可 反正我觉得柴门霍夫已经走到极限了,世界上怎么会有这样的语言天才。他就是个眼科医生而已,业余爱好语言,并没有语言学的培训。可是语感和对语言学的自发领悟是令人惊异的。只能说,这个世界上存在一些让我等小民高山仰止的人物。他就是一个。崇拜他不亚于崇拜乔姆斯基。 毛: 我正想问你,更崇拜乔老爷还是柴医生? 不赞同乔姆斯基,但是没有乔姆斯基,我们很多东西连一个 reference frame 都没有,无从讨论。 Michaeོl: 柴门应该是把etymology重新梳理了一遍而已。有人要是把说文解字也梳理一遍应该也可以,但中文最大的障碍是创新精神,除去迷信祖宗之法不可变的信徒后就不剩几个了,所以文字改革在中国会很慢 @wei 乔氏还是胜于柴氏。乔氏是爱因斯坦级别的,柴氏还不到牛顿吧。 毛: 要论对于人类的贡献,对于生产力的促进,乔老爷高多了。 柴也到不了牛顿的级别。我看相当于当下在搞统一场论的那些人。 柴氏基本是个江湖艺人,不是乔老爷这样的理论大师。 毛老读《反杜林论》拍案叫绝。我在高中的时候,是读《政治经济学教程》拍案叫绝。因为读得太投入,后来在社科院修《资本论》(必修课),砖头一样厚的,轻松拿A,觉得马克思太啰嗦了。同样的论点 车轱辘转 反复论证 各个侧面 苦口婆心 不厌其烦。 毛: 我到现在还认为这本书不错。我觉得恩格斯的水平其实比马克思高。我是说《反杜林论》不错。 那个我没读。五体投地拜倒在马克思《资本论》以后很多年,才发现和认可了批判马克思的声音。 毛: 苦口婆心 不厌其烦其实倒是好的,但是《资本论》其实是《非资本论》,完全抹杀资本的作用明显脱离实际。 正是,藐视资本,无视资本的作用和价值,这种偏向是致命的。 毛: 所以,我觉得世界语学者有点像人民大学那些一辈子教马列的人。但还是要好一些,无用总比有害好。 马克思虽然是严谨的学者,至少写《资本论》比《共产党宣言》要冷静得多,但是骨子里他是带着对资本和铜臭的极端厌恶这种情绪去著述的。而对资本和铜臭的厌恶是如此的自然,我们都曾经历过,都有这种体验,都曾痛恨过这个金钱至上的社会风气。 毛: 我觉得他也不是那么严谨,把辩证唯物主义应用于历史研究,按说是很好的,但是他的历史唯物主义就说不上很严谨,把阶级斗争提得太高了。 那个不算。《资本论》本身从形式上看,是严谨的,引用一丝不苟,耗时几十年,呕心沥血,反复推敲。 也做了一些对情绪好恶的抑制,譬如认为虽然是剥削,仍然是在等价交换的框架了。这个等价二字(褒义词)就是压抑了对资本及其人格化的厌恶。 Nick: 恩格斯民科 毛: 他用的是演绎方法,但是演绎的出发点是公理,如果这个前提站不住,那么后面的逻辑运用都是白搭了。其实哲学家们在科学方面都只是民科的水平。 Nick: 恩格斯哲学也民科 毛: 我倒觉得他比马克思还好一些。 北: @Nick 应该叫民哲 Nick: @北 我是generally说票友的意思,比如说你是民鼓。 毛: 鹏兄这民鼓可比许多专鼓高多了。 北: 我的目标是民仁 谢谢 白: 伟哥楼歪了 白: 我赞同“世界语是垃圾” RW: 白爷,愿闻其详 Nick: 我儿子这学期选了门social linguistics(?)的软课,选课主要原因就是老师答应老乔会来。我可以让他问问老乔他怎么看世界语。 美不美不好争,垃圾还是宝贝就更不好争了。你的美味是他人的毒药。 Michaeོl: One man's meat is another man's poison 北: 所以每个人只要真实地忠于自己内心表达观点就好了。因为每个人都只能代表自己 RW: @Michael 让我想起电影 汤姆叔叔小屋 里的一句台词 Michaeོl: @RW 这是新概念英语里一课的题目。在座都学过吧 北: 如果对于你是毒药 没必要因为对他人是美味 就考虑到底该怎么说 洪: https://www.esperanto-usa.org/en/content/noam-chomsky-me-and-esperanto Noam Chomsky, me, and Esperanto Back in the 1970’s, I sent Noam Chomsky, the famous MIT linguist, a letter asking his take on Esperanto. His reply indicated some possible interest (at least, as I recall, on the part of his son), and so I showed his reply to my father, who sent him a letter urging Professor Chomsky to obtain a textbook and other materials and begin learning the language. Chomsky’s reply was, as close as I can recall, “I’m sorry that I cannot meet your expectations, but we all have our priorities. Otherwise life would be impossible.” And that was the end of that. I still have this correspondence, of course, but it is in storage back in the States (and I am in China), but I thought that this tidbit ought to be part of the annals of Esperanto. Mike Jones Beijing 28.Jan.2011 可惜大师没机会学。他priorities是批评美国。不过也是车轱辘话多。少一点车轱辘话,两个世界语也学会了。 毛: 这个Mike Jones是个什么样的人? 他2011年初在北京。 【相关博文】 《我的 世界语 国(1)》 【我的 世界语 国(2)】 【我的 世界语 国(3)】 【我的 世界语 国(4)】 《我的 世界语 国(5)》 《立委随笔:Esperanto: 爱斯不难读》 《一小时学会 世界语 语法》 《乔姆斯基的“ 世界语 ”》 立委 世界语 文章 (1987): 《中国报道:通天塔必将建成》 ZT: 中外名人论 世界语 《立委随笔: 世界语 跟宗教的关系》 《立委随笔:熵和 世界语 》 立委 世界语 论文(1986): 《国际语到汉语和英语的自动翻译》 立委硕士论文: 世界语 句法分析 立委硕士论文全文( 世界语 版) 《 朝华午拾:shijie-师弟轶事(3) 疯狂世界语 》
咱们可以聊聊 为什么叫 center 递归 , 很多人不做区分。自然语言中 , right branching 递归很常见,也常可以超过三层。说的人 , 听的人,都不感觉是负担。道理就在 , 虽然“左括号”在不确定的位置,但他们都归于统一的右边界。这样一来 就不需要栈(该死的栈!)结构的机制来对付它,有限状态就可以了。乔姆斯基没法拿这个常见的所谓递归来批判有限状态,因此他不得不举 center 递归 作为杀手锏。可问题是,自然语言几乎没有什么 center 递归。 雷 : The man who the woman who had lost all the keys was calling all day finally came 白 : 关于印发关于学习落实关于进一步深化改革的决定的若干意见的通知 …… center recursion 的中文例子 这些是人话吗?亏老乔是语言学祖师爷!乔老爷反复给我们洗脑:这不仅是人话,而且是人话的本质。 这就是牵强附会,登峰造极地牵强附会。 雷 : right branching 递归是线性的, 而 center embedding 不是线性的 这里面就形成了这么个 trap , 信服他的人 , 一个是源于他的权威性 , 另一方面是把常见的右递归当成了支持乔老爷的证据。乔形式上没有误导,因为他是严谨的、聪明的,但实际上达到了误导的效果。这就是“递归教”的 fallacy . 雷 : 这个是 right branching sentence : The dog slept on the doorstep of the house in which it lived. 右递归太常见了 , 而且一点也不牵强。典型的句式是 vp 的嵌套: t o ask sb to beg sb to order sb to … 雷 : 我来理解一下你的意思: center embedding recursive sentences 不存在,或不出三层,所以是 fina te state 的? 不是不存在 , 是如此罕见与牵强,而且也从来不超过三层,除非你是恶作剧,因此它绝非语言本性。 雷 : right branching 不足为道,本来就是线性的。 CFG 的 parsing 在理论上是 cubic ,就是因为这个 center embedding 白 : 这么多计算手段怎么会被 center recursion 憋死 ,自动机加几个计数器就可以线性了,只要计数器不爆表。 拿恶作剧和语言游戏作为语言能力的证据,是乔老爷的最大忽悠。 雷 : 我觉得这是数学家和哲学家的通例:形式上的完美。而我们做 NLU 的,从来就不把这个当真,是不是? 既然最多不过三层 , 那么多层有限状态即可轻松应对,三层 就是 3x , 当然还是线性 雷 : 语言学系的人不到计算机系串门 世界上有人把简单的问题复杂化,递归便是一例。 雷 : 呵呵,因为我们不是数学家出身?我同意你的说法:就只有几层,有方法可以对付,不必搬出递归来。 他那些理论真地是折磨人 , 云山雾罩的。有时候感觉 , 全世界语言学家被他玩得够苦。我还算幸运,我们系比较开通,学句法的时候躲开了乔姆斯基,拿 hpsg 来充数。 hpsg 至少比 gb 接地气,尽管它像个要争宠的小妾,每一个分析都要以乔老爷的主流作为假想对象,反复辩白,妾身清白。 雷 : 加州那边不受什么影响吧,走的是另一个路子,如, cognitive grammar , Fillmore Fillmore 了不起, 但过分细琐. F ramenet 很好的概念 但不实用, 以前写【 语义三巨人 】专门论过。 因为它处于语义和语用之间, 不尴不尬。 雷 : 我专门研究过 framenet ,觉得还是不够细 , 同你的琐碎不是一回事。是每个动词的用法还不够全 , 还有就是 Verbnet 。感觉是虎头蛇尾,后面都是学生做的,真正要用起来还不够全面。 我看法正相反。我也仔细研究过它。以后找机会展开与你辩论。 【相关博文】 乔姆斯基批判 《立委随笔:自然语言是递归的么?》 【 语义三巨人 】 【置顶:立委科学网博客NLP博文一览(定期更新版)】
关于乔姆斯基和统计学习的两种文化(编译) (2013-09-25 08:21:18) 转载 ▼ 标签: 乔姆斯基 普遍语法 人工智能 概率模型 统计学习 分类: 科学与人生 关于乔姆斯基和统计学习的两种文化 原文: http://norvig.com/chomsky.html 作者:Peter Norvig(Google公司研究主管,人工智能专家) 一 背景 2011年是麻省理工学院(MIT)建校150周年。2011.5.3-5日,MIT举办了“大脑、心智与机器(Brians,Minds and Machines)”专题研讨会(属校庆系列活动之一)。网址: http://mit150.mit.edu/symposia/brains-minds-machines 研讨会期间有一场主题讨论会(Keynote Panel),题为:黄金时代——人工智能、认知科学与神经科学的发端巡礼 讨论会全程视频: http://techtv.mit.edu/videos/13200-keynote-panel-the-golden-age-a-look-at-the-original-roots-of-artificial-intelligence-cognitive-science-and-neuroscience - 讨论会主持人是哈佛大学心理系教授 Steven Pinker。 参加讨论的人有: Sydney Brenner, 索尔克生物研究所高级研究员(2002年诺贝尔奖得主,在基因编码领域有突出贡献) Marvin Minsky, 麻省理工学院媒体艺术与科学教授 Noam Chomsky, 麻省理工学院语言与哲学系教授 Emilio Bizzi, 麻省理工学院脑科学研究所教授 Barbara H. Partee 麻省大学语言与哲学系教授 Patrick H. Winston 麻省理工学院人工智能与计算机科学教授 在讨论会最后,Pinker向Chomsky发问,如何看待概率模型近年来在认知科学领域到处开花的趋势。概率方法在人工智能、认知科学的黄金时代(上世界70-80年代)并不是科学舞台上的主角。 http://languagelog.ldc.upenn.edu/myl/PinkerChomskyMIT.html Chomsky的回应: (1)确实有许多研究工作在尝试用统计模型来解决各种各样的语言学问题。其中有一些取得了成功。但是大多数是失败的。 (2)那些取得成功的应用,是因为把统计方法跟语言的基本属性(比如普遍语法的属性)结合起来使然。比如在连续语篇中如何识别单词的边界。 (3)如果不考虑语言的实际结构就应用统计方法,那么所谓的成功不是正常意义下的成功。就科学研究的历史经验来说,这种意义上的成功并非主流。这就好像研究蜜蜂行为的科学家只是对着蜜蜂录像,通过记录蜜蜂的历史行为,加以统计分析,来预测蜜蜂未来的行为。也可能统计方法可以预测得很好,但这算不上科学意义上的成功。研究蜜蜂的科学家并不关心这种预测。 二 Peter Norvig对Chomsky的上述看法发表评论 Norvig的文章探讨了以下5个问题: 1) Chomsky的主要观点是什么? 他是正确的吗? 2) 什么是统计模型? 3) 统计语言模型取得的成绩到底怎么样? 4) 在科学研究的历史中,有类似这样的成功吗? 5) Chomsky不喜欢统计模型的到底是什么? Norvig逐一回答了这些问题。主要内容如下: (1) Chomsky的主要观点: A. Chomsky认为统计语言模型取得过工程意义上的成功,但不关科学的事。 B. 为语言事实建模就像收集蝴蝶标本。科学(尤其是语言学)想要的是基本原则。 C. 统计模型无法理解,并不是关于研究对象的洞见。 D. 统计模型或许可以对一些现象做出精确的模拟,但这是迷途。人们并不根据前面出现的两个单词去预测后面一个单词。人们生成句子(词语序列)的方式是从内在的语义到树结构,再到表层的线性词语序列。 E. 统计模型已经被证实无法用于学习语言。因此语言必然是天生的。用语言模型去解释语言是浪费时间。 Norvig的主要回应: A. 工程上的成功确实不是科学目标。不过科学和工程是比翼齐飞的。工程上的成功可以作为科学上成功模型的证据。 B. 科学是事实和理论的混合体。理论过分凌驾于事实之上并不可取。在科学史上,不断积累事实是科研正途,并非异类。关于语言的科学也不应例外。 C. 包含几十亿个参数的统计模型确实难以直观理解。个人确实无法核查每个个体参数的意义所在。但是,人们可以通过了解整个模型的特性而获得对于统计模型合理与否的认知:即一个统计模型是怎样有效的,或者为什么无效,它是如何从数据中学到模型函数的,等等。 D. 基于词概率的Markov(马尔科夫模型)确实无法对所有的语言现象建模。这就像没有概率的简单树结构模型无法对所有的语言现象建模一样。我们需要的语言模型是可以覆盖词、树结构、语义、上下文、语篇等等不同层次语言现象的更复杂的概率模型。Chomsky不能因为旧的统计模型的缺点就一概否定所有的统计语言模型。研究如何解释语言(比如语音识别)的人当中,绝大多数人都认同,解释是一个概率问题。当一个语音流到了我耳朵里,要把这串语音流恢复为说话者的意义,是一个概率问题。爱因斯坦说过,让事情变得简单,直到不能再简单为止。许多科学现象都有随机性。最简单的模型就是概率模型。语言也是这样一种现象。因此概率模型是表达语言事实的最好工具。 E. 1967年,Gold定理指出了形式化的数学语言在逻辑推导上的理论限制。但是,这跟自然语言学习者面临的问题毫无关系。无论如何,在1969年,我们就知道了,概率推理不受这一限制的约束(Horning证明学习概率上下文无关文法PCFG是可能的)。我同意Chomsky所说的,人类具有学习语言的天赋。但是我们对如何获得概率化的语言表示,对统计学习,都还缺乏足够的知识。我认为很可能人类学习语言涉及到概率和统计推理,但是我们并不清楚细节。 (2) 统计模型是一种数学模型,通过给定的数据,训练得到。统计模型通常是概率模型,但并不一定如此。二者的区别很重要。 数学模型:一个数学模型是对变量关系的定义。可以用函数形式定义,即从输入到输出的函数。例如:y = mx + b。也可以用关系的形式定义。例如:(x,y) 满足某种关系。 概率模型:描述随机变量的可能取值的概率分布。例如 P(x,y)。概率分布不再是严格的确定的函数关系。比如:y = f(x) 是确定性的函数关系。 训练模型:通过统计推断,在收集的数据基础上,选取最好的模型,通常也就是选取模型的参数。比如上面例子中y = mx + b 这一函数中的参数m和b。通过选取参数的方式来确定模型。 在Chomsky之前,Claude Shannon提出了通信的概率模型,其基础正是单词的Markov链。如果你有一个10万词的词表,考虑一个二阶Markov模型(该模型刻画了一个单词出现的概率如何依赖其前面的两个单词),那么要确定这个模型的参数,你需要10^15这么多的数据(即10万*10万*10万的三维矩阵的数据量)。要学习获得这个模型,就必须收集数据,同时得想办法处理那些不存在数据的位置(即三维矩阵中值为0的那些位置)。大多数(但并非全部)概率模型都是通过参数训练获得的模型。许多训练模型(也并非全部)是概率性质的。 再看一个例子,牛顿的重力引力模型:两个物体之间的吸引力跟它们的质量和距离的关系为: F = G * m1 * m2 / r^2 这里G是万有引力常量。这是一个训练模型的例子,因为G是由随机试验测定的结果决定的。同时,这又是一个非概率模型(确定性模型),因为它描述了一个明确的函数关系。Chomsky大概不会反对这种意义上的“统计模型”。Chomsky对统计模型的批评主要是针对Shannon那样的需要天文数字那么多的参数的统计模型,而不是只有一两个参数的模型。 万有引力模型还有一个显著特点。该模型是连续的和定量描述的。而语言学中的传统模型往往是离散的、范畴化的、定性描述的。一个词要么是动词,要么不是,并没有关于它的“动词性”(verbiness)的量化程度描述。 还一个相关的概率统计模型是“理想气体定律”(ideal gas law)。这个定律描述了气压 P 跟气体分子数 N ,温度 T ,以及Boltzmann(玻尔兹曼)常量 K 之间的函数关系: P = N * K * T / V 这个公式是从统计力学的基本原理导出的。它是不确定的、不准确的模型。一个完全准确的模型应该是描述每一个个体的气体分子的运动。但这个模型忽视了单个气体分子的位置的不确定性。尽管它是一个统计概率模型,尽管它不能描述全然的真实情况,但是它对气体的整体状况提供了良好的预测 —— 这种关于气体的深刻洞察是无法通过了解单个气体分子的真实运动状况而获得的。 现在,让我们来考虑单词拼写的非统计模型。有一条著名的英语拼写规则:I应在E之前,除非I在C之后 (I before E except C,参见: http://en.wikipedia.org/wiki/I_before_E_except_after_C ) 描述这个现象的概率、训练的统计模型则是: P(IE) = 0.0177 P(CIE) = 0.0014 P(*IE) = 0.163 P(EI) = 0.0046 P(CEI) = 0.0005 P(*EI) = 0.0041 这个模型是从英语万亿词级语料库(corpus of trillion words)中获取的统计数据( http://norvig.com/ngrams/ )。 P(IE) 表示该语料库中的一个单词含有IE的概率。 P(CIE) 表示该语料库中一个单词含有CIE的概率。 P(*IE) 表示该语料库中一个单词含有IE但IE不在C之后的概率。 P(EI), P(CEI), P(*EI)含义仿此类推。 统计数据表明:IE 确实比 EI 常见(0.0177 : 0.0014), IE 在 C 之后出现的情况确实相对少见,但是 P(CIE) P(CEI)。 这是跟传统规则相反的。即便在C之后,IE 仍然比 EI 更常见 (0.0014 0.0005)。 包含CIE 的单词例子如:science,society, ancient,species等等。 上述拼写规则的不足是它的精度(Accuracy)不够高。 Accuracy(I before E) = 0.0177 / (0.0177+0.0046) = 0.793 Accuracy(I before E except after C) = (0.0005+0.0163) / (0.0005+0.0163+0.0014+0.0041) = 0.753 更复杂的统计模型可以在拼写检查这样的应用中使精度达到现在的十倍。( http://norvig.com/spell-correct.html ) 再看最后一个例子,这个不是统计模型,但是是富于洞察力的一个模型。 高等法院法官握手理论(Theory of Supreme Court Justice Hand-Shaking): 高院开庭时,所有法官都会和其他法官握手。法官参加人数为n,取值范围0-9。在给定n的情况下,总的握手次数 h 是多少?下面是三个可能的答案: A. h = n * (n-1) / 2 B. h = Σi = 1 .. n (i - 1) C. (n, h) 有如下对应表 (0,0) (1,0) (2,1) (3,3) (4,6) (5,10) (6,15) (7,21) (8,28) (9,36) 公式A背后的原理是:每个人跟其他人握手次数为 n*(n-1) ,但这样把“张三-李四”和“李四-张三”握手分别记了两次,所以总握手次数应除以2 公式B背后的原理是:为避免重复记次,先对法官按年龄排序。只记岁数大的人跟岁数小的人的握手次数。 公式C背后的原理是,逐一遍历n从0到9的所有情况,把所有握手次数记录下来,构建n和h的对应表。 有的人可能喜欢A模型,有的人可能喜欢B模型,还有些不喜欢乘法和加法的人则可能钟意C模型。但其实这三个模型说的都是一回事 —— 其实是同一个理论 —— 都是从 n 到 h 的函数,可以覆盖n的所有可能取值。可能A 跟 B模型比C模型更有用。因为前两个模型更一般化,可以应付n值增大的情况。 (3) 统计语言模型取得的成功到底怎么样? 成功在这里定义为:对世界做出准确的预测。 · 搜索引擎:100%的训练和概率模型 · 语音识别:100%的训练和概率模型 · 机器翻译:NIST中排名靠前的系统100%的使用统计方法。一些商用系统使用统计和规则混合的方法。在机器翻译系统可以处理的4000种语言对中,统计方法的系统都表现更出色,除了日语-英语之间的翻译。对于日-英机译系统,最好的统计机器翻译系统跟混合系统的表现相当。 · 问答系统:研究尚不成熟。多数统计和概率方法的系统使用搜索引擎来实现问答。IBM的Watson系统完全是概率和训练模型。Boris Katz的START系统是混合系统。所有的系统都至少使用了一些统计技术。 再看一些计算语言学家感兴趣,但不是用在终端用户的技术: · 词义消歧: SemEval-2比赛中排名靠前的系统100%使用统计技术。多数是概率模型,一些使用概率模型加知识库(例如Wordnet)规则的混合模型。 · 指代消解: 主要的系统都是统计方法。 Haghighi and Klein的系统是混合系统,其中规则方法比训练模型更重要。该系统的性能跟统计方法的系统相当。 · 词性标注: 主要的系统格是统计方法。Brill标准器是混合系统。它从统计数据中学习确定性的规则。 · 句法分析: 大多数成功的句法分析系统是统计方法的,主要是概率模型。 显然,说统计模型在语言处理方面所取得的成功有限,是不准确的。事实是,统计模型在语言处理的各项任务中,已经取得了压倒性的优势。 另一个视角是看研究人员的态度。在计算语言学家中,统计方法已经成为被接受的主流方法。(Norvig自己在经历了14年的规则方法后转向概率方法) 上述理由可能会被视为是“工程视角”,那么,接下来,就来看“科学视角”吧。 (4) 在科学史上,统计模型有过成功的先例吗? Chomsky认为,科学史上罕有统计模型的成功例子。 Chomsky的意思是,“精确的模型化这个世界”在科学研究中是罕见的。科学史上的成功标准是,提供对世界的解释 —— 事物为何是它现在这个样子,而不是描述它怎样成为这个样子。也就是说,科学关心的是why的问题,而不是how的问题。 科学的词典释义是“通过观察和试验,对物理和自然界的结构和行为的系统研究”。就这个定义而言,科学对why和how的问题是并重的。看一看《科学》(Science),亦可以达到以管窥豹的效果。Norvig随机地从《科学》中选取了一篇文章的标题: Chlorinated Indium Tin Oxide Electrodes with High Work Function for Organic Device Compatibility (具有高功函数的氯化铟锡氧化电极的有机元件兼容性) (科学杂志文章地址: http://www.sciencemag.org/content/332/6032/944.abstract ) 这篇文章关注“精确地模型化世界”胜过“提供对事物的解释”。 Norvig翻检了一期《科学》杂志的全部标题和摘要,另外也看了一期《细胞》杂志。还有2010年诺贝尔物理学奖、化学奖、生理和医学奖的工作。 结论是,这些研究工作100%的重视“精确地模型化这个世界”胜过“提供对这个世界的解释”。Norvig同时也承认,分辨这二者并不容易,这是一个没有清晰定义的问题。 Norvig甚至还考虑把这个问题抛给土耳其机器人(Mechanical Turk)来回答。不过有朋友告诉他这实在是太难为机器人了。 (5) Chomsky不喜欢什么样的统计模型? 统计模型跟概率模型常常难分彼此。Chomsky反对的是概率模型。 Chomsky(1969)写道:必须认识到,“一个句子的概率”是完全没有用的概念,不管在什么意义上,这都是一个没用的概念。” Chomsky(1957)写道: 我认为……概率模型没有对句法结构的基本问题给出有意义的解释。 Chomsky的依据可以用下面的例子来说明: 1) I never, ever, ever, ever, ... fiddle around in any way with electrical equipment. 2) She never, ever, ever, ever, ... fiddles around in any way with electrical equipment. 3) * I never, ever, ever, ever, ... fiddles around in any way with electrical equipment. 4) * She never, ever, ever, ever, ... fiddle around in any way with electrical equipment. 无论句子中的ever重复多少次,都不影响1、2是合语法的,而3、4是不合语法的。因此,一个n元马尔科夫概率模型在碰到句子中的ever个数超出n值的时候,就分不清1跟3或者2跟4的区别了。概率马尔科夫模型对英语的描写因而是有限的。 这个批评没错。但这只是对马尔科夫概率模型的批评,并不意味着所有的概率模型都因此而要遭到同样的批评。从1957年到现在,已经发展出许多概率模型。上面这4个例子,可以用有限状态模型来描述。此外PCFG(概率上下文无关文法)可以有更强的能力。PCFG比单纯基于范畴的上下文无关文法更容易学习得到。每一个概率模型实际上都是一个确定性模型的超集(superset)。后者只不过是将概率值严格地限定为0、1二值而已。对概率模型的合理的批评必然是因为它们表达能力过强,而不是因为它们的表达能力不够。 在《句法结构》一书中,Chomsky提出了一个著名的例子,同时也是对有限状态概率模型的一个批评: (a)colorless green ideas sleep furiously (无色的绿色思想狂怒地睡觉) (b)furiously sleep ideas green colorless (狂怒地睡觉思想绿色无色的) 尽管a、b的任何部分都是未见于历史上的任何英文文献的,但a是合语法的,b是不合语法的。 就整个句子而言,Chomsky显然是正确的。但说到句子中的“部分”,则并不尽然。下面是一些部分出现的例子: · It is neutral green, colorless green, like the glaucous water lying in a cellar. The Paris we remember, Elisabeth Finley Thomas (1942). · To specify those green ideas is hardly necessary, but you may observe Mr. Lawrence in the role of the satiated aesthete. The New Republic: Volume 29 p. 184, William White (1922). · Ideas sleep in books. Current Opinion: Volume 52, (1912). 撇开关于“部分”的争议不说,实际上,基于统计训练的有限状态模型可以区分上面a、b两例。Pereira(2001)就提出了一个这样的模型,在增加了词类信息后,对新闻语料进行期望最大化的参数训练,计算结果是例a的概率是b的概率的20万倍。为了说明这不是因为这两个句子在新闻语料训练得到模型中有如此区别,Norvig用Google图书语料库(1800-1954)的训练模型重复做了计算,结果是例a的概率为例b的10万倍。如果可以在树结构的基础上计算,则对句子“合语法性程度”的估计效果会更好。而不是像Chomsky提出的基于范畴的语法那样,仅仅只是区分“合语法/不合语法”。 Chomsky对统计模型的另一个异议是,儿童在只有10^8秒的时间里,如何学习10^9那么多的参数(实际上,现在的统计模型的参数已经远远多于1960年代的10^9这个数量级了)。 确实,没有人会提议,儿童学习这些参数是一个一个学的。正确的假设是,那些接近0的参数是批量学习的(就像割韭菜一样,一刀下去一茬尽在手中),而那些高概率值的参数则随着观察数据的不断增加而持续更新。没有人认为马尔科夫模型是对自然语言的一个严肃的模型。但是,概率化的训练模型可以比范畴化的无训练模型更好地表达自然语言。 一个自然语言的科学理论必须正视这样的事实,母语者对很多短语和句子的合语法性,也有拿不准的时候。因此,概率模型可以比范畴化的形式语法模型做的更好。比如: 1) The earth quaked. 2) ? It quaked her bowels. quake这个动词一般在词典中都标记为不及物动词(intransitivie)。因此,根据基于范畴的形式语法模型,上面例1是合语法的,例2是不合语法的。 但是,例2这样的句子又确实有这样的用法。于是基于范畴的形式语法模型就陷入了两难的困境。接受例2和排斥例2都有问题。像这样的问题,在概率语法模型中,就不存在困难。只需要说quake的不及物用法是概率很高的用法,及物用法的概率很低就可以了。 Steve Abney还指出过,概率模型用于对语言变化建模,也更有优势。 Norvig指出,看起来,合语法性并不是范畴化的、确定性的判断,而是概率性的。花时间观察真实语料中的例句是值得的,与此同时,通过内省自己的语言直觉来研究合语法性,也无不妥。观察和直觉在科学研究的历史中并不相悖。只不过,从来都是观察,而不是直觉,在科学研究中占据主流地位。 Chomsky对统计模型的异议主要来自“精确描写”和“科学解释”之间的对立。达尔文对生物学的研究以富于深刻的洞察而著名。但他更强调“精确描写”的重要性。达尔文说“错误的事实对科学研究的进程是有伤害的,而且会有长期影响。但有少量证据支持的错误的观点对科学研究的伤害要小得多。”物理学家费曼也说“物理学可以不需要证明而进步,但没有事实则不可能进步。” 三 两种文化 2001年统计学家Leo Breiman发表了一篇文章《统计建模:两种文化》(Statistical Modeling:The Two Cultures)。(Leo Breiman是加州大学伯克利分校统计学教授 http://www.stat.berkeley.edu/~breiman/ ) 一种是数据建模文化(data modeling culture)。 一种是算法建模文化(algorithmic modeling culture)。 前一种文化的要点是:自然界可以被看作是一个黑盒子,有相当简单的模型把输入数据跟输出数据对应起来(在这个过程中,可能有随机的噪音掺入)。统计学家的任务是选择一个基本的模型,可以反映自然界的这种真实的数据对应关系。 后一种文化的要点是:自然界的黑盒子不一定能靠简单的模型来描写。复杂的算法(比如支持向量机SVM、决策树、深度信念网)可以估算出从输入数据到输出数据的函数,但是,我们不能期望这样的函数形式可以反映自然界的真实本质。 大约98%的统计学家是前一种文化的拥趸,2%的统计学家和许多其他领域的研究者(特别是研究复杂现象的学者)支持后一种文化。 Chomsky着力反对的是后一种统计文化。不是仅仅因为这样的模型是基于统计的(或基于概率的)。而是因为这样的模型宣称是对现实的精确刻画,但却不易被人解读。同时这样的模型没有对自然的生成过程做出解释。换言之,算法建模只是描述了发生了什么,但没有回答为什么会这样的问题。 Breiman在文章中解释了他为何反对第一种文化(数据建模)。基本上,基于数据建模得到的那些结论都是关于数据的,而不是关于自然本身的(Norvig在2000年听火星登陆计划负责人James Martin说过,他作为太空工程师的工作不是登陆到火星上,而登陆到由地质学家提供的“火星模型”上)。问题是,如果模型对自然的刻画不够好,那么由这些模型得到的结论就可能是错的。比如,线性回归(linear regression)是统计学家的百宝囊中最强大的工具之一。因此,许多分析都从“假设数据是由线性模型产生得到的……”开始。如果数据实际上不是由这样的线性模型产生,那么对实际模型应该长什么样就会缺乏足够的分析。此外,对于复杂的问题,往往有许多不同的好的模型可供选择,它们对数据的适应性相差无几。统计学家如何做出选择呢?Breiman想说服我们放弃这样的信念:我们可以得到关于自然的模型的唯一形式。如果我们能得到一个模型,该模型可以对观测数据做出很好的解释,并且能对未出现的数据做出不错的预测,我们就应该感到很满意了。Chomsky则走上相反的一条路:他更喜欢简单的优美的模型,因此而放弃能很好地刻画数据的模型(这样的模型在数学上可能是很复杂的)。Chomsky认为数据(他称之为语言表现 language performance)是不能作为语言学的研究对象的,语言学真正面对的对象是语言能力(language competence)。 2011年1月份,电视名嘴Bill O'Reilly 因“潮起潮落,你如何解释”而掀起争议。他是信上帝的。反对者嘲笑他不知道潮汐现象可以用太阳、地球、月亮的引力作用来解释。这个解释最早是1776年由Laplace提出的。当拿破仑问Laplace为何在他的解释中造物主没有一席之地,Laplace说,“我不需要这个假设。”O'Reilly似乎也不知道Deimos和Phobos等等其他关于太阳系的天文知识。不过,O'Reilly却不以为然,批评者认为他在天文学方面的无知并没有什么了不起,因为他的支持者们认为他直接触及到了更本质的问题——为什么(Why)?他不关心潮汐怎样(How)工作。他要问的是,它们为什么工作。为何月亮在恰当的距离来制造美妙的潮汐。为什么引力这样工作?等等等等。O'Reilly是对的。这些问题只能靠编造故事、宗教或哲学来回答,科学回答不了这样的问题。 Chomsky的哲学理念是:我们应该关注深层的“为什么(why)”,只是解释表层的现实是不够的。在这个意义上,Chomsky其实跟O'Reilly是同路人。Chomsky相信语言理论应该简单且可理解,就像线性回归模型那么简单,我们需要做的,只是估计斜率和截距。 举个例子,考虑著名的 pro-drop(代词脱落)语言(这个概念来自Chomsky 1981)。 英语中,可以说 “I'm hungry” 但是在西班牙语中,同样的意思要说“Tengo hambre”(字面上相当于:have hunger),代词(主语)Yo 脱落了。Chomsky的理论是,语言系统有一个 pro-drop参数。该参数的取值,在西班牙语是“ture”(真),在英语是“false”(假)。如果我们可以找到描述所有语言的为数不多的参数,并且确定每个参数的具体取值,我们就真的理解了语言。 问题是,语言的现实比这个理论要杂乱得多。下面是英语中pro-drop的例子: · Not gonna do it. Wouldn't be prudent. (Dana Carvey, impersonating George H. W. Bush) · Thinks he can outsmart us, does he? (Evelyn Waugh, The Loved One) · Likes to fight, does he? (S.M. Stirling, The Sunrise Lands) · Thinks he's all that. (Kate Brian, Lucky T) · Go for a walk? (countless dog owners) · Gotcha! Found it! Looks good to me! (common expressions) 语言学家可以为如何解释上面这些现象争个没完没了。但语言的多样性似乎远比用布尔值(true or false)来描述pro-drop参数值要复杂。一个理论框架不应该把简单性置于反映现实的准确性之上。 从一开始,Chomsky就把注意力放在了语言的生成性上。从这个方面来说,非概率性的理论是合理的。如果Chomsky把注意力放在语言的另一面“理解(解释)”上,如同Claude Shannon所关注的那样,Chomsky或许会改变他的说法。在“理解”这一面,听话人需要对收到的信号进行消歧,决定哪种可能的解释概率最高。这很自然地会被看作是一个概率问题。语音识别的研究者如此看待对语音的解释。其他领域的研究解释的科学家也是如此。天文学家Laplace在1819年的时候就说过:“概率理论只不过是让人们的常识能够计算。” Chomsky不喜欢统计模型,还有一个原因。因为统计模型会让语言学成为一门经验学科,而不是数学。而Chomsky更喜欢把语言学看作是数学。Chomsky(1965):“语言学理论是心理的,关心的是比实际行为更基础的心理现实。观察语言的实际应用或许可以提供一些证据,但是并不能构成语言学的主题。” 无法想象Laplace会说,观察行星的运动不能构成轨道力学的主题。 物理学家会研究理想的、从实际世界中抽象出来的力学(比如忽略摩擦力),但是这并不意味着摩擦力不能成为物理学的研究主题。 语言是复杂的、随机的、不确定的生理过程,受到进化和文化变迁的影响。构成语言的不是一个外在的理想实体(由少量的参数设定),而是复杂处理过程的不确定的结果。因其不确定性,用概率模型来分析语言就是必然选择。 转载自: Yankee_Tootle的博客 中文原文:http://blog.sina.com.cn/s/blog_591858120101bhpi.html 英文原文: http://norvig.com/chomsky.html 【置顶:立委科学网博客NLP博文一览(定期更新版)】
Seeing Noam Chomsky when visiting MIT. There was one minute three of us (my wife, me and Chomsky) were confined to the elevator when my wife reminded me that this old prof must be Chomsky (in Chinese). Totally unexpected. I was debating whether to say hi to him, but thought it might be too abrupt, especially in such a narrow space. So I only shot a few pictures of him leaving the building to pay my silent respect to one of the greatest men of mankind of any time. Among all scholars alive, he is the most quoted man in this world, living god of linguistics. MIT 掠影 记述了我与领导的MIT之行,话说我们在校园溜达两圈,领导说:这 MIT 名头多大,却好生无趣,不如归去他玩。我忙说,不急,至少得去看了语言学系才好离去,一边解释,不仅仅我是语言学家要去看看语言学系,而是因为MIT语言学系是乔姆斯基的宝地。 乔老爷什么人物?最简单的说法可以是除了上帝外的第一号神人。 顶级语言学家,逻辑学家,电脑理论家,政治活动家,超级持不同政见人士,令美国政府头疼又令美国骄傲的超世纪智者和先知。是活着的被引用最多的作者(仅次于《圣经》和马克思)。 引自 特大新闻: 乔姆斯基 新婚一周年接受采访,谈上帝礼物 语言学系在八楼,很安静,倒是像个做学问的所在。 我指着语言学办公室门外 faculty 照片,跟领导介绍说,这一位便是天下无人不知天上也有影响的大哲乔姆斯基。 领导说,这老人看上去蛮和蔼。我说,可不,据说他极平易近人,虽然他是全世界著作引用最多的 超级 大学者,而且年岁已高,但 没有架子,各处演讲,粉丝要签名留念,他是有求必应。他跟记者说(大意),有粉丝愿意听自己的演讲,那是一种 privilege,自然不能怠慢。 说着话,我们在语言学系楼道转了两圈,想看看有没有办公室标有乔姆斯基的大名。其他教授都有办公室,唯独没有他的,心想,他老人家早退休了,估计也不会再来系里指导了,现在只是荣誉挂职,自然没有。我顺便从语言学系八楼楼道拍了几张古怪建筑物的照片,便准备下楼。 领导与我刚进电梯,有一位白发驼背老者过来,领导赶忙按住电梯门让老人进来,老人家点头称谢。 领导眼尖,突然跟我用汉语说,这不是图片上那个老教授么?我仔细一看,可不,原来是乔姆斯基本尊,只是比照片更显苍老。三生有幸啊,居然与乔老爷在同一个电梯。就我们仨在这狭小封闭的空间,语言学学生面对语言学上帝,即便有领导在侧,也感觉时间短暂而漫长,心跳之声可闻。 领导小声提醒,要不要打个招呼?我心跳加速,犹豫着是请求签名,还是提出合影留念,手机就在手上呢。可又怕言语举止不当,惊吓了老人,那就太唐突了。电梯呼呼下行,我的思维也呼呼乱转,始终一片混沌。等到电梯门开,老人开始缓缓离去,我终于一个字也没发。心里觉得窝囊极了。造访语言学系本就是冲着他老人家来的,见到本尊,却反而退却了。这事儿做的。 直到老人走得渐远,我才想到用手机,赶紧抓拍几张伟人老迈的离去背影。 Download Download 背影与一般老人无异,这可是人类几千年不遇的哲人啊,不在任何历史圣人之下。 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 这样的巧遇真的是缘分,可遇不可求啊 好故事,几张插图拍的很有味道。也跟着一起认识大牛 【姐妹篇】 欧阳锋:巧遇语言学新锐 - 乔姆斯基 2015-04-15 MIT 掠影 2015-04-14 【我的关于乔姆斯基的博文】 乔姆斯基批判 泥沙龙笔记:从乔姆斯基大战谷歌Norvig说起 特大新闻: 乔姆斯基 新婚一周年接受采访,谈上帝礼物 从 colorless green ideas sleep furiously 说开去 【Church - 钟摆摆得太远(2):乔姆斯基论】 乔氏 X 杠杠理论 以及各式树形图表达法 《立委随笔:乔姆斯基的“世界语”》 《立委随笔:自然语言是递归的么?》 【科普小品:文法里的父子原则】 立委随笔:Chomsky meets Gates 《立委推荐:乔姆斯基》 Dad, can you explain Chomsky's X-bar Theory to me? 科学网—【立委科普:语言学的基本概念】
特大新闻:乔姆斯基(乔老爷)在新婚一周年接受采访,谈上帝礼物,与杨振宁惊人一致 五年前丧偶,当时他极度沮丧和绝望,对没有爱的生活他看不到任何生活的意义。如今他老当益壮,格外活跃。祝福他。 乔老爷什么人物?最简单的说法可以是除了上帝外的第一号神人。 顶级语言学家,逻辑学家,电脑理论家,政治活动家,超级持不同政见人士,令美国政府头疼又令美国骄傲的超世纪智者和先知。是活着的被引用最多的作者(仅次于《圣经》和马克思)。 http://www.democracynow.org/2015/3/3/noam_chomsky_on_life_love_still At the age of 86, Noam Chomsky remains as active as ever in his work as a world-renowned political dissident and pioneering linguist. He has also opened a new chapter in his life, recently celebrating a one-year anniversary with his new wife, Valeria Wasserman Chomsky, his second marriage. Chomsky discusses the joys of newfound love and why it is a privilege for him to help people make sense of a very difficult world. TRANSCRIPT This is a rush transcript. Copy may not be in its final form. AMY GOODMAN : Noam, you’re headed off on a Latin America trip right now for a month. You’ll be in Brazil. You’ll be giving talks in Argentina. When you go to Brazil, you’re going to be meeting your new family. NOAM CHOMSKY : That’s correct. AMY GOODMAN : And I was wondering if you could talk a little about that? NOAM CHOMSKY : Well, we’ve been talking about a variety of things that range from unpleasant to horrific, but we shouldn’t overlook the fact that the world has some wonderful things in it, too. And I got an unexpected, wondrous gift from Brazil that fell into my arms not long ago. We’re now—Valeria—we’re now about to celebrate our first anniversary and off to Brazil to meet Valeria’s family. AMY GOODMAN : And what is that like for you? You are seen around the world, by many, as—not only as a person who shares incredible political insight in the world, but really as a role model. And so, can you talk personally about your own life? NOAM CHOMSKY : I’m a very private person. I’ve never talked about my own life much. But, you know, I’ve—personally, I’ve been very fortunate in my life, with—there have been tragedies. There have been wonderful things. And Valeria’s sudden appearance is one of those wonderful things. AARON MATé: You said, after your first wife, Carol, died, that life without love is empty—something along those lines. Can you talk about that? NOAM CHOMSKY : Well, I could produce some clichés, which have the merit of being true. Life without love is a pretty empty affair. AARON MATé: And your own tireless schedule, keeping up with your lectures, writing extensive articles, and still tirelessly answering the emails, from correspondence from people around the world—when I was in college, I remember I wrote you several times and got back these long, detailed answers on complex questions. And there’s people across the globe who could attest to a similar experience. Do you feel a certain obligation to respond to people? Because nobody would fault you, at the age of 86 now, if you took more time for yourself. NOAM CHOMSKY : I don’t know if it’s an obligation exactly. It’s a privilege, really. These are the important people in the world. I remember a wonderful comment by Howard Zinn about the countless number of unknown people who are the driving force in history and in progress. And that’s people like—I didn’t know you, but people like you writing from college. These are people that deserve respect, encouragement. They’re the hope for the future. They’re an inspiration for me personally. AMY GOODMAN : You mentioned your daughter Avi being an expert on Cuba, among others. You have three children that you and Carol raised, now broadening your family to Valeria, as well. Can you talk about your philosophy of child rearing in a very politically active family? You have said in the past that you thought, because of your opposition to the war in Vietnam, for example, you might spend years in jail. NOAM CHOMSKY : Came very close, came close enough so that by 1967, '68, when resistance activities were at their height—and I was an unindicted co-conspirator in one trial, and the prosecutor announced I'd be the leading person in the next trial, but— AMY GOODMAN : In which trial? NOAM CHOMSKY : Pardon me? AMY GOODMAN : In which trial? NOAM CHOMSKY : These were the so-called trials of the resistance. The first was called the Spock-Coffin trial, although—a lot to say about that. The next ones were called off, mainly because of the Tet Offensive in Vietnam, which convinced the American business community that the war is going to drag on, and they—in a rather significant power play, they compelled Johnson to start backing off. And one of the things they did was end the trials. But it was serious enough so that my wife Carol went back to school after 16 years to get a—finish up with her doctoral degree, since we had three kids to take care of. But during those years, although I was extremely active—I mean, there were times when I was giving seven talks a day and going to demonstrations and so on, but I always managed—took care to spend as much time as I could, quality time, with the kids when they were growing up. AMY GOODMAN : So what gives you hope? NOAM CHOMSKY : Things like what you described, also the wonderful things in the world of the kind that I mentioned, like my wife. AMY GOODMAN : MIT professor, world-renowned linguist, dissident, author, Noam Chomsky. To hear part one of our interview yesterday, when he talked about Israeli Prime Minister Netanyahu’s speech to Congress today, you can go to our website. This is just a clip. NOAM CHOMSKY : Basically, a joint effort by Netanyahu and mostly Republicans hawks from the United States to undermine any possibility of a negotiated settlement with Iran. Neither Israel nor U.S. hawks want to tolerate a deterrent in the region to their violence. AMY GOODMAN : Noam Chomsky. To hear both of our hours of interview with him, go to democracynow.org.
上个星期语言学家乔姆斯基来跟我们演讲,题目叫作 what is language , and why does it matter? (什么是语言,它为什么重要?) 看似朴实然而这种题目简直非大牛不能讲。然而就连叱咤学界近六十年的乔姆斯基对这个问题,依然还是低调的不得了。 他承认自己开拓的“生成语法”(一种普遍的语法描述:它假设所有的人类语言都可以从这种描述中“生成”出来)在整个语言学界很多人已经不赞同了(但是当然,似乎还没有人提出比生成语法好的语言学的基本方法)。他在别的场合也说哪怕生成语法的具体内容全部是错的也没有关系,但是一个基本的认识应该是不容置疑的了,那就是人类独有的某种先天的普适的语言潜能。但是不管是“生成语法”还是其他关于人类先天语言潜能的证明最终都只能靠脑科学,至于什么时候能达到那简直是遥遥无期了。他也依然坚信“笛卡尔式”的科学方法是让语言学成为一门科学的路子。而在语言学中这种方法的实现的几乎唯一可行的原则叫做“最小计算性”( minimal computation ,也是“生成语法”的一个基本前提假设)。 他最后承认对于“语言是什么“这个问题人类还完全没有答案。但是一直在研究中以这个基本问题为出发点,并将这个问题实践为具体的研究方案,才是语言学这门学科的基础和核心。 这句话听上去好像是废话一样。一个学科如果不是缺少一个对基本方法和基本假设的共识的话,这种话也许的确是废话。而语言学目前似乎就是这样的一门学科,虽然大家各自都在自己的阵地上搞的异常热闹,但是不同的分支的学者坐在一起说几句话就像是在不同的世界里一样,不是因为没话讲或是每个人都很深奥,而是大家就语言现象经常有完全不同的方法和假设。 这种分裂也许从大家对乔姆斯基的态度上就可见一般。我这不到一个月像赶集一样见着了语言学很多方向的头牌科学家。研究语法的不用说,一个星期以前就奔走相告一遍遍地说不要忘了去听乔姆斯基。心理语言学的一个教授也是如此,两次提醒我们一定要去啊,不要迟到,乔姆斯基真棒。而研究语言相对论的或者是语言人类学的,基本是对他只字不提。演讲时乔姆斯基一入场,一部分人几乎发出对英雄一样的欢呼。而坐在我旁边的搞语言人类学的同学后来跟我说他差点睡着了,演讲完后搞语言人类学的几个人聚在一起,对老乔煞是不屑,有人还有些愤怒,说乔姆斯基怎么能说“ communication ”对于语言不重要呢——不过这回乔姆斯基对“ communication ”已经不那么恶搞了,记得一年前他演讲中说,对于语言学家,研究 communication 就像想研究眼睛的功能最后集中在眼睛怎么看电视上一样 …. 传统自然科学运用到更复杂的现象上最为人诟病的就是它的数学决定论和还原论的倾向。不管是遵循还是试图突破这些方法去了解更复杂和更宏观现象,至今为止好像还没有什么范式性的成功案例。乔姆斯基的理论之所以有那么大的影响(据说他迄今的引文次数在古今所有西方思想家中排名第八),我想也许是因为他的理论是第一个既有足够的数学底气(主要是逻辑)、又能较完备地解释一类人类现象(即语法)之复杂性和创造性的理论。但即便如此,这样的理论依然不被很多语言学家和研究语言的学者所接收。今天语言学本身的分裂也许最集中和尖锐地体现了自然科学与人类现象、与人文视角的冲突,以及试图弥合它们之间的分歧的努力。C`·P·斯诺在五十多年前提到科学与人文两种文化的分裂。到今天,弥合这个分裂的努力确实有不少,但是科学和人文的裂隙似有愈演愈烈之嫌——有一位人文学者最近指出,至少在五十年前,人文学科在大学中的处境比在今天似乎还好很多。 演讲后的最后一个提问是一个看着应该还在上小学的小朋友。本来都要散场了,但是大家发现小朋友还想问问题时一致鼓励他往主席台走,最后被主持人请上台去当着乔姆斯基和所有人的面提问。他的问题是,我想知道当我看一本书的时候我有我的感受和想法,但是我的朋友看同样一本书的时候会有不同的感受和想法,这到底是怎么回事啊。乔姆斯基说你已经比好多人都厉害了。他大概讲了一些自己的观点,但是他承认,他还完全没有答案,他鼓励小朋友说这个问题就靠你长大去解决了。 今天的语言学哪怕对一个小朋友的问题也说不出个所以然来,这也许是这门学科令人难受,但是也令人为它的前景感到兴奋的地方吧。
《科普随笔:乔姆斯基》 (4031 bytes) Posted by: 立委 Date: April 22, 2007 10:15AM 周末说点语言学:从 colorless green ideas sleep furiously 说开去 (13928) Posted by: liwei999 Date: June 17, 2006 11:25AM 这句“名言”是大名鼎鼎的乔姆斯基(Chomsky)说的。 Noam Chomsky是MIT顶级教授(Institute Professor),各位应该很熟悉了,他不但是一位超级语言学家,而且对于美国外交的强盗主义行径和大众传媒的欺骗主义本质深刻揭露,是所谓的“持不同政见者”,左派人士。据说,他的著作的引用率仅次于《圣经》和马克思,在当代还健在的科学家中首屈一指。他是真正的学者明星,全世界巡回讲演,每到一处,崇拜者云集。著述甚丰,在中下层民众中影响深远。有次在加拿大乘出租,出租司机跟我聊起乔姆斯基来,眉飞色舞,说起自己曾经特意开车一百多公里去听乔姆斯基讲演。 关于乔姆斯基的政见,以后有空再介绍。今天简单谈谈他的语言学方面的影响。乔姆斯基1957年发表了划时代的著作“句法结构(Syntactic Structures)”,史称“乔姆斯基革命”(Chomsky's Revolution)。此前的语言学主流是行为主义主导,讲究细致观察记录言语行为,用归纳法慢慢总结规律。乔姆斯基认为,人生来就有一套语言机制(叫“普遍语法”,universal grammar),后天的语言习得不过是对 universal grammar 的某些参数做调整而已。语言学重点应该研究这种普遍语法的机制。自1957年以来,乔姆斯基在语言学界一直是龙头老大,他的理论也经历了四次大的创新,每次都是他的自我突破,每次突破都引领世界潮流。在语言学历史上,乔姆斯基现象是一个典型的英雄创造历史的实例。没有乔姆斯基,语言学不知道会是什么形态,甚至反对乔姆斯基理论的语言学家也不得不承认,是乔姆斯基提升了语言学的地位以及语言学对其他学科(心理学,哲学,计算机科学)的影响。 谈乔姆斯基的材料,汗牛充栋。今天,我只就乔姆斯基的上述名言做一点介绍。这句名言是,repeat: Colorless green ideas sleep furiously. from: http://paris.unlike.net/event_occurrences/111964-Colorless-green-ideas-sleep-furiously 有一次,我说话漏嘴了,女儿大笑,说:“Dad, it does not make sense at all”。我就趁机跟女儿介绍了上述名言,她居然极感兴趣,整整一天都在那里一边唠叨,一边自娱:“haha, this is the most stupid sentence I have ever heard. How can ideas sleep? Ok, even if it can sleep, how can it sleep furiously? Ideas have color? Green? Come on. Ok, if it is green, how can it be colorless.” 就是,在这个短短的句子中,所有发生语法关系的词,在概念上都不具有兼容性,不 make sense. 可是,每一个 native speaker, 都发现这是 perfectly grammatical English,否则我们怎么能够理解这个句子的荒谬(how do we make sense of nonsense?)。乔姆斯基的这个俏皮的思维实验是要表明,句法结构是可以独立于语义(和概念)的。语言学家在研究语言的时候,应该排除语义的干扰,才能深入了解语言结构及其转换规律。这个观点实际上是有隐患的(此处不谈),但是把句法(syntax)和语义(semantics)分开,在当时确实极大地推进了语言学的研究深度。 有意思的是,nonsense 是相对的,在特定场合,context 能够使得 nonsense 变得有意义。我多年前曾经以世界语的场景作为例子,对此名言做过如下解释(后来一个世界语小报编者还来信要求转载这个近似幽默的解释): Interpreting colorless green ideas sleep furiously Does it make sense? In a certain domain, the Chomsky's famous sentence is well imaginable. Colorless green ideas sleep furiously. Imagine the following context: As we know, Esperantists wear a badge of a green star, a symbol for Esperanto and its ideals. From there, green ideas would be easily conprehensible to their minds. Suppose now comes an opponent to Esperanto, he may say, Your green ideas are really colorless, not only colorless, those ideas are no longer popular! Colorless green ideas sleep now! Well, what is a possible reaction from some Esperantists? Yes, our ideas sleep now. But remember, colorless green ideas sleep furiously! 2006年06月18日 ----------------------------------------------------------------------- 立委补记: 老乔研究语言学的一个出发点就是:人一辈子在有限的语言exposure的环境里面,input is full of fragments, errors, slips of the tongue, etc. 怎么可能学会语言?他最后归结到人与生俱来的universal grammar机制。外在的imperpect input不过启动了这个机制,对其做微调而已。所以再笨的人母语也还是学会了,有语感。不过学第二语言就不同了,因为universal grammar 的 parameters 一旦置值,就有了固化的顽固。第二外语学得好坏各个不同,看造化了,总体来说,女孩比男孩强,所以立委虽为师兄,也不敢在师妹面前逞强。 【成长花絮:自嘲和幽默】 (698 bytes) Posted by: 立委 Date: October 25, 2007 01:23AM 甜甜不时冒出来的傻气和自嘲,极富幽默感,让人忍俊不住。今天早上就有一段,正在她随口胡编顺口溜的时候,我说她nonsense, 然后不知怎么又谈到了乔老爷的名言:Colorless green ideas sleep furiously. “Dad, it actually makes sense to me.” How? “well”, 她边想边造,”colorful green really means fancy green, shining green, …” No, not colorful green, it is colorless green. “Oh, yeh, colorless green is even better, it means transparent green, right? ideas sleep in a beauty sleep dream, too.” beauty sleep? it sleeps FURIOUSLY. “right, that must be a nightmare!” Wow you are really good at inpterpreting nonsenses. “hehe”, 甜甜狡黠地一笑,”I am a nonsense person after all.” 【置顶:立委科学网博客NLP博文一览(定期更新版)】