范畴语法是一个非常重要的描述自然语言的形式化框架。它的基本思想是形式语义学中的组合性思想;它的基本结构是基于高阶函数所生成的句法成分。从形式上,范畴语法以归结为短语结构语法的一个变种,或者说二者是等价的。 范畴语法的思想,首次由阿伊杜凯维茨 (Kazimierz Ajdukiewicz)——上世纪逻辑实证主义华沙学派(Lwow-Warsaw School)的重要人物——提出。他在1935年写下的那篇划时代论文:《Die syntaktische Konnexität》(句法连通性) ,第一次提出将逻辑学方法引入自然语言的研究。这篇论文原文是用德语写成,收录在由阿伊杜凯维茨本人为主编的“Studia Philosophica”(哲学研究)期刊中。 为什么要研究这篇论文?首先,它开创了用形式化的方法,具体地说是用函数和演算作为工具研究自然语言的句法和语义。这一点,和22年后诞生的生成语法殊途同归。但是和生成语法不同的是,范畴语法并不是统一的语言学学派,产生、发展方式更像是数理逻辑,为解决问题A,提出方法S,A的问题没有彻底解决但S本身却提出了新的问题,开创了新的领域,新的领域成为新的学科,更成为其它新学科的理论基础。就范畴语法来说,阿伊杜凯维茨本义是在解决罗素在类型论中要解决的悖论和二律背反(antinomy)问题,特别是语义悖论的问题。按照Bar-Hillel的说法,就连阿伊杜凯维茨本人也没有想到这篇论文会对后世的语言学理论、特别是形式语法理论产生如此大的影响。但历史就是这样:《句法连通性》这篇论文的的确确成为了经典,既是逻辑学中的经典,也是自然语言句法研究的经典,范畴语法核心思想的确立始于阿伊杜凯维茨这篇论文。 同样和生成语法不同的是,范畴语法后来的发展是接力棒式的,阿伊杜凯维茨做了开创性研究,二战以后,由Yehoshua Bar-Hillel接过来,以 《句法连通性》 的基本思想作为主要框架,将结构主义语言学的方法引入其中,并加以扩充发展,成为更加强有力的语言描述工具; 上世纪1958年 ,加拿大数学家Joachim Lambek发表了论文《The Mathematics of Sentence Structure》,以Bar-Hillel的理论为基础,利用群论作为工具,开创了当时称作“代数语言学”(algebraic linguistics)、后称作“句法演算”(syntactic calculus)的关于自然语言的形式化理论。1960年 Bar-Hillel 第一次提出以“范畴语法”作为这种新语法框架的名称,得到学界的广泛认同。 不过,真正运用范畴语法大规模研究自然语言则是1970年代以后的事情。这个倾向的背后,是许多语言学家开始对“生成语法理论”的不满与失望,以及以蒙太古(Richard Montague)为代表的形式语义学派的崛起。蒙太古的语义学一经提出立即引起轰动,成为在语义学领域的“生成语法”。但是这个语义学理论所附带的句法,则非常原始粗糙,这引来了众多语言学家、特别是研究生成语法的语言学家试图将生成语法的句法理论引入该语义理论的冲动,当时在这方面最积极的要算是同时师从乔姆斯基和蒙太古的Barbara Partee(芭芭拉·帕蒂)。不过,从生成语法转行到蒙太古语义论的Emmon Bach(埃蒙·巴赫)却将目光转向了范畴语法,认为范畴语法和蒙太古语义论都来自于逻辑学研究,而且可以统一地用一个approach对自然语言进行全面的句法和语义的研究。这样的研究,进一步吸引了一大批语言学家、逻辑学家和计算机科学家的加入,并对后来的生成语法产生了巨大的影响,例如GPSG(广义短语结构语法)、HPSG(中心词驱动短语结构语法),甚至对主流理论、亦即PP理论也影响巨大,目前的MP(最简方案理论)在理论框架上已经和范畴语法的基本理念上非常接近。这其中,除了学术上的理论之外,也有许多令人难忘的个人恩怨和故事,不过这不是这里讨论的话题。 范畴语法在上世纪1980年代被广泛接受以后,开始有了新的发展,所谓“新的发展”,主要是扩大它的表达能力,能够描述更多的自然语言现象。和生成语法不一样的是,范畴语法没有领军的权威人物,故造成了各自为政,产生了许多不同的分支。 由于范畴语法本身的性质,从事其研究的不仅仅是语言学家、逻辑学家、计算机学家甚至包括数学家、哲学家,大家按照自己的专业从不同的方向基于不同的动机和目的,改造、扩展范畴语法,造成了诸多加了形容词的范畴语法,目前广泛流传的范畴语法主要变种有下列这些流派: (1)组合范畴语法(Steedman 1987, 2000) (2)类型范畴语法(Morrill 1994, Moortgat 2010) (3)pregroup语法(Lambek 1999,2008) (4)抽象范畴语法(de Groote 2001, Muskens 2001) (5)对称范畴语法(Bernardi and Moortgat 2007) 这些流派的共同起点是所谓的“古典范畴语法”,亦即,以阿伊杜凯维茨的《句法连通性》为开端,经Bar-Hillel的论文《A quasi-arithmetical notation for syntactic description》(一种描述句法的准算术式表示法),到Lambek的论文《The Mathematics of Sentence Structure》(句子结构的数学)。通常,Ajdukiewicz和Bar-Hillel的两篇论文,称作是范畴语法的古典形式,简称AB语法。而Lambek的的代数语言学,又称作Lambek Calculus,作为一种独立的理论影响着后来所有有关范畴语法的研究。可以说,现代范畴语法的起点,始于Lambek Calculus。但是从概念上理解范畴语法,还是应当从AB语法开始。 本系列笔记,准备对这三篇论文,做一个俯瞰式的解读,这对于理解范畴语法的现代形式可以提供理论源头和背景的帮助。如果用一句话概括范畴语法的实质,那就是:范畴语法的核心概念是函数,是基于高阶函数的语法框架,因此这个框架可以很容易地转写为lambda演算,进而用Lisp、Haskell之类的程序设计语言描述。 【注1】关于Ajdukiewicz的发音和汉字对译,这里没有按照国内流行的翻译,而是我在google translate上获得的波兰语的发音后自己对译的。可以说最接近原语。 【注2】本论文的英译版,收录在Storrs McCall编辑的《Polish Logic 1920-1934》,译者是Horst Weber。 【参考文献】 1. K. Ajdukiewicz: 1935. ‘Die syntaktische Konnexität’ Studia Philosophica Vol. 1 pp. 1-27. 2. Y. Bar-Hellel: 1953. ‘A quasi-arithmetical notation for syntactic description’ Language Vol. 29, No. 1 pp. 47-58. 3. J. Lambek: 1958. ‘The Mathematics of Sentence Structure' The American Mathematical Monthly Vol. 65, No. 3 pp. 154-170. 4. M. Steedman: 1987. ‘Combinatory Grammars and Parasitic Gaps’ Natural Language Linguistic Theory 5, 403-439. 5.M. Steedman: 2000. ‘The Syntactic Process’ MIT Press, Cambridge MA 6. G. Morrill: 1994. ‘Type Logical Grammar: Categorial Logic of Signs’ Springer 7. G. Morrill: 2010. ‘Categorial Grammar: Logical Syntax, Semantics, and Processing’ OUP Oxford 8. J. Lambek: 1999. ‘Type Grammar revisited’ Logical Aspects of Computational Linguistics pp. 1-27. 9. J. Lambek: 2008. ‘Pregroup Grammars and Chomsky's Earliest Examples’ Journal of Logic, Language and Information 17 (2): 141–160. 10. P. de Groote: 2001. ‘Toward Abstract Categorial Grammars’ Proceeding ACL '01 Proceedings of the 39th Annual Meeting on Association for Computational Linguistics pp. 252-259. 11. R. Muskens: 2001. ‘Lambda Grammars and the Syntax-Semantics Interface’ Proceedings of the Thirteenth Amsterdam ColloquiumEd. by Robert van Rooy and Martin Stokhof. Amsterdam, pp. 150–155. 12. R. Bernardi, R M. Moortgat: 2007. ‘Continuation Semantics for Symmetric Categorial Grammar’ in D. Leivant R. de Queiros (eds), Proceedings of the 14th Workshop on Logic, Language, Information and Computation (WoLLIC07) Springer, New York
什么是“语义学” (semantics),或者,“语义学”是什么?大部分词典都将其定义为语言学的一个分支,研究语言的意义(meaning)。那什么是意义呢?词典的定义是:“语言或其它符号所表示的内容”。那什么是内容呢?词典的定义是:“事物所包含的实质和意义”。这样我们又回到原点:意义就是内容,内容就是意义。 这样看来,所谓的“语义”还真的不好把握。不过在日常生活中我们很少为这个问题发愁。日常语言我们常用“意思”表达“意义”或“语义”。举几个例子: (1)你能告诉我这段话是什么意思吗? (2)“我最近很忙,手机也坏了,领导派我出差,最近这一段不在本地;所以,我们先不要联系了…”“你什么意思?是说我老缠着你吗?” (3)这个英文单词的意思是“访问”。 在这些场景中我们似乎对“意思”的把握很到位,无论是篇章,对话,单词各个层次上的“意义”我们都很熟练的掌握。 有一个和“意思”相近的词叫“解读”。例如上例(2)大概属于解读之类。解读和“意思”有一个区别是前者更接近主观的认知:我认为… 不过,语义也有让人困惑的一面:跟一个天生的盲人,你能说清楚“红”的意思吗?对于别人从未听过见过的、你家乡的一些独特小吃(比如糌粑、糕干、麻豆腐等),你能解释清楚它们是什么吗?恐怕你的解释啰里啰嗦一大堆,已经谈不上是什么“语义”了。这时其实最好的说明方法就是把实物放在你朋友面前让他体验一下(尝尝)就行了。 和汉语不同,英语中表示语义/意义/意思有两个词汇,一个是常见的“meaning”,另一个学术味比较浓,称作“semantics”,通常是指研究语义的学问。那这个semantics到底是什么的?研究什么?我们先简单做个科普。 首先,这个词原本不是用在语言学里,而是逻辑学用语。60年前提到semantics,一般指逻辑命题与真值之间的对应关系。在逻辑学中,任何一个命题都要确定其真值,作为研究论证的基础。这个确定命题真值的过程和理论就是semantics。上世纪1930年代,有人试图将这个术语移植到自然语言的研究,但是人类语言的semantics是什么东西,无人知晓,大部分逻辑学家认为绝对很荒唐:乱七八糟毫无规律可言的人类日常语言能有什么“真值”可以确定?! 随便举个例子: “法国国王是个秃子”可以确定“真值”吗? 当然可以。法国当时已经是第四共和国了,哪有什么“国王”?所以真值为“假”。 喂,先等等。既然法国没有国王,那你凭什么说“法国国王是个秃子”一定是假的呢?不存在的对象我可以随便说它是什么,它不是什么。 不对吧!逻辑学说命题与现实对象没有对应物时该命题应当为假。 你说的更不对。如果说没有对应物,那“法国有国王”这个命题才是假的。退一万步说,即使“法国国王是个秃子”是个假命题,但这句呢? “我舅舅认为法国国王是个秃子”。你就不能说是假的了吧?万一我舅舅真的认为法国国王是个秃子,这句话就为真。 所以,逻辑学家们打不起这个架,大部分人对自然语言都敬而远之,semantics自然也就落不到人类日常语言上来。 而当时的语言学,更多的是用meaning,也就是“意义”、“意思”表达词义、句义,从来没有奢望将语义作为语言学的独立分科。现在有许多人批评乔姆斯基当年在《句法结构》中拒绝将语义纳入语言学研究。我觉得对当时才30岁左右的乔氏来说,有点冤枉,因为当时确实很少人将semantics看做是语言学的一部分,因为一提到semantics,人们马上会联想到逻辑学,而且乔氏的结构主义语言学背景也不可能在那个时候让他能创建一个独立的语义学研究。 巴希勒尔(Bar-Hillel)是当时第一个提出将结构主义语言学与逻辑联姻试图将semantics引进语言学研究的人。不过乔氏拒绝了他,认为逻辑学最多只能为语言学提供一些描述工具,而对语言学研究本身用处不大。 到了1960年代,事情有了变化,搞语言哲学的Katz和Fodor等人加入到了转换语法阵营,专攻转换语法的语义部分。这样,在1965年乔氏发表《Aspects》宣布“标准理论”的基本框架时,语义,semantics第一次堂而皇之地进入了语言学的圣殿,成为当时转换语法的一个组成部分。不过,正像后来许多语义学家所讽刺的那样,在乔氏语法理论的T形图中,厚重的深层结构、转换和表层结构的旁边,漂浮着一个高深莫测的大概是空空如也的盒子,它叫做semantics。 (标准理论的框架是这样的: 深层结构——语义 | 转换 | 表层结构 ) 但是实际上,这个语义学盒子真不是空的,装了许多“语义规则”。这些“语义规则”看上去和短语结构相似,也是用树形图表示的,只不过节点上的不是单词词组,而是一些“语义属性”。这些“语义属性”用大写的英文单词表示。比如kill这个词,它的语义就是MAKE sb DIE。 这样,生成语法里的语义,实际上是用了词典的方法。例如朗曼学习词典,首先假定学习者已经认识了英语2000左右的基本词汇,然后用这些基本词汇定义剩下来的4万多词汇。从学习者角度,或者从语言教育的角度,这是一个创举。但是生成语法拿这个思路描述人类所有语言,就不太现实了。 这样,语义学在1960年代是个混沌的存在,谁都认为语言学应当研究语义,但什么是语义,人们似乎还没想好。 与此同时,在美国西部,有另外一个人,从巴希勒尔对乔氏的建议受到了启发,看来,真正能作为科学的semantics,只能从逻辑学着手了 ,这个人就是Richard Montague。他从乔氏研究句法的成绩受到强烈的震撼,认为这种形式化方法不但可以研究句法、音位,也应当能够研究语义。在美国东部MIT为语义问题吵翻天时,Montague开始试着从一阶谓词逻辑开始,加入自然语言的元素,一点点地扩展。一阶逻辑不够使,再加入二阶逻辑,也就是谓词也可以做变量的逻辑,然后再加入早期为解决数学基础问题的类型论、lambda演算等工具,描述的自然语言现象也一点点扩大,到了1960年代末,Montague终于有了可以拿出手的自然语言的语义学了。在研究方向上,他首先扩展了逻辑的概念,从一阶谓词逻辑扩展到内涵逻辑和类型论,于1973年,发表了《The Proper Treatment of Quantification in Ordinary English》(日常英语中量化现象的严格处理:简称PTQ),一炮而红,获得的名声完全不亚于十几年前乔氏《句法结构》,被盛赞为开创了语义学的新纪元。自此,语义学研究完全上了逻辑学的“贼船”一发而不可收。 现在回到上面的问题:什么是语义?什么是意义?什么是意思? 先把那些比较难的问题,如话里话、话外话、绵里藏针等剔除,把那些所谓“环境因素”、例如说“这房间真冷”的真实意思是让你打开暖气等也剔除,只剩下字面意思。 然后再把范围缩小,只看学外语。这样,我们研究所谓语义/意义/意思好像就有的放矢而且也容易了。那么我遇到一个不懂的外语单词,所谓语义/意义/意思无非就是一部外汉词典,找到外语生词,查一下相应的中文词就明白了。许多人学英语背单词不就是干这件事吗? 如果从外语学习的角度,所谓语义就是背单词:看见一个外语词马上知道中文意思;这种想法并不是完全没道理。 如果我们把视线转向单语,就像上面提到的,朗曼词典的专家们,从4万多单词提取出2000词汇作为基本元素来定义剩下词汇的词义使人在学完2000基本词汇后轻松利用英-英词典,真是功德无量啊。这在语义学上还真有个术语:叫做“义素”,这是比照音素、词素等造出来的,既然语音可以分解成音素、单词可以分解为词素,为什么“语义”不能分解为“义素”呢?有了“义素”概念,可以给单词按照“义素”分类,因某种性质归在一起的同类词,可以叫做“场”(field)。这是受物理学启发,既然有磁场、电场,为什么不能把一堆凑在一起的东西也叫作“场”呢?于是语义就有了“语义场”。明星露面叫“气场”,天安门前那一大块空地叫广场,学者明星走穴叫出场。反正这些够你“语义学”研究的。 现在有个问题,单语字典中那些定义、双语词典中的中外对照,算是语义吗?如果算,下一个问题是:只要我把字典中的定义、外汉词典的中文对译记下来就算掌握这个词的语义了吗?反过来,如果一个中国老农,知道“鲸鱼”这个词,但从未背过什么现代汉语词典的定义,他算不算懂这个词的语义?如果算,他其实真的不知道“鲸鱼”不是鱼(而且中文这个词本身就是误导)。如果不算,他可以在说话时自如运用这个词,“我在电视上看到鲸鱼了”。有人会说,这不是语义问题,这属于百科知识,跟语言无关。但问题是,如果承认百科知识和语义无关,但在判断词义时又要用到百科知识,那么这个“无关”是什么意思?如果有关,那问题更复杂了:人们在理解“语义”时,百科知识和“语义”知识是如何相互作用?是不是研究“语义”同时还要兼带研究百科知识? 最后一个问题是,那些作为定义词的基本词汇,它们的“语义”由什么来确定?如果仍然由这些基本词汇表中的其它词来定义则会陷入循环定义的尴尬中。就像我们刚一开始定义“意义”,意义就是内容;内容是什么?内容就是意义。 除了词义外,就是词组了,例如:全国人大常委会。如何知道它的“语义”。这时候大概真的得用所谓“百科知识”了:你首先要知道全国人大是“中华人民共和国全国人民代表大会”的简称(我还没问你“简称”的“语义”呢),还要知道全国人大的组织机构分大会、常务委员会和许多其它专门委员会,其闭幕时的执行机关是常务委员会,而常委会是常务委员会的简称… 行了、行了,如果我们的语义研究是做这个的,那这个研究是没法做了。 再往上,句子。在句子这个层次,仿佛逻辑学已经给闯出了一条道,那就是从研究肯定陈述主动句开始。因为这样的句子,如果不是太出格,都可以用“命题”的概念“框住”它。不过,逻辑学研究句子语义的结果看上去并不那么激动人心,它只说给定句子的“真值”是什么,尽管在研究自然语言时叫做“语义值”(semantic value),其实只是换了个马甲。 说了半天到底什么是“语义/意义/意思”呢?笔者也没有最终答案,只是将词典里对semantics的定义献给各位看官: The branch of linguistics and logic concerned with meaning. There are a number of branches and subbranches of semantics, including formal semantics, which studies the logical aspects of meaning, such as sense, reference, implication, and logical form, lexical semantics, which studies word meanings and word relations, and conceptual semantics, which studies the cognitive structure of meaning. (研究意义的语言学和逻辑学的分支。语义学又分为几个分支:形式语义学研究意义的逻辑学方面,包括感知义、指称、蕴含和逻辑形式;词汇语义学研究单词的意义和词和词之间的关系;概念语义学研究意义的认知结构。) 如果通过这个介绍你觉得“语义学”很无聊,就此打住。如果你觉得有些意思,那我们下回再聊。 这篇东西,严格说不是什么“笔记”,仅仅是漫谈,适合从未接触过语义学的人。如果你一直在做句法、音位方面的研究,那么在语义领域你会遇到前所未有的全方位挑战:第一个问题就是你如何界定你的研究目标。作为新兴领域,语义学只是一个襁褓中吃奶的婴儿,还谈不上什么成体系的理论架构。 下一篇谈谈语义学研究牵涉到的其它学科:哲学、逻辑学、数学。 【注】 对逻辑学研究语义感兴趣的请参见我在豆瓣【逻辑】小站的读书笔记 《逻辑和语义的关系:第一章 导言 1.2》 请参见我在生成语法小组的发言 《生成语义学派的历史地位》