人类从类人猿一路演化而来,经过了数百万年的演化历史,特别是自欧洲文艺复兴之中诞生出来的科学,经过数百年发展后,不仅成了全人类共同的财富,而且是人类最值得信赖的学问。显然,人类是发现了许许多多的的真理,否则,就不可以解释,汽车、飞机、人造卫星、太空旅行、计算机、互联网、移动通信等无数杰出的发明。不过虽然人类认识了不少真理,但是,如何用自然语言准确地表达真理,却不是一件自然而然或者简单的事情。 1、英语和汉语表达“真理”方面的语言差异 (1)、英语和汉语对“真理”内涵定义的差异 辞海对“真理”的内涵是这样界定的: “同‘错误’相对。认识主体对客观对象及其规律的正确反映。真理具有客观性。既它的内容是不依赖于主体而存在的。只有唯心主义才认为真理是某种精神实体自身的属性,是意识、思维同自身的同一。真理具有绝对性和相对性。人的认识,是由无数相对真理不断接近绝对真理的无限发展过程。要反对思想僵化和相对主义。真理是全面的、具体的。它反映现实的一切方面的总和以及它们的相互关系。真理同错误相比较而存在,相斗争而发展,并在一定条件下相互转化。实践是检验真理的唯一标准”。 牛津英汉大词典对“Truth”的内涵界定如下: I. The quality of being true (and allied senses). 1.a. The character of being, or disposition to be, true to a person, principle, cause, etc.; faithfulness, fidelity, loyalty, constancy, steadfast allegiance. (See also troth 1.) Now rare or arch. 1.b by my truth, as an asseveration. (Cf. troth 1b.) Obs. 2 a. One's faith or loyalty as pledged in a promise or agreement; a solemn engagement or promise, a covenant: = troth 2. Obs. 2.b. spec. in reference to marriage; also, in quot. a 1300, betrothal. Obs. 3.a. Faith, trust, confidence. (Cf. troth 3a.) Obs. 3.b. Belief; a formula of belief, a creed. (Cf. troth 3b.) Obs. 4. Disposition to speak or act truly or without deceit; truthfulness, veracity, sincerity; formerly sometimes in wider sense: Honesty, uprightness, righteousness, virtue, integrity. II.5.a. Conformity with fact; agreement with reality; accuracy, correctness, verity (of statement or thought). 5.b. Agreement with the thing represented, in art or literature; accuracy of delineation or representation; the quality of being ‘true to life’. Also, in Arch., absence of deceit, pretence, or counterfeit, e.g. of imitation of stone in paint or plaster. 6. Agreement with a standard or rule; accuracy, correctness; spec. accuracy of position or adjustment; often in phrase out of truth. So out-of-truth n. Cf. true n. 3. 7. Genuineness, reality, actual existence. 8. Particle Physics. = top n.1 18. “承认真理的客观性,也就承认了真理的绝对性;承认真理的具体性,也就承认了真理的相对性。真理是绝对性和相对性的统一。” “真理的绝对性有两个方面的含义:第一,真理的内容是客观的。一切真理都包含有不以人的意志为转移的客观内容,是主观同客观相符合,它经过实践的检验,同谬误有确定的界限。这是绝对的。在这个意义上,承认了真理的客观性,也就承认了真理的绝对性。第二,人类认识按其本性来说,能够正确反映无限发展着的物质世界。世界.上只有尚未被认识的事物,没有完全不可认识的事物。今天没有认识的,将来会认识。这也是绝对的。在这个意义上,承认世界的可知性,承认人类认识能力的无限性,也就承认了真理的绝对性。真理的相对性也有两个方面的含义:第一,从广度上说,任何真理都是对整个客观世界的某个部分、某个方面的正确反映,世界上还有很多事物,人们没有认识。承认客观世界的无限性,也就承认了真理的相对性。第二,从深度上说,任何真理都是对事物一定程度和一定层次的正确反映,它带有近似的性质,事物还有更深刻的本质、更深层次的规律,人们没有认识。承认事物的层次性、永恒发展性,也就承认了真理的相对性。” “绝对性和相对性是真理的两种属性。任何真理都既是绝对的,又是相对的,是绝对性和相对性的统一。马克思主义是社会实践证明了的真理,是对客观世界的正确反映,它的基本原理和科学体系过去、现在和将来都不会被推翻,这是它的绝对性。但它又是相对的,它并没有穷尽对世界的认识,结束真理,还要随着世界的发展、实践的发展而发展。” “形而上学真理观不懂得真理绝对性和相对性的辩证关系。绝对主义只承认真理的绝对性,不承认其相对性。绝对主义者认为人类可以一下子就能全面地、绝对地认识世界,否认真理是一个过程,否认真理和谬误的相互转化。相对主义只承认真理的相对性,不承认其绝对性。相对主义者认为人类不可能正确地认识世界,否认真理的客观内容,混淆真理和谬误的相互区别。辩证唯物主义者是真理的绝对性和相对性统一论者。真理的绝对性要求坚持真理,真理的相对性要求发展真理。对待马克思主义也是这样,既坚持又发展,在坚持中发展,在发展中坚持。 ” 上面这段有关“真理”论述存在如下问题: (1)这段论述是袁贵仁自己的观点,还是引用马克思经典著作的内容?如果是引用,但没有见到教材中相对应的标注;如果不是引用,那就是袁贵仁发展出来的“特色马克思主义哲学”。 (2)袁贵仁的教材论述的“真理”这个概念,是全称命题,还是单称命题?教材中没有见到有所说明。如果“真理”是一个全称命题,也就是一个集合概念,是由众多的真知命题构成的话,显然,不会是每个真知命题都是绝对正确的,但是,也不能因此就否定一些命题是绝对正确的。例如,永远不可能制造出“永动机” ,“人不能自己抓自己的头发,使得自己离开地面”等等命题,都具有绝对性。 (3)像袁贵仁教材中对于“真理”的绝对性和相对性的论述,因为,没有区分是全称命题还是单称命题,很容易犯用普遍性否定特殊性,或者用特殊性替代普遍性这类逻辑错误。 3、哲学对于科学研究的作用 无须讳言,苏联和中国的科研历史,都曾经发生过用马克思主义哲学指导科学研究。在这种指导思想下,苏联发生过著名的“李森科事件”,中国“文革”期间也发生过,政府曾经组织力量批判爱因斯坦的相对论这种愚昧行为。虽然用马克思主义哲学指导科学研究,给苏联和我国的科学研究带来了巨大的灾难,但是,也不能因此否定哲学对于科学研究的有益作用。其实,对于科学研究有益的哲学,不是马克思主义哲学,而是科学哲学。科学哲学这个领域的历史伟人有:笛卡尔、培根、休谟、马赫、穆勒、波普尔等人。特别是波普尔的证伪学说,得到了众多包括诺贝尔自然科学奖得主科学家们的推崇。“诺贝尔自然科学奖得主梅多沃爵士曾说:‘我认为波普尔是有史以来无与伦比的最大的科学哲学家’。另外两位诺奖得主莫诺和艾克尔爵士也公开承认波普尔对他们工作的影响。艾克尔斯爵士在他《面对现实》的书中写道,‘我的科学生涯许多方面归功于我在1945年的转变,如果我可以这样说的话,那么,这就该归功于波普尔关于科学研究如何进行的教导’,他又写道,‘我在神经生物学基本问题的表述和研究中尽力遵循波普尔的教导。我认为它们使我在力图解决中枢神经系统的某些活动特点方面,理解得更深,进步得更快了’。他奉劝科学家们‘阅读波普尔的科学哲学著作并加以深思,把它们作为科学生命活动的基础’” 不过,针对于波普尔哲学对于科学的“指导作用”,英国著名动物病理学家贝弗里奇教授并不以为然。他对波普尔抛弃归纳法,提出的“假说演绎体系”给予了四点批评: (1)“波普尔图式没有涉及假设的起源,而这无疑是科学发现的真正核心。波普尔称:没有归纳这种东西,他轻率地把创造性思维排斥在他的研究领域之外。” (2)“波普尔的集中否证假说,推翻理论的策略是一种否定的策略。事实上,能够被正确地描绘成是革命性的任何发现,都必定与流行的知识相冲突。” (3)“波普尔主义的中心课题是对假说的证伪--或者试图证伪;但是,这一过程总不可能被划归为严格的逻辑。” (4)“我的第四点批评针对波普尔的另一条规则,这条规则是从他对检验证伪的过分强调中得出的,即唯一有价值的假说是那些对于检验和可能的反驳敏感的假说。但是,许多有价值的假说,包括一些最基本的科学假设,也是不可检验的。例如,进化论虽然则是生物学的基本原则之一,但它却是不可否证的。” 贝弗里奇对于哲学家对于科学研究的“指导作用”,给予了如下评价: “在我看来,职业哲学家有某种局限性,他们缺乏所探讨的课题的第一手资料,而在科学家必须与之打交道的杂乱的实在世界中实际研究却充满不确定性、一知半解和张冠李戴的东西。这正是职业哲学家所缺乏的。他们委身于符号和逻辑抽象的梦幻世界里,虽然符号和逻辑抽象都是重要的工具,但大多数科学家在他们工作的大部分时间里却用得极少。言词很难精准而充分地体现出它们所应用的现象。逻辑只处理言词,即符号,而不处理实在。” 4、疑问 从上文对汉语语境的“真理”与英语语境的“truth”的比较,以及汉语和英语表达涉及真理命题的不同形式,可以得出英语表达的哲学、现代数学及科学观点,翻译成汉语后,肯定因汉语和英语之间差异太大,导致信息失真。 笔者的疑问是,这种因语言方面的原因,导致的哲学、数学及科学方面的概念内涵及外延的失真,对于中国人学习及研究现代数学和科学有没有影响?如果有,影响有多大?如果影响很大的话,能否从小学阶段起,学习现代数学和科学,直接采用英语教材? 5、猜想 基于上面的讨论,笔者认为自然语言和哲学思想教育,对于中国人学习及研究现代数学和科学极为重要。针对政府正在实行的“诺奖人才100”计划,笔者提出如下猜想: (1)在大陆接受了目前本科教育的人,无论以后是否出国深造,获得诺贝尔自然科学奖的可能性几乎为0。 (2)不彻底改革目前马哲原理课程教育,获得诺贝尔自然科学奖的可能性几乎为0。 (3)不从小学开始,现代数学和科学,采用英语教学,批量式获得诺贝尔自然科学奖的可能性几乎为0。 6、不是多余的话 以学习和研究现代数学及科学为标准,汉语相对于英语而言,存在的致命缺陷是显而易见。笔者深知自己无论是语言还是专业,都属于浅薄之辈。目前全国正处于国学热和加强汉语语言地位的热潮之中,笔者这些言论,显然是逆潮流而动。不过,这不是笔者有什么水平,而仅仅是笔者愿意做“皇帝新装”中的小男孩而已。 笔者继续自不量力呼吁: 如果汉语存在的语言问题,不能成为中国知识分子的共识,那么,中华民族肯定永远处于二流民族这个地位。这个真的是不以人的善良的意志和孜孜不倦的努力为转移的。道理非常简单,当今没有一个现代数学和科学水平是二流的民族,成为了世界上执牛耳的一流民族! 参考文献: 1、袁贵仁主编,《马克思主义哲学原理》,北京出版社,2005,p184 2、“永动机”,维基: http://zh.wikipedia.org/wiki/%E6%B0%B8%E5%8A%A8%E6%9C%BA 3、【英】贝弗里奇著,金吾伦、李亚东 译,《发现的种子》,科学出版社,1987,p78
【立委按】 【 NLP主流的傲慢与偏见 】系列刚写了三篇。 中国NLP(Natural Language Processing)前辈董振东老师来函推荐两篇来自主流的反思文章。 董老师说,主流中有识之士对深陷成见之中的NLP一边倒的状况, 有相当忧虑和反思。 Church (2011) 对NLP的回顾和反思的文章【 钟摆摆得太远】 (A Pendulum Swung Too Far)是一篇杰作,值得反复研读。 文章在语言研究中经验主义和理性主义此消彼长循环往复的大背景下 ,考察NLP最近20年的历程以及今后20年的趋势。 它的主旨是,我们这一代NLP学者赶上了经验主义的黄金时代( 1990迄今),把唾手可得的果子统统用统计摘下来了, 留给下一代NLP学人的,都是高高在上的果实。 20多年统计一边倒的趋势使得我们的NLP教育失之偏颇, 应该怎样矫正才能为下一代NLP学人做好创新的准备, 结合理性主义,把NLP推向深入?忧思溢于言表。原文很长, 现摘要译介如下。 【Church - 钟摆摆得太远(5)】 立委编译自: K.Church 2011. A Pendulum Swung Too Far. Linguistics issues in Language Technology, Volume 6, Issue 5. 无视历史注定要重蹈覆辙 在大多数情况下,机器学习、信息检索和语音识别方面的实证复兴派简单地无视PCM 的论辩,虽然在神经网络领域,感知机附加的隐藏层可以看作是对明斯基和帕佩特批评的让步。尽管如此,明斯基和帕佩特对他们所著的《感知机》出版20 年以来领域进展之缓慢深表失望。 “在准备这一版时,我们本来准备‘把这些理论更新’。但是,当我们发现自本书1969 年第一次出版以来,没有什么有意义的进展,我们认为保留原文更有意义……只需加一个后记即可……这个领域进展如此缓慢的原因之一是,不熟悉领域历史的研究人员继续犯别人以前已经犯过的错误。有些读者听说该领域没有什么进步,可能会感到震惊。难道感知机类的神经网络(新名称叫联接主义)没有成为热烈讨论的主题吗?……当然不是,该领域存在很多令人感兴趣的问题和讨论。可能确实也有些现在的发现也会随着时间逐渐显出重要性。但可以肯定的是,领域的基础概念并没有明显改变。今天令人兴奋的问题似乎与前几轮大同小异……我们的立场依然是当年我们写这本书时的立场:我们相信这个领域的工作是极为重要和丰富的,但我们预计其发展需要一定程度的批判性分析,可那些更富浪漫精神的倡导者却一直不愿意去做这种分析,也许因为连通主义的精神似乎变得与严谨分析南辕北辙。 多层网络并不比感知机更有能力识别连通性。” 计算语言学课程的缺陷 正如上面明斯基和帕佩特指出的,我们不断犯同样错误的部分原因与我们的教学有关。辩论的一方在当代计算语言学教科书中已被遗忘,不再提及,只能靠下一代人重新认识和复原。当代的计算语言学教科书很少介绍PCM 三位前辈。在汝拉夫斯基(Jurafsky) 和马丁(Martin) 编著的教科书以及曼宁(Manning) 等编著的两套教科书中根本没有提及皮尔斯。三本教科书中只有一本简要提起明斯基对感知机的批评。刚刚进入此领域的学生也许意识不到所谓“相关学习算法”包含了很多当今非常流行的方法,如线性回归和logistic回归。 “一些其他的梯度下降算法(gradient descent algorithms) 有类似的收敛定理,但是在大多数情况下,收敛只能达到局部最优。……感知机收敛能达到全局最优是因为它们从线性分离机这样一类比较简单的模型中选择分类器。很多重要的问题是线性不可分的,其中最著名的是异或问题。……决策树算法可以学习解决这类问题,而感知机则不能。研究人员在对感知机最初的热情 消褪以后,开始意识到这些局限性。其结果是,对感知机及相关学习算法的兴趣很快消褪,此后几十年一直一蹶不振。明斯基和帕佩特的论文《感知机》通常被看作是这类学习算法开始消褪的起点。” 曼宁等人的2008 版教科书中有简短的文献指向明斯基和帕佩特1988 年的论文,称其对感知机有不错的描述,但并未提及他们的尖锐批评: “对文中提到但本章未进行细述的算法,感兴趣的读者可以参阅以下文献:神经网络方面的毕夏普(Bishop) 、线性和logistic回归方面的黑斯蒂(Hastie) 等人以及感知机算法方面的明斯基和帕佩特等的论文。” 基于这样的描述,学生可能会得出错误印象,以为明斯基和帕佩特是感知机算法(以及当今流行的线性和logistic 回归相关方法)的支持者。 毕夏普明确指出,明斯基和帕佩特绝不是感知机和神经网络的赞许者,而且把它们认作“不正确的构想”予以排斥。毕夏普把神经网络在实际应用中的普及看作是对明斯基和帕佩特上述批评意见的反击证明,认为并非如他们所说的那样“没有多少改变”、“多层网络并不比感知机更有能力识别连通性”。 当代教科书应该教给学生认识神经网络这类有用的近似方法的优点和缺点。辩论双方都大有可言。排除任何一方的论证都是对我们的下一代不负责任,尤其是当其中一方的批评是如此的尖锐,用到“不正确的构想”和“没有多少改变”这样的说法。 乔姆斯基比皮尔斯和明斯基在当代教科书中被提及得多一些。曼宁和舒兹(Schütze) 的教科书引用乔姆斯基的论文10次,汝拉夫斯基和马丁的教科书的索引中共有27 处引用乔姆斯基的论文。第一本书中较少引用是因为它专注于一个相对狭窄的话题——统计型自然语言处理。而第二本教科书涉及面广泛得多,包括音韵学和语音。因此,第二本书还引用了乔姆斯基在音韵学方面的工作。 两本教科书都提到乔姆斯基对有限状态方法的批评,以及这些批评在当时对经验主义方法论的抨击效果。但是话题迅速转移到描述这些方法的复兴,而对这一复兴的论辩、动因及其对目前实践和未来的影响的讨论则相对较少。 “由乔姆斯基1956 年的论文开始的一系列极具影响力的论文中,包括乔姆斯基1957 年的论文以及米勒(Miller) 和乔姆斯基1963 年的论文,乔姆斯基认为,‘有限状态的马尔可夫过程’虽然是可能有用的工程探索,却不可能成为人类语法知识的完整认知模型。当时的这些论辩促使许多语言学家和计算语言学家完全脱离了统计模型。 N 元模型的回归开始于耶利内克(Jelinek)、默瑟(Mercer)、巴尔(Bahl) 等人的工作……” 两本教科书对N 元文法的讨论都是从引用其优缺点开始: “但是必须认识到,无论怎样解读,‘一个句子的概率’都是一个完全无用的概念……。” “任何时候,只要一个语言学家离开本研究组,识别率就会上升。”(弗雷德·耶利内克(Fred Jelinek),当时他在IBM 语音组,1988) 曼宁和舒兹是以这样的引用开始讨论的: “统计的考量对于理解语言的操作与发展至关重要。” “一个人对合法语句的产生和识别能力不是基于统计近似之类的概念。” 这种正反面观点的引用确实向学生介绍了争议的存在,但却不能真正帮助学生领会这些争议意味着什么。我们应提醒学生,乔姆斯基反对的是如今极其流行的一些有限状态方法,包括N 元文法和隐式马尔可夫模型,因为他相信这些方法无法捕捉远距离的依存关系(例如一致关系的限制条件和wh- 位移现象)。 乔姆斯基的立场直到今天仍然是有争议的,本文审阅者之一的反对意见也佐证了这种争议。我不希望站在这场辩论中的某一方。我只是要求应该教给下一代双方的辩论。对于任一方,都不至于由于我们疏于教授而使他们需要重新“发现”。 计算语言学学生应该接受普通语言学和语音学的培训 为了让进入这行的学生对低枝果实采摘完后的情形做好准备,今天的教育最好向广度发展。学生应该全面学习语言学的主要分支,如句法、词法、音韵学、语音学、历史语言学以及语言共性。我们目前毕业的计算语言学的学生在一个特定的较窄的子领域具有丰富的知识(如机器学习和统计型机器翻译),但可能没听说过格林伯格共性(Greenberg’s universals)、提升(raising)、等同(equi)、 量词辖域(quantifier scope)、 空缺(gapping)、孤岛条件(island constraints) 等语言学现象。我们应该确保从事共指关系(co-reference) 研究的学生都知道成分统制(c-command) 和指称相异(disjoint reference)。当学生在计算语言学会议上宣讲论文的时候,他们应该已经了解形式语言学(formal linguistics) 对此问题的标准处理。 从事语音识别工作的学生需要了解词汇重音(如文献)。音韵学重音对于下游的语音和声学过程具有各种各样的影响。 图3 “politics”and“political”的谱图显示有三个/l/同位音。在重音前后出现不同的音位变体。 语音识别目前没有充分利用词汇重音特征是一个不小的遗憾,因为重音是语音信号中较为突出的特性之一。图3 显示了最小对立体 (minimal pair)“ politics”和“political”的波形和谱图。这两个词千差万别,目前的技术着重于语音单位层面的区别: “politics”以 –s 结尾,而“political”以-al 结尾。 与“politics” 不同,“political”的第一个元音是弱化的非重读音节的元音(schwa)。 重音的区别更为突出。在诸多与重音有关的区别中,图3 突出显示了重音前与重音后/l/ 的音位变体之间的区别。另外还有对/t/ 音的影响。“politics”中 /t/是送气音,但在“political”中却是闪音。 目前,在语音单位层面,仍有大量低枝果实可以采摘,但这些工作终有完结之时。我们应该教给语音识别领域的学生有关音韵学和声学语音学的词汇重音知识,以便他们在目前的技术水平超越语音单位层面的瓶颈时依然游刃有余。由于重音存在超过三元音素的远距离依存关系,重音方面的进展需要对目前流行的近似方法的长处与缺陷均有深入的理解。语音识别方面的基础性进展,例如能有效使用重音,很可能要依赖于技术的根本性进步。 结论 学界前辈皮尔斯、乔姆斯基和明斯基曾经严重质疑过当年流行后来复活了的一些经验主义方法。他们的反对意见涉及许多当代流行的方法,包括机器学习(线性分离机)、信息检索(向量空间模型)、语言模型(N 元文法)、语音识别(隐式马尔可夫模型)和条件随机场。 学生们需要学习如何有效地使用流行的近似模型。乔姆斯基指出了N 元文法的缺陷,明斯基分析了线性分离机的局限性。许多局限性很明显(由自身算法设计带来的),但即便如此,对其支持与反对之间的争辩有时仍然非常激烈。有时,其中一方的论点不会被写进教科书,只有等到下一代人去重新发现和复兴这些被遗忘的思想。我们应该鼓励下一代学者充分了解辩论双方的论据,即使他们选择站在一方或另一方。 20 世纪90 年代,当我们复兴经验主义时,我们选择了实用主义的理由来反对我们导师的观点。数据从未如此丰富,我们能拿它做什么呢?我们认为,做简单的事情比什么都不做要好。让我们去采摘一些低枝果实。虽然三元模型不能捕捉到一切语言现象,但它往往比其他方法更有效。捕捉我们可以轻易捕获的一致性事实,要比好高骛远试图捕捉更多语言事实而最终得到更少要好。 这些说辞在20 世纪90 年代有很大的意义,特别是学术界在前一波繁荣期提出了很多不切实际的期望。但是今天的学生在不久的将来可能会面临一系列非常不同的挑战。当大多数低枝果实采摘完毕,他们应该做些什么呢? 具体就机器翻译而言,统计方法的复兴(例如文献)由于实用主义的原因,始于采用有限状态方法。但随着时间的推移,研究人员已经越来越接受使用句法捕捉远距离的依存关系,尤其是当源语与目标语缺乏平行语料库,或者当两种语言具有非常不同的词序的时候(例如,从主谓宾词序的语言(如英语)翻译到以动词收尾的语言(如日语))。展望未来,我们可以预料到机器翻译的研究会越来越多地使用越来越丰富的语言学表达。同样,很快也将有一天,重音将成为语音识别的重要依据。 既然计算语言学教科书不可能涵盖所有这些内容,我们就应该与其他相关科系的同事合作,确保学生能接受到广泛的教育,足以让他们为所有可能的未来做好准备。 选自《 中国计算机学会通讯 》第9卷第12期。本文译自 Linguistics issues in Language Technology , 2011; 6(5) K. Church 的“A Pendulum Swung Too Far”一文。译者:李维(美国网基公司首席科学家。主要研究方向为信息抽取、舆情挖掘等)唐天(美国网基公司首席科学家助理兼助理工程师。主要研究方向为自然语言处理和机器学习)。机器之心授权转载。 【补记】 任何时候,只要一个语言学家离开研究组,识别率就会上升。“ (Fred Jelinek,1988) (关于这句名言,可参见 【立委随笔:文傻和理呆的世纪悲剧(romance tragedy)】 ) 原文【参考文献】列表 References Bishop, Christopher. 2006. Pattern Recognition and Machine Learning. New York: Springer. Bloomfield, Leonard. 1933. Language. New York: Henry Holt. ISBN 90-272- 1892-7. Brown, Peter, John Cocke, Stephen Pietra, Vincent Pietra, Frederick Jelinek, Robert Mercer, and Paul Roossin. 1988. A statistical approach to language translation. In COLING. Brown, Peter, Vincent Pietra, Stephen Pietra, and Robert Mercer. 1993. The mathematics of statistical machine translation: Parameter estimation. Computational Linguistics 19:263–311. Chomsky, Noam. 1956. Three models for the description of language. In IRE Transactions on Information Theory, vol. 2, pages 113–124. Chomsky, Noam. 1957. Syntactic Structures. The Hague: Mouton. Chomsky, Noam. 1965. Aspects of the Theory of Syntax. Cambridge, MA: MIT Press. Chomsky, Noam and Morris Halle. 1968. The Sound Pattern of English. New York: Harper Row. Church, Kenneth. 1980. On memory limitations in natural language processing. Tech. Rep. MIT/LCS/TR-245, MIT. Church, Kenneth. 1988. A stochastic parts program and noun phrase parser for unrestricted text. In In Proceedings of the Second Conference on Applied Natural Language Processing, pages 136–143. Church, Kenneth and Robert Mercer. 1993. Introduction to the special issue on computational linguistics using large corpora. Computational Linguistics 19:1–24. Firth, John Rupert. 1957. A synopsis of linguistic theory 1930-1955. In Special Volume of the Philological Society. Oxford: Oxford University Press. Francis, W. Nelson and Henry Kucera. 1982. Frequency Analysis of English Usage. Boston: Houghton Mifflin. Hall, David, Daniel Jurafsky, and Christopher Manning. 2008. Studying the History of Ideas Using Topic Models. In EMNLP, pages 363–371. Hastie, Trevor, Robert Tibshirani, and Jerome Friedman. 2001. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer- Verlag. Hutchins, John. 1996. ALPAC: The (In)famous report. In MT News International , pages 9–12. Jurafsky, Daniel and James Martin. 2000. Speech and Language Processing: An Introduction to Natural Language Processing, Speech Recognition, and Computational Linguistics. Prentice-Hall. Lyons, John. 1968. Introduction to theoretical linguistics. Cambridge, England: Cambridge University Press. Manning, Christopher, Prabhakar Raghavan, and Hinrich Sch¨utze. 2008. Introduction to Information Retrieval . Cambridge University Press. ISBN 0521865719. Manning, Christopher and Hinrich Sch¨utze. 1999. Foundations of Statistical Natural Language Processing. Cambridge, MA: MIT Press. Miller, George and Noam Chomsky. 1963. Finitary Models of Language Users. In D. Luce, R. Bush, and E. Galanter, eds., Handbook of Mathematical Psychology, vol. 2, pages 419–491. New York: Wiley. Minsky, Marvin and Seymour Papert. 1969. Perceptrons. Cambridge, MA: MIT Press. Minsky, Marvin and Seymour Papert. 1988. Perceptrons. Cambridge, MA: MIT Press. Pierce, John. 1961. An Introduction to Information Theory: Symbols, Signals and Noise. New York: Dover Publications, Inc. Pierce, John. 1969. Whither Speech Recognition. Journal of the Acoustical Society of America 46(4P2):1049–1051. Pierce, John. 1970. Whither Speech Recognition II. Journal of the Acoustical Society of America 47(6B):1616–1617. Pierce, John, John Carroll, Eric Hamp, David Hays, Charles Hockett, Anthony Oettinger, and Alan Perlis. 1966. Language and Machines: Computers in Translation and Linguistics. Washington, D.C.: National Academy of Sciences, National Research Council. Roe, David and Jay Wilpon. 1993. Whither Speech Recognition: The Next 25 Years. IEEE Communications 31(11):54–63. Rosenblatt, Frank. 1962. Principles of Neurodynamics; Perceptrons and the Theory of Brain Mechanisms. Washington: Spartan Books. Simon, Herb. 1960. Management by machines: How much and how soon? The Management Review 49:12–19 and 68–80. Sinclair, John. 1987. Looking Up: An Account of the COBUILD Project in Lexical Computing. Glasgow: Collins. Sinclair, John, Patrick Hanks, Gwyneth Fox, Rosamund Moon, and Penny Stock, eds. 1987. Collins COBUILD English Language Dictionary. Glasgow: Collins. Steedman, Mark. 2008. On Becoming a Discipline. Computational Linguistics 34(1):137–144. Tukey, John. 1977. Exploratory Data Analysis. Reading, MA: Addison- Wesley. Weizenbaum, Joseph. 1976. Computer Power and Human Reason. San Francisco: W. H. Freeman. 【NLP主流的反思:Church - 钟摆摆得太远(1)】 【Church - 钟摆摆得太远(2):乔姆斯基论】 【Church - 钟摆摆得太远(3):皮尔斯论】 【Church - 钟摆摆得太远(4):明斯基论】 【置顶:立委科学网博客NLP博文一览(定期更新版)】
【立委按】俗话说, 铁打的营盘流水的兵。在我们 NLP(Natural Language Processing)这个营盘里,流水的兵过去了不知几拨。但也有像我这样赖在营盘就是不走的兵,任凭潮起潮落。比我更加坚韧的是我的导师一辈,他们早该退休,但还是抵制不了这个营盘的诱惑,仍然孜孜以求,让人钦佩不已。最近与前辈导师有交流,三句不离本行,似乎时光倒转 30 年,让人感慨几何。择要辑录如下,与同仁和后学分享。 》久未通信,但一直很惦记。 也一直说要给您拜年呢,眼看春节到了,学生先给您拜个早年。 》最近看到信息,有说在全球风靡统计和shallow的时候,你仍坚持deep parsing。赞你做的系统非常成功,表现特好 。 谬赞了。我坚持 deep parsing 也有无奈,主要为扬长避短。 统计的路子和语言学的路子确实各有利弊, 但是由于兼通二者的人不多,双方都有贬低对方的时候( 更多的是处于主流做统计的人压住语言学家一头)。其实, 眼光稍微看远点儿,这种状态是很不健康的。 》你的多语言系统如何?中文的还蒙神助吗? 中文系统进展很好。千头万绪,但是我是边建造边使用,立竿见影, 做起来相对不那么枯燥,减少了 “ 以有涯随无涯而殆” 的苦恼。 产品雏形已成,内部使用, 正式推出大概在两三个月后吧:主要不是中文系统本身的问题, 而是社会媒体的 content sources 还没有搞定。我在科学网博客上有两个专栏【 立委科普 】和【 社媒挖掘 】,常常报告一些中文系统及其产品的最新进展: 【社媒挖掘】 http://blog.sciencenet.cn/home.php?mod=spaceuid=362400do=blogclassid=161685view=me 【立委科普】: http://blog.sciencenet.cn/home.php?mod=spaceuid=362400do=blogclassid=123261view=me 》HowNet 用了么,好玩吗? 选择了 知网 ( HowNet ) features 整合到词典里面去, 正在“玩”呢。刚开始用,将会用得越来越多。这也好, 系统编制开始,词典几乎是空的,没有多少 features, 只有几十个粗线条和零散的为急用而标注的词典信息, 这就迫使系统编制从粗线条轮廓开始。现在引进了 HowNet 的部分,使得我可以开始细化规则系统,慢慢建立一个层级体系, 以图优化 parsing 的精度。这个过程还要持续相当一段时候。 名词的分类体系,比较容易理解和一致,形容词和动词则难一些。 在引进 HowNet 之前,我对形容词只有自己的三五个分类,现在比以前丰富多了。 不过,我注意到有些分类太细,比如 HueValue,词汇表中总共才有二三十个词标注了这个信息, 我引进之后又逐渐把这样过细的分类排除了(用它的上位概念 AppearanceValue 代替这些过细的子类)。不是因为系统不能负担, 而是因为词典信息过于细琐不利于系统的维护和语言学家的掌握( 增加了过多的记忆负担)。在粗细之间怎样切一刀, 我采取实用主义策略,无需立即决定一刀切。 用 HowNet 遇到了一个不大不小的烦扰,这个烦扰在当年用 WordNet 的时候更加严重(可以说是其致命缺陷,以致我后来完全放弃了 WordNet,宁愿用自己编制的不完整的词汇语义标注)。这就是,一些简单的单字词( 或部分高频二字词),被标注了太多features,虽然每个 feature 都有道理,对应其中的一个义项,但是这些义项有的是非常偏僻的( 统计上可以忽略,这种偏僻义项的 feature 客观上成为 NLP 的 noise),有的则是其引申意义。我不得不手工来 clean 它们,否则用到这些 feature 的规则往往在常用词上栽跟头。我以前开玩笑批评 WordNet,说,WordNet 根本不讲理,所有的X都可能是Y。哪怕是最简单的单词如 猫啊(cat)狗(dog)啊, 在我们心中完全是意义清晰的动物概念,可是 WordNet 硬要标 cat 是 “人”,dog 也是 “人”,那我们做规则系统的人还怎么敢利用这些 feature 来写规则呢?不敢写啊,因为什么事情都可能发生。 HowNet 大概是 为了自身概念系统的完整性,也不同程度存在同样的问题,迫使 NLP 使用者不得不人工做二次裁剪,很费精力。 我想词典标注的一个原则应该是, 如果一个词的某个意义必须要明确的上下文才能成立, 那就可以舍弃(特别是, 如果一个单字的某个义项总是出现在多字合成词中, 那么这个单字就没有理由标注这个意义及其相应的feature, 因为 vocabulary 中的多字词已经 cover 了,它不是一个开放集)。 当一个词孤零零站在那里, 进入人头脑的概念才是需要标注的。否则使用时很麻烦。 还有一个既可以维护完整性又不增添二次清除负担的办法是给 features 分档次:统计上的档次或者其他的区别对待, 这样使用者可以根据需要随时 filter 掉不必要的 features 》我还是老样子。天天在调试系统。现在又风靡世界的是big data和deep learning。美国人就是善于出点子。 deep learning 从概念上没有问题。跟过去十多年闹得火热的 weakly supervised learning 以及 boot-strapping 的潮流一样,方向上是没有问题的,前景很诱人。但是这些潮流, 结果真正引起实用技术革命的有多少呢? 花样翻新可以吸引眼球和热情,但真正的好处还需要拭目以待。 前一阵子有搞搜索的老友问到这个题目,我是这样回答的: How do you think about current hot topic: deep learning and knowledge graph? I am not a learning expert, and cannot judge how practical and convenient for the new deep learning trend to solve a practical problem in industry. But conceptually, it is fair to say that deep learning is in the right direction for research. For a long time, the learning community has been struggling between the supervised and unsupervised leaning dilemma, the former being tractable but facing knowledge bottleneck (i.e. the requirement of big labeled training corpus) and the latter only proven to work for (label-less) clustering, which usually cannot directly solve a practical problem. Now in addition to many different ways of semi-supervised or weakly supervised approaches, deep learning provides yet another natural way to combine unsupervised and supervised learning. It makes lots of sense to let the unsupervised learning scratch the surface of a problem area and use the results as input for some supervised learning to take on to deeper levels. Personally, I believe to solve a real life problem in scale, it is best to combine manual rules with machine learning. That makes tasks much more tractable for engineering implementation. 》我觉得rulebased系统的问题,并不是按下葫芦起了瓢, 而主要是遇到的新的语言现象。 exactly 按下葫芦起了瓢 的问题出现在不严谨的工业开发环境中。如果开发环境好, data-driven 又有及时的大数据 regression-testing 的反馈来指导规则系统的开发,这个问题就自然消解了。 新的语言现象的问题,能想到的法子就是用时间去磨。 只要开发样本选择得当,不急于求成,这个问题也不最可怕,后面的 long tail 中的相当部分迟早总是可以抓住,直到达到某一点, 再往下追去已经没有什么(统计)意义了(diminishing returns)。 值得强调的是,新的语言现象的问题不是规则系统专有,对于机器学习它更是难题,本质上就是困扰统计学家多年的 sparse data 的问题。 我感觉到的规则系统的特有挑战主要是编制规则时的“平衡术”( balancing art)不好掌握分寸。人的思维有盲点,结果, 有些规则开发不够而影响精度,也有规则开发过度而丧失鲁棒性( robustness),譬如规则做得过于精巧细致, 结果系统稍有变动,规则就散架了。这个火候不好拿捏, 没有多年的经验和功夫,往往容易跌入陷阱,使得系统越来越庞杂无序, 无法维护。 在克服上述挑战的时候,统计可以大派用场。 无论是把统计用于数据上,或者用于半自动编写规则, 或者有机整合到规则系统中去, 都有很多二者亲密合作的机会。譬如让机器学习有统计意义的可能patterns,然后提供给语言学家细化(instantiation),是确保克服人脑盲点的一个有效方法。 与 deep learning 的道理一样, 见林不见树的机器学习与 见树不见林的专家编写难道不能各个发挥一己之长么? 【后记】上面提到了 HowNet 使用中 feature noise 的困扰,指的是其当下的中文系统。刚刚核实过,显然 HowNet 的发明者早已意识到这个问题,因此,英文的 HowNet 已经解决了这个问题,汉语的问题最终也会解决。他们对 lexical features 做了如下分类,以方便使用者根据不同使用场景对 features 进行筛选: 具体做法是:英文的单字词,采用标记:1、2、3表示可用的优先等级;7表示封存,不采用; 英文的词组,采用标记:4、5表示可用的优先等级;6表示封存,不采用; HowNet Browser中查“ability”其中“能力”标记为2;“本领”、“本事”为3;而“能”、“力”标记为7,即被封存,不可采用。 可惜还没有标记中文的等级,将来会做的, 方法是跟英文一样的。 【置顶:立委科学网博客NLP博文一览(定期更新版)】
Automatic survey complements and/or replaces manual survey. That is the increasingly apparent direction and trend as social media are getting more popular everyday. 自动民调(or 机器民调: Automatic Survey / Machine Survey)指的是利用电脑从语言数据中自动抽取挖掘有关特定话题的民间舆论,其技术领域即所谓舆情挖掘(sentiment mining),通常需要自然语言(NLP)和机器学习(Machine Learning)等技术作为支持。自动民调是对传统的问卷调查一个补充或替代。在社会媒体日益普及的今天,民间情绪和舆论通过微博、博客或论坛等社会媒体管道铺天盖地而来,为了检测、采集和吸收这些舆论,自动民调势在必行,因为手工挖掘面对大数据(big data)已经完全不堪负荷。 民意调查(poll)可以为政府、企业以及民众的决策提供量化情报,应用范围极其广泛。总统大选是一个突出的例子,对于总统候选人本人及其竞选团队,对于选民,民调的结果可以帮助他们调整策略或作出选择。产品发布是企业的例子,譬如 iPhone 5 发布以后,民调的反馈可以帮助苹果及时发现问题。对于有意愿的消费者,民调的结果也有助于他们在购买、等待还是转向别家的决策时,不至于陷入盲目。 相对于传统的以问卷( questionnaire )调查为基础的民调,自动民调有以下几个突出特点。 及时性 。传统民调需要经过一系列过程,设计问卷、派发问卷(通过电话采访、街头采访、有奖刺激等手段)、回收问卷,直到整合归纳,所有程序都须手工进行,因此难以做到及时响应。一个认真的客户产品调查常常需要几天甚至几周时间方可完成。自动民调可以做到立等可取。对于任意话题,使用自动民调系统就像利用搜索引擎一样方便,因为背后的处理机在不分昼夜地自动分析和索引有关的语言资料(通常来自社会媒体)。 高性价 。传统民调的手工性质使得只有舍得不菲的花费,才可以做一项有足够规模的民调(样本小误差就大,难以达到民调的目的)。自动民调是由系统自动完成,同一个系统可以服务不同客户不同话题的各种民调,因此可以做到非常廉价,花费只需传统民调的零头。样本数可以高出手工调查回收数量的n个量级,是传统民调无法企及的。至于话费,通常的商业模式有两种,客户可以订阅(license)这样的系统的使用权,然后可以随时随地对任意多话题做任意多民调。零散客户也可以要求记件使用,每个话题民调一次缴纳多少钱。 客观性 。传统民调需要设计问卷,这就可能有意无意引入主观因素,因此不能完全排除模糊歧义乃至误导的可能。自动民调是自底而上的自动数据分析,用的是归纳整合的方法,因此更加具有客观性。为了达成调查,调查者有时不得不施行物质刺激,这也产生了部分客户纯粹为了奖励而应付调查、返回低质问卷的弊端。自动民调的对象是民意的自然流露(水军和恶意操纵另论),基数大,也有利于降噪,这就保障了情报的客观性。 对比性 。这一点特别重要,因为几乎任何话题的民调,都需要竞争对手或行业的背景。正面反面的舆论,问题的严重性等等,只有通过对比才能适当体现。譬如民调奥巴马的总统竞选效益,离不开对比其对手罗梅尼。客户调查 ATT 手机网络的服务,离不开比较其竞争者 Verizon,等。很多品牌实际上需要与一系列同类品牌做对比,才好确定其在市场的地位(如上图所示)。这种对比民调,虽然在理论上也可以手工进行,但是由于手工民调耗时耗力耗钱,很多时候调查者不得不减少或者牺牲对于竞争对手的调查,利用有限的资源只做对本企业的品牌调查。可自动调查就不同了,多话题的调查和对比是这类产品设计的题中应有之义,可以轻易完成。 自动民调也有挑战,主要挑战在于人为噪音:面对混乱的社会媒体现实,五毛、水军以及恶意舆论的泛滥,一个有效的舆情系统必须不断与垃圾作战。好在这方面,搜索引擎领域已经积攒了丰富的经验可以借鉴。另一个挑战是需要对网络世界做两类媒体的分类(所谓push/pull的媒体分野)。民意调查切忌混入“长官意志”,客户情报一定要与商家宣传分开:同是好话,商家是王婆卖瓜,客户才是上帝下旨。这种媒体分类可以结合来源(sources)、语气(宣传类材料常常是新闻官方语气,而客户评价则多用口语和网络语)来决定,是有迹可寻的。 总之,在互联网的时代,随着社会媒体的深入民间,民间情绪和舆论的表达越来越多地诉诸于社会媒体。因此,民调自动化势必成为未来民调的方向和主流。其支持技术也基本成熟,大规模多语言的应用指日可待。 【相关篇什】 奥巴马赢了昨晚辩论吗?舆情自动检测告诉你 社会媒体舆情自动分析:马英九 vs 陈水扁 舆情自动分析表明,谷歌的社会评价度高出百度一倍 方韩大战的舆情自动分析 【置顶:立委科学网博客NLP博文一览(定期更新版)】 立委名言:技术改变世界,甚至总统......乃至你我。
“专业新人” (early stage researcher)也别被我的夸赞冲昏头脑。门道门道,有门有道。门儿清,不等于道儿清。做到门儿情,只要聪颖和悟性即可,而道儿清要的却是耐性、经验、时间,屡战屡败、屡败屡战的磨练,而且还要有运气。是为冰冻之寒也。 On Thu, Dec 29, 2011 G wrote: As you titled yourself early stage researcher, I'd recommend you a recent dialog on something related - http://blog.sciencenet.cn/ home.php?mod=spaceuid=362400 do=blogid=523458 . He has a point as an experienced practitioner. I quote him here as overall he is negative to what you are going to work on [注:指的是切词研究]. And agree with him that it's time to shift focus to parsing. 2011/12/29 G Continuation of the dialog, but with an early stage researcher. FYI as I actually recommended your blogs to him in place of my phd thesis :) On Dec 29, 2011, M wrote: Hi Dr. G, I just read the Liwei's posts and your comments. I partly agree with Liwei's arguments. I think It's just a different perspective to one of the core problem in NLP, disambiguation. Usually, beginners take the pipeline architecture as granted, i.e. segmentation--POS tagging--chunking--parsing, etc. However, given the ultimate goal is to predict the overal syntactical structures of sentences, the early stages of disambiguation can be considered as pruning for the exponential number of possible parsing trees. In this sense, Liwei's correct. As ambiguity is the enemy, it's the system designer's choice to decide what architecture to use and/or when to resolve it. I guess recently many other people in NLP also realized (and might even widely agreed on) the disadvantages of pipeline architectures, which explains why there are many joint learning of X and Y papers in past 5 years. In Chinese word segmentation, there are also attempts at doing word segmentation and parsing in one go, which seems to be promising to me. On the other hand, I think your comments are quite to the point. Current applications mostly utilize very shallow NLP information. So accurate tokenization/POS tagger/chunker have their own values. As for the interaction between linguistics theory and computational linguistics. I think it's quite similar to the relationship between other pairs of science and engineering. Basically, science decides the upper bound of engineering. But given the level of scientific achievements, engineering by itself has a huge space of possibilities. Moreover, in this specific case of our interest, CL itself may serve as a tool to advance linguistics theory, as the corpus based study of linguistics seems to be an inevitable trend. From: Wei Li Date: Fri, Dec 30, 2011 He is indeed a very promising young researcher who is willing to think and air his own opinions. I did not realize that the effect of my series is that I am against the pipeline architecture. In fact I am all for it as this is the proven solid architecture for engineering modular development. Of course, by just reading my recent three posts, it is not surprising that he got that impression. There is something deeper than that: a balance between pipeline structure and keeping ambiguity untouched principle. But making the relationship clear is not very easy, but there is a way of doing that based on experiences of adaptive development (another important principle). 【相关博文】 专业老友痛批立委《迷思》系列搅乱NLP秩序,立委固执己见 【置顶:立委科学网博客NLP博文一览(定期更新版)】
G 是资深同行专业老友很多年了,常与立委有专业内外的交流。都是过来人,激烈交锋、碰撞出火是常有的事儿。 昨天给他邮去《迷思》系列三则,他即打电话说:“好家伙,你这是惟恐天下不乱啊。看了《迷思》,我就气不打一处来。你这是对中文NLP全盘否定啊,危言耸听,狂放颠覆性言论。偏激,严重偏激,而且误导。虽然我知道你在说什么,你想说什么,对于刚入门的新人,你的《迷思》有误导。” 听到他气不打一处来,我特别兴奋:“你尽管批判,砸砖。我为我说的话负责,每一个论点都是多年琢磨和经验以后的自然流露,绝对可以站住。对于年轻人,他们被各种’迷思‘误导很多了,我最多是矫枉过正,是对迷思的反弹,绝对不是误导。” 现剪辑摘录批判与回应,为历史留下足迹 。 内行看门道,外行看热闹,欢迎围观。 2011/12/28 G The third one is more to the point - 严格说起来,这不能算是迷思,而应该算是放之四海而皆准的“多余的话” Frankly, the first two are 标题党 to me. Most supporting evidence is wrong. Well, I think I know what you were trying to say. But to most people I believe you are misleading. No, I was not misleading, this is 矫枉过正 on purpose. At least I think you should explain a bit more, and carefully pick up your examples. Take one example. Tokenizing Peoples Republic of China is routinely done by regular expression (rule based) based on capitalization, apostrophe and proposition (symbolic evidences), but NOT using dictionary. that is not the point. yes, maybe I should have chosen a non-Name example (interest rate 利率 is a better example for both Chinese and English), but the point is that closed compounding can (and should) be looked up by lexicons rather than using rules. What you are referring to I guess is named entity recognition. Even that chinese and English could be significantly different. No I was not talking about NE, that is a special topic by itself. I consider that to be a low-level, solved problem, and do not plan to re-invent the wheel. I will just pick an off-shelf API to use for NE, tolerating its imperfection. I wouldn't be surprised if you don't do tokenization, as you can well combine that in overall parsing. But to applications like Baidu search, tokenization is the end of text processing and is a must-have. Chunking of words into phrases (syntax) are by nature no different from chunking of morphemes (characters) into words (morphology). Parsing with no word segmentation is thus possible. In existing apps like search engines, no big players are using parsing and deep NLP, yet (they will: only a time issue), so lexical features from large lexicons may not be necessary. As a result, they may prefer to adopt a light-weight tokenization without lexicons. That is a different case from what I am addressing here. NLP discussed in my post series assumes the need for developing a parser as its core. Your attack to tagging is also misleading. You basically say if a word has two categories, just tag it both without further processing. That is tagging already. That is not (POS) tagging in the traditional sense: the traditional sense of tagging is deterministic and relies on context. Lexical feature assignment from lexical lookup is not tagging in the traditional sense. If you want to change the definition, then that is off the topic. What others do is merely one step forward, saying tag-a has 90% correct while tag-b 10% chance. I did rule based parser before and I find that is really helpful (at least in terms of speed). I try the high chance first. If it making sense, I just take it. If not, I come back trying the other. Let me know if you don't do something like that. Parsing can go a long way without context-based POS tagging. But note that at the end I proposed 一步半 approach, i.e. I can do limited, simple context-based tagging for convenience' sake. The later development is adaptive and in principle does not rely on tagging. Note here I am not talking about 兼语词 which is essentially another unique tag with its own properties. I know this is not 100% accurate but I see it in chinese something like 动名词 in English. In fact, I do not see that as 兼语词, but for the sake of explanation of the phenomena, I used that term (logically equivalent, but to elaborate on that requires too much space). In my actual system, 学习 is a verb, only a verb (or logical verb). Then this touches grammar theory. While we may not really need a new theory, we do need to have a working theory with consistency. You may have a good one in mind. But to most people it is not the case. For example, I see you are deeply influenced by 中心词 and dependency. But not everyone even aware of that, not to mention if they agree with. Till now there is no serious competition, as really no large scale success story yet. We need to wait and see which 学派 eventually casts a bigger shadow. Good to be criticized. But I had a point to make there. 【相关博文】 中文处理的迷思之一:切词特有论 2011-12-28 中文处理的迷思之二:词类标注是句法分析的前提 2011-12-28 中文NLP迷思之三:中文处理的长足进步有待于汉语语法的理论突破 2011-12-29 相位问题是做结构分析的一个古典问题。理论上讲,这个问题不解决,结构分析事儿就是“未完成”。 作者: mirror 日期: 12/29/2011 10:46:20 但是做结构分析的人并不会因为“相位问题”未彻底解决而停止工作。他们有“蒙也 要蒙出来”的气势。过去不好 蒙 ,如今计算机发达了,也就不怕了。不但不怕,而且剥夺了研究通过实验的技术手段解相位人的“饭碗”。因此,镜某不大看好“ 中文处理的长足进步有待于汉语语法的理论突破 ”的说法。 大约计算机语言识别的事情也是如此。问题有两个侧面:响应时间和精确程度。也许还有语音语调等感情色彩的成分。只有到这个层次,才可称谓“ 自然语言 ”。也许感情符号也要象音乐中的音符那样,来表达对话的感情。毕竟有些话属于 能写出来 而 不能说出来 。比如人的称呼,在西方不是个问题。直呼其名就是了。而在东方,就不大好办了。在家里,不会有儿子直呼老爸名字的现象。还有一些比较禁忌的话题,当面说、对话就很困难了。但是不妨碍写出来。比如说“色情文学”。保不齐“色情文学”的计算机思考研究,在将来会很流行。也就是说,到了那个境界,就要思考机器的“感情”问题了。 ---------- 就“是”论事儿,就“事儿”论是,就“事儿”论“事儿”。 镜子真神人也,第一段说得非常到位:一个蒙字,极尽真准传神 作者: 立委 日期: 12/29/2011 12:45:07 Quote 过去不好蒙,如今计算机发达了,也就不怕了。 属于不可泄漏之天机啊。 至于上面的第二段,镜兄乘兴发挥,恣意挥洒,“老匠”立委就跟不上了。 附:“老匠” 之来历: kingsten_88 说: 2011年12月29号16:59 李老师看来真是老匠了,对中英语法分析的细节娓娓道来,让我想起了那一场场苦恼过的场景。李老师说出了中文无特性的真相,所有语言的语言现象都是类似的,只是或轻或重而已,这正好说明是理论不足,并非应用不足呢。 liwei999 回复: 十二月 30th, 2011 at 00:20 老匠了,老匠了。 老匠一词极为真准传神。 from 52nlp 【置顶:立委科学网博客NLP博文一览(定期更新版)】
mirror 说: ”括号可以用几重?立委作为计算机的半拉专家,应该知道是有限的。问题是限在几重上。…… 比如{[最(伟光正的)党]领导的}是一个深度的例子。 没有抽象化,也就没有学问了。问题不在于可不可以。问题是出自一个什么样的考虑、取舍,定下的如此规矩。” 由镜子所说引申去:自然语言是递归的么? (92201) Posted by: liwei999 Date: June 17, 2007 05:17PM 很多句法学家认为,自然语言的结构具有递归性 (recursion)。递归的表现是结构的嵌套,这就好像我们数学表达式中使用括号一样,理论上是括号的嵌套使用是无限的(无法预先规定嵌套的层数)。可是,语言的制约不仅仅是句法,还有语用上的限制。 自然语言中,括号的有限使用是语用学(pragmatics)的常识和可以观察到的语言现实。因为中间嵌套太深,不利于交流,也会超出人的短期记忆的承受范围。 中间嵌套的例子有主句套从句:主句的主语(S)和做谓语的动词短语(VP)中间又插入一个定语从句,修饰主句的主语: A guy who knows a girl also knows another girl. 其结构是: VP] 然而,右嵌套可以很深,在英语,这种例子屡见不鲜。 [… ]]]]] 例如: I know a guy, who knows a girl, who knows another guy, who knows …… 其结构是: ]]]] 再如:有一类英语动词(a verb subcategy),其动词短语要求嵌套另一个动词短语作为其宾语补足语,如果被嵌套的动词短语恰好也是同类动词,这种嵌套就可以循环下去。 这类动词有:expect, tell, ask, force, … VP 的句型是:VP – (V是这类动词,NP 是名词短语做宾语) 譬如: I expected John to finish the homework. I expected John to tell Mary to finish the homework. I expected John to tell Mary to ask her students to finish the homework. …… 其结构是: ]]]] 由于语言结构的recursive nature, 受到”乔木司机“的形式语言理论的不良影响,很长一段时间,计算语言学界推崇能够反映recursion的上下文无关语法(CFG, Context Free Grammar),排斥有限状态语法(FSG, Finite State Grammar),认为后者不适合自然语言parsing。可是,研制实用系统的人对简单而高效的FSG情有独衷。 FSG 比起 CFG 不够 powerful,为什么也可以成功运用在自然语言的parsing上呢? 诀窍就在,可以把很多个FSG叠加起来用(cascaded finite state device),一层一层地由里往外退括号。由于语用学的制约,人类实际的语言现象,表达中间recursion的括号数量是很有限的(很少超过三层,形象地说,只要大中小三种括号就够用了),而边缘嵌套难不住FSG (其实实际语料中边缘嵌套也很少超过五层),所以线性叠加完全可行。 【置顶:立委科学网博客NLP博文一览(定期更新版)】