科学网 › 标签 › 自然语言

标签: 自然语言

相关帖子	版块	作者	回复/查看	最后发表

没有相关内容

相关日志

谈谈自然语言与关联思维之间的关系: 热度 8 张能立 2014-5-29 15:12; 谈到想象力，不论什么民族，不论什么人，一般都不会否定想象力的重要性。不过，何为想象力？想象力如何培养，就是仁者见仁智者见智了。想象力是从一种事物联想到另外一种事物的能力。想象力分数学和科学想象力、文学想象力、音乐想象力及艺术想象力等等。本文试图讨论数学和科学想象力的培养与自然语言之间的关系。数学和科学方面的想象力，就是将相关有本质联系的事情关联到一起。阿基米德洗澡的时候，能够从澡盆中的水外溢，顿悟出浮力与排开的液体的重量相等，从而发现了以他名字命名的阿基米德浮力定律。牛顿从苹果树上落下的苹果，顿悟出万有引力定律。达尔文能够从大自然中各种物种之间的竞争，顿悟出进化论。孟德尔有一天顿悟了把不同代的豌豆的性状和数目进行统计学研究，从而发现了物种的遗传规律。近代科学，像DNA、苯分子结构等发现，无不是揭示了顿悟，也就是数学和科学的想象力对于科学研究而言是无比重要。不过，数学和科学的想象力，不同于文学和艺术方面的想象力。特别是文学的想象力是可以杜撰的，可以是毫无理由去想象，可以说，对于文学创作而言，没有什么东西可以约束文学的想象力。但是，数学和科学的想象力与文学想象力不同，必须受到某种约束，这种约束是使得现有的待解决的数学和科学难题被突破。显然，数学和科学想象力，如果像文学想象力那样，毫无约束，信马由缰地去想象，那么，数学和科学难题，绝不可能被攻克的。因此，我将数学和科学这种有别于文学的想象力，称为关联性思维。这种关联性思维的特征，要么是在抽象层面，被想象的两个及多个事物的特征是一致的；要么在客观现实层面，被想象的两个及多个事物的特征是有联系的。现在我们切换一个角度，从教育方面看看现代数学及科学这种关联思维如何培养。有人主张，关联思维是天生的，后天只能顺其自然，不是训练出来的。其实，这种观点大谬。众所周知。德国牧羊犬的嗅觉非常灵敏，不过，这种牧羊犬如果不经过训犬员的“科班”训练，是不可能成为缉毒犬的。同样，任何人不经过现代数学和科学学习，不有意训练自己的关联思维，最终即使是受了较好的高等教育，也仍然无法培养出真正的关联思维。那么，关联思维如何培养的呢？或者，如何检验一个人关联思维的大小的呢？笔者曾经在好几个QQ群与多位网友讨论了这个问题，下面是有关文字记录：我：如果眼前出现“学科”这个词汇，我们会想象出什么其它的词汇的呢？家长1：语文、数学、英语、自然、地理、历史...... 家长2：学科，我会想到动物，植物，各种矿，比如煤，铁，金等，还有光电。我觉得世界万物都可以叫学科，任何一类的东西都可以，我觉得世界万物只是学科里的某一样或一类东西。提到学科，我想到的是完整的分类。家长3：玩、旅游、聊天。学科这个词让我想到了聊天这个词。我：哦，是指需要交流，对吧？那怎么想到旅游的呢？家长3：学科里面的知识，没有见识怎么可以归为学科？所以必须要多出去旅游才可以见识，见识到了才有体会，才可以写出，所以旅游是一切的基础之源。笔者在多个QQ群做过试验，没有一个人能够将“训练”、“纪律”和“惩罚”与“学科”关联起来。事实上，如果不受良好的学术训练，那么，学科学习不会取得什么成效。要想这门学科能够长盛不衰地发展，学科必须要有相应的规范和纪律，谁违背了学术规范和纪律，都要受到恰当的惩罚。用汉语词汇不能将学科的这几个方面关联起来，可是用英语却可以实现关联，英语描述学科的这几个方面的词汇是“discipline”。为什么，汉语词汇不能实现这种关联，而英语词汇却可以呢？这与两种自然语言的构词法相关。汉语最早是没有词汇的，都是用字来表达某种含义。东汉许慎编著的文字工具书《说文解字》就是通过对字的解读，达到实现对句子的理解。汉语从字过渡到词，这是白话文运动的结果，是受拉丁语影响的结果。现在小学生语文教学，对小学生的要求就是理解课本出现的重点字并组词和造句。事实上，汉语句子的理解，基本上也是建立在汉词的基础之上。本来，汉字是“一字多义”，这有助于建立关联思维，但是，古汉语经过白话文运动后，字的含义弱化，词的含义强化，现代汉语的词，绝大多数慢慢演变为“一词一义”，这样对于培养关联思维，极为不利。相反，英语的单词基本上都是“一词多义”，非常适合自然地培养（训练）关联思维。英语单词的“一词多义”基本可以分为两类：一类是像上述的“discipline”（学科；训练；纪律；惩罚）将一个事情的多个方面关联到一起，这样的词汇还有：curiosity（好奇、好奇心；珍品、古董、古玩）、ferment（发酵；动乱）、crash（撞碎；轰隆声）、inert（惰性的，呆滞的）、wonder（惊讶；怀疑；想知道）等等；另外一类是两个或多个事情看似不同，抽象层面完全是一样的含义，这样的词汇有：save（保存文件；储蓄；灾难中存活，抽象层面意义是可以重新使用）、digest（消化；摘要，抽象层面意义是保留重点或精华）、have（有；吃，抽象层面的意义是占有或拥有）等等。因此，像英语这样“一词多义”的字母语言，对于培养关联思维，是极为有利。以前笔者学习英语的时候，因为学习模式基本是死记硬背，对于英语词汇的“一词多义”，纯粹是反复机械记忆，再加上模拟试卷练习来巩固这种记忆效果。即使这样，仍然很难记忆住英语词汇的多个含义，基本上每个单词只知晓一个含义，因此，很恐惧英语单词的这种“一词多义”。现在明白了英语词汇“一词多义”的内在规律后，笔者再重新学习英语，遇到英语单词的“一词多义”后，运用上述的思维规律，就可以将脑袋里面，对应的思维淤塞点清除，明显感受到思维水平有所提高。有的“爱国”同胞，最见不得有人批评祖宗的遗产，也就是“中国元素”（中医思维、汉语和传统文化），他们经常这样反驳：“洋人说英语，不还是有很多笨人”。这种比较是典型的“田忌赛马”，就是拿中国聪明人与洋人的笨人比较，中西比较必须要采用“上马PK上马，中马PK中马，下马PK下马”，才能看出中西差别背后的本质原因。其实，这些“爱国”同胞将“和氏璧”这样的典故忘记了。不识货的人，不论是在中国，还是在洋人那里，都不知道有多少。综上所述，汉语绝大多数词的“一词一义”极大地妨碍关联思维的形成和发展，而英语绝大多数词的“一词多义”极大地便于关联思维的形成和发展。无须讳言，我们中国人在现代数学和科学方面的想象力（关联思维），极大地落后于欧美人，这有所有的科学发现，科学技术的发明，几乎都是欧美人做出为证。中国人为什么在现代数学和科学方面的想象力远远落后于欧美人，其中一个很重要的原因就是汉语绝大多数词的“一词一义”导致的。想到当今“为什么不吃肉粥”的上位者们，削弱英语教育的短视之举；想到对政府此举像过节那样高兴但不知厉害关系的民众们，笔者不禁对我们民族的未来担忧。在这里，笔者转述英国著名数学家、教育家和哲学家怀特海的话： “在现代生活中，规律是绝对的。凡是不注重智力训练的民族是注定要被灭亡的。你们的英雄气概，社交魅力，现有的智慧，在陆地上或海洋中取得的胜利，都不能挽回这一命运。今天，我们尚能维持着现在的地位；明天，科学将更进一步，那时，当命运之神对未受良好教育的人进行裁决时，将不会有人为他们提出上诉。”！附：“汉语妨碍现代数学和科学学习及研究”相关博文合集 http://blog.sciencenet.cn/blog-39840-791607.html 参考文献： 1、怀特海著，庄莲平、王立中译注，《教育的目的》，文汇出版社，2012，p19 复制去Google翻译翻译结果; 个人分类: 教育|3342 次阅读|28 个评论

谈谈结构性和我们的出路: 热度 20 张能立 2014-3-5 01:02; 1、引言什么是结构性？结构性是多种对象相互依存的一种组织形式，或者说是一种模式（Pattern）。不论是宇宙结、地球、微观物质、大自然、建筑物、人体、人类社会、自然语言和计算机语言，乃至我们自身的精神世界，无一不体现出结构性特征，可以说结构性不仅仅是关系到我们中华民族的命运，而且也关系到人类社会的未来。 2、宇宙的结构性以地球为观察点，宇宙的结构性体现在，宇宙可以分为：太阳系、银河系和银河外系，如图1~图3所示：图1 太阳系图2 银河系图3 银河外系 3、地球的结构性地球的结构性体现在地球从地心开始分：地核、地幔、地壳。地核又分内核和外核。如图4所示： 4、微观物质的结构性宇宙是由物质组成的，物质是由微观物质组成的。微观物质原子的结构包括：原子核、电子。原子核又分质子和中子。图5：氦原子结构示意图。图中灰阶显示对应电子云于1s电子轨道之概率密度函数的积分强度。而原子核仅为示意，质子以粉红色、中子以紫色表示 5、大自然的结构性大自然不论是高山、江河、大海，还是动植物的生物链，无一不是体现出结构化特征。拿大树来说，大树分：树根、主干、树枝和树叶几部分。如图6所示：图6 大树的结构 6、建筑物的结构性目前世界最高的建筑物是位于阿拉伯联合酋长国迪拜的哈利法塔（Burj Khalifa Tower），总高828米，共有162层。如图7所示：图7：哈利法塔建筑物分：地基、主体、顶等几部分。可以想象，如果建筑物没有结构性支撑，人类是无法建造这么高的建筑物的。 7、人体的结构性人体结构以实体分类分为：肌肉、骨骼、内脏系统、器官等4个部分，以生理系统分类：神经系统、内分泌系统、运动系统、循环系统、血液系统、呼吸系统、消化系统、泌尿系统和生殖系统。可以说，如果人体没有结构性，不仅无法行走，而且无法存活。图8 人体的骨骼结构示意图 8、人类社会的结构性科学已经证明了人是从类人猿演化而来，迄今为止，人类还保留着许多祖宗的习性，也就是“猴性”，关于这一点，著名的英国动物学家莫里斯的裸猿三部曲，给予很好的解释。人类社会从最早的洞穴生活，到如今的现代化都市生活，其社会形态也是一个结构性很低到结构性很高的一个演化过程。人类如今的社会结构如图9所示：图9 人类社会的组织结构 9、自然语言的结构性英语的结构性体现在有明确的词类（名词、动词、形容词、副词、介词、代词等等）、屈折形式（动词的时态）和结构明确的主从结构，以及发音分辅音和元音等多个方面。关于英语的结构性的深刻揭示，首推著名的美国语言学家乔姆斯基的生成语法，如图10所示：图10 乔姆斯基的生成语法 “图中有两种不同的句法成分：一个微基本成分，它含有对深层结构的重写规则，另一个为转换成分，它含有联接深层结构对表层结构的转换。深层结构有两个加工的方向。一方面，转换成分把深层结构转换成表层结构，表层结构有利用发音成分转换成发音的声音。另一方面，深层结构由语义成分确定出意思解释。” 10、精神世界的结构性人区别于动物就在于，人是有“心灵”的，而动物是没有“心灵”的。换句话说，人类有精神生活和追求，而动物则没有。关于人类的精神世界，虽然存在许多不同的心理学理论解释，但是，马斯洛的人本主义心理学理论无疑是一颗璀璨的明珠。马斯洛将人的需求分为了6个层次：生理需求、安全需求、爱与隶属需求、尊严需求（尊重需求、自尊需求）、自我实现需求、超越个人或灵性的需求，如图11所示：图11 马斯洛需求层次理论 11、数学的结构性数学及科学，都是高度结构化的学科。就数学的数域来说，数分实数和虚数；实数分有理数和无理数；有理数分整数和分数；无理数分代数数和超越数，如图12所示：图12 数域 12、结构性与我们的出路之间的关系综上所述，无论是从宇宙、大自然、人类社会、自然语言和数学，无不是结构化特征，因此，结构化是宇宙蕴藏的天道之一，得之者昌，失之者亡。要想能够理解结构性这个天道，我们大脑的思维必须具有结构性才行，这是不证自明的。汉语没有词类的标注，我们仍然能够理解汉语表达的含义，这说明汉语的理解是从语义方面来理解，也就是通常所说的“悟”，就是一种不需要结构性思维的理解。与之相反，英语如果没有词类标注，我们就无法理解英语表达的含义，这说明英语的理解必须从语法开始来理解，这是一种需要结构性思维的理解。思维教育，或者思维成长的关键是两点：结构性和关联性。这两点越差，智性越低；这两点越强，智性越高。英语因其结构性强和一词多义特征，是结构性思维和关联式思维成长的天然“氧吧”；而汉语因其结构性差和一词一义，是结构性思维和关联式思维成长的天然“雾霾”。为什么我们中国人思维是发散的，而难以收敛？为什么我们中国人的行为是一盘散沙，而难以团队协作？为什么我们中国的科学家迟迟不能做出具有诺贝尔自然科学奖水准的科学发现？为什么这么大面积的雾霾出现在中国？可以说所有的现实痛苦，都与汉语将我们中国人塑造为非结构性思维密切相关。如果两个具有非结构性思维的人，交流涉及比较深入的科学话题，例如转基因这类话题，因两人思维不具备结构性，类似图13两个白炽灯所发出的光那样，虽然有交集，但无共识。图13 白炽灯与此相反的是，如果两个具有结构性思维的人，交流涉及比较深入的科学话题，例如转基因这类话题，因两人思维都具备结构性，类似图14两个聚光灯所发出的光那样，既有交集，又有共识。图14 聚光灯一个人的思维要有结构性，那么思维所常用的语言，也就是自然语言需要有结构性：词类、法治的语法等等。思维的结构性首当其冲的是概念性，就是用自然语言所规定的词类，采用合适的、规范的语法来定义一个概念内涵和外延。可以说，如果一个人没有下意识的概念内涵及外延的话，那么，这个人的思维不可能真正具有结构性，而是像白炽灯那样的一种散光思维。这类人虽然有思考和论辩转基因这类较深科学问题的权利，但是无思考这类问题的能力。由此可见，结构性思维，不论是对于个人还是民族，都是非同小可的事情。非结构性思维的民族，必定受专制统治，除非这样的民族实行无政府主义。因为，非结构性思维的民族，其行为必定是一盘散沙，那么将一盘散沙做成沙砖，外界必须采用暴力等专制手段才能达成。换句话说，将无论是思维还是行动都是一盘散沙的国民，组成一个国家，非专制暴力不可。这一点是不由人的意志为转移的。非结构性思维的民族，必定受具有结构性思维的民族的统治。原因有两点：第一，具有结构性思维的民族，才能真正理解和运用现代数学和科学所揭示出来的宇宙真理，而非结构性思维的民族只能以纯白实用主义对待宇宙真理，从而永远无法实现“坚船利炮”；第二，具有结构性思维的民族，能够发自内心自然地团队协作，而非结构性思维的民族，不能做到发自内心自然地团队协作，只能基于利益苟且在一起，从而无法与具有结构性思维的民族抗衡。因此，只有现代数学、科学和英语，才能改造中国国民的非结构性思维特征，只有国民具有结构性的思维特征，国民的行为才不会是一盘散沙，而是下意识的团队协作，中国睡狮才会变成真正的雄狮，中国科学家才会实现中国对人类有贡献这个目标。从这个意义上上说，唯有现代数学、科学和英语才能救中国，才能发展中国。 13、不是多余的话如果将中华民族伟大的中兴之旅类比为攀登珠穆朗玛峰的话，那么中国元素（思维、语言及文字），只能将我们带到珠穆朗玛峰的山脚下，绝不可能让我们实现登顶这个宏伟目标。这里的登顶意思是我们要能够制造出比洋人还要厉害的“坚船利炮”，否则我们民族无法冲出洋人的包围圈。笔者期待本文发表后，各位热爱中国元素（思维、语言及文化）的“爱国者们”，不要情感式对本人一番“义正言辞”地痛斥或者辱骂，这到不是笔者承受不起这样的“语言炮火”，而是，这些“语言炮火”对解决洋人的“坚船利炮”没有任何一点帮助。假如有人认为“语言炮火”能够解决洋人的“坚船利炮”的话，那么，就让“语言炮火”来得更猛烈一下吧！本人真诚呼吁：真正爱国的有志之士，我们一定要明白一个基本常识—不论什么主义，不论什么思维、语言和文化，也不论什么道路，只要不能解决洋人的“坚船利炮”这个根子问题，最终都是无法实现中华民族伟大中兴这个中国梦的！我们要紧紧盯住解决洋人的“坚船利炮”这个根子问题，团结一切可以团结的力量，勇敢改革我们的经济制度、政治制度等各种国家制度，勇敢改革支撑各种制度的“操作系统”—“思维、语言和文化”！为了我们后代未来的幸福生活，我们要敢于给他们（她们）创造出一片无论是思维层面，还是现实世界，都没有各种“雾霾”的蓝蓝的天！这是当代中国人责无旁贷的责任和义务！注：上面的图片除了图9、图10和图12外，都是来自网络。参考文献： 1、地球 http://zh.wikipedia.org/zh-cn/%E5%9C%B0%E7%90%83 2、原子 http://zh.wikipedia.org/wiki/%E5%8E%9F%E5%AD%90 3、【美】R.安德森著，杨清、张述祖等译，《现代认知心理学》，吉林教育出版社，1989，p490 4、马斯洛： http://zh.wikipedia.org/wiki/%E4%BA%9A%E4%BC%AF%E6%8B%89%E7%BD%95%C2%B7%E9%A9%AC%E6%96%AF%E6%B4%9B; 个人分类: 时评|7621 次阅读|52 个评论

[转载]“大数据与认识论”研讨会的书面发言（草稿）: readnet 2014-2-10 16:54; “大数据与认识论”研讨会的书面发言（草稿）精选已有 941 次阅读 2014-2-10 12:55 | 个人分类: 立委科普 | 系统分类: 科普集锦 | 关键词:大数据挖掘自然语言社会媒体【立委按】刘钢老师来函，邀请我从我的大数据博文系列选辑一篇书面发言，参加社科院哲学所题为“大数据与认识论”的研讨会。盛情难却，更不用说社科院是我老家了。那就把散在科学网博客【社媒挖掘】和【立委科普】专栏的博文中的立委论大数据拼接汇总一下吧。无论国内国外，学界业界，“大数据”都是滚烫的热词。上次愚人节应中文信息学会邀请在软件所做了一个题为【大数据时代中文社会媒体的舆情挖掘】的演讲，科学网编辑还特地录了像，高挂在【科学网公开课】里，与那些世界级的大师的讲座并列，与有荣焉，不胜惶恐（倒不是要自我矮化，说自己的大数据工作不在世界水平之列，但科学大讲堂这座庙里请的都是何等人物？面对的是科学殿堂让人高山仰止的大科学家和诺贝尔奖得主，而在下不过是一介匠人）。无独有偶，去年流行大数据，硅谷科学家和工程师举行一系列关于大数据的讨论会，被邀请作为 panelist 参加了两个大数据研讨会，现场问答热烈，气氛很活跃。旅美华人科学家协会最近征集出版了一期大数据专刊，也发表了几篇论文。硅谷的【丁丁电视】也很早就邀请立委在其《创新频道》做一个大数据的科技访谈，一直抽不开身准备，推迟到三月左右。一来二去，俨然是大数据专家了。其实，立委所长不过是大数据之一部，即自然语言的文本挖掘这块儿。而对于大数据的非文本形式（譬如语音、图片、录像、数字记录等），对于大数据的云处理手段及其工程架构等，所知十分有限。因此，本文仅仅就自然语言文本挖掘，特别是对近年火热的社会媒体的挖掘，谈一点一己之见，抛砖引玉，供各位参考。 (1) 大数据热的背景我们现在正处在一个历史契机，近几年发生了一连串值得注意的相关事件。其热门关键词是社会媒体（social media）、云计算（cloud computing），移动互联网（mobile web）和大数据（big data）情报挖掘。针对社会媒体内容利用云计算作为支撑的高新技术产业成为潮流。社会媒体尤其是微博持续升温，无论是用户还是其产生的内容，都以爆炸性速度增长，一场悄悄的社会媒体革命正在发生，它从根本上改变着社会大众以及企业对信息的接受和传播方式。传统的由媒体巨头主导经由电视、广播和报纸的自上而下的新闻和宣传的传播方式，正在逐渐让步于基于网络与网民的社交媒体的蛛网方式。最新的新闻（无论是天灾人祸、名人掐架还是品牌褒贬）常常发端于处在现场的网民或当事人的微博，然后瞬间辐射到整个互联网，传统传媒往往紧随其后。在这样的形势下，企业软件巨头纷纷把目光聚焦在对于社会媒体舆论和民意的跟踪上，视其为品牌和客户情报的重要来源。 2011年初，美国做市场情报的巨头之一 Salesforce以三亿多美元 (326million)的价钱并购了社会媒体客户情报检测系统Radian6，说明社会媒体中客户对产品的评价情报对于企业的重要性不容忽视。Oracle对从事云计算和社会媒体追踪的公司RightNow的并购更是高达15亿（1.5 billion）. HP在逐渐放弃低利润的PC和平板等硬件产业的同时，开始加强企业软件的投资力度，以120亿天价购并了从事文本情报的英国公司Autonomy（12billion）。最后，接近2011年末的时候，全球企业软件的另一家巨头SAP以34亿收购了云计算公司SuccessFactors（3.4 billion），并决定与专事社会媒体深度分析的公司 Netbase 建立战略伙伴关系，分销并整合其社会媒体情报作为企业情报解决方案的重要一环。加上IBM自己的 Coremetrics Social 和 Adobe的 SocialAnalytics，可以看到所有企业软件巨头不约而同看好社会媒体的情报价值。在这个领域的投资和竞争日趋激烈。越来越多的华尔街主流投资公司开始加大对社交媒体 (social media) 分析系统公司的投资力度。如 Jive Software，连续得到 Sequoia Capital 两轮投资 (２００７和２０１０)。Sequoia Capital 是“重中之重”的投资大鳄，曾是如下名牌企业的最早投资商，战略眼光犀利: Apple, Google, Cisco, Oracle. 对于中文社交媒体大规模处理的应用型软件，目前才刚起步。然而中文网络信息的增长速度却是扶摇直上，最值得重视的是爆炸性增长的腾讯微信对个人网络及其社交方式的革命性影响，以及新浪微博在社会公共生活中的巨大影响。社交媒体所产生的巨量内容有如深埋的富矿，亟待开采。有问，这一波热潮会不会是类似2000年的又一个巨大的泡沫？我的观察是，也是，也不是。的确，在大数据的市场还不成熟，发展和盈利模式还很不清晰的时候，大家一窝蜂拥上来创业、投资和冒险，其过热的行为模式确实让人联想到世纪之交的互联网 dot com 的泡沫。然而，这次热潮不是泡沫那么简单，里面蕴含了实实在在的内容和价值潜力，我们下面会具体谈到。当然这些潜在价值与市场的消化能力是否匹配，仍是一个巨大的问题。可以预见三五年之后的情景，涅磐的凤凰和死在沙滩上的前浪共同谱写了大数据交响乐的第一乐章。回顾一下互联网技术公司的里程碑吧： 20多年前雅虎以门户网站（Yahoo portal）先领风骚，谷歌以搜索 (Google search) 后来居上，脸书推出的社交网络（Facebook social）与推特（Twitter）的微博现已深入我们每个人的生活。国内社交媒体是新浪微博和腾讯微信领头。下一个里程碑是什么？ Big data intelligence （大数据情报挖掘）很多人这样预测。 Google 首席科学家前不久也列此为未来十年的高新技术第一块牌子。所不清晰的是谁家会胜出。看样子是有志之士摩拳擦掌弄潮儿的时机了。（2）什么是大数据顾名思义就是强调数据的量，但其实这个概念并不是那样简单。如果单纯论量，大数据不是今天才有的，而且数据的量也是一个积累渐变（当然可能是加速度增长）的过程。所谓大数据，更多的是社会媒体火热以后的专指，是已经与施事背景相关联的数据，而不是搜索引擎从开放互联网搜罗来的混杂集合。没有社会媒体及其用户社会网络作为背景，纯粹从量上看，“大数据”早就存在了，它催生了搜索产业。对于搜索引擎，big data 早已不是新的概念，面对互联网的汪洋大海，搜索巨头利用关键词索引（keyword indexing）为亿万用户提供搜索服务已经很多年了。我们每一个网民都是受益者，很难想象一个没有搜索的互联网世界。但那不是如今的 buzz word，如今的大数据与社会媒体密不可分。当然，数据挖掘领域把用户信息和消费习惯的数据结合起来，已经有很多成果和应用。自然语言的大数据可以看作是那个应用的继续，从术语上说就是，text mining （from social media big data）是 data mining 的自然延伸。对于语言技术，NLP 系统需要对语言做结构分析，理解其语义，这样的智能型工作比给关键词建立索引要复杂千万倍，也因此 big data 一直是自然语言技术的一个瓶颈。大数据也包括声音、图片和录像等媒体。本文只谈文本大数据。随着社会媒体的深入人心以及移动互联网的普及，人手一机，普罗百姓都在随时随地发送消息，发自民间的信息正在微博、微信和各种论坛上遍地开花。对于信息受体（人、企业、政府等），信息过载（information overload）问题日益严重，利用 NLP 等高新技术来帮助处理抽取信息，势在必行。除了与社会媒体以及施事背景密切相关以外，大数据此时的当红也得力于技术手段的成熟。大数据的存贮架构以及云计算的海量处理能力，为大数据时代的到来提供了技术支撑平台。在此基础上，大数据的深度挖掘才有可能跳出实验室，在具体应用和服务中发挥作用。大数据时代只认数据不认人。 In God We Trust. In everything else we need data. 道理很简单，在信息爆炸的时代，任何个人的精力、能力和阅历都是有限的，所看到听到的都是冰山一角。大V也如此，大家都在盲人摸象。唯有大数据挖掘才有资格为纵览全貌提供导引。当然，这不是说，大数据挖掘就是完美的解决方案。但是，正如一人一票的民主选举也不是人类社会完美的体制，而只是最少犯错误的机制一样，大数据挖掘比任何其他个人或利益集团的分析，较少受到主观偏见的干扰。这是由大数据本性决定的。大数据是忽悠么？吆喝多了，烂了，就跟转基因似的，本来是正经的研究，也要被人怀疑是忽悠，甚至骗局。要说忽悠，大数据有没有忽悠？当然有，应该说很多。所有的泡沫都是吹起来的，但特别大的泡沫其所以能被吹起来并且持续，就不仅仅是吹功可为。正如我演讲中说过的，大数据不仅仅是忽悠，一场革命也许在酝酿着。（3）大数据挖掘技术及其挑战社会媒体火了，信息爆炸式增长，也有了大数据支撑平台，挖掘技术跟上了么？面对呈指数增长的海量信息，人类越来越面对信息获取的困境。唯一的出路是依靠电脑挖掘。对付文本大数据的核心技术是自然语言处理（NLP），没有鲁棒高效的 NLP，电脑挖掘得不到什么有指导价值的情报。就说社会媒体对产品和服务的评价吧，每时每刻，无数用户的抱怨和推荐不断出现在网上，这些客户对产品的评价情报对于企业加强产品功能和研发新产品，具有很高的应用价值。可是怎么获取这些淹没在语言海洋中的情报呢？出路就是：1 自动分析； 2. 自动抽取；3 挖掘整合。这就是我们正在做而且已经取得显著效果的工作。社会媒体的特点是什么？概括来说，就是：1. 不断翻新的海量信息源；2. 满是不规范的字词和表达法。这就要求研发的系统，首先必须具有大数据处理能力（ scalability），实验室的玩具系统无论其数据分析多么精准深入也是不行的；同等重要的还有分析系统的鲁棒性（robustness）。在这两者的基础上，如果再能做到有深度（depth），则更佳。深度分析的优势在于能够支持应用层面的以不变应万变。因为应用层面的变数大，不同的客户、不同的产品对于信息的关注点不同，所以抽取信息应该越灵活越好，最好能做到象目前运用搜索引擎或数据库查询那样方便。但数据的语言表达是千变万化的，要做到信息的灵活抽取，而不是根据事先预定的信息模板来抽取，那就需要相当的语言分析深度来支持一个逻辑化的语义表达。要一个系统既有 scalability，robustness，还要有 depth，不是一件容易的事儿。在处理海量数据的问题解决以后，查准率和查全率变得相对不重要了。换句话说，即便不是最优秀的系统，只有平平的查准率（譬如70%，抓100个，只有70个抓对了），平平的查全率（譬如30%，三个只能抓到一个），只要可以用于大数据，一样可以做出优秀的实用系统来。其根本原因在于两个因素：一是大数据时代的信息冗余度；二是人类信息消化的有限度。查全率的不足可以用增加所处理的数据量来弥补，这一点比较好理解。既然有价值的信息，有统计意义的信息，不可能是“孤本”，它一定是被许多人以许多不同的说法重复着，那么查全率不高的系统总会抓住它也就没有疑问了。从信息消费者的角度，一个信息被抓住一千次，与被抓住900次，是没有本质区别的，信息还是那个信息，只要准确就成。疑问在一个查准率不理想的系统怎么可以取信于用户呢？如果是70%的系统，100条抓到的信息就有30条是错的，这岂不是鱼龙混杂，让人无法辨别，这样的系统还有什么价值？沿着这个思路，别说70%，就是高达90%的系统也还是错误随处可见，不堪应用。这样的视点忽略了实际的挖掘系统中的信息筛选（sampling）与整合（fusion）的环节，因此夸大了系统的个案错误对最终结果的负面影响。实际上，典型的情景是，面对海量信息源，信息搜索者的几乎任何请求，都会有数不清的潜在答案。由于信息消费者是人，不是神，即便有一个完美无误的理想系统能够把所有结果，不分巨细都提供给他，他也无福消受（所谓 information overload）。因此，一个实用系统必须要做筛选整合，把统计上最有意义的结果呈现出来。这个筛选整合的过程是挖掘的一部分，可以保证最终结果的质量远远高于系统的个案质量。总之，size matters，多了就不一样了。大数据改变了技术应用的条件和生态，大数据更能将就不完美的引擎。（4）客户评价和民意舆论的抽取挖掘舆情（舆论情绪/舆论情势）是什么？人民（或网民）的声音。人民是由个体组成的，网民是由网虫组成的。网民的声音来自一个个网虫的帖子。网民声音的载体就是社会媒体大数据。在大数据的尺度下，个体声音的过细分类没有太大意义，因为只要数据足够大，其最终舆情结果（结论）是不变的。举例来说，10万个正面呼声，100万个负面呼声，其综合舆情结果并不会因为这10万中有 1万crazy，1万love，8万like，负面中有10万fuck，10万hate，80万dislike 等等而有大的改变。无论如何计算，结论依然是天怒人怨。大数据系统情报挖掘的真正价值何在呢？就是揭示冗余度支持的有统计意义的情报及其关联。在大数据的尺度下，个体情报的引擎查全率的不足不是问题，因为在大数据整体挖掘的背景下，样本空间的问题消失了。个体的不足或遗漏，不过是等价于样本空间缩小了那么一点点儿，对于统计情报的完备、性质和价值不具有负面影响。考虑到很多年来，统计情报都是手工 survey 而来，其样本空间由于预算以及时效的制约，大多是几千个数据点（data points）而已，统计人员一直在预算、时效和 error margin 之间挣扎。如今的大数据挖掘，随便一个调查都有百万甚至千万的数据点支持，与手工调查完全不可同日而语，样本空间的些微变化因此不能对情报价值造成伤害。总之，与其追求引擎的查全率，不如把精力放在查准率上，然后着力于应对数据量的挑战（scale up）。采样大就可以弥补个体颗粒度的粗疏，这在机器学习领域被一再证明，也是很多统计学家不屑于语言学家精雕细刻雕虫小技的缘由之一。这么说，语言学可以退出舞台了？并非如此。主要原因有二。第一是大数据并非总存在。冷门品牌或者新出的品牌的数据量就往往不够，另外很多分析要求对数据进行切割，比如从时间维度的切割可以反映舆情的消长（trends），是制定决策时非常重要的情报，可是大数据一切隔往往就成了小数据，没有语言学上比较细致的分析来弥补，舆情分析就不靠谱，没有足够的置信度。第二是褒贬分析只提供舆情的一个概览，它本身并不是 actionable insights. 知道很多人喜欢或者不喜欢一个品牌，so what？企业还是不知道怎么办，最多是在广告宣传投资量的决策上有些参考价值，对于改进品牌产品，适应用户需求，褒贬舆情太过抽象，不能提供有价值的情报。这就要求舆情分析冲破两分、三分、五分的分类法，去发掘这些情绪的背后的动因（reasons/motivation），回答为什么网民喜欢（不喜欢）一个品牌的问题。譬如挖掘发现，原来喜欢麦当劳的主要原因是它发放优惠券，而不喜欢它的原因主要是嫌它热量太大，不利减肥。这样的舆情才是企业在了解自己品牌基本形象以后，最渴望得到的 actionable 情报，因为他们可以据此调整产品方向（如增加绿色品种和花样，水果、色拉等），改变广告策略（如强调其绿色的部分）。大数据给决策人（政府、企业或者犹豫如何选择的消费者）提供了一个前所未有的方便工具，去纵览有统计意义的舆情。这在以前只能通过小规模误差很大的人工问卷调查来做。如今自动化了，而且样本量高出好几个量级，拜科学技术所赐。（5）自动民调: 社媒大数据挖掘的重要应用社媒大数据挖掘最重要的应用之一是自动民调，可以补充、加强并最终取代手工问卷调查。可以用来测量一场运动、战役、广告的效果，总统选情的检测，等等。自动民调（Automatic Survey）指的是利用电脑从语言数据中自动抽取挖掘有关特定话题的民间舆论，其技术领域即所谓舆情挖掘（sentiment mining），通常需要自然语言（NLP）和机器学习（Machine Learning）等技术作为支持。自动民调是对传统的问卷调查一个补充或替代。在社会媒体日益普及的今天，民间情绪和舆论通过微博、博客或论坛等社会媒体管道铺天盖地而来，为了检测、采集和吸收这些舆论，自动民调势在必行，因为手工挖掘面对大数据（big data）已经完全不堪负荷。民意调查（poll）可以为政府、企业以及民众的决策提供量化情报，应用范围极其广泛。总统大选是一个突出的例子，对于总统候选人本人及其竞选团队，对于选民，民调的结果可以帮助他们调整策略或作出选择。产品发布是企业的例子，譬如 iPhone 5 发布以后，民调的反馈可以帮助苹果及时发现问题。对于有意愿的消费者，民调的结果也有助于他们在购买、等待还是转向别家的决策时，不至于陷入盲目。相对于传统的以问卷（questionnaire）调查为基础的民调，自动民调有以下几个突出特点。及时性。传统民调需要经过一系列过程，设计问卷、派发问卷（通过电话采访、街头采访、有奖刺激等手段）、回收问卷，直到整合归纳，所有程序都须手工进行，因此难以做到及时响应。一个认真的客户产品调查常常需要几天甚至几周时间方可完成。自动民调可以做到立等可取。对于任意话题，使用自动民调系统就像利用搜索引擎一样方便，因为背后的处理机在不分昼夜地自动分析和索引有关的语言资料（通常来自社会媒体）。高性价。传统民调的手工性质使得只有舍得不菲的花费，才可以做一项有足够规模的民调（样本小误差就大，难以达到民调的目的）。自动民调是由系统自动完成，同一个系统可以服务不同客户不同话题的各种民调，因此可以做到非常廉价，花费只需传统民调的零头。样本数可以高出手工调查回收数量的n个量级，是传统民调无法企及的。至于话费，通常的商业模式有两种，客户可以订阅（license）这样的系统的使用权，然后可以随时随地对任意多话题做任意多民调。零散客户也可以要求记件使用，每个话题民调一次缴纳多少钱。客观性。传统民调需要设计问卷，这就可能有意无意引入主观因素，因此不能完全排除模糊歧义乃至误导的可能。自动民调是自底而上的自动数据分析，用的是归纳整合的方法，因此更加具有客观性。为了达成调查，调查者有时不得不施行物质刺激，这也产生了部分客户纯粹为了奖励而应付调查、返回低质问卷的弊端。自动民调的对象是民意的自然流露（水军和恶意操纵另论），基数大，也有利于降噪，这就保障了情报的客观性。对比性。这一点特别重要，因为几乎任何话题的民调，都需要竞争对手或行业的背景。正面反面的舆论，问题的严重性等等，只有通过对比才能适当体现。譬如民调奥巴马的总统竞选效益，离不开对比其对手罗梅尼。客户调查 ATT 手机网络的服务，离不开比较其竞争者 Verizon，等。很多品牌实际上需要与一系列同类品牌做对比，才好确定其在市场的地位（如上图所示）。这种对比民调，虽然在理论上也可以手工进行，但是由于手工民调耗时耗力耗钱，很多时候调查者不得不减少或者牺牲对于竞争对手的调查，利用有限的资源只做对本企业的品牌调查。可自动调查就不同了，多话题的调查和对比是这类产品设计的题中应有之义，可以轻易完成。自动民调也有挑战，主要挑战在于人为噪音：面对混乱的社会媒体现实，五毛、水军以及恶意舆论的泛滥，一个有效的舆情系统必须不断与垃圾作战。好在这方面，搜索引擎领域已经积攒了丰富的经验可以借鉴。另一个挑战是需要对网络世界做两类媒体的分类（所谓push/pull的媒体分野）。民意调查切忌混入“长官意志”，客户情报一定要与商家宣传分开：同是好话，商家是王婆卖瓜，客户才是上帝下旨。这种媒体分类可以结合来源（sources）、语气（宣传类材料常常是新闻官方语气，而客户评价则多用口语和网络语）来决定，是有迹可寻的。总之，在互联网的时代，随着社会媒体的深入民间，民间情绪和舆论的表达越来越多地诉诸于社会媒体。因此，民调自动化势必成为未来民调的方向和主流。其支持技术也基本成熟，大规模多语言的应用指日可待。奥巴马赢了昨晚辩论吗？舆情自动检测告诉你。 Obama won the debate, see our evidence 民调自动化，技术带领你自动检测舆情: 社会媒体twitter的自动检测表明，奥巴马显然赢了昨晚的第二次辩论。人气曲线表明他几乎在所有议题上领先罗梅尼。对奥巴马真正具有挑战性的议题有二：一是他在第一任总统期间的经济表现（6:55pm）；二是批判他对中国不够强硬 (7:30pm)。人气曲线反映了由我们自然语言技术支持的实时舆情挖掘。（6）实时监测: 大数据时代的危机管理大数据挖掘第二个重要应用就是为公关危机提供实时检测和预警的工具。话说这危机管理（risk management）在进入社交媒体大数据时代，确实成为一个大问题。老话说，好话不出门，坏话传千里。在微博微信的时代，岂止千里，有时候一件事被疯狂推转，能传遍全世界。如果没有危机管理的意识以及迅速发现和应对的技术手段和公关技巧，损失的就是企业的信誉，外加金钱。这一点大名鼎鼎的跨国公司西门子最清楚，由于公关处理失当，发现和应对的不及时不诚恳不懂心理学，惹恼了一位叫做罗永浩的胖大哥。老罗是大 V，嗓子亮，因此一个简单的产品质量问题（好像是西门子冰箱的门不太容易关严实）演变成一场社交媒体的戏剧性的消费者维权事件。老罗愤而砸西门子冰箱的行为艺术和形象，成为家喻户晓的消费者维权的特征符号。西门子为此损失了多少银子，百万还是千万，只有他们自己可以算清楚，打落牙齿自己吞，这是傲慢的西门子的血的教训。企业大数据运用的主要 use scenarios，其中 risk management 最容易打动客户，他们也最愿意花大钱帮助实时监控。一个可能的公关灾难从火种到无法收拾，里面可以调控的时间不长，他们希望电脑大数据监控能在第一时间发出预警，然后他们可以及时应对。曾经测试中文系统一个月的微博数据（新浪微博和腾讯微博），想看看系统对于类似危机的监测效果如何，结果发现了一个当时闹得沸沸扬扬的必胜客虾球广告事件，涉嫌侮辱视力残障人士。下面的挖掘抓取令人印象深刻，显然这次事件严重影响了企业的社会形象，是一个不折不扣的公关危机。好在必胜客管理层应对迅速，及时道歉，逐渐平息了事态。（7）大数据及其挖掘的局限性说说它的不宜和禁忌。这种挖掘不宜做预测，更适合做回顾。当然，历史是未来的镜子，回顾过去也未尝不能透出一点趋向的预测。这种挖掘一般不提供问题的答案，特别是科学问题，答案在专家或上帝手中，不在网民的口水里。大数据不是决策的唯一依据，只是依据之一。正确的决策必须综合各种信息来源。大事不提，看看笔者购买洗衣机是怎样使用大数据、朋友口碑、实地考察以及种种其他考量的吧。以为有了大数据，就万事大吉，是不切实际的。值得注意的是，即便被认为是真实反映的同一组数据结果也完全可能有不同的解读（interpretations），人们就是在这种解读的争辩中逼近真相。一个好的大数据系统，必须创造条件，便于用户 drill down 去验证或否定一种解读，便于用户通过不同的条件限制及其比较来探究真相。社媒是个大染缸，顽主比烂，僵尸横行，水军泛滥，这样的大数据，其挖掘又有什么意义？无论是怎样大的染缸，它实际上成为最具规模、最便捷、有时甚至是唯一的普罗网民的舆情宣泄口。水军僵尸总会有对付的办法。社媒的混沌和杂乱不是不作为的理由。从情报角度，它可能不是富矿，但肯定是金矿，就看你有没有本事挖掘它。有网友怕大数据挖掘误导读者。的确，大数据的操作和挖掘可能有 bug。但大数据提供的舆情全貌鸟瞰是其他手段代替不了的，而我们每个个体在日常接触中只能看到舆情信息海洋的一滴水。事实上，无视大数据更容易被自己的局限所误导。害怕大数据，就好比蒙上眼睛，世界就不见了一样可笑。应该指出的是，挖掘本身虽然可能有 bug ，数据本身也有不少噪音，但它们对所有搜索的话题是一视同仁的，是独立于话题的。这些数据及其挖掘的不完善只要放在比较的框架中就不是严重问题。虽然具体语言中褒贬比例和分布可能不同，但是如果一个对象的褒贬指数放在其他对象的褒贬指数的背景（reference frame）下来阐释，其解读就比较真实。比如，在过往的许多调查中，我们知道褒贬度降到零下20以后就很不妙，说明媒体形象差，老百姓很多怨气。有了这样一个历史积累，新的品牌或话题如果达到类似的指标，解读就不大会离谱了。特别是，我们做一个行业的多品牌调查和比较的时候更是如此。品牌A与品牌B的在舆情中的相对位置非常说明问题。系统的误差，质量的不完美，语言数据的不完整，以及语言现象的分布不匀，所有这些统统不再成为问题，除非这些差异是针对特定品牌的（这种现象基本不出现）。这一点毛委员早就说过：有比较才有鉴别。（8）大数据创业的苦和乐高新技术的好处在于做前人没做过的创新。创新的真义在于在技术手段面对应用现场的无数应用可能的组合方案中，在与用户的交互与市场的培育下，你找到了那一个很小子集中的一员。这个子集里的产品定义因应时代的召唤，生逢其时，不早也不晚，而且有技术门槛（entry barrier）。如果你做到了这一点，你会发现，你的客户不乏热情先行者（early adopters），他们不吝啬溢美之辞，为了现实需求中疑难的解决。也有客户大喜过望，把他们不理解的语言技术，视为未来世界奇迹的提前来临。他们的欣喜会感染开发者。当这种感染不再是个案，而是每日在发生的时候，你不可能无动于衷，也不可能不加入客户成为大数据及其创新的吹鼓手。【相关篇什】：【喋喋不休论大数据（立委博文汇总）】本文引用地址： http://bbs.sciencenet.cn/blog-362400-766229.html 上一篇：为什么叫“上”厕所，“下”厨房？下一篇：如果钱不是问题的话更多收藏分享举报全部作者的其他最新博文 • 如果钱不是问题的话 • 为什么叫“上”厕所，“下”厨房？ • CNN 胆敢登载反转文章，散布伪科学反转谣言！ • 围脖：小时候不爱吃一切非米品，现在也爱吃了 • 巧克力晶体与食品口感热门博文导读 • 上帝之眼看地球廿大最美的城市 • 知识社会中的中医学(一） • 态度决定成败——第一次为SCI刊物审稿有感 • 欧美国家也曾大规模虐杀狗，但是在100多年之前 • 令人意外的美国小学——美行（五十四） • 无奈，猪吃啥，咱跟着吃啥当前推荐数： 10 推荐人：许培扬马磊刘淼曹聪陈楷翰陈辉 seeker99 tuner qiangtao2005 yqlei 发表评论评论 ( 1 个评论) 戴申 2014-2-10 16:50 转贴一个对大数据吐槽的文章。吐糟为什么说Hadoop是个渣。最近大数据概念流行，有个笑话曾经戏虐流行的也可能是感冒。除了那几个V被涛哥吐糟：原文是“大数据的4个V”，只是不痛不痒生搬硬套的无病呻吟” http://blog.sciencenet.cn/blog-3075-603325.html 。按下不表。在国内有个现象“一窝蜂”上，好在我们人口基数多，指数现象明显，提及大数据，处理平台就须是Hadoop。好吧，就先说下Hadoop集群，国内用得起千台以上规模主机的大概也就只有BATS（百度阿里腾讯新浪），某易某狐某搜都别捉急，也欢迎其他够资格的加入。Hadoop 中三个基本构成要件 HDFS BigTable MapReduce，涉及某goo的篇论文。算了，抄别人概念这事儿就不接着吐了。逐个来，先说HDFS，为了提高数据可靠性，所谓就近计算，将数据复制三份。即将整体数据存储的空间加三倍存。在运维时，如果主机存储空间利用率超过80%，一般都要开始考虑扩容了，如果是三倍的冗余，其实这里就有近四倍的物理空间需求。考虑某宝实际运营中硬盘的损坏率10%/年，（还有网络损坏、内存损坏、和极少的CPU损坏），合并出来运营的成本是很惊人的。增加设备同时也增加了网络接口，就算每个网络接口100元，蚊子也是肉啊。机房空间，42U机柜，理论上能装到21台2U的主机，除去网络设备、电源控制所占空间，方便按20台主机算。如果1000台规模，需要50个机柜。但是其中2/3都是多出来的。本来需要一整个机房的空间，其实只用一排机柜。电力消耗，平均5台机架式服务器，24x7运行1年，就需要1台机架式服务器的电费，（工业用电那叫一个贵）。1000机器开一年就需要消耗200台机器的购置费，大概也就是才多出来超过千万点点/年吧。当然，还有财务上的设备购置费或者设备折旧费用比这个数额只多不少。解决方法： 1.压缩。提及压缩，性能指标需要看压缩时间、解压时间、压缩比，还有不是很容易注意到的内存消耗和CPU消耗。具体的技术比较细节猛击 http://compressionratings.com/sort.cgi?rating_sum.brief+6n 最快的LZ4解缩时间，比Copy 仅多20%多一点，平均压缩率是0.5倍原始空间大小。压缩不仅意味着存储空间需求的降低，还意味着磁盘IO时间的节省，网络传输时间的节省。看似费时费力，总体应该还是节省。且如果是列式的数据，压缩效率那是惊人的。我有用 LZ4 完成超过 10：1压缩的经验。 2.HDFS的效率，为了提高所谓整柜离线的可靠性保障，就随意地将数据放了三份，某虎，你这是极不负责任地，也是动辄几千万的随意。古代，在单机多硬盘环境下，通常使用RAID提高数据可靠性，但是在分布环境下，一样也有分布式RAID,十几年前就有的分布式RAID论文： http://www.docin.com/p-70821444.html 都没有人看到过吗？ 3.如果嫌弃2太学术，实现起来比较远，glusterfs听说过了没有？从3.3开始就能支持Hadoop直接挂接了，分布式RAID,不用三份数据的。不负责任脚注：如果用glusterfs 碰到全局共享锁的问题，别怪我没有提醒。其实实现一个远程分布式RAID对那些动辄就上千万人工费的开发队伍真的就很难么? 4.BigTable, 暂时还没什么好吐的，先冷着。 5.Map-Reduce，开发中使用MR有个方便之处，写一个模块，部署到各个节点，然后其并发运行。这个看似很不起眼的功能，其实后面隐含存在着模块分发、任务调度、数据的分布和计算系列的功能。数据分布计算不说，用C写一个模块分发、并能动态调度的过程就几十行代码的事啊。用的着大费周折地用则么不高效的实现么？ 6.吐糟重点来了：国内的IT行业，已经从古老的习惯敏捷开发、到互联网的习惯快速迭代，已经没有意愿进行基础平台开发了，要么快，快到干脆用Rails，其实Java当初也是打着快速应对开发的旗帜而来的；要么死，裁撤。这是一个浮躁的时代，也就注定没有耐心的基础开发。一切也如毒瘤，尾大不掉。; 个人分类: 文化杂谈|0 个评论

“大数据与认识论”研讨会的书面发言（草稿）: 热度 7 liwei999 2014-2-10 12:55; 【立委按】刘钢老师来函，邀请我从我的大数据博文系列选辑一篇书面发言，参加社科院哲学所题为“大数据与认识论”的研讨会。盛情难却，更不用说社科院是我老家了。那就把散在科学网博客【社媒挖掘】和【立委科普】专栏的博文中的立委论大数据拼接汇总一下吧。无论国内国外，学界业界，“大数据”都是滚烫的热词。上次愚人节应中文信息学会邀请在软件所做了一个题为【大数据时代中文社会媒体的舆情挖掘】的演讲，科学网编辑还特地录了像，高挂在【科学网公开课】里，与那些世界级大师的讲座并列，与有荣焉，不胜惶恐（倒不是要自我矮化，说自己的大数据工作不在世界水平之列，但科学大讲堂这座庙里请的都是何等人物？面对的是科学殿堂让人高山仰止的大牌科学家和诺贝尔奖得主，在下乃区区一介匠人而已，何德何能，登堂入室）。无独有偶，去年流行大数据，硅谷科学家和工程师举行一系列关于大数据的讨论会，被邀请作为 panelist 参加了两个大数据研讨会，现场问答热烈，气氛很活跃。旅美华人科学家协会最近征集出版了一期大数据专刊，也发表了几篇论文。硅谷的【丁丁电视】也很早就邀请立委在其《创新频道》做一个大数据的科技访谈，一直抽不开身准备，推迟到三月左右。一来二去，俨然是大数据专家了。其实，立委所长不过是大数据之一部，即自然语言的文本挖掘这块儿。而对于大数据的非文本形式（譬如语音、图片、录像、交易数字记录等），对于大数据的云处理手段及其工程架构等，所知十分有限。因此，本文仅仅就自然语言文本挖掘，特别是对近年火热的社会媒体的挖掘，谈一点一己之见，抛砖引玉，供各位参考。 (1) 大数据热的背景我们现在正处在一个历史契机，近几年发生了一连串值得注意的相关事件。其热门关键词是社会媒体（social media）、云计算（cloud computing），移动互联网（mobile web）和大数据（big data）情报挖掘。针对社会媒体内容利用云计算作为支撑的高新技术产业成为潮流。社会媒体尤其是微博持续升温，无论是用户还是其产生的内容，都以爆炸性速度增长，一场悄悄的社会媒体革命正在发生，它从根本上改变着社会大众以及企业对信息的接受和传播方式。传统的由媒体巨头主导经由电视、广播和报纸的自上而下的新闻和宣传的传播方式，正在逐渐让步于基于网络与网民的社交媒体的蛛网方式。最新的新闻（无论是天灾人祸、名人掐架还是品牌褒贬）常常发端于处在现场的网民或当事人的微博，然后瞬间辐射到整个互联网，传统传媒往往紧随其后。在这样的形势下，企业软件巨头纷纷把目光聚焦在对于社会媒体舆论和民意的跟踪上，视其为品牌和客户情报的重要来源。 2011年初，美国做市场情报的巨头之一 Salesforce以三亿多美元 (326million)的价钱并购了社会媒体客户情报检测系统Radian6，说明社会媒体中客户对产品的评价情报对于企业的重要性不容忽视。Oracle对从事云计算和社会媒体追踪的公司RightNow的并购更是高达15亿（1.5 billion）. HP在逐渐放弃低利润的PC和平板等硬件产业的同时，开始加强企业软件的投资力度，以120亿天价购并了从事文本情报的英国公司Autonomy（12billion）。最后，接近2011年末的时候，全球企业软件的另一家巨头SAP以34亿收购了云计算公司SuccessFactors（3.4 billion），并决定与专事社会媒体深度分析的公司 Netbase 建立战略伙伴关系，分销并整合其社会媒体情报作为企业情报解决方案的重要一环。加上IBM自己的 Coremetrics Social 和 Adobe的 SocialAnalytics，可以看到所有企业软件巨头不约而同看好社会媒体的情报价值。在这个领域的投资和竞争日趋激烈。越来越多的华尔街主流投资公司开始加大对社交媒体 (social media) 分析系统公司的投资力度。如 Jive Software，连续得到 Sequoia Capital 两轮投资 (２００７和２０１０)。Sequoia Capital 是“重中之重”的投资大鳄，曾是如下名牌企业的最早投资商，战略眼光犀利: Apple, Google, Cisco, Oracle. 对于中文社交媒体大规模处理的应用型软件，目前才刚起步。然而中文网络信息的增长速度却是扶摇直上，最值得重视的是爆炸性增长的腾讯微信对个人网络及其社交方式的革命性影响，以及新浪微博在社会公共生活中的巨大影响。社交媒体所产生的巨量内容有如深埋的富矿，亟待开采。有问，这一波热潮会不会是类似2000年的又一个巨大的泡沫？我的观察是，也是，也不是。的确，在大数据的市场还不成熟，发展和盈利模式还很不清晰的时候，大家一窝蜂拥上来创业、投资和冒险，其过热的行为模式确实让人联想到世纪之交的互联网 dot com 的泡沫。然而，这次热潮不是泡沫那么简单，里面蕴含了实实在在的内容和价值潜力，我们下面会具体谈到。当然这些潜在价值与市场的消化能力是否匹配，仍是一个巨大的问题。可以预见三五年之后的情景，涅磐的凤凰和死在沙滩上的前浪共同谱写了大数据交响乐的第一乐章。回顾一下互联网技术公司的里程碑吧： 20多年前雅虎以门户网站（Yahoo portal）先领风骚，谷歌以搜索 (Google search) 后来居上，脸书推出的社交网络（Facebook social）与推特（Twitter）的微博现已深入我们每个人的生活。国内社交媒体是新浪微博和腾讯微信领头。下一个里程碑是什么？ Big data intelligence （大数据情报挖掘）很多人这样预测。 Google 首席科学家也列此为未来十年的高新技术第一块牌子。所不清晰的是谁家会胜出。看样子是有志之士摩拳擦掌弄潮儿的时机了。（2）什么是大数据顾名思义就是强调数据的量，但其实这个概念并不是那样简单。如果单纯论量，大数据不是今天才有的，而且数据的量也是一个积累渐变（当然可能是加速度增长）的过程。所谓大数据，更多的是社会媒体火热以后的专指，是已经与施事背景相关联的数据，而不是搜索引擎从开放互联网搜罗来的混杂集合。没有社会媒体及其用户社会网络作为背景，纯粹从量上看，“大数据”早就存在了，它催生了搜索产业。对于搜索引擎，big data 早已不是新的概念，面对互联网的汪洋大海，搜索巨头利用关键词索引（keyword indexing）为亿万用户提供搜索服务已经很多年了。我们每一个网民都是受益者，很难想象一个没有搜索的互联网世界。但那不是如今的 buzz word，如今的大数据与社会媒体密不可分。当然，数据挖掘领域把用户信息和消费习惯的数据结合起来，已经有很多成果和应用。自然语言的大数据可以看作是那个应用的继续，从术语上说就是，文本挖掘（text mining，from social media big data）是数据挖掘（data mining）的自然延伸。对于语言技术，NLP 系统需要对语言做结构分析，理解其语义，这样的智能型工作比给关键词建立索引要复杂百倍，也因此 big data scale up 一直是自然语言技术的一个瓶颈。大数据也包括声音、图片和录像等媒体。本文只谈文本大数据。随着社会媒体的深入人心以及移动互联网的普及，人手一机，普罗百姓都在随时随地发送消息，发自民间的信息正在微博、微信和各种论坛上遍地开花。对于信息受体（人、企业、政府等），信息过载（information overload）问题日益严重，利用 NLP 等高新技术来帮助处理抽取信息，势在必行。除了与社会媒体以及施事背景密切相关以外，大数据此时的当红也得力于技术手段的成熟。大数据的存贮架构以及云计算的海量处理能力，为大数据时代的到来提供了技术支撑平台。在此基础上，大数据的深度挖掘才有可能跳出实验室，在具体应用和服务中发挥作用。大数据时代只认数据不认人。 Of course, In God We Trust . But in everything else we need data. 道理很简单，在信息爆炸的时代，任何个人的精力、能力和阅历都是有限的，所看到听到的都是冰山一角。大V也是如此，大家都在盲人摸象。唯有大数据挖掘才有资格为纵览全貌提供导引。当然，这不是说，大数据挖掘就是完美的解决方案。但是，正如一人一票的民主选举也不是人类社会完美的体制，而只是最少犯错误的机制一样，大数据挖掘比任何其他个人或利益集团的分析，较少受到主观偏见的干扰。这是由大数据本性决定的。大数据是忽悠么？吆喝多了，烂了，就跟转基因似的，本来是正经的研究，也要被人怀疑是忽悠，甚至骗局。要说忽悠，大数据有没有忽悠？当然有，应该说很多。所有的泡沫都是吹起来的，但特别大的泡沫其所以能被吹起来并且持续，就不仅仅是吹功可为。正如我演讲中说过的，大数据不仅仅是忽悠，一场革命也许在酝酿着。（3）大数据挖掘技术及其挑战社会媒体火了，信息爆炸式增长，也有了大数据支撑平台，挖掘技术跟上了么？面对呈指数增长的海量信息，人类越来越面对信息获取的困境。唯一的出路是依靠电脑挖掘。对付文本大数据的核心技术是自然语言处理（NLP），没有鲁棒高效的 NLP，电脑挖掘得不到什么有指导价值的情报。就说社会媒体对产品和服务的评价吧，每时每刻，无数用户的抱怨和推荐不断出现在网上，这些客户对产品的评价情报对于企业加强产品功能和研发新产品，具有很高的应用价值。可是怎么获取这些淹没在语言海洋中的情报呢？出路就是：1 自动分析； 2. 自动抽取；3 挖掘整合。这就是我们正在做而且已经取得显著效果的工作。社会媒体的特点是什么？概括来说，就是：1. 不断翻新的海量信息源；2. 满是不规范的字词和表达法。这就要求研发的系统，首先必须具有大数据处理能力（ scalability），实验室的玩具系统无论其数据分析多么精准深入也是不行的；同等重要的还有分析系统的鲁棒性（robustness）。在这两者的基础上，如果再能做到有深度（depth），则更佳。深度分析的优势在于能够支持应用层面的以不变应万变。因为应用层面的变数大，不同的客户、不同的产品对于信息的关注点不同，所以抽取信息应该越灵活越好，最好能做到象目前运用搜索引擎或数据库查询那样方便。但数据的语言表达是千变万化的，要做到信息的灵活抽取，而不是根据事先预定的信息模板来抽取，那就需要相当的语言分析深度来支持一个逻辑化的语义表达。要一个系统既有 scalability，robustness，还要有 depth，不是一件容易的事儿。在处理海量数据的问题解决以后，查准率和查全率变得相对不重要了。换句话说，即便不是最优秀的系统，只有平平的查准率（譬如70%，抓100个，只有70个抓对了），平平的查全率（譬如30%，三个只能抓到一个），只要可以用于大数据，一样可以做出优秀的实用系统来。其根本原因在于两个因素：一是大数据时代的信息冗余度；二是人类信息消化的有限度。查全率的不足可以用增加所处理的数据量来弥补，这一点比较好理解。既然有价值的信息，有统计意义的信息，不可能是“孤本”，它一定是被许多人以许多不同的说法重复着，那么查全率不高的系统总会抓住它也就没有疑问了。从信息消费者的角度，一个信息被抓住一千次，与被抓住900次，是没有本质区别的，信息还是那个信息，只要准确就成。疑问在一个查准率不理想的系统怎么可以取信于用户呢？如果是70%的系统，100条抓到的信息就有30条是错的，这岂不是鱼龙混杂，让人无法辨别，这样的系统还有什么价值？沿着这个思路，别说70%，就是高达90%的系统也还是错误随处可见，不堪应用。这样的视点忽略了实际的挖掘系统中的信息筛选（sampling）与整合（fusion）的环节，因此夸大了系统的个案错误对最终结果的负面影响。实际上，典型的情景是，面对海量信息源，信息搜索者的几乎任何请求，都会有数不清的潜在答案。由于信息消费者是人，不是神，即便有一个完美无误的理想系统能够把所有结果，不分巨细都提供给他，他也无福消受（所谓 information overload）。因此，一个实用系统必须要做筛选整合，把统计上最有意义的结果呈现出来。这个筛选整合的过程是挖掘的一部分，可以保证最终结果的质量远远高于系统的个案质量。总之，size matters，多了就不一样了。大数据改变了技术应用的条件和生态，大数据更能将就不完美的引擎。（4）客户评价和民意舆论的抽取挖掘舆情（舆论情绪/舆论情势）是什么？人民（或网民）的声音。人民是由个体组成的，网民是由网虫组成的。网民的声音来自一个个网虫的帖子。网民声音的载体就是社会媒体大数据。在大数据的尺度下，个体声音的过细分类没有太大意义，因为只要数据足够大，其最终舆情结果（结论）是不变的。举例来说，10万个正面呼声，100万个负面呼声，其综合舆情结果并不会因为这10万中有 1万crazy，1万love，8万like，负面中有10万fuck，10万hate，80万dislike 等等而有大的改变。无论如何计算，结论依然是天怒人怨。大数据系统情报挖掘的真正价值何在呢？就是揭示冗余度支持的有统计意义的情报及其关联。在大数据的尺度下，个体情报的引擎查全率的不足不是问题，因为在大数据整体挖掘的背景下，样本空间的问题消失了。个体的不足或遗漏，不过是等价于样本空间缩小了那么一点点儿，对于统计情报的完备、性质和价值不具有负面影响。考虑到很多年来，统计情报都是手工 survey 而来，其样本空间由于预算以及时效的制约，大多是几千个数据点（data points）而已，统计人员一直在预算、时效和 error margin 之间挣扎。如今的大数据挖掘，随便一个调查都有百万甚至千万的数据点支持，与手工调查完全不可同日而语，样本空间的些微变化因此不能对情报价值造成伤害。总之，与其追求引擎的查全率，不如把精力放在查准率上，然后着力于应对数据量的挑战（scale up）。采样大就可以弥补个体颗粒度的粗疏，这在机器学习领域被一再证明，也是很多统计学家不屑于语言学家精雕细刻雕虫小技的缘由之一。这么说，语言学可以退出舞台了？并非如此。主要原因有二。第一是大数据并非总存在。冷门品牌或者新出的品牌的数据量就往往不够，另外很多分析要求对数据进行切割，比如从时间维度的切割可以反映舆情的消长（trends），是制定决策时非常重要的情报，可是大数据一切隔往往就成了小数据，没有语言学上比较细致的分析来弥补，舆情分析就不靠谱，没有足够的置信度。第二是褒贬分析只提供舆情的一个概览，它本身并不是 actionable insights. 知道很多人喜欢或者不喜欢一个品牌，so what？企业还是不知道怎么办，最多是在广告宣传投资量的决策上有些参考价值，对于改进品牌产品，适应用户需求，褒贬舆情太过抽象，不能提供有价值的情报。这就要求舆情分析冲破两分、三分、五分的分类法，去发掘这些情绪的背后的动因（reasons/motivation），回答为什么网民喜欢（不喜欢）一个品牌的问题。譬如挖掘发现，原来喜欢麦当劳的主要原因是它发放优惠券，而不喜欢它的原因主要是嫌它热量太大，不利减肥。这样的舆情才是企业在了解自己品牌基本形象以后，最渴望得到的 actionable 情报，因为他们可以据此调整产品方向（如增加绿色品种和花样，水果、色拉等），改变广告策略（如强调其绿色的部分）。大数据给决策人（政府、企业或者犹豫如何选择的消费者）提供了一个前所未有的方便工具，去纵览有统计意义的舆情。这在以前只能通过小规模误差很大的人工问卷调查来做。如今自动化了，而且样本量高出好几个量级，拜科学技术所赐。（5）自动民调: 社媒大数据挖掘的重要应用社媒大数据挖掘最重要的应用之一是自动民调，可以补充、加强并最终取代手工问卷调查。可以用来测量一场运动、战役、广告的效果，总统选情的检测，等等。自动民调（Automatic Survey）指的是利用电脑从语言数据中自动抽取挖掘有关特定话题的民间舆论，其技术领域即所谓舆情挖掘（sentiment mining），通常需要自然语言（NLP）和机器学习（Machine Learning）等技术作为支持。自动民调是对传统的问卷调查一个补充或替代。在社会媒体日益普及的今天，民间情绪和舆论通过微博、博客或论坛等社会媒体管道铺天盖地而来，为了检测、采集和吸收这些舆论，自动民调势在必行，因为手工挖掘面对大数据（big data）已经完全不堪负荷。民意调查（poll）可以为政府、企业以及民众的决策提供量化情报，应用范围极其广泛。总统大选是一个突出的例子，对于总统候选人本人及其竞选团队，对于选民，民调的结果可以帮助他们调整策略或作出选择。产品发布是企业的例子，譬如 iPhone 5 发布以后，民调的反馈可以帮助苹果及时发现问题。对于有意愿的消费者，民调的结果也有助于他们在购买、等待还是转向别家的决策时，不至于陷入盲目。相对于传统的以问卷（questionnaire）调查为基础的民调，自动民调有以下几个突出特点。及时性。传统民调需要经过一系列过程，设计问卷、派发问卷（通过电话采访、街头采访、有奖刺激等手段）、回收问卷，直到整合归纳，所有程序都须手工进行，因此难以做到及时响应。一个认真的客户产品调查常常需要几天甚至几周时间方可完成。自动民调可以做到立等可取。对于任意话题，使用自动民调系统就像利用搜索引擎一样方便，因为背后的处理机在不分昼夜地自动分析和索引有关的语言资料（通常来自社会媒体）。高性价。传统民调的手工性质使得只有舍得不菲的花费，才可以做一项有足够规模的民调（样本小误差就大，难以达到民调的目的）。自动民调是由系统自动完成，同一个系统可以服务不同客户不同话题的各种民调，因此可以做到非常廉价，花费只需传统民调的零头。样本数可以高出手工调查回收数量的n个量级，是传统民调无法企及的。至于话费，通常的商业模式有两种，客户可以订阅（license）这样的系统的使用权，然后可以随时随地对任意多话题做任意多民调。零散客户也可以要求记件使用，每个话题民调一次缴纳多少钱。客观性。传统民调需要设计问卷，这就可能有意无意引入主观因素，因此不能完全排除模糊歧义乃至误导的可能。自动民调是自底而上的自动数据分析，用的是归纳整合的方法，因此更加具有客观性。为了达成调查，调查者有时不得不施行物质刺激，这也产生了部分客户纯粹为了奖励而应付调查、返回低质问卷的弊端。自动民调的对象是民意的自然流露（水军和恶意操纵另论），基数大，也有利于降噪，这就保障了情报的客观性。对比性。这一点特别重要，因为几乎任何话题的民调，都需要竞争对手或行业的背景。正面反面的舆论，问题的严重性等等，只有通过对比才能适当体现。譬如民调奥巴马的总统竞选效益，离不开对比其对手罗梅尼。客户调查 ATT 手机网络的服务，离不开比较其竞争者 Verizon，等。很多品牌实际上需要与一系列同类品牌做对比，才好确定其在市场的地位（如上图所示，对社会媒体的自动民调清楚显示出美国几家主要零售店在消费者心目中的相对位置）。这种对比民调，虽然在理论上也可以手工进行，但是由于手工民调耗时耗力耗钱，很多时候调查者不得不减少或者牺牲对于竞争对手的调查，利用有限的资源只做对本企业的品牌调查。可自动调查就不同了，多话题的调查和对比是这类产品设计的题中应有之义，可以轻易完成。自动民调也有挑战，主要挑战在于人为噪音：面对混乱的社会媒体现实，五毛、水军以及恶意舆论的泛滥，一个有效的舆情系统必须不断与垃圾作战。好在这方面，搜索引擎领域已经积攒了丰富的经验可以借鉴。另一个挑战是需要对网络世界做两类媒体的分类（所谓push/pull的媒体分野）。民意调查切忌混入“长官意志”，客户情报一定要与商家宣传分开：同是好话，商家是王婆卖瓜，客户才是上帝下旨。这种媒体分类可以结合来源（sources）、语气（宣传类材料常常是新闻官方语气，而客户评价则多用口语和网络语）来决定，是有迹可寻的。总之，在互联网的时代，随着社会媒体的深入民间，民间情绪和舆论的表达越来越多地诉诸于社会媒体。因此，民调自动化势必成为未来民调的方向和主流。其支持技术也基本成熟，大规模多语言的应用指日可待。奥巴马赢了昨晚辩论吗？舆情自动检测告诉你。 Obama won the debate, see our evidence 民调自动化，技术带领你自动检测舆情: 社会媒体twitter的自动检测表明，奥巴马显然赢了昨晚的第二次辩论。人气曲线表明他几乎在所有议题上领先罗梅尼。对奥巴马真正具有挑战性的议题有二：一是他在第一任总统期间的经济表现（6:55pm）；二是批判他对中国不够强硬 (7:30pm)。人气曲线反映了由我们自然语言技术支持的实时舆情挖掘。（6）实时监测: 大数据时代的危机管理大数据挖掘第二个重要应用就是为公关危机提供实时监测和预警的工具。话说这危机管理（risk management）在进入社交媒体大数据时代，确实成为一个大问题。老话说，好话不出门，坏话传千里。在微博微信的时代，岂止千里，有时候一件事被疯狂推转，能传遍全世界。如果没有危机管理的意识以及迅速发现和应对的技术手段和公关技巧，损失的就是企业的信誉，外加金钱。这一点大名鼎鼎的跨国公司西门子最清楚，由于公关处理失当，发现和应对的不及时不诚恳不懂心理学，惹恼了一位叫做罗永浩的胖大哥。老罗是大 V，嗓子亮，因此一个简单的产品质量问题（好像是西门子冰箱的门不太容易关严实）演变成一场社交媒体的戏剧性的消费者维权事件。老罗愤而砸西门子冰箱的行为艺术和形象，成为家喻户晓的消费者维权的特征符号。西门子为此损失了多少银子，百万还是千万，只有他们自己可以算清楚，打落牙齿自己吞，这是傲慢的西门子的血的教训。企业大数据运用的主要运用场景（use scenarios），其中危机管理（risk management）最容易打动企业客户，他们也最愿意花大钱帮助实时监控。一个可能的公关灾难从火种到无法收拾，里面可以调控的时间并不长，他们希望电脑大数据监控能在第一时间发出预警，然后他们可以及时应对。曾经测试中文系统一个月的微博数据（新浪微博和腾讯微博），想看看系统对于类似危机的监测效果如何，结果发现了一个当时闹得沸沸扬扬的必胜客虾球广告事件，涉嫌侮辱视力残障人士。下面的挖掘抓取令人印象深刻，显然这次事件严重影响了企业的社会形象，是一个不折不扣的公关危机。好在必胜客管理层公关应对迅速，及时道歉，逐渐平息了事态。（7）大数据及其挖掘的局限性说说它的不宜和禁忌。这种挖掘不宜做预测，更适合做回顾。当然，历史是未来的镜子，回顾过去也未尝不能透出一点趋向的预测。这种挖掘一般不提供问题的答案，特别是科学问题，答案在专家或上帝手中，不在网民的口水里。大数据不是决策的唯一依据，只是依据之一。正确的决策必须综合各种信息来源。大事不提，看看笔者购买洗衣机是怎样使用大数据、朋友口碑、实地考察以及种种其他考量的吧。以为有了大数据，就万事大吉，是不切实际的。值得注意的是，即便被认为是真实反映的同一组数据结果也完全可能有不同的解读（interpretations），人们就是在这种解读的争辩中逼近真相。一个好的大数据系统，必须创造条件，便于用户 drill down 去验证或否定一种解读，便于用户通过不同的条件限制及其比较来探究真相。社媒是个大染缸，顽主比烂，僵尸横行，水军泛滥，这样的大数据，其挖掘又有什么意义？无论是怎样大的染缸，它实际上成为最具规模、最便捷、有时甚至是唯一的普罗网民的舆情宣泄口。水军僵尸总会有对付的办法。社媒的混沌和杂乱不是不作为的理由。从情报角度，它可能不是富矿，但肯定是金矿，就看你有没有本事挖掘它。有网友怕大数据挖掘误导读者。的确，大数据的操作和挖掘可能有 bug。但大数据提供的舆情全貌鸟瞰是其他手段代替不了的，而我们每个个体在日常接触中只能看到舆情信息海洋的一滴水。事实上，无视大数据更容易被自己的局限所误导。害怕大数据，就好比蒙上眼睛，世界就不见了一样可笑。应该指出的是，挖掘本身虽然可能有 bug ，数据本身也有不少噪音，但它们对所有搜索的话题是一视同仁的，是独立于话题的。这些数据及其挖掘的不完善只要放在比较的框架中就不是严重问题。虽然具体语言中褒贬比例和分布可能不同，但是如果一个对象的褒贬指数放在其他对象的褒贬指数的背景（reference frame）下来阐释，其解读就比较真实。比如，在过往的许多调查中，我们知道褒贬度降到零下20以后就很不妙，说明媒体形象差，老百姓很多怨气。有了这样一个历史积累，新的品牌或话题如果达到类似的指标，解读就不大会离谱了。特别是，我们做一个行业的多品牌调查和比较的时候更是如此。品牌A与品牌B的在舆情中的相对位置非常说明问题。系统的误差，质量的不完美，语言数据的不完整，以及语言现象的分布不匀，所有这些统统不再成为问题，除非这些差异是针对特定品牌的（这种现象基本不出现）。这一点毛委员早就说过：有比较才有鉴别。（8）大数据创业的苦和乐高新技术的好处在于做前人没做过的创新。创新的真义在于在技术手段面对应用现场的无数应用可能的组合方案中，在与用户的交互与市场的培育下，你找到了那一个很小子集中的一员。这个子集里的产品定义因应时代的召唤，生逢其时，不早也不晚，而且有技术门槛（entry barrier）。高新技术创业的痛苦不仅仅在技术研发以及实用化过程中的辛劳，更让人困惑的是来自新兴市场的挑战。尚未成熟的新兴市场好比性感女郎，时髦而善变，适应这样的市场需要的不仅仅是技术，而是善于在技术与市场之间牵线搭桥的红娘。具体说来，这决定于企业老总的眼光、产品经理的敏锐以及技术创新者随机应变的能力。技术人改变世界的宏图大志如果单纯靠自己一亩三分地的耕耘，无论你多先进和辛勤，也只能是美梦一场。然而，如果你有幸找到了市场切入点，你会发现，你的客户不乏热情先行者（early adopters），他们不吝啬溢美之辞，为了现实需求中疑难的解决。也有客户大喜过望，把他们不理解的语言技术，视为未来世界奇迹的提前来临。他们的欣喜会感染开发者。当这种感染不再是个案，而是时常发生的时候（所谓 tipping point），你不可能无动于衷，也不可能不加入客户成为大数据及其创新的吹鼓手。【相关篇什】：【喋喋不休论大数据（立委博文汇总）】 Social Media Big Date, anther bubble? 【置顶：立委科学网博客NLP博文一览（定期更新版）】; 个人分类: 立委科普|7417 次阅读|8 个评论

谈谈创新与自然语言之间的关系: 热度 18 张能立 2014-1-22 09:41; 1、引言眼下的中国的现代化进程处于一个进退维谷这么一个尴尬境地。因三十多年的经济改革，让中国国家层面积累了巨大的财富，国民生产总值（GDP）仅次于世界唯一超级大国美国，故朝野上下喊出了“道路自信、理论自信、制度自信”这样只能在国内响亮的口号，但却不能在国际上得到任何回应和承认。不过，喊口号的人，不得不戴着防PM2.5的口罩喊，这又不仅使得喊的人心虚，而且国人也疑虑：不管政治上说得多么动听，前途描绘多么动人，但是环境和食品安全不断恶化之路，怎么还能说道路自信的呢？再说，不是说股市是市场经济和社会的晴雨表的么？2014年1月20日沪市沪指跌破2000点，从近一年多的股市表现来看，中国经济正面临一场深刻的危机，也许真的是应了一句老话“山雨欲来风满楼”。不过，不论各类“爱国者”坚持各种各样的民族主义立场，有一个始终让他们挥之不去的问题：中国人缺乏创新性和创新力。提前创新性和创新能力，各类“爱国者”们，仿佛像约定好似的，将祖宗的“四大发明”讲得活灵活现，仿佛祖宗的遗产可以让我们后人“坐吃山不空”。不过，如果好事者对这些“爱国者”发问：除了祖宗的“四大发明”之外，咋迟迟不见第五大发明的呢？起初，这类“爱国者”脸上面露难色，但是，这类“爱国者”搞真正的发明创造的本事没有，维护脸面的本领却是超强。将宋代以后再无第五大发明的原因，赖给了蒙古人和满人，认为是这些外族人对中国实行了封建主义统治之故；将当代没有创新性和创造力的原因，赖给政治制度和执政党。可是，也许这些“爱国者”们的眼睛是鼠目寸光似的，他们就是看不见，同样处于封建主义统治的洋人，咋能够不断发现“日心说”这样的科学真理的呢？并且在科学真理的指引下，洋人社会却可以先于中国数百年，从封建社会进化到资本主义社会。同样，这些“爱国者”们也无法解释，同样的政治制度和同样的政党的苏联，咋能发射人类文明史上第一颗人造卫星的呢？并且即使是斯大林这样专制独裁者铁腕般的统治下，仍然还是有多名像朗道这样的科学家荣获诺贝尔自然科学奖。此外，海峡对岸的台湾社会，民主政治体制已经有几十年之久的吧，再说，当年蒋委员长逃离大陆去台湾的时候，除了带走金条之外，不是将民国的科学精英尽数带到了台湾的么？即使台湾地区政治民主化了，经济更不差钱，还有民国教育和科学底蕴，迄今为止，仍然本土也不能产生诺贝尔自然科学奖得主，也只能采取将“自己生的蛋，送到美国请洋人孵化”，才有李远哲、朱棣文、崔琦等华人荣获诺贝尔自然科学奖，更不用说，诺贝尔自然科学奖得主，钱学森的大侄子钱永健直接出生在美国，连中国话都不会说。如果说台湾社会繁荣昌盛的话，不还是在科学及技术方面仰仗美国，市场方面依赖大陆的缘故。因此，中国人缺乏创新性和创新力，除了众所周知的政治体制原因之外，还有更深刻的原因，这个原因就是中国式思维、语言及文化。正如饭要一口口地吃一样，本文只试图从汉语这个角度，探讨一下创新与自然语言之间的关系。 2、真知、伪知与学问提起学问，国人对于知识渊博的人，一般用“学富五车”形容之。“学富五车”出自《庄子·天下篇》，原文是“惠施多方，其书五车，其道舛驳，其言也不中”。虽然，不论是黄皮肤的中国人，白皮肤的欧美人，还是黑皮肤的非洲人，据科学考证，都是源于非洲。换句话说，地球上所有民族的人，都是有共同的祖宗。话虽然这样讲，但从非洲走出的先祖们，辗转流离到地球各处谋生，因各自的地理气候等自然环境不同，从而产生了不同的思维及思维模式，进而产生出不同的文化和知识。对于什么是知识，伟大的法国数学家庞加莱是这样评价的：“现在，我们每天看到科学正是在我们眼皮底下起作用。如果它不能告诉我们实在的东西，情况就不会是这样。可是，它能够达到的并不是朴素的教条主义者所设想的事物本身，而只是事物之间的关系。在这些关系之外，不存在可知的实在。数学家研究的不是客体，而是客体之间的关系；因此，只要关系不变，这些客体被其他客体代换对他们来说是无关紧要的。在他们看来，内容（matter）是不重要的，他们感兴趣的只是形式。” 对于国人颇为自豪的“学富五车”，著名的数学家、伟大的教育家怀特海是这样认为的：“文化是思想的活动，是对美和人类情感的感受，零零碎碎的信息或知识对文化毫无帮助。如果一个人仅仅是见多识广，那么他在上帝的世界是最无用且无趣的。我们的目标是，要塑造既有广泛的文化修养，又在某个特殊方面有专业知识的人才，他们的专业知识可以给他们进步、腾飞的基础，而他们所具有的广泛的文化，使他们有哲学般的深邃，又如艺术般高雅”。图1 学富五车图2 庞加莱与怀特海现代数学和科学经过数百年的发展，对于数学而言，真知必须接受形式逻辑检验；对于科学而言，真知在接受形式逻辑检验后，还要最终接受实证检验。如果有某一知识被科学实验证伪，那么这条知识就是伪知。根据庞加莱、怀特海等西方著名思想家的共识，真知都是彼此互相联系的。换句话说，孤零零的知识，多半是伪知。如果认同这个观点，就会理解真正的学问是建立在彼此互相联系的真知基础之上的，就会明白即使清王朝花费巨额银两编纂的《四库全书》可靠的程度不会很高。 3、创新与自然语言之间的关系何为创新？从科学角度看，就是提出了前人没有的新理论，例如牛顿力学、爱因斯坦相对论、达尔文演化论、孟德尔基因论等等，从技术角度看，就是有诸如汽车、轮船、飞机、火箭、计算机、互联网等等这类新产品新技术。当然，这里罗列的是影响全人类的科学、技术和产品，还是无数的大大小小的科学发现和科学技术及产品。不论是科学、技术或者产品，对于创新而言，有一点是共同的，就是需要头脑广泛地产生联系或联想，然后再从这些众多的联系或联想之中筛选出有价值的想法，然后付之于行动，创新就会诞生出来。当然，创新的过程不会一帆风顺，往往是经过多次失败之后，才能产生真正的创新，“失败是成功之母”，讲的就是这个道理。明白了创新需要丰富的联系或联想这个道理，自然就会同意，不论是汉语还是西方语言，越是能够触发人产生联系或联想的语言，自然更加有利于创新。笔者曾经对包括小学语文老师在内的多位同胞，进行过汉语词汇之间联系测试。请参与测试的人回答一个问题：假如你看到“裂缝”这个词，会产生什么联想？参与测试的人回答：想不出什么联想。再请参与测试的人回答：假如你看到“劈啪声”这个词，会产生什么联想？参与测试的人回答：可以联想到春节过年的时候鞭炮声。笔者接着问参与测试的人：你能够将“裂缝”与“劈啪声”这两个词联系在一起的吗？参与测试的人回答：不能。于是，我现场给参与测试的人演示，将一张白纸撕开，裂缝不断延展的时候，伴随着一种破空的声音。这个时候，参与测试的人才恍然大悟，材料在产生裂缝的过程中，一般都伴随着劈啪的声音。同样的物理现象，英语词汇“crack”既有“裂缝”的意思，又有“劈啪声”的含义。由此可见，本来“裂缝”和“劈啪声”是同一物理现象的两种表现形式，但是，汉语将这一物理现象，用两个不同的词汇表达，从而将本来属于同一个整体的物理现象，割裂了成了两个从字面看上去完全不相干的两个事情。使用这种特点的自然语言，久而久之，联系或联想能力的发展自然受阻，创新性和创新力表现差就是很自然的事情。与此不同的是，英语采用“crack”这一个词汇，来表达“裂缝”或“劈啪声”（至于在具体句子中，到底是表达那种含义，由语法和语义来确定），就没有割裂属于同一个整体的物理现象，很自然地可以从“裂缝”联系或联想到“劈啪声”，从“劈啪声”很自然地联系或联想到“裂缝”。使用英语这类语言，久而久之，就会使得联系或者联想这种思维能力不断得以发展，创新性和创新力就会经久不衰，就会自然地源源不断地产生。通过像类似英语这样自然语言的使用，可以自然地建立事物之间的联系。同样是自然语言，为何汉语就不行的呢？要明白其中的需要从这两种不同的自然语言的构词法谈起。英语是拉丁字母语言的后裔，用26个字母不同的组合来构词。这26个字母分为元音和辅音（字母分两类，天然蕴藏着形式逻辑的萌芽），元音和辅音在字母表中的顺序不同，除此之外，字母没有更多的含义，是纯粹抽象的字符。由26字母中的部分字母构成的词汇，除了极少数之外，都是一词多义。英语词汇的多义，不是拉郎配式多义，而是将与某种自然现象或某种意义相关的概念，用一个词汇表达。与此相对应的是，汉语是一字多义，绝大部分是“一词一义”。正是因为，汉语绝大部分是“一词一义”，于是，用汉语词汇来表达概念的时候，这类语言自然地割裂了本来属于一个整体的自然现象或某种意义的东西。从建立有意义、有价值的联系或联想角度出发，英语的一词多义堪称伟大的创举，而汉语的一词一义就是典型的“画地为牢”。其实，汉语词汇的这种一词一义，不仅仅割裂了本来属于一个整体的自然现象或者某意义的东西，而且还造成用汉语表达的科学概念非常费解。例如，对于计算机领域里面的“操作系统”这个概念，如果没有接受过相关计算机教育，是很难明白“操作系统”到底是表达什么样的含义。因为，从字面上理解，“操作”就像敲键盘这类动作，绝不可能从“操作”字面中理解出“条件”的意思。与此相对应的是，英语里面的“operation”除了有“Action”、“ performance”这样的意思之外，还有“The condition of being operative or in working”（牛津英语大辞典解释）。原来完成一个“操作”，需要相关的“条件”才行。只不过，有的“操作”需要的条件，已经自然具备，不需要特别准备，而有的“操作”需要的条件需要事先准备才行。例如，走路跑步这种“操作”，不需要特别事先准备，但是用菜刀“切菜”这种“操作”，必须事先准备一个“砧板”才行。理解了这一点，就可以明白“操作系统”有两层含义：从宏观上讲，“操作系统”起着“砧板”那样的支撑条件作用，支撑着像浏览器、字表处理软件等应用软件；从微观上讲，“操作系统”负责统一“操作”处理器、内存、各种I/O设备等等计算机硬件资源，给各种应用软件提供统一的接口调用。图3 砧板与切菜图4 计算机操作系统示意图理解了汉语存在的结构性差、词与词之间缺乏自然的联系等缺点，就会明白为什么中国古代不能产生像亚里士多德那样的精通物理学、形而上学、诗歌（包括戏剧）、音乐、生物学、动物学、逻辑学、美学、伦理学及政治学等各门学问的大学问家，以及近代也不能产生像罗素这样的数学家、哲学家和文学家基于一身的大学问家和像怀特海这样的数学家、教育家和哲学家集于一身的大学问家的原因所在。原因就是非常喜爱中国文学的人，思维的结构性和基于客观事实之间的联系性，必然受到很大的伤害，从而在现代数学和科学领域做出像怀特海和罗素那样的贡献的可能性就是微乎其微。 4、最后的话有缘阅读到本文的年轻朋友，笔者要鼓励你们，为了尽最大可能发展自己的创新性、创新力和智性，你们要敢于抛弃包括思维、语言及文化在内的一切！否则，你们这辈子想在科学方面有较大成就的可能性微乎其微。有缘阅读到本文的家长朋友，笔者也真诚劝你们，为了自己孩子的创新性、创新力和智性的发展，早日带领孩子学习美国加州小学数学和美国科学启蒙教程，让孩子早日学会用英语词汇（概念）思考问题和联想问题，只有这样，唯有这样，孩子的创新性、创新力和智性的发展才不会受到来自文化偏见的阻碍，孩子的未来表现才可以期待！注：文中图片除了注明引用之外，均来自网络参考文献： 1、庞加莱著，李醒民译，《科学与假设》，商务印书馆，2008，p2，p23 2、怀特海著，庄莲平、王立中译注，《教育的目的》，文汇出版社，2012，p1 3、Andrew S. Tanenbaum，《Modern Operating Systems》，Prentice Hall，2007，p2; 个人分类: 教育|4050 次阅读|38 个评论

自然语言有先进落后之分的吗？: 热度 12 张能立 2014-1-11 23:28; 1、引言世界上存在数以千记的民族，目前世界现存语言大约6909种，只有2000多种语言有书面文字，2500种语言濒危。随着地球村的兴起，特别是互联网的迅猛发展，各个国家及民族之间的交往空前繁荣起来。这个客观事实，就会自然产生一系列“比较”问题：从政治、经济、文化等方面比较。这类比较属于表层比较，思维及自然语言之间的比较属于更深层次的比较。自鸦片战争失败之后，中西比较之声不绝于耳，除了钱玄同等人短暂从语言方面比较过外，其余的比较多半只是在政治及经济制度方面比较，得出的结论是政治制度及经济制度不如洋人，才导致中国全面落后。也有从文化层面比较的，但是得出的结论是“西方造成的世界末日需要孔孟之道来拯救”。特别是中国经济改革取得了令世界瞩目的成就之后，中国人貌似“好了伤疤忘了疼”似的，信心满满地对世界宣布“道路自信、理论自信、制度自信”，最近终于少喊了一个“文化自信”，笔者也不知道其中有何蹊跷。中国人因鸦片战争失败之后，产生了一个很大的自卑情结：泱泱大国在洋人的洋枪洋炮面前如此不堪一击，如果夸耀现在比洋人强大，这只能遭来洋人更多的耻笑，因此，只好拼命去维护我们的祖宗比洋人的祖宗强大。这种自卑心理带来的认知后果是：可以批评现政府和执政党，但是，绝不可以批评祖宗及祖宗的遗产。如果有人敢胆说汉语不如英语，那么，就是地地道道地冒天下之大不韪，犯了全体中国人的众怒。对于这样的犯上者，那些“古已有之”的“爱国者们”，恨不得将他们五马分尸才能解心头之恨。不过，毕竟人类已经整体迈入了21世纪，中国也还是有很多的进步，连以前认为是“帝国主义忘我之心不死”的人权，也还是列入了国家的宪法，这真让人唏嘘不已。仗着有国家宪法的人权保护，笔者这篇文章，继续来比较汉语和英语之间的优劣。不过，这次不仅仅只是从两种自然语言的异同来比较，而是要借助机器人作为裁判来比较。欲进行这样比较，就需要从图灵及图灵测试谈起。 2、图灵与图灵测试（1912年6月23日－1954年6月7日），是英国数学家、逻辑学家，他被视为计算机科学之父。1931年图灵进入剑桥大学国王学院，毕业后到美国普林斯顿大学攻读博士学位，二战爆发后回到剑桥，后曾协助军方破解德国的著名密码系统Enigma，对盟军取得了二战的胜利有一定的帮助。图灵对于人工智能的发展有诸多贡献，例如图灵曾写过一篇名为《机器会思考吗？》（Can Machines Think?）的论文，其中提出了一种用于判定机器是否具有智能的试验方法，即图灵测试。至今，每年都有试验的比赛。此外，图灵提出的著名的图灵机模型为现代计算机的逻辑工作方式奠定了基础。图灵是著名的男同性恋者，因为其性倾向而遭到当时的英国政府迫害，最终，图灵吃一个用浸过氰化物溶液的毒苹果自杀身亡。据说，苹果的Logo就是受这个故事启发被创造出来的。2009年9月10日，英国首相戈登·布朗在《每日电讯报》撰文，因当年英国政府以同性恋相关罪名起诉图灵并将他定罪，导致图灵自杀身亡，正式向图灵公开道歉：“尽管图灵因为当时的法律受到折磨，我们无法让时光倒流，但他所受到的迫害完全是不公平的，我很欣慰现在有机会表达我们深刻的歉意。因身为同性恋而被法律判为有罪是令人恐怖的。多年来，有数以百万计的人生活在有罪的恐惧当中。我感到高兴的是，那样的日子已经一去不复返了....,代表英国政府、以及所有因图灵的工作而自由生活的人们向他说：‘我们很抱歉，你本应得到更多的奖赏。’” “计算机有智能吗？”，对于这个问题，图灵提出的图灵测试是这样描述的：“图灵在《机器会思考吗？》这篇论文开头就指出，关于什么是机器思维的问题无法回答，因为‘机器’（machine）与‘思维’（think）这两个术语本身就是含糊不清。因此，他建议做一个游戏来进行测试。在游戏中，计算机对于语言的使用情况可以用来判断计算机是否能进行思维的依据。如果计算机在游戏中获胜，那么就可以判断计算机具有智能。” “在图灵的游戏中有三个参加者：两个人和一台计算机。其中的一个人充当提问者的角色，他要使用电传打字机向另外两个参加者提出一系列问题，根据这两个参加者的回答，判断哪一个的回答是计算机做出的。计算机的任务是尽量设法来愚弄提问者，对于提问者的回答，尽量做出像人一样的回答，设法使提问者相信它是一个人。第二个参加游戏的人则尽量设法使提问者相信第三个参加者是计算机，只有他和提问者才是人。” “在社会科学的有关研究证实了图灵在同一篇论文中的预见：然而，我相信，在本世纪末，词语的使用和教育的舆论将大大地改变，使我们有可能谈论机器的思维而不致遭到别人的反驳。” 图1 为纪念图灵而发行的邮票 3、自然语言高低比较的计算机标准受图灵测试的启发，笔者提出一个自然语言高低比较的计算机标准：让各自用不同自然语言思维的机器人，阅读由不同自然语言表达的同一内容的短文，在此基础上各自完成命题作文，然后由不同民族的老师，对机器人完成的命题作文打分，看看机器人完成的作文，多大程度上与人写的作文相似。对于汉语-英语比较而言，具体做法可以设想如下：（1）建立一个100万篇短文汉语和英语双语语料库，短文内容相同，只不过分别用汉语和英语表达。（2）每一篇短文阅读后，要求阅读者写一篇命题作文。（3）随机抽取3篇短文，汉语机器人和英语机器人分别阅读各自语言表达的短文，然后按照要求写命题作文。看看谁的命题作文更加符合各自自然语言表达的习惯。为什么要随机的呢？这也是受了目前国内作文大赛的启发。据说，参加作文大赛的孩子，一般事先准备3个题目的现成的作文。如果作文题目与事先准备类似，就稍微改动，“一气呵成”，成了应试的佳作。如果是100万篇短文，随机抽取3篇短文，这种应试法子就不灵光了。这种想法不是什么天方夜谭，英语机器人离实现这一步并不遥远。据介绍，“让计算机充当自动阅读家庭教师，帮助改善阅读能力。它能教小孩阅读故事，当阅读人要求阅读或者出现阅读错误时，计算机能使用语音识别器来进行干预（Mostow and Aist，1999）” 要想机器人能够写作文，这可不是一件简单的事情。据《自然语言处理综论》介绍，这将涉及语音学与音系学（研究语言的语音）、形态学（研究词的有意义的组合）、句法学（研究词与词之间的结构关系）、语义学（研究意义）、语用学（研究如何用语言来表达一定的目的）和话语学（研究大于话段的语言单位）。只要有基本的理性和良知，学习《自然语言处理综论》这本著作之后，不得不哀叹，汉语机器人连参加比赛的资格都没有。其原因就是汉语的结构性太差，无法适应计算机处理。信息处理有一个基本定律：garbage in，garbage out。面对客观事实，我们不得不正视，我们即使有能力将嫦娥三号”着陆器与“玉兔号”巡视器送上月球，我们也无法开发出一个汉语作文机器人。即使我们花天价请洋人开发也不可行，原因就是汉语存在致命的缺陷--结构性太差。 4、机器人有“心灵”的吗？很多哲学家认为人与动物的区别在于，人有“心灵”，而动物没有。那么，机器人是否能够有“心灵”的呢？正如图灵指出“‘机器’（machine）与‘思维’（think）这两个术语本身就是含糊不清”一样，“心灵”这个词一样含糊不清。我个人认为，如果机器人会写作文，并且还能根据不同场景来决定自己的行为的话，我就认为机器人有 “心灵”。这样的机器人，迟早会出现的。人类社会终究会面临一个新的 “物种”--有“心灵”的机器人。 5、未来的战争因为人的生命只有一次，即使让人为保卫领土而战牺牲，也是不能提倡的。但是，很多矛盾最终不可调和又会走向暴力或者战争。我相信未来的战争，不应该是人之间的战争，而是机器人之间的战争。我的这个猜想是有一定依据的，这个依据就是美国无人机目前的水平和发展战略。前不久早上在学校食堂吃早点，看到电视里面播放美国无人机下一步的战略是“可以根据实际情况自己改变作战内容”。如果真的实现了这个目标的话，那么，这样的无人机已经非常接近有“心灵”的机器人这个目标了。美国人的无人机能够做到世界最厉害不仅仅是军事科学技术原因，还有一个很重要的原因就是语言学研究方面的原因。对语言学的研究，美国人不是最早，但是能够后来居上，乔姆斯基就是其中的典型代表之一。因此，对于语言学的研究，不仅仅只是影响对语言方面的认知，而是极大影响一个民族的思维能力及军事实力。图2 美国“全球鹰”无人机 6、不是多余的话根据上面的这些讨论，可以推论出：如果我们继续顽固使用汉语，且从心里排斥英语的话，中国永远当不了世界老大，我们将要永远臣服于美国。并且眼下的这种繁荣，终究是昙花一现。科学越是向前发展，汉语固有的弊端越是明显。假如我们中国人不采用或者不发明一种字母语言的话，那么，中华民族最终将会被自己的语言所打败。在我看来，思维、语言和文化不改，任何人在中国不可能做出诺贝尔自然科学奖那样的科学发现。汉语带来的思维问题，导致中国科学研究水平不可能超过欧美，从而导致中国工业制造水平处于低端，这个就是雾霾的根源。要祖宗遗产，还是不要雾霾？现在到了我们必须要做出抉择的时候了！想到汉语存在的结构化问题，我现在总是有一种不寒而栗的感受。期待博文中体现出的理性声音，能够被科学网广大师生所关注。只有我们敢于正视包括思维、语言及文化等方面存在的一切缺陷，并且努力完善之，中华民族才会有真正的未来。笔者最后还是想给年轻学子说一句得罪某些中国导师们的话：对于任何一个自己认为是在搞科学研究的中国导师们，年轻学子可以请他们看看 Daniel Jurafsky James H. Martin 的《自然语言处理综论》。如果这些导师们还要坚持认为汉语不落后于英语这类观点，那么，你们年轻学子真的不要跟这些导师们读什么研究生，因为这些中国导师们是地地道道的“二鬼子”--只会对同胞完胜，对洋人完败。你们这些真正想求真知的学子们，应该按照鲁迅先生说的：“青年又何须寻那挂着金字招牌的导师呢？不如寻朋友，联合起来，同向着似乎可以生存的方向走。你们所多的是生力，遇见深林，可以辟成平地的，遇见旷野，可以栽种树木的，遇见沙漠，可以开掘井泉的。问什么荆棘塞途的老路，寻什么乌烟瘴气的鸟导师！ ”。笔者最后补充一句的是：求真知真理的“可以生存的方向”，唯一就是欧美思想家指明的方向。注：文中照片来自网络参考文献： 1、语言： http://zh.wikipedia.org/wiki/%E8%AF%AD%E8%A8%80 2、图灵： http://zh.wikipedia.org/wiki/%E8%89%BE%E4%BC%A6%C2%B7%E5%9B%BE%E7%81%B5 3、 Daniel Jurafsky James H. Martin 著，冯志伟、孙乐译，《自然语言处理综述》，电子工业出版社，2005，p5 4、同上，p7; 个人分类: 教育|4809 次阅读|23 个评论

数据库范式理论与自然语言: 热度 3 张能立 2013-11-8 13:51; 数据库分关系数据库、网络数据库和对象数据库等。目前实际生活中，关系数据库还是占有绝大部分市场。数据库范式理论是关系数据库中有关数据库设计的一种规范理论。正如建筑大厦设计一样，为了确保建筑物的安全，有一套完整的设计约束一样，数据库为了保证最小冗余和杜绝更新异常，也有一套设计规范，这套设计规范就是数据库范式理论。数据库范式分第一范式（First Normal Form，1NF）、第二范式（2NF）和第三范式（3NF）等等，还有更高的范式，例如第四范式、第五范式等等。一般情况下，数据库设计只要能够符合第三范式，就可以认为达到了相关要求。 1、数据库范式简介（1）第一范式数据库表中的字段要求是单一属性的，不可再分。这个单一属性由基本类型构成，包括整型、实数、字符型、逻辑型、日期型等。此外，还要求，数据表中的行不能发生嵌套，同一个属性不同用多个字段来描述。下面这些例子都是违背了第一范式的；图1 不符合第一范式的例子通过范式分解，上述不符合第一范式的数据表可以修正为：图2 符合第一范式的例子（2）第二范式在关系数据库中，数据表一般分成两个部分：主键和非主键。主键可以是某一个没有重复值的属性充当，例如身份证号码或学号等；也可以是几个属性组合来充当，例如学号和课程代码的组合。第二范式要求数据表首先符合第一范式，其次，要求数据表非主键属性都要直接与主键属性相关。下面是这个数据表符合第一范式，但不符合第二范式：图3 不符合第二范式的例子因为课程名称和学分这些非主属性，本来就与主属性学生的学号无关，因此，不满足第二范式。不满足第二范式的后果有：数据冗余：同一门课程由n个学生选修，学分就重复n-1次；同一个学生选修了m门课程，姓名和年龄就重复了m-1次。更新异常： 1）若调整了某门课程的学分，数据表中所有行的学分值都要更新，否则会出现同一门课程学分不同的情况。 2）假设要开设一门新的课程，暂时还没有人选修。这样，由于还没有学号关键字，课程名称和学分也无法记录入数据库。删除异常：假设一批学生已经完成课程的选修，这些选修记录就应该从数据库表中删除。但是，与此同时，课程名称和学分信息也被删除了。很显然，这也会导致插入异常。按照数据库范式要求，可以变成如下三个表：图4 符合第二范式的例子（3）第三范式上面的学生表虽然符合第二范式，但不符合第三范式。第三范式要求在第二范式的基础上，解除非主属性之间的传递关系。在学生表中，系办地址仅仅取决于系别，而不应该与学号有直接关联的。如果一个数据库系统设计不满足第三范式，那么，一样存在数据冗余、更新异常和删除异常等问题。上面的学生表，进一步规范化的结果是：图5 符合第三范式的例子笔者这个学期，正好带非计算机专业的数据库原理这门课程，即使按照上面的规范思路讲，学生还是不能那么明白数据库规范化是什么意思。我上课的时候，突然灵机一动，将主属性类比为班干部，非主属性类比为普通学生。数据库第二范式就是要求每一个“学生”都要与“班干部”有直接的关系，例如，其它班级的学生，如果插入到我们班级了，就破坏了第二范式。第三范式是要求“学生”与“学生”之间不能存在关系。虽然，我们班上每个“学生”都与“班干部”存在关系，但是，“同学”与“同学”之间还有关系，例如，假如有两位男女同学存在恋人关系，就违背了第三范式。笔者当时开玩笑说，要使得我们班级符合第三范式，就要“棒打鸳鸯”，将有恋人关系的同学分两个教室上课。这样一类比，学生对数据库范式理论，基本上就领会了。 2、数据库范式与自然语言虽然现代心理学和脑科学，取得了非凡的进展，但是，对于人脑是如何思考问题，如何存储信息，仍然没有多少本质上的了解。不过，将人脑也类比成为一个数据库系统，这个还是可以的。虽然，我们目前没有搞清楚人脑这个数据库存储过程的细节，但是，仍然可以用计算机数据库的观念，来探索人脑对于信息存储的处理过程。如果我们以数据范式理论，来看待各种不同的自然语言的不同表达方式的话，我们可以得出如下结论：（1）古汉语是完全不符合第一范式 “无鸡鸭也可无鱼肉也可唯萝卜白菜不可少不得半文钱”，这句话因断句不同，得到的是完全相反的两种意思：“无鸡，鸭也可；无鱼，肉也可；唯萝卜白菜不可；少不得半文钱”和“无鸡鸭也可，无鱼肉也可，唯萝卜白菜不可少，不得半文钱”。正是古文没有标点符号，因此，古文的表达方式，自然就不会满足数据库第一范式。（2）现代汉语是部分符合第一范式现代汉语因从西洋文字那里引入了标点符号，但是，词语词之间仍然没有留空格，因此，现代汉语仅仅是部分满足了数据库中的第一范式。（ 3）英语等语言是符合第一范式英语因单词与单词之间留有空格，句子与句子之间，要么是用标点符号分隔，要么是用各种代词分隔，因此是完全满足数据库第一范式。（4）英语是符合第二范式英语是屈折式语言，有主从句，复合句中的各种从句都是紧紧团结在主句周围。如果用主句作为主属性，从句作为非主属性，那么，每个非主属性（从句）都是与主属性（主句）相关，从这个意义上讲，英语是符合第二范式。 3、猜想（1）既然数据库的设计，如果不满足范式，会导致信息冗余和信息更新异常，那么，笔者猜测采用汉语学习，对于大脑这个数据库的存储产生的问题，比英语要多。（2）基于上面的猜测可以设计一个心理学实验来验证： 1）人的学习其实也是一个数据的存储及检索过程。学习新的知识和接受其观点，就是向人脑增加信息；过不久发现这些观点存在一些缺陷，于是就要更新观点内容，这就是对人脑已经存在的信息进行更改；经过一段时间，发现曾经接受的知识是错误的，就需要抛弃这些观点，这就需要对人脑已经存在的知识，予以删除；当解决某个问题的时候，就需要从人脑里面检索过往的经验和已经掌握的真知，这就是对人脑这个数据库的信息检索过程。笔者的疑问是：对于不同的自然语言，这些涉及人脑的知识增加和更新的过程以及学习效果，其效率会是等价的吗？下面的设想仅仅是一个很初步的想法，真正要做这个认知实验，需要心理学专业人士来做。 2）找几个互相关联的事情，就像上面例子中的学生、课程和选课信息，分别用汉语和英语表达。 3）对这些信息，人为进行“增删改查”的操作，看看采用不同的语言，会导致什么差异。（3）从上面的讨论，我们理由当认为，汉语的改革，肯定要朝符合第一范式和第二范式这个目标进行。起码首先要做到，汉字的词与词之间，应该用空格分隔。参考文献： 1、“第一范式”，维基： http://zh.wikipedia.org/wiki/%E7%AC%AC%E4%B8%80%E8%8C%83%E5%BC%8F 2、数据库范式，百度百科： http://baike.baidu.com/view/402020.htm; 个人分类: 教育|5564 次阅读|24 个评论

真理的认知与自然语言之间的关系: 热度 5 张能立 2013-11-6 10:50; 人类从类人猿一路演化而来，经过了数百万年的演化历史，特别是自欧洲文艺复兴之中诞生出来的科学，经过数百年发展后，不仅成了全人类共同的财富，而且是人类最值得信赖的学问。显然，人类是发现了许许多多的的真理，否则，就不可以解释，汽车、飞机、人造卫星、太空旅行、计算机、互联网、移动通信等无数杰出的发明。不过虽然人类认识了不少真理，但是，如何用自然语言准确地表达真理，却不是一件自然而然或者简单的事情。 1、英语和汉语表达“真理”方面的语言差异（1）、英语和汉语对“真理”内涵定义的差异辞海对“真理”的内涵是这样界定的： “同‘错误’相对。认识主体对客观对象及其规律的正确反映。真理具有客观性。既它的内容是不依赖于主体而存在的。只有唯心主义才认为真理是某种精神实体自身的属性，是意识、思维同自身的同一。真理具有绝对性和相对性。人的认识，是由无数相对真理不断接近绝对真理的无限发展过程。要反对思想僵化和相对主义。真理是全面的、具体的。它反映现实的一切方面的总和以及它们的相互关系。真理同错误相比较而存在，相斗争而发展，并在一定条件下相互转化。实践是检验真理的唯一标准”。牛津英汉大词典对“Truth”的内涵界定如下： I. The quality of being true (and allied senses). 1.a. The character of being, or disposition to be, true to a person, principle, cause, etc.; faithfulness, fidelity, loyalty, constancy, steadfast allegiance. (See also troth 1.) Now rare or arch. 1.b by my truth, as an asseveration. (Cf. troth 1b.) Obs. 2 a. One's faith or loyalty as pledged in a promise or agreement; a solemn engagement or promise, a covenant: = troth 2. Obs. 2.b. spec. in reference to marriage; also, in quot. a 1300, betrothal. Obs. 3.a. Faith, trust, confidence. (Cf. troth 3a.) Obs. 3.b. Belief; a formula of belief, a creed. (Cf. troth 3b.) Obs. 4. Disposition to speak or act truly or without deceit; truthfulness, veracity, sincerity; formerly sometimes in wider sense: Honesty, uprightness, righteousness, virtue, integrity. II.5.a. Conformity with fact; agreement with reality; accuracy, correctness, verity (of statement or thought). 5.b. Agreement with the thing represented, in art or literature; accuracy of delineation or representation; the quality of being ‘true to life’. Also, in Arch., absence of deceit, pretence, or counterfeit, e.g. of imitation of stone in paint or plaster. 6. Agreement with a standard or rule; accuracy, correctness; spec. accuracy of position or adjustment; often in phrase out of truth. So out-of-truth n. Cf. true n. 3. 7. Genuineness, reality, actual existence. 8. Particle Physics. = top n.1 18. “承认真理的客观性，也就承认了真理的绝对性;承认真理的具体性，也就承认了真理的相对性。真理是绝对性和相对性的统一。” “真理的绝对性有两个方面的含义:第一，真理的内容是客观的。一切真理都包含有不以人的意志为转移的客观内容，是主观同客观相符合，它经过实践的检验，同谬误有确定的界限。这是绝对的。在这个意义上，承认了真理的客观性，也就承认了真理的绝对性。第二，人类认识按其本性来说，能够正确反映无限发展着的物质世界。世界.上只有尚未被认识的事物，没有完全不可认识的事物。今天没有认识的，将来会认识。这也是绝对的。在这个意义上，承认世界的可知性，承认人类认识能力的无限性，也就承认了真理的绝对性。真理的相对性也有两个方面的含义:第一，从广度上说，任何真理都是对整个客观世界的某个部分、某个方面的正确反映，世界上还有很多事物，人们没有认识。承认客观世界的无限性，也就承认了真理的相对性。第二，从深度上说，任何真理都是对事物一定程度和一定层次的正确反映，它带有近似的性质，事物还有更深刻的本质、更深层次的规律，人们没有认识。承认事物的层次性、永恒发展性，也就承认了真理的相对性。” “绝对性和相对性是真理的两种属性。任何真理都既是绝对的，又是相对的，是绝对性和相对性的统一。马克思主义是社会实践证明了的真理，是对客观世界的正确反映，它的基本原理和科学体系过去、现在和将来都不会被推翻，这是它的绝对性。但它又是相对的，它并没有穷尽对世界的认识，结束真理，还要随着世界的发展、实践的发展而发展。” “形而上学真理观不懂得真理绝对性和相对性的辩证关系。绝对主义只承认真理的绝对性，不承认其相对性。绝对主义者认为人类可以一下子就能全面地、绝对地认识世界，否认真理是一个过程，否认真理和谬误的相互转化。相对主义只承认真理的相对性，不承认其绝对性。相对主义者认为人类不可能正确地认识世界，否认真理的客观内容，混淆真理和谬误的相互区别。辩证唯物主义者是真理的绝对性和相对性统一论者。真理的绝对性要求坚持真理，真理的相对性要求发展真理。对待马克思主义也是这样，既坚持又发展，在坚持中发展，在发展中坚持。 ” 上面这段有关“真理”论述存在如下问题：（1）这段论述是袁贵仁自己的观点，还是引用马克思经典著作的内容？如果是引用，但没有见到教材中相对应的标注；如果不是引用，那就是袁贵仁发展出来的“特色马克思主义哲学”。（2）袁贵仁的教材论述的“真理”这个概念，是全称命题，还是单称命题？教材中没有见到有所说明。如果“真理”是一个全称命题，也就是一个集合概念，是由众多的真知命题构成的话，显然，不会是每个真知命题都是绝对正确的，但是，也不能因此就否定一些命题是绝对正确的。例如，永远不可能制造出“永动机” ，“人不能自己抓自己的头发，使得自己离开地面”等等命题，都具有绝对性。（3）像袁贵仁教材中对于“真理”的绝对性和相对性的论述，因为，没有区分是全称命题还是单称命题，很容易犯用普遍性否定特殊性，或者用特殊性替代普遍性这类逻辑错误。 3、哲学对于科学研究的作用无须讳言，苏联和中国的科研历史，都曾经发生过用马克思主义哲学指导科学研究。在这种指导思想下，苏联发生过著名的“李森科事件”，中国“文革”期间也发生过，政府曾经组织力量批判爱因斯坦的相对论这种愚昧行为。虽然用马克思主义哲学指导科学研究，给苏联和我国的科学研究带来了巨大的灾难，但是，也不能因此否定哲学对于科学研究的有益作用。其实，对于科学研究有益的哲学，不是马克思主义哲学，而是科学哲学。科学哲学这个领域的历史伟人有：笛卡尔、培根、休谟、马赫、穆勒、波普尔等人。特别是波普尔的证伪学说，得到了众多包括诺贝尔自然科学奖得主科学家们的推崇。“诺贝尔自然科学奖得主梅多沃爵士曾说：‘我认为波普尔是有史以来无与伦比的最大的科学哲学家’。另外两位诺奖得主莫诺和艾克尔爵士也公开承认波普尔对他们工作的影响。艾克尔斯爵士在他《面对现实》的书中写道，‘我的科学生涯许多方面归功于我在1945年的转变，如果我可以这样说的话，那么，这就该归功于波普尔关于科学研究如何进行的教导’，他又写道，‘我在神经生物学基本问题的表述和研究中尽力遵循波普尔的教导。我认为它们使我在力图解决中枢神经系统的某些活动特点方面，理解得更深，进步得更快了’。他奉劝科学家们‘阅读波普尔的科学哲学著作并加以深思，把它们作为科学生命活动的基础’” 不过，针对于波普尔哲学对于科学的“指导作用”，英国著名动物病理学家贝弗里奇教授并不以为然。他对波普尔抛弃归纳法，提出的“假说演绎体系”给予了四点批评：（1）“波普尔图式没有涉及假设的起源，而这无疑是科学发现的真正核心。波普尔称：没有归纳这种东西，他轻率地把创造性思维排斥在他的研究领域之外。” （2）“波普尔的集中否证假说，推翻理论的策略是一种否定的策略。事实上，能够被正确地描绘成是革命性的任何发现，都必定与流行的知识相冲突。” （3）“波普尔主义的中心课题是对假说的证伪--或者试图证伪；但是，这一过程总不可能被划归为严格的逻辑。” （4）“我的第四点批评针对波普尔的另一条规则，这条规则是从他对检验证伪的过分强调中得出的，即唯一有价值的假说是那些对于检验和可能的反驳敏感的假说。但是，许多有价值的假说，包括一些最基本的科学假设，也是不可检验的。例如，进化论虽然则是生物学的基本原则之一，但它却是不可否证的。” 贝弗里奇对于哲学家对于科学研究的“指导作用”，给予了如下评价： “在我看来，职业哲学家有某种局限性，他们缺乏所探讨的课题的第一手资料，而在科学家必须与之打交道的杂乱的实在世界中实际研究却充满不确定性、一知半解和张冠李戴的东西。这正是职业哲学家所缺乏的。他们委身于符号和逻辑抽象的梦幻世界里，虽然符号和逻辑抽象都是重要的工具，但大多数科学家在他们工作的大部分时间里却用得极少。言词很难精准而充分地体现出它们所应用的现象。逻辑只处理言词，即符号，而不处理实在。” 4、疑问从上文对汉语语境的“真理”与英语语境的“truth”的比较，以及汉语和英语表达涉及真理命题的不同形式，可以得出英语表达的哲学、现代数学及科学观点，翻译成汉语后，肯定因汉语和英语之间差异太大，导致信息失真。笔者的疑问是，这种因语言方面的原因，导致的哲学、数学及科学方面的概念内涵及外延的失真，对于中国人学习及研究现代数学和科学有没有影响？如果有，影响有多大？如果影响很大的话，能否从小学阶段起，学习现代数学和科学，直接采用英语教材？ 5、猜想基于上面的讨论，笔者认为自然语言和哲学思想教育，对于中国人学习及研究现代数学和科学极为重要。针对政府正在实行的“诺奖人才100”计划，笔者提出如下猜想：（1）在大陆接受了目前本科教育的人，无论以后是否出国深造，获得诺贝尔自然科学奖的可能性几乎为0。（2）不彻底改革目前马哲原理课程教育，获得诺贝尔自然科学奖的可能性几乎为0。（3）不从小学开始，现代数学和科学，采用英语教学，批量式获得诺贝尔自然科学奖的可能性几乎为0。 6、不是多余的话以学习和研究现代数学及科学为标准，汉语相对于英语而言，存在的致命缺陷是显而易见。笔者深知自己无论是语言还是专业，都属于浅薄之辈。目前全国正处于国学热和加强汉语语言地位的热潮之中，笔者这些言论，显然是逆潮流而动。不过，这不是笔者有什么水平，而仅仅是笔者愿意做“皇帝新装”中的小男孩而已。笔者继续自不量力呼吁：如果汉语存在的语言问题，不能成为中国知识分子的共识，那么，中华民族肯定永远处于二流民族这个地位。这个真的是不以人的善良的意志和孜孜不倦的努力为转移的。道理非常简单，当今没有一个现代数学和科学水平是二流的民族，成为了世界上执牛耳的一流民族！参考文献： 1、袁贵仁主编，《马克思主义哲学原理》，北京出版社，2005，p184 2、“永动机”，维基： http://zh.wikipedia.org/wiki/%E6%B0%B8%E5%8A%A8%E6%9C%BA 3、【英】贝弗里奇著，金吾伦、李亚东译，《发现的种子》，科学出版社，1987，p78; 个人分类: 时评|3856 次阅读|10 个评论

【Church - 钟摆摆得太远（5）：现状与结论】: 热度 1 liwei999 2013-7-31 15:24; 【立委按】【 NLP主流的傲慢与偏见】系列刚写了三篇。中国NLP(Natural Language Processing)前辈董振东老师来函推荐两篇来自主流的反思文章。董老师说，主流中有识之士对深陷成见之中的NLP一边倒的状况，有相当忧虑和反思。 Church (2011) 对NLP的回顾和反思的文章【钟摆摆得太远】（A Pendulum Swung Too Far）是一篇杰作，值得反复研读。文章在语言研究中经验主义和理性主义此消彼长循环往复的大背景下，考察NLP最近20年的历程以及今后20年的趋势。它的主旨是，我们这一代NLP学者赶上了经验主义的黄金时代（ 1990迄今），把唾手可得的果子统统用统计摘下来了，留给下一代NLP学人的，都是高高在上的果实。 20多年统计一边倒的趋势使得我们的NLP教育失之偏颇，应该怎样矫正才能为下一代NLP学人做好创新的准备，结合理性主义，把NLP推向深入？忧思溢于言表。原文很长，现摘要译介如下。【Church - 钟摆摆得太远（5）】立委编译自： K.Church 2011. A Pendulum Swung Too Far. Linguistics issues in Language Technology, Volume 6, Issue 5. 无视历史注定要重蹈覆辙在大多数情况下，机器学习、信息检索和语音识别方面的实证复兴派简单地无视PCM 的论辩，虽然在神经网络领域，感知机附加的隐藏层可以看作是对明斯基和帕佩特批评的让步。尽管如此，明斯基和帕佩特对他们所著的《感知机》出版20 年以来领域进展之缓慢深表失望。 “在准备这一版时，我们本来准备‘把这些理论更新’。但是，当我们发现自本书1969 年第一次出版以来，没有什么有意义的进展，我们认为保留原文更有意义……只需加一个后记即可……这个领域进展如此缓慢的原因之一是，不熟悉领域历史的研究人员继续犯别人以前已经犯过的错误。有些读者听说该领域没有什么进步，可能会感到震惊。难道感知机类的神经网络（新名称叫联接主义）没有成为热烈讨论的主题吗？……当然不是，该领域存在很多令人感兴趣的问题和讨论。可能确实也有些现在的发现也会随着时间逐渐显出重要性。但可以肯定的是，领域的基础概念并没有明显改变。今天令人兴奋的问题似乎与前几轮大同小异……我们的立场依然是当年我们写这本书时的立场：我们相信这个领域的工作是极为重要和丰富的，但我们预计其发展需要一定程度的批判性分析，可那些更富浪漫精神的倡导者却一直不愿意去做这种分析，也许因为连通主义的精神似乎变得与严谨分析南辕北辙。多层网络并不比感知机更有能力识别连通性。” 计算语言学课程的缺陷正如上面明斯基和帕佩特指出的，我们不断犯同样错误的部分原因与我们的教学有关。辩论的一方在当代计算语言学教科书中已被遗忘，不再提及，只能靠下一代人重新认识和复原。当代的计算语言学教科书很少介绍PCM 三位前辈。在汝拉夫斯基(Jurafsky) 和马丁(Martin) 编著的教科书以及曼宁(Manning) 等编著的两套教科书中根本没有提及皮尔斯。三本教科书中只有一本简要提起明斯基对感知机的批评。刚刚进入此领域的学生也许意识不到所谓“相关学习算法”包含了很多当今非常流行的方法，如线性回归和logistic回归。 “一些其他的梯度下降算法(gradient descent algorithms) 有类似的收敛定理，但是在大多数情况下，收敛只能达到局部最优。……感知机收敛能达到全局最优是因为它们从线性分离机这样一类比较简单的模型中选择分类器。很多重要的问题是线性不可分的，其中最著名的是异或问题。……决策树算法可以学习解决这类问题，而感知机则不能。研究人员在对感知机最初的热情消褪以后，开始意识到这些局限性。其结果是，对感知机及相关学习算法的兴趣很快消褪，此后几十年一直一蹶不振。明斯基和帕佩特的论文《感知机》通常被看作是这类学习算法开始消褪的起点。” 曼宁等人的2008 版教科书中有简短的文献指向明斯基和帕佩特1988 年的论文，称其对感知机有不错的描述，但并未提及他们的尖锐批评： “对文中提到但本章未进行细述的算法，感兴趣的读者可以参阅以下文献：神经网络方面的毕夏普(Bishop) 、线性和logistic回归方面的黑斯蒂(Hastie) 等人以及感知机算法方面的明斯基和帕佩特等的论文。” 基于这样的描述，学生可能会得出错误印象，以为明斯基和帕佩特是感知机算法（以及当今流行的线性和logistic 回归相关方法）的支持者。毕夏普明确指出，明斯基和帕佩特绝不是感知机和神经网络的赞许者，而且把它们认作“不正确的构想”予以排斥。毕夏普把神经网络在实际应用中的普及看作是对明斯基和帕佩特上述批评意见的反击证明，认为并非如他们所说的那样“没有多少改变”、“多层网络并不比感知机更有能力识别连通性”。当代教科书应该教给学生认识神经网络这类有用的近似方法的优点和缺点。辩论双方都大有可言。排除任何一方的论证都是对我们的下一代不负责任，尤其是当其中一方的批评是如此的尖锐，用到“不正确的构想”和“没有多少改变”这样的说法。乔姆斯基比皮尔斯和明斯基在当代教科书中被提及得多一些。曼宁和舒兹(Schütze) 的教科书引用乔姆斯基的论文10次，汝拉夫斯基和马丁的教科书的索引中共有27 处引用乔姆斯基的论文。第一本书中较少引用是因为它专注于一个相对狭窄的话题——统计型自然语言处理。而第二本教科书涉及面广泛得多，包括音韵学和语音。因此，第二本书还引用了乔姆斯基在音韵学方面的工作。两本教科书都提到乔姆斯基对有限状态方法的批评，以及这些批评在当时对经验主义方法论的抨击效果。但是话题迅速转移到描述这些方法的复兴，而对这一复兴的论辩、动因及其对目前实践和未来的影响的讨论则相对较少。 “由乔姆斯基1956 年的论文开始的一系列极具影响力的论文中，包括乔姆斯基1957 年的论文以及米勒(Miller) 和乔姆斯基1963 年的论文，乔姆斯基认为，‘有限状态的马尔可夫过程’虽然是可能有用的工程探索，却不可能成为人类语法知识的完整认知模型。当时的这些论辩促使许多语言学家和计算语言学家完全脱离了统计模型。 N 元模型的回归开始于耶利内克(Jelinek)、默瑟(Mercer)、巴尔(Bahl) 等人的工作……” 两本教科书对N 元文法的讨论都是从引用其优缺点开始： “但是必须认识到，无论怎样解读，‘一个句子的概率’都是一个完全无用的概念……。” “任何时候，只要一个语言学家离开本研究组，识别率就会上升。”（弗雷德·耶利内克(Fred Jelinek)，当时他在IBM 语音组，1988）曼宁和舒兹是以这样的引用开始讨论的： “统计的考量对于理解语言的操作与发展至关重要。” “一个人对合法语句的产生和识别能力不是基于统计近似之类的概念。” 这种正反面观点的引用确实向学生介绍了争议的存在，但却不能真正帮助学生领会这些争议意味着什么。我们应提醒学生，乔姆斯基反对的是如今极其流行的一些有限状态方法，包括N 元文法和隐式马尔可夫模型，因为他相信这些方法无法捕捉远距离的依存关系（例如一致关系的限制条件和wh- 位移现象）。乔姆斯基的立场直到今天仍然是有争议的，本文审阅者之一的反对意见也佐证了这种争议。我不希望站在这场辩论中的某一方。我只是要求应该教给下一代双方的辩论。对于任一方，都不至于由于我们疏于教授而使他们需要重新“发现”。计算语言学学生应该接受普通语言学和语音学的培训为了让进入这行的学生对低枝果实采摘完后的情形做好准备，今天的教育最好向广度发展。学生应该全面学习语言学的主要分支，如句法、词法、音韵学、语音学、历史语言学以及语言共性。我们目前毕业的计算语言学的学生在一个特定的较窄的子领域具有丰富的知识（如机器学习和统计型机器翻译），但可能没听说过格林伯格共性(Greenberg’s universals)、提升(raising)、等同(equi)、量词辖域(quantifier scope)、空缺(gapping)、孤岛条件(island constraints) 等语言学现象。我们应该确保从事共指关系(co-reference) 研究的学生都知道成分统制(c-command) 和指称相异(disjoint reference)。当学生在计算语言学会议上宣讲论文的时候，他们应该已经了解形式语言学(formal linguistics) 对此问题的标准处理。从事语音识别工作的学生需要了解词汇重音（如文献）。音韵学重音对于下游的语音和声学过程具有各种各样的影响。图3 “politics”and“political”的谱图显示有三个/l/同位音。在重音前后出现不同的音位变体。语音识别目前没有充分利用词汇重音特征是一个不小的遗憾，因为重音是语音信号中较为突出的特性之一。图3 显示了最小对立体 (minimal pair)“ politics”和“political”的波形和谱图。这两个词千差万别，目前的技术着重于语音单位层面的区别： “politics”以 –s 结尾，而“political”以-al 结尾。与“politics” 不同，“political”的第一个元音是弱化的非重读音节的元音(schwa)。重音的区别更为突出。在诸多与重音有关的区别中，图3 突出显示了重音前与重音后/l/ 的音位变体之间的区别。另外还有对/t/ 音的影响。“politics”中 /t/是送气音，但在“political”中却是闪音。目前，在语音单位层面，仍有大量低枝果实可以采摘，但这些工作终有完结之时。我们应该教给语音识别领域的学生有关音韵学和声学语音学的词汇重音知识，以便他们在目前的技术水平超越语音单位层面的瓶颈时依然游刃有余。由于重音存在超过三元音素的远距离依存关系，重音方面的进展需要对目前流行的近似方法的长处与缺陷均有深入的理解。语音识别方面的基础性进展，例如能有效使用重音，很可能要依赖于技术的根本性进步。结论学界前辈皮尔斯、乔姆斯基和明斯基曾经严重质疑过当年流行后来复活了的一些经验主义方法。他们的反对意见涉及许多当代流行的方法，包括机器学习（线性分离机）、信息检索（向量空间模型）、语言模型（N 元文法）、语音识别（隐式马尔可夫模型）和条件随机场。学生们需要学习如何有效地使用流行的近似模型。乔姆斯基指出了N 元文法的缺陷，明斯基分析了线性分离机的局限性。许多局限性很明显（由自身算法设计带来的），但即便如此，对其支持与反对之间的争辩有时仍然非常激烈。有时，其中一方的论点不会被写进教科书，只有等到下一代人去重新发现和复兴这些被遗忘的思想。我们应该鼓励下一代学者充分了解辩论双方的论据，即使他们选择站在一方或另一方。 20 世纪90 年代，当我们复兴经验主义时，我们选择了实用主义的理由来反对我们导师的观点。数据从未如此丰富，我们能拿它做什么呢？我们认为，做简单的事情比什么都不做要好。让我们去采摘一些低枝果实。虽然三元模型不能捕捉到一切语言现象，但它往往比其他方法更有效。捕捉我们可以轻易捕获的一致性事实，要比好高骛远试图捕捉更多语言事实而最终得到更少要好。这些说辞在20 世纪90 年代有很大的意义，特别是学术界在前一波繁荣期提出了很多不切实际的期望。但是今天的学生在不久的将来可能会面临一系列非常不同的挑战。当大多数低枝果实采摘完毕，他们应该做些什么呢？具体就机器翻译而言，统计方法的复兴（例如文献）由于实用主义的原因，始于采用有限状态方法。但随着时间的推移，研究人员已经越来越接受使用句法捕捉远距离的依存关系，尤其是当源语与目标语缺乏平行语料库，或者当两种语言具有非常不同的词序的时候（例如，从主谓宾词序的语言（如英语）翻译到以动词收尾的语言（如日语））。展望未来，我们可以预料到机器翻译的研究会越来越多地使用越来越丰富的语言学表达。同样，很快也将有一天，重音将成为语音识别的重要依据。既然计算语言学教科书不可能涵盖所有这些内容，我们就应该与其他相关科系的同事合作，确保学生能接受到广泛的教育，足以让他们为所有可能的未来做好准备。选自《中国计算机学会通讯》第9卷第12期。本文译自 Linguistics issues in Language Technology , 2011; 6(5) K. Church 的“A Pendulum Swung Too Far”一文。译者：李维（美国网基公司首席科学家。主要研究方向为信息抽取、舆情挖掘等）唐天（美国网基公司首席科学家助理兼助理工程师。主要研究方向为自然语言处理和机器学习）。机器之心授权转载。【补记】任何时候，只要一个语言学家离开研究组，识别率就会上升。“ （Fred Jelinek，1988) （关于这句名言，可参见【立委随笔：文傻和理呆的世纪悲剧（romance tragedy）】）原文【参考文献】列表 References Bishop, Christopher. 2006. Pattern Recognition and Machine Learning. New York: Springer. Bloomfield, Leonard. 1933. Language. New York: Henry Holt. ISBN 90-272- 1892-7. Brown, Peter, John Cocke, Stephen Pietra, Vincent Pietra, Frederick Jelinek, Robert Mercer, and Paul Roossin. 1988. A statistical approach to language translation. In COLING. Brown, Peter, Vincent Pietra, Stephen Pietra, and Robert Mercer. 1993. The mathematics of statistical machine translation: Parameter estimation. Computational Linguistics 19:263–311. Chomsky, Noam. 1956. Three models for the description of language. In IRE Transactions on Information Theory, vol. 2, pages 113–124. Chomsky, Noam. 1957. Syntactic Structures. The Hague: Mouton. Chomsky, Noam. 1965. Aspects of the Theory of Syntax. Cambridge, MA: MIT Press. Chomsky, Noam and Morris Halle. 1968. The Sound Pattern of English. New York: Harper Row. Church, Kenneth. 1980. On memory limitations in natural language processing. Tech. Rep. MIT/LCS/TR-245, MIT. Church, Kenneth. 1988. A stochastic parts program and noun phrase parser for unrestricted text. In In Proceedings of the Second Conference on Applied Natural Language Processing, pages 136–143. Church, Kenneth and Robert Mercer. 1993. Introduction to the special issue on computational linguistics using large corpora. Computational Linguistics 19:1–24. Firth, John Rupert. 1957. A synopsis of linguistic theory 1930-1955. In Special Volume of the Philological Society. Oxford: Oxford University Press. Francis, W. Nelson and Henry Kucera. 1982. Frequency Analysis of English Usage. Boston: Houghton Mifflin. Hall, David, Daniel Jurafsky, and Christopher Manning. 2008. Studying the History of Ideas Using Topic Models. In EMNLP, pages 363–371. Hastie, Trevor, Robert Tibshirani, and Jerome Friedman. 2001. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer- Verlag. Hutchins, John. 1996. ALPAC: The (In)famous report. In MT News International , pages 9–12. Jurafsky, Daniel and James Martin. 2000. Speech and Language Processing: An Introduction to Natural Language Processing, Speech Recognition, and Computational Linguistics. Prentice-Hall. Lyons, John. 1968. Introduction to theoretical linguistics. Cambridge, England: Cambridge University Press. Manning, Christopher, Prabhakar Raghavan, and Hinrich Sch¨utze. 2008. Introduction to Information Retrieval . Cambridge University Press. ISBN 0521865719. Manning, Christopher and Hinrich Sch¨utze. 1999. Foundations of Statistical Natural Language Processing. Cambridge, MA: MIT Press. Miller, George and Noam Chomsky. 1963. Finitary Models of Language Users. In D. Luce, R. Bush, and E. Galanter, eds., Handbook of Mathematical Psychology, vol. 2, pages 419–491. New York: Wiley. Minsky, Marvin and Seymour Papert. 1969. Perceptrons. Cambridge, MA: MIT Press. Minsky, Marvin and Seymour Papert. 1988. Perceptrons. Cambridge, MA: MIT Press. Pierce, John. 1961. An Introduction to Information Theory: Symbols, Signals and Noise. New York: Dover Publications, Inc. Pierce, John. 1969. Whither Speech Recognition. Journal of the Acoustical Society of America 46(4P2):1049–1051. Pierce, John. 1970. Whither Speech Recognition II. Journal of the Acoustical Society of America 47(6B):1616–1617. Pierce, John, John Carroll, Eric Hamp, David Hays, Charles Hockett, Anthony Oettinger, and Alan Perlis. 1966. Language and Machines: Computers in Translation and Linguistics. Washington, D.C.: National Academy of Sciences, National Research Council. Roe, David and Jay Wilpon. 1993. Whither Speech Recognition: The Next 25 Years. IEEE Communications 31(11):54–63. Rosenblatt, Frank. 1962. Principles of Neurodynamics; Perceptrons and the Theory of Brain Mechanisms. Washington: Spartan Books. Simon, Herb. 1960. Management by machines: How much and how soon? The Management Review 49:12–19 and 68–80. Sinclair, John. 1987. Looking Up: An Account of the COBUILD Project in Lexical Computing. Glasgow: Collins. Sinclair, John, Patrick Hanks, Gwyneth Fox, Rosamund Moon, and Penny Stock, eds. 1987. Collins COBUILD English Language Dictionary. Glasgow: Collins. Steedman, Mark. 2008. On Becoming a Discipline. Computational Linguistics 34(1):137–144. Tukey, John. 1977. Exploratory Data Analysis. Reading, MA: Addison- Wesley. Weizenbaum, Joseph. 1976. Computer Power and Human Reason. San Francisco: W. H. Freeman. 【NLP主流的反思：Church - 钟摆摆得太远（1）】【Church - 钟摆摆得太远（2）：乔姆斯基论】【Church - 钟摆摆得太远（3）：皮尔斯论】【Church - 钟摆摆得太远（4）：明斯基论】【置顶：立委科学网博客NLP博文一览（定期更新版）】; 个人分类: 立委科普|7432 次阅读|3 个评论

与老前辈谈 NLP 及其趋势: 热度 2 liwei999 2013-1-26 16:37; 【立委按】俗话说，铁打的营盘流水的兵。在我们 NLP（Natural Language Processing）这个营盘里，流水的兵过去了不知几拨。但也有像我这样赖在营盘就是不走的兵，任凭潮起潮落。比我更加坚韧的是我的导师一辈，他们早该退休，但还是抵制不了这个营盘的诱惑，仍然孜孜以求，让人钦佩不已。最近与前辈导师有交流，三句不离本行，似乎时光倒转 30 年，让人感慨几何。择要辑录如下，与同仁和后学分享。》久未通信，但一直很惦记。也一直说要给您拜年呢，眼看春节到了，学生先给您拜个早年。》最近看到信息，有说在全球风靡统计和shallow的时候,你仍坚持deep parsing。赞你做的系统非常成功，表现特好。谬赞了。我坚持 deep parsing 也有无奈，主要为扬长避短。统计的路子和语言学的路子确实各有利弊，但是由于兼通二者的人不多，双方都有贬低对方的时候（更多的是处于主流做统计的人压住语言学家一头）。其实，眼光稍微看远点儿，这种状态是很不健康的。》你的多语言系统如何？中文的还蒙神助吗？中文系统进展很好。千头万绪，但是我是边建造边使用，立竿见影，做起来相对不那么枯燥，减少了 “ 以有涯随无涯而殆” 的苦恼。产品雏形已成，内部使用，正式推出大概在两三个月后吧：主要不是中文系统本身的问题，而是社会媒体的 content sources 还没有搞定。我在科学网博客上有两个专栏【立委科普】和【社媒挖掘】，常常报告一些中文系统及其产品的最新进展：【社媒挖掘】 http://blog.sciencenet.cn/home.php?mod=spaceuid=362400do=blogclassid=161685view=me 【立委科普】： http://blog.sciencenet.cn/home.php?mod=spaceuid=362400do=blogclassid=123261view=me 》HowNet 用了么，好玩吗？选择了知网（ HowNet ） features 整合到词典里面去，正在“玩”呢。刚开始用，将会用得越来越多。这也好，系统编制开始，词典几乎是空的，没有多少 features，只有几十个粗线条和零散的为急用而标注的词典信息，这就迫使系统编制从粗线条轮廓开始。现在引进了 HowNet 的部分，使得我可以开始细化规则系统，慢慢建立一个层级体系，以图优化 parsing 的精度。这个过程还要持续相当一段时候。名词的分类体系，比较容易理解和一致，形容词和动词则难一些。在引进 HowNet 之前，我对形容词只有自己的三五个分类，现在比以前丰富多了。不过，我注意到有些分类太细，比如 HueValue，词汇表中总共才有二三十个词标注了这个信息，我引进之后又逐渐把这样过细的分类排除了（用它的上位概念 AppearanceValue 代替这些过细的子类）。不是因为系统不能负担，而是因为词典信息过于细琐不利于系统的维护和语言学家的掌握（增加了过多的记忆负担）。在粗细之间怎样切一刀，我采取实用主义策略，无需立即决定一刀切。用 HowNet 遇到了一个不大不小的烦扰，这个烦扰在当年用 WordNet 的时候更加严重（可以说是其致命缺陷，以致我后来完全放弃了 WordNet，宁愿用自己编制的不完整的词汇语义标注）。这就是，一些简单的单字词（或部分高频二字词），被标注了太多features，虽然每个 feature 都有道理，对应其中的一个义项，但是这些义项有的是非常偏僻的（统计上可以忽略，这种偏僻义项的 feature 客观上成为 NLP 的 noise），有的则是其引申意义。我不得不手工来 clean 它们，否则用到这些 feature 的规则往往在常用词上栽跟头。我以前开玩笑批评 WordNet，说，WordNet 根本不讲理，所有的X都可能是Y。哪怕是最简单的单词如猫啊（cat）狗（dog）啊，在我们心中完全是意义清晰的动物概念，可是 WordNet 硬要标 cat 是 “人”，dog 也是 “人”，那我们做规则系统的人还怎么敢利用这些 feature 来写规则呢？不敢写啊，因为什么事情都可能发生。 HowNet 大概是为了自身概念系统的完整性，也不同程度存在同样的问题，迫使 NLP 使用者不得不人工做二次裁剪，很费精力。我想词典标注的一个原则应该是，如果一个词的某个意义必须要明确的上下文才能成立，那就可以舍弃（特别是，如果一个单字的某个义项总是出现在多字合成词中，那么这个单字就没有理由标注这个意义及其相应的feature，因为 vocabulary 中的多字词已经 cover 了，它不是一个开放集）。当一个词孤零零站在那里，进入人头脑的概念才是需要标注的。否则使用时很麻烦。还有一个既可以维护完整性又不增添二次清除负担的办法是给 features 分档次：统计上的档次或者其他的区别对待，这样使用者可以根据需要随时 filter 掉不必要的 features 》我还是老样子。天天在调试系统。现在又风靡世界的是big data和deep learning。美国人就是善于出点子。 deep learning 从概念上没有问题。跟过去十多年闹得火热的 weakly supervised learning 以及 boot-strapping 的潮流一样，方向上是没有问题的，前景很诱人。但是这些潮流，结果真正引起实用技术革命的有多少呢？花样翻新可以吸引眼球和热情，但真正的好处还需要拭目以待。前一阵子有搞搜索的老友问到这个题目，我是这样回答的： How do you think about current hot topic: deep learning and knowledge graph? I am not a learning expert, and cannot judge how practical and convenient for the new deep learning trend to solve a practical problem in industry. But conceptually, it is fair to say that deep learning is in the right direction for research. For a long time, the learning community has been struggling between the supervised and unsupervised leaning dilemma, the former being tractable but facing knowledge bottleneck (i.e. the requirement of big labeled training corpus) and the latter only proven to work for (label-less) clustering, which usually cannot directly solve a practical problem. Now in addition to many different ways of semi-supervised or weakly supervised approaches, deep learning provides yet another natural way to combine unsupervised and supervised learning. It makes lots of sense to let the unsupervised learning scratch the surface of a problem area and use the results as input for some supervised learning to take on to deeper levels. Personally, I believe to solve a real life problem in scale, it is best to combine manual rules with machine learning. That makes tasks much more tractable for engineering implementation. 》我觉得rulebased系统的问题，并不是按下葫芦起了瓢，而主要是遇到的新的语言现象。 exactly 按下葫芦起了瓢的问题出现在不严谨的工业开发环境中。如果开发环境好， data-driven 又有及时的大数据 regression-testing 的反馈来指导规则系统的开发，这个问题就自然消解了。新的语言现象的问题，能想到的法子就是用时间去磨。只要开发样本选择得当，不急于求成，这个问题也不最可怕，后面的 long tail 中的相当部分迟早总是可以抓住，直到达到某一点，再往下追去已经没有什么（统计）意义了（diminishing returns）。值得强调的是，新的语言现象的问题不是规则系统专有，对于机器学习它更是难题，本质上就是困扰统计学家多年的 sparse data 的问题。我感觉到的规则系统的特有挑战主要是编制规则时的“平衡术”（ balancing art）不好掌握分寸。人的思维有盲点，结果，有些规则开发不够而影响精度，也有规则开发过度而丧失鲁棒性（ robustness），譬如规则做得过于精巧细致，结果系统稍有变动，规则就散架了。这个火候不好拿捏，没有多年的经验和功夫，往往容易跌入陷阱，使得系统越来越庞杂无序，无法维护。在克服上述挑战的时候，统计可以大派用场。无论是把统计用于数据上，或者用于半自动编写规则，或者有机整合到规则系统中去，都有很多二者亲密合作的机会。譬如让机器学习有统计意义的可能patterns，然后提供给语言学家细化（instantiation），是确保克服人脑盲点的一个有效方法。与 deep learning 的道理一样，见林不见树的机器学习与见树不见林的专家编写难道不能各个发挥一己之长么？【后记】上面提到了 HowNet 使用中 feature noise 的困扰，指的是其当下的中文系统。刚刚核实过，显然 HowNet 的发明者早已意识到这个问题，因此，英文的 HowNet 已经解决了这个问题，汉语的问题最终也会解决。他们对 lexical features 做了如下分类，以方便使用者根据不同使用场景对 features 进行筛选：具体做法是：英文的单字词，采用标记：1、2、3表示可用的优先等级；7表示封存，不采用；英文的词组，采用标记：4、5表示可用的优先等级；6表示封存，不采用； HowNet Browser中查“ability”其中“能力”标记为2；“本领”、“本事”为3；而“能”、“力”标记为7，即被封存，不可采用。可惜还没有标记中文的等级，将来会做的，方法是跟英文一样的。【置顶：立委科学网博客NLP博文一览（定期更新版）】; 个人分类: 立委科普|6593 次阅读|3 个评论

【立委科普：自动民调】: 热度 3 liwei999 2012-10-19 02:33; Automatic survey complements and/or replaces manual survey. That is the increasingly apparent direction and trend as social media are getting more popular everyday. 自动民调（or 机器民调: Automatic Survey / Machine Survey）指的是利用电脑从语言数据中自动抽取挖掘有关特定话题的民间舆论，其技术领域即所谓舆情挖掘（sentiment mining），通常需要自然语言（NLP）和机器学习（Machine Learning）等技术作为支持。自动民调是对传统的问卷调查一个补充或替代。在社会媒体日益普及的今天，民间情绪和舆论通过微博、博客或论坛等社会媒体管道铺天盖地而来，为了检测、采集和吸收这些舆论，自动民调势在必行，因为手工挖掘面对大数据（big data）已经完全不堪负荷。民意调查（poll）可以为政府、企业以及民众的决策提供量化情报，应用范围极其广泛。总统大选是一个突出的例子，对于总统候选人本人及其竞选团队，对于选民，民调的结果可以帮助他们调整策略或作出选择。产品发布是企业的例子，譬如 iPhone 5 发布以后，民调的反馈可以帮助苹果及时发现问题。对于有意愿的消费者，民调的结果也有助于他们在购买、等待还是转向别家的决策时，不至于陷入盲目。相对于传统的以问卷（ questionnaire ）调查为基础的民调，自动民调有以下几个突出特点。及时性。传统民调需要经过一系列过程，设计问卷、派发问卷（通过电话采访、街头采访、有奖刺激等手段）、回收问卷，直到整合归纳，所有程序都须手工进行，因此难以做到及时响应。一个认真的客户产品调查常常需要几天甚至几周时间方可完成。自动民调可以做到立等可取。对于任意话题，使用自动民调系统就像利用搜索引擎一样方便，因为背后的处理机在不分昼夜地自动分析和索引有关的语言资料（通常来自社会媒体）。高性价。传统民调的手工性质使得只有舍得不菲的花费，才可以做一项有足够规模的民调（样本小误差就大，难以达到民调的目的）。自动民调是由系统自动完成，同一个系统可以服务不同客户不同话题的各种民调，因此可以做到非常廉价，花费只需传统民调的零头。样本数可以高出手工调查回收数量的n个量级，是传统民调无法企及的。至于话费，通常的商业模式有两种，客户可以订阅（license）这样的系统的使用权，然后可以随时随地对任意多话题做任意多民调。零散客户也可以要求记件使用，每个话题民调一次缴纳多少钱。客观性。传统民调需要设计问卷，这就可能有意无意引入主观因素，因此不能完全排除模糊歧义乃至误导的可能。自动民调是自底而上的自动数据分析，用的是归纳整合的方法，因此更加具有客观性。为了达成调查，调查者有时不得不施行物质刺激，这也产生了部分客户纯粹为了奖励而应付调查、返回低质问卷的弊端。自动民调的对象是民意的自然流露（水军和恶意操纵另论），基数大，也有利于降噪，这就保障了情报的客观性。对比性。这一点特别重要，因为几乎任何话题的民调，都需要竞争对手或行业的背景。正面反面的舆论，问题的严重性等等，只有通过对比才能适当体现。譬如民调奥巴马的总统竞选效益，离不开对比其对手罗梅尼。客户调查 ATT 手机网络的服务，离不开比较其竞争者 Verizon，等。很多品牌实际上需要与一系列同类品牌做对比，才好确定其在市场的地位（如上图所示）。这种对比民调，虽然在理论上也可以手工进行，但是由于手工民调耗时耗力耗钱，很多时候调查者不得不减少或者牺牲对于竞争对手的调查，利用有限的资源只做对本企业的品牌调查。可自动调查就不同了，多话题的调查和对比是这类产品设计的题中应有之义，可以轻易完成。自动民调也有挑战，主要挑战在于人为噪音：面对混乱的社会媒体现实，五毛、水军以及恶意舆论的泛滥，一个有效的舆情系统必须不断与垃圾作战。好在这方面，搜索引擎领域已经积攒了丰富的经验可以借鉴。另一个挑战是需要对网络世界做两类媒体的分类（所谓push/pull的媒体分野）。民意调查切忌混入“长官意志”，客户情报一定要与商家宣传分开：同是好话，商家是王婆卖瓜，客户才是上帝下旨。这种媒体分类可以结合来源（sources）、语气（宣传类材料常常是新闻官方语气，而客户评价则多用口语和网络语）来决定，是有迹可寻的。总之，在互联网的时代，随着社会媒体的深入民间，民间情绪和舆论的表达越来越多地诉诸于社会媒体。因此，民调自动化势必成为未来民调的方向和主流。其支持技术也基本成熟，大规模多语言的应用指日可待。【相关篇什】奥巴马赢了昨晚辩论吗？舆情自动检测告诉你社会媒体舆情自动分析：马英九 vs 陈水扁舆情自动分析表明，谷歌的社会评价度高出百度一倍方韩大战的舆情自动分析【置顶：立委科学网博客NLP博文一览（定期更新版）】立委名言：技术改变世界，甚至总统......乃至你我。; 个人分类: 立委科普|8160 次阅读|5 个评论

NLP 是一个力气活：再论成语不是问题: liwei999 2012-1-5 09:16; NLP是一个力气活,100% agree. 日期: 01/04/2012 15:14:51 有朋友问： Quote 俺对这个领域是外行，形式语言和自动机理论还是学过的。其实成语数据库建立并不容易。涉及到大规模数据存储和检索的问题。从应用层面看，成语数据库没有想象地那么大。当然如果你是包括一个语言的所有领域，方方面面，要求系统理解日常用语，同时也理解专业文献，自然是很大，因为每个子领域都有很多术语（术语是成语的一种）。但是应用系统并不是百科全书，即便有能力建一个大而全的海量成语库，也没有必要，其运行和维护的成本超过了应用时带来的 marginal benefits，譬如，在我们的客户情报挖掘应用中，就不需要一个巨大的医疗术语库，尽管我们实际上已经有了这个库。日常使用的成语是多少呢？往多说，10万条该够了吧。人脑如果不借助于临时查字典，学富五车的人也不过记得住10万成语到顶了吧。10万条对于现在的系统算什么。系统一启动就全load进内存随时待命了。 Quote 立委能不能给俺们简单科普一下，你们NLP产业到底发展到哪一步了。你的技术优势是什么？今后的发展方向又如何？这个要简单说不太容易。让我试试吧：我们的技术优势就是探索出来一条利用深度分析而抽取任何文本信息（无论主观评价，还是客观事实）的高精度、细颗粒度的方法，而业界所流行的是浅度分析 and/or 机器学习，精度和颗粒度均低一个档次，质量完全不成比例，尽管后者的覆盖面会广一些。深度分析不是我们独有的，很多实验室都有；但是把深度分析应用到大规模真实语料能做出产品来，竞争者鲜见，原因大概是门槛太高了点儿。研究家们常常不习惯这种讲求平衡艺术（balancing art）而且需要极大耐力和应变灵活性的力气活，他们所擅长的是把一个思路推向极致，试图在算法或者理论上寻求突破或不同，这也有利于他们耐以生存发展的论文发表。多数习惯于短平快出成果的理工背景的机器学习家，往往对语言的混乱度估计不足，面对silent majority 的个性现象不甚耐烦（sparse data 是他们的死敌，在语言现象中格外明显）。当然，这也不是火箭技术，总会有人赶上的，但这里有个时间差。龟兔赛跑，并非每个兔子都爱睡懒觉。时间差算是一个很大的 competitive advantage. 今后的发展方向，我只能凭感觉说了。从科学角度，弱监督的机器学习（weakly supervised learning）如果有理论和方法上的突破，可能给语言技术的应用带来崭新的局面。从实践上看，更有迹可寻的方向是建立一个机器学习和人工干预的集成交互的语言技术开发环境和平台，使得语言技术开发较少依赖于一个人的经验和平衡术，较多地决定于数据的制导。形象点儿说就是，要把中国餐馆式依赖大厨独门技术的作业方式，改变成麦当劳式（其实更高质量并且有QA保证的 In-n-Out 更加合适）的流水作业，用以保证技术开发的基本质量。【置顶：立委科学网博客NLP博文一览（定期更新版）】; 个人分类: 立委科普|5812 次阅读|0 个评论

后生可畏，专业新人对《迷思》争论表面和稀泥，其实门儿清: liwei999 2011-12-31 05:19; “专业新人” （early stage researcher）也别被我的夸赞冲昏头脑。门道门道，有门有道。门儿清，不等于道儿清。做到门儿情，只要聪颖和悟性即可，而道儿清要的却是耐性、经验、时间，屡战屡败、屡败屡战的磨练，而且还要有运气。是为冰冻之寒也。 On Thu, Dec 29, 2011 G wrote: As you titled yourself early stage researcher, I'd recommend you a recent dialog on something related - http://blog.sciencenet.cn/ home.php?mod=spaceuid=362400 do=blogid=523458 . He has a point as an experienced practitioner. I quote him here as overall he is negative to what you are going to work on ［注：指的是切词研究］. And agree with him that it's time to shift focus to parsing. 2011/12/29 G Continuation of the dialog, but with an early stage researcher. FYI as I actually recommended your blogs to him in place of my phd thesis :) On Dec 29, 2011, M wrote: Hi Dr. G, I just read the Liwei's posts and your comments. I partly agree with Liwei's arguments. I think It's just a different perspective to one of the core problem in NLP, disambiguation. Usually, beginners take the pipeline architecture as granted, i.e. segmentation--POS tagging--chunking--parsing, etc. However, given the ultimate goal is to predict the overal syntactical structures of sentences, the early stages of disambiguation can be considered as pruning for the exponential number of possible parsing trees. In this sense, Liwei's correct. As ambiguity is the enemy, it's the system designer's choice to decide what architecture to use and/or when to resolve it. I guess recently many other people in NLP also realized (and might even widely agreed on) the disadvantages of pipeline architectures, which explains why there are many joint learning of X and Y papers in past 5 years. In Chinese word segmentation, there are also attempts at doing word segmentation and parsing in one go, which seems to be promising to me. On the other hand, I think your comments are quite to the point. Current applications mostly utilize very shallow NLP information. So accurate tokenization/POS tagger/chunker have their own values. As for the interaction between linguistics theory and computational linguistics. I think it's quite similar to the relationship between other pairs of science and engineering. Basically, science decides the upper bound of engineering. But given the level of scientific achievements, engineering by itself has a huge space of possibilities. Moreover, in this specific case of our interest, CL itself may serve as a tool to advance linguistics theory, as the corpus based study of linguistics seems to be an inevitable trend. From: Wei Li Date: Fri, Dec 30, 2011 He is indeed a very promising young researcher who is willing to think and air his own opinions. I did not realize that the effect of my series is that I am against the pipeline architecture. In fact I am all for it as this is the proven solid architecture for engineering modular development. Of course, by just reading my recent three posts, it is not surprising that he got that impression. There is something deeper than that: a balance between pipeline structure and keeping ambiguity untouched principle. But making the relationship clear is not very easy, but there is a way of doing that based on experiences of adaptive development (another important principle). 【相关博文】专业老友痛批立委《迷思》系列搅乱NLP秩序，立委固执己见【置顶：立委科学网博客NLP博文一览（定期更新版）】; 个人分类: 立委科普|4319 次阅读|0 个评论

专业老友痛批立委《迷思》系列搅乱NLP秩序，立委固执己见: liwei999 2011-12-29 23:29; G 是资深同行专业老友很多年了，常与立委有专业内外的交流。都是过来人，激烈交锋、碰撞出火是常有的事儿。昨天给他邮去《迷思》系列三则，他即打电话说：“好家伙，你这是惟恐天下不乱啊。看了《迷思》，我就气不打一处来。你这是对中文NLP全盘否定啊，危言耸听，狂放颠覆性言论。偏激，严重偏激，而且误导。虽然我知道你在说什么，你想说什么，对于刚入门的新人，你的《迷思》有误导。” 听到他气不打一处来，我特别兴奋：“你尽管批判，砸砖。我为我说的话负责，每一个论点都是多年琢磨和经验以后的自然流露，绝对可以站住。对于年轻人，他们被各种’迷思‘误导很多了，我最多是矫枉过正，是对迷思的反弹，绝对不是误导。” 现剪辑摘录批判与回应，为历史留下足迹。内行看门道，外行看热闹，欢迎围观。 2011/12/28 G The third one is more to the point - 严格说起来，这不能算是迷思，而应该算是放之四海而皆准的“多余的话” Frankly, the first two are 标题党 to me. Most supporting evidence is wrong. Well, I think I know what you were trying to say. But to most people I believe you are misleading. No, I was not misleading, this is 矫枉过正 on purpose. At least I think you should explain a bit more, and carefully pick up your examples. Take one example. Tokenizing Peoples Republic of China is routinely done by regular expression (rule based) based on capitalization, apostrophe and proposition (symbolic evidences), but NOT using dictionary. that is not the point. yes, maybe I should have chosen a non-Name example (interest rate 利率 is a better example for both Chinese and English), but the point is that closed compounding can (and should) be looked up by lexicons rather than using rules. What you are referring to I guess is named entity recognition. Even that chinese and English could be significantly different. No I was not talking about NE, that is a special topic by itself. I consider that to be a low-level, solved problem, and do not plan to re-invent the wheel. I will just pick an off-shelf API to use for NE, tolerating its imperfection. I wouldn't be surprised if you don't do tokenization, as you can well combine that in overall parsing. But to applications like Baidu search, tokenization is the end of text processing and is a must-have. Chunking of words into phrases (syntax) are by nature no different from chunking of morphemes (characters) into words (morphology). Parsing with no word segmentation is thus possible. In existing apps like search engines, no big players are using parsing and deep NLP, yet (they will: only a time issue), so lexical features from large lexicons may not be necessary. As a result, they may prefer to adopt a light-weight tokenization without lexicons. That is a different case from what I am addressing here. NLP discussed in my post series assumes the need for developing a parser as its core. Your attack to tagging is also misleading. You basically say if a word has two categories, just tag it both without further processing. That is tagging already. That is not (POS) tagging in the traditional sense: the traditional sense of tagging is deterministic and relies on context. Lexical feature assignment from lexical lookup is not tagging in the traditional sense. If you want to change the definition, then that is off the topic. What others do is merely one step forward, saying tag-a has 90% correct while tag-b 10% chance. I did rule based parser before and I find that is really helpful (at least in terms of speed). I try the high chance first. If it making sense, I just take it. If not, I come back trying the other. Let me know if you don't do something like that. Parsing can go a long way without context-based POS tagging. But note that at the end I proposed 一步半 approach, i.e. I can do limited, simple context-based tagging for convenience' sake. The later development is adaptive and in principle does not rely on tagging. Note here I am not talking about 兼语词 which is essentially another unique tag with its own properties. I know this is not 100% accurate but I see it in chinese something like 动名词 in English. In fact, I do not see that as 兼语词, but for the sake of explanation of the phenomena, I used that term (logically equivalent, but to elaborate on that requires too much space). In my actual system, 学习 is a verb, only a verb (or logical verb). Then this touches grammar theory. While we may not really need a new theory, we do need to have a working theory with consistency. You may have a good one in mind. But to most people it is not the case. For example, I see you are deeply influenced by 中心词 and dependency. But not everyone even aware of that, not to mention if they agree with. Till now there is no serious competition, as really no large scale success story yet. We need to wait and see which 学派 eventually casts a bigger shadow. Good to be criticized. But I had a point to make there. 【相关博文】中文处理的迷思之一：切词特有论 2011-12-28 中文处理的迷思之二：词类标注是句法分析的前提 2011-12-28 中文NLP迷思之三：中文处理的长足进步有待于汉语语法的理论突破 2011-12-29 相位问题是做结构分析的一个古典问题。理论上讲，这个问题不解决，结构分析事儿就是“未完成”。作者: mirror 日期: 12/29/2011 10:46:20 但是做结构分析的人并不会因为“相位问题”未彻底解决而停止工作。他们有“蒙也要蒙出来”的气势。过去不好蒙，如今计算机发达了，也就不怕了。不但不怕，而且剥夺了研究通过实验的技术手段解相位人的“饭碗”。因此，镜某不大看好“ 中文处理的长足进步有待于汉语语法的理论突破 ”的说法。大约计算机语言识别的事情也是如此。问题有两个侧面：响应时间和精确程度。也许还有语音语调等感情色彩的成分。只有到这个层次，才可称谓“ 自然语言 ”。也许感情符号也要象音乐中的音符那样，来表达对话的感情。毕竟有些话属于能写出来而不能说出来。比如人的称呼，在西方不是个问题。直呼其名就是了。而在东方，就不大好办了。在家里，不会有儿子直呼老爸名字的现象。还有一些比较禁忌的话题，当面说、对话就很困难了。但是不妨碍写出来。比如说“色情文学”。保不齐“色情文学”的计算机思考研究，在将来会很流行。也就是说，到了那个境界，就要思考机器的“感情”问题了。 ---------- 就“是”论事儿，就“事儿”论是，就“事儿”论“事儿”。镜子真神人也，第一段说得非常到位：一个蒙字，极尽真准传神作者: 立委日期: 12/29/2011 12:45:07 Quote 过去不好蒙，如今计算机发达了，也就不怕了。属于不可泄漏之天机啊。至于上面的第二段，镜兄乘兴发挥，恣意挥洒，“老匠”立委就跟不上了。附：“老匠” 之来历： kingsten_88 说： 2011年12月29号16:59 李老师看来真是老匠了，对中英语法分析的细节娓娓道来，让我想起了那一场场苦恼过的场景。李老师说出了中文无特性的真相，所有语言的语言现象都是类似的，只是或轻或重而已，这正好说明是理论不足，并非应用不足呢。 liwei999 回复: 十二月 30th, 2011 at 00:20 老匠了，老匠了。老匠一词极为真准传神。 from 52nlp 【置顶：立委科学网博客NLP博文一览（定期更新版）】; 个人分类: 立委科普|5990 次阅读|0 个评论

与博友讨论“普遍符号”: 热度 2 gl6866 2011-7-23 08:21; 我前不久写过一篇 “莱布尼茨的普遍符号” 的博文。这篇博文的主要目的是将莱布尼茨所说的“普遍符号”的西文名称罗列一下，这篇文章与我在北师大的报告“ 大衍之数、普遍符号和通用图灵机 ” 有一定的关联，因而从某种意义上，是我科研的一部分，但博文刊出后，有了意外的收获。大致有二个方面吧。我觉得这些对我将来的工作都极其有价值。因而把留言整理出来，和大家分享。其一，是关于莱布尼茨与易经的关系的问题，网友史晓蕾问我“国内盛传的莱布尼茨与易经（二进制）的说法，到底靠谱的程度有多大？您的看法呢。”我的回答是，“莱布尼茨受到易图的启发而发明二进制是没问题的。但他发明二进制与易图没关系。而且易图也不是二进制。这个关系一定要厘清。至少用途不一样，在莱布尼茨那里他希望找到上帝从虚无中进行创世的证据。而在中国易图大概用在风水，算命上比较多些。国内有人比较痴迷这种没什么意思的讨论，我不想设身其中，让他们自娱自乐吧。当然从另一个角度是可以把易图解释为二进制，例如，“加一步法”就是二进制算术。但所有这些都与现代计算机无关。另外，爱因斯坦曾有过”真理再发现“的说法，那发明计算机的人承认这一说法当然就更好了。”关于这个问题我曾在另一篇博文“ 莱布尼茨是首个发明二进制算术的吗？” 有点儿简单的涉及。其二，是与网友王玉峰的互动，她（他？）在方面颇有建树，但却更偏重于自然语言，我认为莱布尼茨的初衷可能是希望找到一种能沟通全人类语言的工具，例如，像世界语那样的东西。可是在我看来，莱布尼茨真正的思想却是希望通过“普遍符号”达到他“理性演算”的目的。如果我的分析有一定道理，那么“普遍符号”就是一个中介，我所关心的是这个问题。而没又去过多考虑自然语言问题，尽管目前在自然语言方面的研究进展也很发达，例如，在机器翻译方面等。可是这些都离不开现代的计算机。控制论创始人维纳曾说过，如果为控制论找一个“守护神”的话，就找莱布尼茨，因为他对控制论之所以重要就在于他的“普遍符号”和“理性演算”。我倒是认为，维纳还是掐算得比较准确。下面就是我与王玉峰的互动：王：归根到底，其（莱布尼茨）基础思想是语义的二分法。计算机的二进制、莱布尼兹的思想，都离不开二分法思想，所以莱布尼兹和计算机发生了联系。 “如果这件事真能成功，那将是最伟大的发明之一。”……说真的，莱的这种设想本身是错误的：“通过对这些字母造出的词的分析，我们就可以发现和判断一切事情”，莱可能以为自然语言不够精确、或对于发现真理来说是个障碍，其实并非如此。与其发明另一套符号，不如直接采用自然语言符号。自然语言符号本身就是一套完全抽象的符号，并且本身就是他想要的、表达我们思想的抽象符号。还有就是各语种可以互译，这说明各语种符号可以互相作为表达，也就是说，不必发明中间语言符号，各语种都只是中间语言的一个变形、或说一个变换，只是我们尚未发现其变换之道罢了......。还好最终的结果是好的，他终于走到数理逻辑、其实就是逻辑学这个领域，并且引发了许多有意义的成果。虽然出发点是错的，但坚持研究，总会有一些有意义的成果。就象心理学，到现在也未能证明心理学的实验方法是科学的，但就这么一个基础非常不牢的科学，经过多年的发展，也还是取得了许多有意义的成果。所以还是值得发展。不知道博主同意我的分析吗？数理逻辑就是逻辑。刘：莱布尼茨是很有趣的人。不清楚你是否读过弗雷格的《概念文字》，弗雷格的“概念文字”实际上指的就是莱布尼茨的普遍符号。弗氏是第一位构造出完整的数理逻辑系统的学者，后来罗素在他著作出版之前，给他写了一封信，经过弗雷格的仔细思考，承认罗素的分析，从而引起第三次数学危机。而罗素的那封信中所言便成为“罗素悖论”。当然，你说的自然语言也有道理，但难度似乎要比形式语言更大，也有人从这方面入手，可是我觉得计算语言也是一种手段，一种符号系统。而逻辑学的英文名为logic，本意就是把一切集合起来的意思。不知你是否同意，我倒是认为你的说法有一定道理。王：顺便帮你分析一下“普遍符号语言真的可以更准确、更有效地描述理性思想？”——我想这位读者非常有见地。他的意思是：是不是一个人工规划好的语言就比自然语言能够更好地表达思维？答案是否定的。别看自然语言貌似很不精确，其实没有比自然语言更好的、表达我们思维的语言——这包括数学语言、当然也包括数理语言。所以，所谓的普遍符号语言并不能更准确、更有效地描述理性思想。这种普遍符号语言要么丢失了我们的思维中的一些内容，要么其描述的内容超出了我们思维的范围——这指的是用数学或逻辑计算或推导的结果却并不符合我们的自然。要克服普遍符号语言的这种对我们的思维的描述不够准确的问题，只能是往纯粹逻辑上靠，现在的数理逻辑就是纯粹的逻辑学的一个分支、并不会在语言学和数学或称逻辑学范围之外建立什么。这样的最终定位就大致正确啦，但还有一个问题，就是现在逻辑学比之自然语言，在内容上是缺失了一些东西的。理想的逻辑学应该就是自然语言。总之，普遍符号语言并不是会更准确、更有效地描述理性思想，从理论上是这样的。这不合乎我们的直觉，但这是事实。那为什么我们还要使用普遍符号语言呢？——因为我们还没有找到拿现成的自然语言符号来直接进行逻辑推理的方法，这在未来也许可以实现。理想的逻辑学应该就是自然语言——关于这一点，看一下形式语言的发展目标是什么，就知道啦。形式语言的发展目标就是成为自然语言。刘：逻辑与数理逻辑还是有区别的，前者重推理；后者重计算。从某种意义讲，计算比其他类型的思维形式更简单，当然不可能完全反映出理性的全部内容。可话又说回来，莱布尼茨普遍计算的理念就是让人把从繁重、重复的计算工作中解脱出来，以便让人从事更有创造力的理性思维。现在他的这种理想达到了（至少部分达到了），估计下一步科学家就会从认知科学的角度对人脑等更为精致的器官进行研究，可所有进一步的研究之所以成为可能，并取得成功，必须借助于先进的计算机。但愿形式语言的发展目标能够成为自然语言吧。王：你确实在这些方面研究了许多，幸会。很多学科都没有太清晰的界限。有人说逻辑是数学的一个分支，有人说逻辑学研究的全是自然语言逻辑，所以逻辑学也可算是语言学的一个分支，...... 我看不必去管它谁管谁、到底应该如何分类，只要能解决问题就有意义。我很喜欢数理逻辑，我自己就搞这方面~。莱布尼兹是个很了不起的人，他的成就就不必说啦。关于普遍符号，我想，每位科学家都有个探索过程，谁都是在摸索真理，所以有个把不对是很自然的。莱在提出普遍符号时，可能对思维、语言、逻辑之间的关系不是非常清楚，莱是个数学家，想问题当然偏数理，其实要想研究明白逻辑的本质——这是弗雷格擅长的，确实需要对自然语言的本质有深入研究才行。初始设想是建立在一个不完美的理解之上——这并不影响数理逻辑这门学科的伟大性。每门科学、每位科学家都有它的或大或小的不完美存在，并不影响他们的伟大，相反，倒是极正常的，科学本来就是不断发展的。欢迎常交流~。刘：大多人大概只把莱布尼茨作为一个科学家来对待，但科学只占他研究领域的极小部分。他把亚里士多德逻辑进行了改造，逻辑的面目就彻底改变了。可是莱布尼茨把逻辑只是作为他的形而上学的一个工具，因而他要寻求一种普遍符号。当年他曾认为汉字可以为他的普遍符号服务，但却失望而归。莱布尼茨专家Nicholas Rescher就曾说过，罗素把莱布尼茨的哲学分成好的坏的是不对的，因为他的逻辑学与他的形而上学不能割裂开来。否则数理逻辑就只能成为数学的基础，现在则成为数学的一个分支。这个局面在我看来就是罗素抛弃了莱布尼茨的“坏”哲学所造成的，但怀特海却把莱布尼茨的所谓“坏”哲学发展成过程哲学，也就是莱布尼茨单子论那部分。单子论是非常好的哲学，尤其莱布尼茨写的那种缜密。很高兴在科学网上结识了一位逻辑学家。请问你在哪里供职？; 个人分类: 信息哲学|3336 次阅读|2 个评论

Cambridge《自然语言工程》被SCI、SSCI、A&HCI收录: wanyuehua 2010-9-4 08:17; 1995 年创刊的Natural Language Engineering 《自然语言工程》， ISSN: 1351- 3249，季刊，英国剑桥大学出版社（CAMBRIDGE UNIV PRESS, EDINBURGH BLDG, SHAFTESBURY RD, CAMBRIDGE, ENGLAND, CB2 8RU）出版， 2010 年入选 Web of Science 的 Science Citation Index Expanded 、 Social Sciences Citation Index 、 Arts Humanities Citation Index ，目前在SCI数据库可以检索到该期刊2009年的第15卷第1期到2010年第16卷第2期共40篇论文。该刊是 EI 收录期刊， EI 从 1996 年开始收录， 1997 年被 EI 剔除， 2003 年开始被 EI 重新收录， EI 共收录了该刊 1996 ， 2003-2010 年 170 篇论文。 40 篇文章包括学术论文31篇、书评6篇、社论2篇、更正1篇。 40 篇文章的主要国家分布：美国15篇，英国13篇，德国、意大利、荷兰各4篇，法国、土耳其各2篇，中国、瑞士、加拿大、奥地利、澳大利亚、芬兰、以色列各1篇等。中国学者以通讯作者单位在Natural Language Engineering《自然语言工程》上发表论文的是哈尔滨工业大学（Harbin Inst Technol）1篇。 40 篇文章共被引用8次（其中2009年被引用2次、2010年被引用6次），平均引用0.20次。 Natural Language Engineering《自然语言工程》投稿指南：该刊主要刊登自然语言工程方面的研究论文、评论、社论、会议论文等，涉及计算机的机器翻译、信息检索、语言识别及生成、对话系统、自然语言加工基础、文本分析、集成系统等。网址： http://journals.cambridge.org/action/displayJournal?jid=NLE 编委会： http://journals.cambridge.org/action/displayMoreInfo?jid=NLEtype=eb 作者指南： http://journals.cambridge.org/action/displayMoreInfo?jid=NLEtype=ifc; 个人分类: SCI投稿|8918 次阅读|1 个评论

《立委随笔：自然语言是递归的么？》: 热度 2 liwei999 2010-2-11 02:47; mirror 说： ”括号可以用几重？立委作为计算机的半拉专家，应该知道是有限的。问题是限在几重上。…… 比如｛［最（伟光正的）党］领导的｝是一个深度的例子。没有抽象化，也就没有学问了。问题不在于可不可以。问题是出自一个什么样的考虑、取舍，定下的如此规矩。” 由镜子所说引申去：自然语言是递归的么？ (92201) Posted by: liwei999 Date: June 17, 2007 05:17PM 很多句法学家认为，自然语言的结构具有递归性 (recursion)。递归的表现是结构的嵌套，这就好像我们数学表达式中使用括号一样，理论上是括号的嵌套使用是无限的（无法预先规定嵌套的层数）。可是，语言的制约不仅仅是句法，还有语用上的限制。自然语言中，括号的有限使用是语用学（pragmatics）的常识和可以观察到的语言现实。因为中间嵌套太深，不利于交流，也会超出人的短期记忆的承受范围。中间嵌套的例子有主句套从句：主句的主语（S）和做谓语的动词短语(VP)中间又插入一个定语从句，修饰主句的主语： A guy who knows a girl also knows another girl. 其结构是： VP] 然而，右嵌套可以很深，在英语，这种例子屡见不鲜。［… ]]]]] 例如： I know a guy, who knows a girl, who knows another guy, who knows …… 其结构是： ]]]] 再如：有一类英语动词（a verb subcategy），其动词短语要求嵌套另一个动词短语作为其宾语补足语，如果被嵌套的动词短语恰好也是同类动词，这种嵌套就可以循环下去。这类动词有：expect, tell, ask, force, … VP 的句型是：VP – （V是这类动词，NP 是名词短语做宾语）譬如： I expected John to finish the homework. I expected John to tell Mary to finish the homework. I expected John to tell Mary to ask her students to finish the homework. …… 其结构是： ]]]] 由于语言结构的recursive nature, 受到”乔木司机“的形式语言理论的不良影响，很长一段时间，计算语言学界推崇能够反映recursion的上下文无关语法（CFG, Context Free Grammar），排斥有限状态语法（FSG, Finite State Grammar），认为后者不适合自然语言parsing。可是，研制实用系统的人对简单而高效的FSG情有独衷。 FSG 比起 CFG 不够 powerful，为什么也可以成功运用在自然语言的parsing上呢？诀窍就在，可以把很多个FSG叠加起来用（cascaded finite state device），一层一层地由里往外退括号。由于语用学的制约，人类实际的语言现象，表达中间recursion的括号数量是很有限的（很少超过三层，形象地说，只要大中小三种括号就够用了），而边缘嵌套难不住FSG (其实实际语料中边缘嵌套也很少超过五层)，所以线性叠加完全可行。【置顶：立委科学网博客NLP博文一览（定期更新版）】; 个人分类: 立委科普|7623 次阅读|4 个评论

【立委科普：机器翻译】: liwei999 2009-12-13 04:09; MACHINE TRANSLATION By Wei Li liwei999 AT gmail.com (In GB code) 本文是作者应约为科技辞书写的辞条, 现略加修改, 力求深入浅出, 既反映本学科的最新发展水平, 又能让一般读者容易理解。立委一九九六年六月二十五日于加拿大温哥华 ------------------------------------------------------------------------------- 机器翻译立委又称自动翻译, 是按照规定的算法由电子计算机进行语言翻译。它是计算语言学的主要研究领域之一。机器翻译通常由机器词典和语言规则库支持, 其对象为自然语言。机器翻译是一种自然语言处理应用软件。与此相对应, 还有一种系统软件, 专门用于把用计算机语言编写的程序自动翻译成可执行的机器代码, 这在计算机科学中叫编译器或解释器。编译理论和技术已经相当成熟, 它与自然语言的机器翻译有相通之处。与计算机语言相比, 自然语言有两个明显的特点: 首先, 自然语言普遍存在同形多义现象。在词汇层, 一词多义, 词类同形等现象随处可见, 而且越是常用的词其意义和用法越多; 在句法层, 结构同形也相当普遍, 同一种结构也可能表达多种含义和关系。因此, 区分同形和多义成为机器翻译的首要任务。其次, 自然语言是规则性和习惯性的矛盾统一体。自然语言中, 几乎没有一条语法规则没有例外。然而, 如果把语言规则组织成从具体到抽象的层级体系, 区别个性规则和共性规则的层次, 建立个性和共性的联系方式, 就为解决这一矛盾创造了条件。因此, 在设计机器翻译系统的算法时, 如何把握和处理个性与共性的关系, 在很大程度上决定了系统的前途。机器翻译通常包括五个环节: 源语输入; 源语分析; 源语到目标语的转换; 目标语生成; 目标语输出。源语到目标语的转换 (1) 源语输入 ============================ 目标语输出 I 形态分析 ====================== 形态生成 II 句法分析 ============= 句法生成 III 语义分析 ===== 语义生成语用加工 , 知识推理 (2) 元语言对于书面语, 输入和输出是纯技术性环节。语音机器翻译则还必须赋予计算机以听和说的能力, 这是语音识别和语音合成所研究的课题。源语分析的结果用某种中间形式表示。转换包括词汇转换和结构转换, 它反映源语和目标语的对比差异。生成是分析的逆过程。可见, 只有转换才必须同时涉及两种语言, 源语分析和目标语生成可以相互独立。这种设计思想称作转换法, 是当前机器翻译系统的主流。当然, 也可以把转换放到分析或生成中, 用所谓直接法进行自动翻译。直接法和转换法各有其优缺点。运用直接法的系统结构紧凑, 翻译过程比较直观,规则的编制易于参照现成的双语词典、对比语法以及前人长期积累的翻译经验。其主要缺点是, 由于分析和生成不能独立, 使得分析和生成都难以深入; 另外, 对于多种语言之间的自动翻译, 直接法是不适合的。转换法也有缺点: 尽管可以分析得比较深入, 但多了一个环节, 多了许多接口信息, 处理不好反而影响译文质量; 另外, 在不同语系的语言之间, 要想得到较高质量的翻译, 其转换模块(主要是词汇转换)势必很大, 大到与分析和生成模块不相称的地步, 这差不多等于回到了直接法。看来, 对两个差别比较大的语言进行自动翻译, 直接法还是很有效的。究竟分析到哪一步实施转换, 是由系统的设计目标, 加工对象和研究深度等条件决定的。从上图可以看出, 分析越深入, 转换便越少, 最终达到没有转换。分析一下两极的情形是很有意思的, 即: (1) 只有转换的翻译; (2) 没有转换的翻译。只有转换的翻译是一一对应的翻译, 不需要分析和生成。翻译只是机械的数据库查询和匹配过程, 谈不上任何理解。需要指出的是, 对于语言中纯粹的成语和习惯表达法, 这种翻译方法不仅是有效的, 往往也是必需的。机器翻译的另一极是建立在充分理解基础上, 毋须转换的自动翻译, 这是从实质上对人的翻译过程的模拟。这时候, 源语分析才是真正的自然语言理解, 机器翻译才真正属于人工智能。然而, 这里遇到两个难题: 一是知识处理问题; 二是所谓元语言问题。考察人的翻译活动, 可以发现, 人是靠丰富的知识在理解的基础上从事翻译的。这些知识既包括语言知识, 也包括世界知识(常识、专业知识等)。如何组织这些包罗万象的百科全书一样的知识, 以便适应机器处理和运用的需要, 是人工智能所面临的根本性课题。另一方面, 人类可以用语言交流思想, 语言可以相互翻译, 必定有某种共同的东西作为基础, 否则一切交流和翻译都是不可思议的。概念, 或者更准确地说, 概念因子(即构成各种概念的元素)是全人类一致的。概念与概念间所具有的逻辑关系和结构也是全人类共同的。如果人们可以把这种共同的东西研究清楚, 把它定义成元语言, 源语分析以元语言作为其终极表达, 目标语生成也以元语言作为出发点, 就不需要任何转换了。这时候, 源语分析和目标语生成便完全独立, 每一种语言只需要一套针对元语言的分析和生成系统, 就可以借助于它自动翻译成任何其他语言。研究元语言是认知科学中的一个难题, 有待于语言学家, 逻辑学家, 心理学家, 数学家和哲学家的共同努力。有意义的是, 研究机器翻译的学者们设计过种种近似元语言的方案, 作为多种语言之间自动翻译的媒介语, 取得了一定的成果和经验。总之, 虽然机器翻译的最终出路在于人工智能的理论和技术的突破, 但在条件不成熟的时候过份强调机器翻译的人工智能性质, 一味追求基于知识和理解的自动翻译, 对于应用型机器翻译系统的研制, 往往没有益处。除了上述的两极, 人们根据转换所处的层次, 把机器翻译系统大致分为三代: 第I代是词对词的线性翻译, 其核心是一部双语词典, 加上简单的形态加工(削尾和加尾)。I代系统不能重新安排词序, 不能识别结构同形, 更谈不上多义词区分。第II代系统强调句法分析, 因此能够求解出句子的表层结构及元素间的句法关系 (分析结果通常表现为带有节点信息的结构树), 从而可以根据源语和目标语的对比差异进行句法结构的转换和词序调整, 这就从线性翻译飞跃到有结构层次的平面翻译。然而, 在没有语义的参与下, 虽然可以识别句法结构的同形, 但却不能从中作出合适的选择; 多义词区分问题也基本上无法解决。第III代系统以语义分析为主, 着重揭示语句的深层结构及元素间的逻辑关系,可以解决大部分结构同形和多义词区分问题。目前, 多数机器翻译系统处于II代,或II代和III代之间。纯粹以语义分析为核心的III代系统只做过小规模的实验(Wilks, 1971), 但也取得了令人瞩目的成就。从工程和实用考虑, 大型商品化机译系统的研制, 采用句法分析与语义分析相结合的方法, 是比较切合目前的研究水平和实际需要的。从方法上看, 语言规则和算法分开是自动翻译技术上的一大进步, 算法从而成为系统的控制器和规则的解释器。早期的机器翻译系统并没有专门的语言规则库, 而是把规则编在程序中, 这带来三个严重的缺陷: 第一, 规则的每一点修改都要牵涉程序的变动; 第二, 无法提高机器翻译算法的抽象度, 从而影响了语言处理的深度和效率; 第三, 不利于语言学家和计算机专家的分工合作。值得强调的是, 规则与算法分开以后, 只是从形式上为规则的增删修改提供了方便, 真正的方便取决于规则的结构体系, 具体地说, 就是规则与规则的相互独立程度。如果规则彼此依赖, 牵一发而动全身, 就谈不上修改规则的自由。这样的网状规则系统在规则数达到一定限量以后, 就无法改进了: 往往改了这条, 影响那条, 越改越糟, 最终可能导致系统的报废。因此, 在规则和算法分开以后, 有必要强调规则与规则分开。随着信息社会的到来, 人工翻译的低效率已远远不能满足社会的需求, 迫切需要计算机帮助人们翻译。目前, 世界上已有一批机器翻译系统投放市场或投入运用, 更多的系统正在积极研制中。而英汉机器翻译也已有高科技产品问市。在大陆，继“译星”一鸣惊人后, 近年又有两套英汉系统分别投放市场, 一套为中国社会科学院语言研究所和北京高立电脑公司所研制开发,另一套是中国科学院的863项目，竞争日趋激烈。机器翻译经过40多年的发展, 对语言的认识逐步深入, 发展了许多行之有效的语言处理技术。其前景是令人乐观的。寄自加拿大姐妹篇：【立委科普：信息抽取】: http://www.starlakeporch.net/bbs/read.php?45,20654 何人可12月 6th, 2008 at 5:18 pm 贤弟十二年前的旧作今天读来仍有不少新意，如基于语义分析的机译，和语言规则的独立性的重要。这些年我一直在关注NLP和MT的进展，但机器翻译的出路是在哪儿呢？我认为基于概念的机器翻译是个方向，不知你是否有所涉及，有何心得？ liwei12月 6th, 2008 at 7:08 pm 何兄謬爱。我其实已经离开这个领域不少时间了，知识陈旧了。从应用上看，由于海量双语对照文库的存在，由 IBM 研究人员等开端的统计一派现在成为业界主流，基于对等翻译单位（translation unit, 可以是词，词组或成语）的统计信息的系统已经达到实用开发的程度。这实际上是词汇转换（lexical transfer）路线的翻版，直接在源语和目标语之间建立联系，跳过显性的概念手段。所谓基于概念的翻译原理上没有问题。概念从最低处说包括从词到概念的转换，涉及多义词区分（word sense disambiguation）的难题（从概念转换到目标语的词原则上不是难题，即便一个概念对应多个目标词，选错了也不影响整体意义，影响的是翻译的地道程度）。WSD本身是NLP中最艰难的问题之一。如果基于概念进一步包括“表层结构”到深层逻辑结构的转换的话，那么基于概念的翻译也就是我文中所说的基于理解的翻译了，真正属于人工智能的范畴了。【姐妹篇】【立委随笔：机器翻译万岁】《立委科普：自然语言处理领域中的语义路线及其代表人物》【置顶：立委科学网博客NLP博文一览（定期更新版）】; 个人分类: 立委科普|9882 次阅读|0 个评论

我们是怎样思维的: arithwsun 2009-9-27 13:56; Google 文档我们是怎样思维的，怎样达到人生的巅峰？这个问题牵涉到3种思维方式：悟和两种形式思维（符号思维）：一是自然语言，一是数学。所以共有三种。悟是这样的，不使用形象，声音，由脑子的运动直接模仿外界的运动（猜测而已），从而超前于外界得出结果。这就是物我两忘，乐不思蜀。悟的局限性在于它的发展性，就是说它一定会发展成形式思维。世界的运动是复杂的，所以脑子的运动也是如此，世界是有形有像但莫可名状。悟性思维去感悟这些，尤其是其中的规律时，也就模仿着莫可名状的世界运动。这运动多是混沌的，所以这时的人脑无法给意识以有形象的显示，虽然它在思维，很深刻的思维。这种运动不是一直混混沌沌，它在发展、在奋斗，最后进入一个稳定状态，从而为形式的产生奠定了基础。自然语言和数学语言是形式化上的两条道路，自然语言是给某一稳定态以一个符号，这样那些我们比较熟悉的稳定的感觉就有了名字和语法。数学语言则描述这一稳定态的结构，这很不容易做到。所以人们到目前为止，做的都是几何与代数为基础的内容，容易一些，基本一些。所以各种思维各有其应用，各有其局限。总的说，悟是因，语言是果。悟需要的时间较长，语言显现易懂。要去区分稳定态的不同时，适用面较广时，经常是要用到自然语言，而若要明其机理，非数学语言不可。可惜的是目前绝大多数思维方法和教学方法，均是失之于一端，偏颇造成愚昧。另外需要注意的是，服务感情的形式语言是音乐。它的表达原则似乎与数学语言一样，是通过同构性来描述本体的。而绘画虽也可表达感情，但和自然语言一样，也是所指与能指的关系。所以，我们不外乎用这么五种角度来理解世界，其中自然语言、数学、音乐是人类最基本的三种语言。情绘画音乐悟境自然语言数学能指同构这里，音乐是落在列同构和行情的交点上，表示音乐是以同构的要求来表达感情的，而绘画所处位置，则表示其是以所指与能指的方式来表达感情的。当然自然语言也能表达感情，但我们把它仍是归为，相关于事物所在空间时间的表达方式，称此列为境。数学当然是以同构的方式来研究空间时间之境的。悟居中，表示无所不包。这种图示法，我们后面还要经常用到，我们会在五行哲学的解释中，更细致地说明这种图示法。语言的威力，是极其强大的，可谓一个国家，一个民族的根本所在。在古代社会，经常会出现一个野蛮民族战胜文明民族，最后又被其文明同化的过程。那个时候，基本还是自然语言占据主要的社会角色，往往能因其文明成就而做到先败而后胜。但是，现代社会以来，这种野蛮民族在武力上战胜文明民族的情况，不太可能发生了，因为现代社会中，数学语言开始占据了重要的角色，在数学的同构性威力下，社会的文明是伴随着科技的增长而前进的，文明本身，就伴随着更高的武力，因而远远胜过了不发达国家，使得古代那种现象不太可能再在现代社会中发生。因此可以说，在现代社会，国民的数学水平，就是一个国家国力的重要指标。; 个人分类: Book-W|4352 次阅读|0 个评论

更多...

帐号		自动登录	找回密码
密码			注册

关闭 安全验证

标签: 自然语言

相关帖子

相关日志

关闭安全验证