我们去年在澳大利亚举办的Web Intelligence 2008国际会议上,成功组办了自然语言处理与本体工程的workshopNLPOE2008。今天已经全部被EI收录,今年我们还将继续组办NLPOE2009。征文通知见附件。 另外,我们同时在Fourth International Conference on Innovative Computing, Information and Control国际会议上组办同名(NLPOE)的Invited Session。这个会议的第1届(icicic2006)的论文被ISTP全部收录,被EI部分收录,第2届(icicic2007)、第3届(icicic2008)全部被EI、ISTP收录,部分论文被SCI收录。征文通知见附件。 NLPOE2009征文通知 ICICIC2009
Workshop on 2nd Natural Language Processing and Ontology Engineering (NLPOE2009) ( http://www.wi-iat09.disco.unimib.it/IAT09/workshops.htm ) In conjunction with The 2009 IEEE/WIC/ACM International Conference on Web Intelligence (WI-09) September 15-18, 2009, Milan, Italy Call for Papers Natural Language Processing (NLP) addresses the problems of automated understanding and generation of natural human languages. The former identifies the syntactic structure of a sentence, judges the semantic relations among the syntactic constituents, in hopes of reaching at an eventual understanding of the sentence. The latter process constructs the semantic structures and syntactic constituents according to the semantic and syntactic properties of the lexical items selected, and eventually generates grammatically well-formed sentences. The goal of the NLP applications is to facilitate human-machine communication using natural languages. In particular, it is to establish various computer application software systems to process natural language, such as machine translation, computer-assisted teaching, information retrieval, automatic text categorization, automatic summarization, speech recognition and synthesis, information extraction from the text, intelligent search on the Internet. Today, with the wide use of the Internet, the demand for language information puts a high premium on automated processing of massive language information. Ontology engineering is a subfield of artificial intelligence and computer science, which aims at a structured representation of terms and relationship between the terms within particular domain, with the purpose to facilitate knowledge sharing and knowledge reuse. Ontology project involves the development of Ontology building programs, Ontology life-cycle management, the research of Ontology building methods, support tools and ontology languages, and a series of similar activities. Ontologies have found important applications in information sharing, system integration, knowledge-based software development and many other issues in software industry. However, ontology engineering is a time-consuming and painstaking endeavor, and NLP technology has important contributions to make in quick and automatic development of ontologies. This workshop will focus on the recent advances made in Ontology engineering and NLP, with the aim to promote the interaction between and common growth of the two areas. We are particularly interested in the building of upper-level language ontology in NLP and the application of NLP technology in Ontology engineering. More importantly, we expect that individuals and research institutions in the areas of both Ontology engineering and NLP could pay attention to this workshop, which may contribute to the integration and growth of these two areas. The topics of the workshop include, but are not limited to, the following: 1.Natural language understanding, including syntactic parsing, word sense disambiguation, semantic role labeling etc; 2.Text mining, including named entity recognition, term recognition, term and synonyms and concept extraction, relation extraction etc) 3.Lexical resources and corpora, including dictionaries, thesaurus, ontology, etc; 4.Ontology learning and population from text, Web and other resources; 5.Application issues of ontology based NLP: information extraction, text categorization, text summarization and other applications; 6.Other topics of relevance in ontology learning, ontology evolution, ontology modeling and ontology application etc. Paper Submission Paper submissions should be limited to a maximum of 4 pages (only one more page is available and extra payment is required for the extra page). The papers must be in English and should be formatted according to the IEEE 2-column format (see the Author Guidelines at http://www.computer.org/portal/pages/cscps/cps/final/wi08.xml ). All submitted papers will be reviewed by at least 2 program committee members on the basis of technical quality, relevance, significance, and clarity. The workshop only accepts on-line submissions. Please use the Submission Form on the WI'09 website to submit your paper. Publication All papers accepted for workshops will be included in the Workshop Proceedings published by the IEEE Computer Society Press that are indexed by EI, and will be available at the workshops. Important Dates Workshop paper submission: April 30, 2009 Author notification: June 3, 2009 Conference dates: September 15-18, 2009 Workshop Organizers Zhifang Sui Associate Professor Institute of Computational Linguistics (ICL), Peking University No.5 Yiheyuan Rd. haidian District.100871,Beijing China E-mail:suizhifang@gmail.com Tel:086-01062753081-105 Yao Liu Associate Professor Institute of Scientific and Technical Information of China No.15 Fuxing Road haidian District, Beijing 100038 China E-mail:liuy@istic.ac.cn Tel:086-01058882053 Program Committee Chengzhi Zhang Institute of Scientific and Technical Information of China , China Christian Galinski International Information Centre for Terminology , Austria Daqing He University of Pittsburgh , USA De Zhang Institute of Scientific and Technical Information of China , China Donghong Ji Wuhan University , China Erhong Yang Beijing Language and Culture University , China Fernand Vandamme Baggage Institute for Knowledge Management , Belgium Guifa Teng Agricultural University of Hebei , China Kun Yu University of Tokyo, Japan Heting Chu Long Island University , USA Hui Wang National University of Singapore , Singapore J uanzi Li Tsinghua Univeristy , China J unfeng Hu Peking University , China J un Zhao Institute of Automation Chinese Academy of Sciences , China Lezhong Li u Muenchen University , Germany Lin Wang Baggage Institute for Knowledge Management , Belgium Mengjie Zhang Victoria University of Wellington , New Zealand Qin Lu Hong Kong Polytechnic University , Hong Kong , China Tzonghan Tsai Yuan Ze University, Tai Wan, China Weiguang Qu NanJing Normal University , China Xueqiang Lv Beijing Information Science and Technology University , China Xinglong Wang TheUniversityofManchester , UK . Yangsen Z hang Beijing Information Science and Technology University, China Yidong Chen Xiamen University, China Ye Tian Encyclopedia of China Publishing House , China Yuli Wang Encyclopedia of China Publishing House, China Zuxu Dai WuHan Institute of Technology,china For further details or clarifications, please see the conference web site or contact the PC chairs Zhifang Sui suizhifang@gmail.com Yao Liu liuysd@163.com
这里汇总整理了18本自然语言处理与计算语言学的相关书籍介绍,按国外书籍(1~4),国内书籍(5~18),其中国内书籍又按自然语言处理(5~9),计算语言学(10~13),中文信息处理(14~17),文选(18)顺序整理,如果有遗漏,欢迎补充! 一、自然语言处理与计算语言学书籍汇总之一:国外书籍 1、 《Speech and Language Processing》 a) 作者: Daniel Jurafsky / James H. Martin b) 副标题: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition c) ISBN: 9780130950697 d) 定价: USD 97.00 e) 出版社: Prentice Hall f) 装帧: Paperback g) 第一版出版年: 2000-01-26;第二版出版年:2006 h) 相关网站: http://www.cs.colorado.edu/~martin/slp.html i) 英文简介:This book takes an empirical approach to language processing, based on applying statistical and other machine-learning algorithms to large corpora.Methodology boxes are included in each chapter. Each chapter is built around one or more worked examples to demonstrate the main idea of the chapter. Covers the fundamental algorithms of various fields, whether originally proposed for spoken or written language to demonstrate how the same algorithm can be used for speech recognition and word-sense disambiguation. Emphasis on web and other practical applications. Emphasis on scientific evaluation. Useful as a reference for professionals in any of the areas of speech and language processing. j) 中文译名:自然语言处理综论 k) 译者: 冯志伟 / 孙乐 l) ISBN: 9787121007767 m) 页数: 588 页 n) 出版社: 电子工业出版社 o) 定价: 78.0 p) 装帧: 平装 q) 出版年: 2005 r) 中文简介:本书是一本全面系统地讲述计算机自然语言处理的优秀教材。本书英文版出版之后好评如潮,国外许多著名大学纷纷把本书选为自然语言处理和计算语言学课程的主要教材,该书被誉为该领域教材的黄金标准。本书包含的内容十分丰富,分为四个部分,共21章,深入细致地探讨了计算机处理自然语言的词汇、句法、语义、语用等各个方面的问题,介绍了自然语言处理的各种现代技术。从层次的角度看,本书的论述是按照自然语言的不同层面逐步展开的,首先论述单词的自动形态分析,接着论述自动句法分析,然后论述各种语言单位的自动语义分析,最后论述连贯文本的自动分析、对话与会话的智能代理以及自然语言生成。从技术的角度看,本书介绍了正则表达式、有限状态自动机、文本- 语音转换、发音与拼写的概率模型、词类自动标注、N元语法、隐马尔可夫模型、上下文无关语法、特征与合一、词汇化剖析与概率剖析、一阶谓词演算、词义排歧、修辞结构理论、机器翻译等非常广泛的内容。本书具有覆盖全面、注重实用、强调评测、语料为本四大特色。在本书的配套网站上,还提供了相关的资源和工具,便于读者在实践中进一步提高。 2、 Foundations of Statistical Natural Language Processing a) 作者: Christopher D. Manning / Hinrich Schuetze b) ISBN: 9780262133609 c) 页数: 680 d) 定价: USD 82.00 e) 出版社: The MIT Press f) 装帧: Hardcover g) 出版年: 1999-06-18 h) 相关网站: http://nlp.stanford.edu/fsnlp/ i) 英文简介:Statistical approaches to processing natural language text have become dominant in recent years. This foundational text is the first comprehensive introduction to statistical natural language processing (NLP) to appear. The book contains all the theory and algorithms needed for building NLP tools. It provides broad but rigorous coverage of mathematical and linguistic foundations, as well as detailed discussion of statistical methods, allowing students and researchers to construct their own implementations. The book covers collocation finding, word sense disambiguation, probabilistic parsing, information retrieval, and other applications. j) 中文译名:统计自然语言处理基础 k) 译者: 苑春法 l) ISBN: 9787505399211 m) 页数: 418 n) 出版社: 电子工业出版社 o) 定价: 55.0 p) 装帧: 平装 q) 出版年: 2005-1-1 r) 中文简介:近年来,自然语言处理中的统计学方法已经逐渐成为主流。本书是一本全面系统地介绍统计自然语言处理技术的专著,被国内外许多所著名大学选为计算语言学相关课程的教材。本书涵盖的内容十分广泛,分为四个部分,共16章,包括了构建自然语言处理软件工具将用到的几乎所有理论和算法。全书的论述过程由浅入深,从数学基础到精确的理论算法,从简单的词法分析到复杂的语法分析,适合不同水平的读者群的需求。同时,本书将理论与实践紧密联系在一起,在介绍理论知识的基础上给出了自然语言处理技术的高层应用(如信息检索等)。在本书的配套网站上提供了许多相关资源和工具,便于读者结合书中习题,在实践中获得提高。 3、 Natural Language Understanding (2nd Edition) a) 作者: James Allen b) ISBN: 9780805303346 c) 定价: USD 66.00 d) 出版社: Addison Wesley e) 装帧: Paperback f) 出版年: 1994-08-03 g) 英文简介:From a leading authority in artificial intelligence, this book delivers a synthesis of the major modern techniques and the most current research in natural language processing. The approach is unique in its coverage of semantic interpretation and discourse alongside the foundational material in syntactic processing. h) 中文译名:自然语言理解 i) 译者: 刘群 j) ISBN: 9787121007552 k) 页数: 508 l) 定价: 59.0 m) 出版社: 电子工业出版社 n) 装帧: 平装 o) 出版年: 2005-01-01 p) 中文简介: 本书是讲授自然语言理解的经典教材。书中全面而深入地介绍了自然语言理解领域中使用的理论和技术,共分为句法处理、语义解释和上下文与世界知识三大部分。具体探讨了上下文无关文法、 chart句法分析器、转移网络形式体系、逻辑形式语言、知识表示、篇章结构和语用推理以及会话agent等多方面的内容。本书理论与实践并重,阐述清晰,简明易懂。世界多所院校采用本书作为自然语言理解的教材。对本领域的研究人员而言,本书也是一本优秀的参考书。 4、 Statistical Language Learning a) 作者: Charniak, Eugene b) ISBN: 9780262531412 c) 定价: $22.00 d) 出版社: The MIT Press e) 出版年:1996年9月1日 f) 英文简介:Eugene Charniak breaks new ground in artificial intelligence research by presenting statistical language processing from an artificial intelligence point of view in a text for researchers and scientists with a traditional computer science background. New, exacting empirical methods are needed to break the deadlock in such areas of artificial intelligence as robotics, knowledge representation, machine learning, machine translation, and natural language processing (NLP). It is time, Charniak observes, to switch paradigms. This text introduces statistical language processing techniques word tagging, parsing with probabilistic context free grammars, grammar induction, syntactic disambiguation, semantic word classes, word-sense disambiguation along with the underlying mathematics and chapter exercises. Charniak points out that as a method of attacking NLP problems, the statistical approach has several advantages. It is grounded in real text and therefore promises to produce usable results, and it offers an obvious way to approach learning: one simply gathers statistics. Language, Speech, and Communication 二、自然语言处理与计算语言学书籍汇总之二:国内书籍 这里汇总整理了18本自然语言处理与计算语言学的相关书籍介绍,按国外书籍(1~4),国内书籍(5~18),其中国内书籍又按自然语言处理(5~9),计算语言学(10~13),中文信息处理(14~17),文选(18)顺序整理,如果有遗漏,欢迎补充! 5、 统计自然语言处理 a) 作者: 宗成庆 b) ISBN: 9787302165989 c) 页数: 475 d) 定价: 66 e) 出版社: 清华大学出版社 f) 装帧: 平装 g) 出版年: 2008-5-1 h) 内容简介:本书全面介绍了统计自然语言处理的基本概念、理论方法和最新研究进展,内容包括形式语言与自动机及其在自然语言处理中的应用、语言模型、隐马尔可夫模型、语料库技术、汉语自动分词与词性标注、句法分析、词义消歧、统计机器翻译、语音翻译、文本分类、信息检索与问答系统、自动文摘和信息抽取、口语信息处理与人机对话系统等,既有对基础知识和理论模型的介绍,也有对相关问题的研究背景、实现方法和技术现状的详细阐述。 6、 自然语言的计算机处理 a) 作者: 冯志伟 b) ISBN: 9787810460361 c) 页数: 523 d) 定价: 20 e) 出版社: 上海外语教育出版社 f) 出版年: 1996 g) 简介:自然语言处理(Natural Language Processing, 简称NLP)就是利用电子计算机为工具对人类特有的书面形式和口头形式的自然语言的信息进行各种类型处理和加工的技术,这种技术现在已经形成一门专门的边缘性交叉性学科,它涉及语言学、数学和计算机科学,横跨文科、理科和工科三大知识领域。自然语言处理的目的在于建立各种自然语言处理系统,如机器翻译系统、自然语言理解系统、情报自动检索系统、电子词典和术语数据库系统、计算机辅助教学系统、语音自动识别系统、语音自动合成系统、文字自动识别系统等。由于自然语言处理离不开电子计算机,因此,自然语言处理又可以叫做自然语言的计算机处理(Natural Language Processing by Computer),以强调电子计算机对自然语言处理的作用。 7、 自然语言理解:一种让机器懂得人类语言的研究(第2版) a) 作者: 姚天顺 / 朱靖波 b) ISBN: 9787302054351 c) 页数: 470 d) 定价: 39.8 e) 出版社: 清华大学出版社 f) 装帧: 平装 g) 出版年: 2002-10-1 h) 简介:自然语言理解是人工智能的一个重要分支,主要研究如何利用计算机来理解和生成自然语言。本书重点介绍了自然语言理解所涉及的各个方面,包括语法分析、语义分析、概念分析、语料库语言学、词汇语义驱动、中间语言、WordNet、词汇树邻接文法、链接文法、基于语段的机器翻译方法、内识别与文本过滤、机器翻译的评测等,既有对基础知识的介绍,又有对最新研究进展的综述,同时还结合了作者多年的研究成果。本书可作为高等院校计算机、人工智能等专业的高年级本科生或研究生的教材及教学参考书,也可供从事中文信息处理、数据挖掘以及人工智能研究的相关人员参考。 8、 自然语言处理技术基础 a) 作者: 王小捷、常宝宝 b) ISBN: 9787563505272 c) 页数: 146 d) 定价: 19.0 e) 出版社: 北京邮电大学出版社 f) 装帧: 平装 g) 出版年: 2002-12-01 h) 简介:本书包括了三个方面的内容。第一部分介绍基于规则的自然语言处理技术,分别从语法和语义两个层面入手。首先介绍了几种语法系统的形式化表示方案,在此基础上,介绍了几种典型的上下文无关句法分析和基于复杂特征的句法分析方法。在语义层面,分别从词义和句义两个层次介绍了进行词义和句义分析的方法。第二部分介绍基于统计的自然语言处理技术,包括词汇层的一些统计语言模型以及在句法层的概率上下文无关语法。第三部分介绍一种重要的应用机器翻译,分别从规则和统计两个方面来介绍它的理论和实现。 9、 计算机自然语言处理 a) 作者: 王晓龙 b) ISBN: 730210089 c) 页数: 170 d) 定价: 23.0 e) 出版社: 清华大学出版社 f) 装帧: 精装 g) 出版年: 2005-04-01 h) 简介:计算机自然语言处理技术在我国现代化及信息化建设中起着越来越重要的作用,我国政府已经将它列入国家中长期科学技术发展纲领。近年来,语言处理技术, 特别是基于国际互联网的中文语言处理技术正在引起我国广大科技工作者的高度重视。本书既全面阐述了中文语言处理技术的特殊规律,又借鉴了国内外学者在计算语言学领域里的最新成就,还包括了作者的实践经验和体会。本书可以作为计算机相关专业研究生的专业课教材,也可供相关专业高年级大学生和从事自然语言处理技术研究和应用的科技人员参考。 10、 计算语言学概论 a) 作者: 俞士汶 b) ISBN: 9787100037969 c) 页数: 357 d) 定价: 20 e) 出版社: 商务印书馆 f) 装帧: 平装 g) 出版年: 2003-9-1 h) 简介:本教材从基础算法和应用三个方面,较为系统地介绍计算语言学的基础理论、相关的自然语言处理技术和应用。 11、 计算语言学基础 a) 作者: 冯志伟 b) ISBN: 9787100032841 c) 页数: 280 d) 定价: 16.0 e) 出版社: 商务印书馆 f) 装帧: 平装 g) 出版年: 2001-8-1 h) 内容简介:《计算语言学基础》从语言学的角度,回顾了计算语言学的产生和发展的历史,从词汇的计算机处理、自动句法分析、自动语义分析等方面,系统地讲述计算语言学的基础知识,特别是介绍了计算语言学的基本理论和方法。这是一本计算语言学的基础性入门读物,作者尽量考虑到计算语言学跨学科的特点。叙述力求深入浅出,文字力求简明扼要,可供语言学工作者、计算机工作者、计算语言学工作者以及对语言信息处理有兴趣的广大读者阅读。 12、 计算语言学导论 a) 作者: 翁富良 / 王野翊 b) ISBN: 9787500420804 c) 页数: 207 d) 出版社: 中国社会科学出版社 e) 定价: 20.0 f) 装帧: 平装 g) 出版年: 2005-10-01 h) 简介:语言是反映人的思维的最重要的一面镜子,又是人与人之间交流的最重要的媒介。对语言的研究,是一个经久不衰的古老课题。几千年来,中外学者从语言与思维、语言与现实的关系等不同角度。在词源、注释、分类、语法等各个方面开展了广泛的研究。近一两百年来,西方学者在逻辑学、数学和分析哲学方面的成果,大大推动了语言形式他的研究。而随着计算机科学的发展,建立语言的形式化计算模型成为语言学的重要课题。计算语言学作为以形式化的计算模型来分析、理解和处理语言的科学也就应运而生。而信息革命的展开,更使计算语言学的研究达到了一个空前的程度。 13、 计算语言学 a) 作者: 刘颖 b) ISBN: 9787302057888 c) 页数: 185 d) 定价: 22.0 e) 出版社: 清华大学出版社 f) 装帧: 平装 g) 出版年: 2002-10-01 h) 内容简介:计算语言学是一门涉及语言学、计算机科学和数学等多门学科交叉的学科,覆盖面很广,本书侧重最经典的工作,阐述计算语言学的基本理论和方法。主要介绍现代句法理论和语义理论,词法、句法和语义阶段重要的分析算法及语料库和统计语言学。本书结构完整,层次分明,条理清楚。既便于教学,又便于自学。 (注:转载于:我爱自然语言处理: www.52nlp.cn ,略有调整)
图 语义信息的字符串公式(图文并茂的小作品) http://commons.wikimedia.org/wiki/File:String_Formula.JPG 理解上述(大、小)两类字符串的语义关系之形式化原理的区别,至少需要掌握以下 两个知识点 : 知识点之一 什么叫字符串? 答案如下: 字符串 ( String ),是由零个或多个 字符 组成的 有限序列 。一般记为: ( ) 它是 编程语言 中表示 文本 的 数据类型 。 通常以 串 的整体作为 操作对象 ,如:在串中查找某个子串、求取一个子串、在串的某个位置上插入一个子串以及删除一个子串等。两个 字符串 相等的 充要条件 是:长度相等,并且各个对应位置上的字符都相等。设p、q是两个串,求q在p中首次出现的位置的运算叫做 模式 匹配。串的两种最基本的存储方式是 顺序 存储方式和 链接 存储方式。 目录 1 形式理论 1.1 串接和子串 1.2 词典排序 1.3 字符串运算 2 字符串数据类型 2.1 字符串长度 2.2 字符编码 2.3 实现 2.4 表示法 3 字符串实用程序 4 字符串操作 5 算法 6 参见 http://en.wikipedia.org/wiki/String_(computer_science ) String In computer programming and some branches of mathematics , a string is an ordered sequence of symbols . These symbols are chosen from a predetermined set or alphabet . In computer programming , a string is generally understood as a data type storing a sequence of data values, usually bytes, in which elements usually stand for characters according to a character encoding , which differentiates it from the more general array data type. In this context, the terms binary string and byte string are used to suggest strings in which the stored data does not (necessarily) represent text. A variable declared to have a string data type usually causes storage to be allocated in memory that is capable of holding some predetermined number of symbols. When a string appears literally in source code , it is known as a string literal and has a representation that denotes it as such. Contents 1 Formal theory 1.1 Concatenation and substrings 1.2 Lexicographical ordering 1.3 String operations 1.4 Topology 2 String datatypes 2.1 String length 2.2 Character encoding 2.3 Implementations 2.4 Representations 3 Vectors 4 String processing algorithms 5 Character string oriented languages and utilities 6 Character string functions 7 Notes 8 See also 知识点之二 什么叫语义? 答案蕴含在语义学的以下答案之中: 语义学 (Semantics),也作语意学,是一个涉及到 语言学 、 逻辑学 、 计算机科学 、 自然语言处理 、 认知科学 、 心理学 等诸多领域的一个术语。虽然各个学科之间对语义学的研究有一定的共性,但是,具体的研究方法和内容大相径庭。语义学的 研究对象 是 自然语言的意义 ,这里的自然语言可以是词汇,句子,篇章等等不同级别的语言单位。但是各个领域里对 语言的意义 的研究目的不同: 语言学 的语义学研究目的在于找出语义表达的规律性、内在解释、不同语言在语义表达方面的个性以及共性; 逻辑学 的语义学是对一个逻辑系统的解释,着眼点在于真值条件,不直接涉及自然语言; 与 计算机科学 相关的语义学研究在于机器对自然语言的理解; 认知科学 对语义学的研究在于人脑对语言单位的意义的存储及理解的模式。 目录 1 语言学的语义学 2 逻辑学的语义学 3 其他学科的语义学 4 语义学和语用学的关系 5 中国的语义学研究 6 参看 7 外部链接 http://en.wikipedia.org/wiki/Semantics Semantics is the study of meaning in communication . The word derives from Greek ? ( semantikos ), significant, from ? ( semaino ), to signify, to indicate and that from ? ( sema ), sign, mark, token. In linguistics it is the study of interpretation of signs as used by agents or communities within particular circumstances and contexts. It has related meanings in several other fields. Semanticists differ on what constitutes meaning in an expression. For example, in the sentence, John loves a bagel, the word bagel may refer to the object itself, which is its literal meaning or denotation , but it may also refer to many other figurative associations, such as how it meets John's hunger, etc., which may be its connotation . Traditionally, the formal semantic view restricts semantics to its literal meaning, and relegates all figurative associations to pragmatics , but many find this distinction difficult to defend. The degree to which a theorist subscribes to the literal-figurative distinction decreases as one moves from the formal semantic , semiotic , pragmatic , to the cognitive semantic traditions. The word semantic in its modern sense is considered to have first appeared in French as smantique in Michel Bral 's 1897 book, Essai de smantique'. In International Scientific Vocabulary semantics is also called semasiology . The discipline of Semantics is distinct from Alfred Korzybski's General Semantics , which is a system for looking at non-immediate, or abstract meanings. Contents 1 Linguistics 1.1 The dynamic turn in semantics 1.2 Prototype theory 2 Computer science 3 Psychology 4 References 5 See also 5.1 Major philosophers and theorists 5.2 Linguistics and semiotics 5.3 Logic and mathematics 5.4 Computer science 6 External links
转载于: http://bbs.byr.edu.cn/wForum/disparticle.php?boardName=PR_AIID=3229pos=12 我经常在 TopLanguage 讨论组上推荐一些书籍,也经常问里面的牛人们搜罗一些有关的资料,人工智能、机器学习、自然语言处理、知识发现(特别地,数据挖掘)、信息检索这些无疑是 CS 领域最好玩的分支了(也是互相紧密联系的),这里将最近有关机器学习和人工智能相关的一些学习资源归一个类: 首先是两个非常棒的 Wikipedia 条目,我也算是 wikipedia 的重度用户了,学习一门东西的时候常常发现是始于 wikipedia 中间经过若干次 google ,然后止于某一本或几本著作。 第一个是人工智能的历史(History of Artificial Intelligence),我在讨论组上写道: 而今天看到的这篇文章是我在 wikipedia 浏览至今觉得最好的。文章名为《人工智能的历史》,顺着 AI 发展时间线娓娓道来,中间穿插无数牛人故事,且一波三折大气磅礴,可谓事实比想象更令人惊讶。人工智能始于哲学思辨,中间经历了一个没有心理学(尤其是认知神经科学的)的帮助的阶段,仅通过牛人对人类思维的外在表现的归纳、内省,以及数学工具进行探索,其间最令人激动的是 Herbert Simon (决策理论之父,诺奖,跨领域牛人)写的一个自动证明机,证明了罗素的数学原理中的二十几个定理,其中有一个定理比原书中的还要优雅,Simon 的程序用的是启发式搜索,因为公理系统中的证明可以简化为从条件到结论的树状搜索(但由于组合爆炸,所以必须使用启发式剪枝)。后来 Simon 又写了 GPS (General Problem Solver),据说能解决一些能良好形式化的问题,如汉诺塔。但说到底 Simon 的研究毕竟只触及了人类思维的一个很小很小的方面 Formal Logic,甚至更狭义一点 Deductive Reasoning (即不包含 Inductive Reasoning , Transductive Reasoning (俗称 analogic thinking)。还有诸多比如 Common Sense、Vision、尤其是最为复杂的 Language 、Consciousness 都还谜团未解。还有一个比较有趣的就是有人认为 AI 问题必须要以一个物理的 Body 为支撑,一个能够感受这个世界的物理规则的身体本身就是一个强大的信息来源,基于这个信息来源,人类能够自身与时俱进地总结所谓的 Common-Sense Knowledge (这个就是所谓的 Emboddied Mind 理论。 ),否则像一些老兄直接手动构建 Common-Sense Knowledge Base ,就很傻很天真了,须知人根据感知系统从自然界获取知识是一个动态的自动更新的系统,而手动构建常识库则无异于古老的 Expert System 的做法。当然,以上只总结了很小一部分我个人觉得比较有趣或新颖的,每个人看到的有趣的地方不一样,比如里面相当详细地介绍了神经网络理论的兴衰。所以我强烈建议你看自己一遍,别忘了里面链接到其他地方的链接。 顺便一说,徐宥同学打算找时间把这个条目翻译出来,这是一个相当长的条目,看不动 E 文的等着看翻译吧:) 第二个则是人工智能(Artificial Intelligence)。当然,还有机器学习等等。从这些条目出发能够找到许多非常有用和靠谱的深入参考资料。 然后是一些书籍 书籍: 1. 《Programming Collective Intelligence》,近年出的入门好书,培养兴趣是最重要的一环,一上来看大部头很容易被吓走的:P 2. Peter Norvig 的《AI, Modern Approach 2nd》(无争议的领域经典)。 3. 《The Elements of Statistical Learning》,数学性比较强,可以做参考了。 4. 《Foundations of Statistical Natural Language Processing》,自然语言处理领域公认经典。 5. 《Data Mining, Concepts and Techniques》,华裔科学家写的书,相当深入浅出。 6. 《Managing Gigabytes》,信息检索好书。 7. 《Information Theory:Inference and Learning Algorithms》,参考书吧,比较深。 相关数学基础(参考书,不适合拿来通读): 1. 线性代数:这个参考书就不列了,很多。 2. 矩阵数学:《矩阵分析》,Roger Horn。矩阵分析领域无争议的经典。 3. 概率论与统计:《概率论及其应用》,威廉费勒。也是极牛的书,可数学味道太重,不适合做机器学习的。于是讨论组里的 Du Lei 同学推荐了《All Of Statistics》并说到 机器学习这个方向,统计学也一样非常重要。推荐All of statistics,这是CMU的一本很简洁的教科书,注重概念,简化计算,简化与Machine Learning无关的概念和统计内容,可以说是很好的快速入门材料。 4. 最优化方法:《Nonlinear Programming, 2nd》非线性规划的参考书。《Convex Optimization》凸优化的参考书。此外还有一些书可以参考 wikipedia 上的最优化方法条目。要深入理解机器学习方法的技术细节很多时候(如SVM)需要最优化方法作为铺垫。 王宁同学推荐了好几本书: 《Machine Learning, Tom Michell》, 1997. 老书,牛人。现在看来内容并不算深,很多章节有点到为止的感觉,但是很适合新手(当然,不能新到连算法和概率都不知道)入门。比如决策树部分就很精彩,并且这几年没有特别大的进展,所以并不过时。另外,这本书算是对97年前数十年机器学习工作的大综述,参考文献列表极有价值。国内有翻译和影印版,不知道绝版否。 《Modern Information Retrieval, Ricardo Baeza-Yates et al》. 1999 老书,牛人。貌似第一本完整讲述IR的书。可惜IR这些年进展迅猛,这本书略有些过时了。翻翻做参考还是不错的。另外,Ricardo同学现在是Yahoo Research for Europe and Latin Ameria的头头。 《Pattern Classification (2ed)》, Richard O. Duda, Peter E. Hart, David G. Stork 大约也是01年左右的大块头,有影印版,彩色。没读完,但如果想深入学习ML和IR,前三章(介绍,贝叶斯学习,线性分类器)必修。 还有些经典与我只有一面之缘,没有资格评价。另外还有两本小册子,论文集性质的,倒是讲到了了不少前沿和细节,诸如索引如何压缩之类。可惜忘了名字,又被我压在箱底,下次搬家前怕是难见天日了。 (呵呵,想起来一本:《Mining the Web - Discovering Knowledge from Hypertext Data》 ) 说一本名气很大的书:《Data Mining: Practical Machine Learning Tools and Techniques》。Weka 的作者写的。可惜内容一般。理论部分太单薄,而实践部分也很脱离实际。DM的入门书已经不少,这一本应该可以不看了。如果要学习了解 Weka ,看文档就好。第二版已经出了,没读过,不清楚。 信息检索方面,Du Lei 同学再次推荐: 信息检索方面的书现在建议看Stanford的那本《Introduction to Information Retrieval》,这书刚刚正式出版,内容当然up to date。另外信息检索第一大牛Croft老爷也正在写教科书,应该很快就要面世了。据说是非常pratical的一本书。 对信息检索有兴趣的同学,强烈推荐翟成祥博士在北大的暑期学校课程,这里有全slides和阅读材料: http://net.pku.edu.cn/~course/cs410/schedule.html maximzhao 同学推荐了一本机器学习: 加一本书:Bishop, 《Pattern Recognition and Machine Learning》. 没有影印的,但是网上能下到。经典中的经典。Pattern Classification 和这本书是两本必读之书。《Pattern Recognition and Machine Learning》是很新(07年),深入浅出,手不释卷。 最后,关于人工智能方面(特别地,决策与判断),再推荐两本有意思的书, 一本是《Simple Heuristics that Makes Us Smart》 另一本是《Bounded Rationality: The Adaptive Toolbox》 不同于计算机学界所采用的统计机器学习方法,这两本书更多地着眼于人类实际上所采用的认知方式,以下是我在讨论组上写的简介: 这两本都是德国ABC研究小组(一个由计算机科学家、认知科学家、神经科学家、经济学家、数学家、统计学家等组成的跨学科研究团体)集体写的,都是引起领域内广泛关注的书,尤其是前一本,後一本则是对 Herbert Simon (决策科学之父,诺奖获得者)提出的人类理性模型的扩充研究),可以说是把什么是真正的人类智能这个问题提上了台面。核心思想是,我们的大脑根本不能做大量的统计计算,使用fancy的数学手法去解释和预测这个世界,而是通过简单而鲁棒的启发法来面对不确定的世界(比如第一本书中提到的两个后来非常著名的启发法:再认启发法(cognition heuristics)和选择最佳(Take the Best)。当然,这两本书并没有排斥统计方法就是了,数据量大的时候统计优势就出来了,而数据量小的时候统计方法就变得非常糟糕;人类简单的启发法则充分利用生态环境中的规律性(regularities),都做到计算复杂性小且鲁棒。 关于第二本书的简介: 1. 谁是 Herbert Simon 2. 什么是 Bounded Rationality 3. 这本书讲啥的: 我一直觉得人类的决策与判断是一个非常迷人的问题。这本书简单地说可以看作是《决策与判断》的更全面更理论的版本。系统且理论化地介绍人类决策与判断过程中的各种启发式方法(heuristics)及其利弊(为什么他们是最优化方法在信息不足情况下的快捷且鲁棒的逼近,以及为什么在一些情况下会带来糟糕的后果等,比如学过机器学习的都知道朴素贝叶斯方法在许多情况下往往并不比贝叶斯网络效果差,而且还速度快;比如多项式插值的维数越高越容易overfit,而基于低阶多项式的分段样条插值却被证明是一个非常鲁棒的方案)。 在此提一个书中提到的例子,非常有意思:两个团队被派去设计一个能够在场上接住抛过来的棒球的机器人。第一组做了详细的数学分析,建立了一个相当复杂的抛物线近似模型(因为还要考虑空气阻力之类的原因,所以并非严格抛物线),用于计算球的落点,以便正确地接到球。显然这个方案耗资巨大,而且实际运算也需要时间,大家都知道生物的神经网络中生物电流传输只有百米每秒之内,所以 computational complexity 对于生物来说是个宝贵资源,所以这个方案虽然可行,但不够好。第二组则采访了真正的运动员,听取他们总结自己到底是如何接球的感受,然后他们做了这样一个机器人:这个机器人在球抛出的一开始一半路程啥也不做,等到比较近了才开始跑动,并在跑动中一直保持眼睛于球之间的视角不变,后者就保证了机器人的跑动路线一定会和球的轨迹有交点;整个过程中这个机器人只做非常粗糙的轨迹估算。体会一下你接球的时候是不是眼睛一直都盯着球,然后根据视线角度来调整跑动方向?实际上人类就是这么干的,这就是 heuristics 的力量。 相对于偏向于心理学以及科普的《决策与判断》来说,这本书的理论性更强,引用文献也很多而经典,而且与人工智能和机器学习都有交叉,里面也有不少数学内容,全书由十几个章节构成,每个章节都是由不同的作者写的,类似于 paper 一样的,很严谨,也没啥废话,跟《Psychology of Problem Solving》类似。比较适合 geeks 阅读哈。 另外,对理论的技术细节看不下去的也建议看看《决策与判断》这类书(以及像《别做正常的傻瓜》这样的傻瓜科普读本),对自己在生活中做决策有莫大的好处。人类决策与判断中使用了很多的 heuristics ,很不幸的是,其中许多都是在适应几十万年前的社会环境中建立起来的,并不适合于现代社会,所以了解这些思维中的缺点、盲点,对自己成为一个良好的决策者有很大的好处,而且这本身也是一个非常有趣的领域。 (完)