科学网—标签 - 自然语言处理

相关帖子	版块	作者	回复/查看	最后发表

liuysd 2009-8-28 16:36

学术报告通知题目：植基于诗词文学特性的诗词语言处理及研究之应用报告人：罗凤珠教授台湾元智大学中国语文学系时间：2009年9月1日（星期二）下午2：00 地点：中信所五层548会议室（北京海淀区复兴路15号中央电视台西门）罗凤珠教授简历:台湾元智大学中国语言系教授。在古代汉语和信息资讯学方面有很深的造诣。罗凤珠教授致力于中国古代文学的数字化和网络化，自1994年起，即以自费方式开发新网站，名为网路展书读－－中国文学网路系统（ http://cls.hs.yzu.edu.tw ），共花了大约3年半时间，建立起台湾最大的中国文学研究资料库网站。其中，《红楼梦》网路教学研究资料中心系统最具代表性。其他还包括善本书、诗经、唐宋诗词及多种文史资料。曾以电脑多媒体技术制作辅助教材而获得1998年台湾杰出资讯应用暨产品奖。报告提纲：第一部份：研究动机前言、回顾、如何让电脑更接近人脑、概念体系。第二部份：诗词文学的特性诗词文学的内容、文学的表达与共鸣、诗词文学语言的特殊性。第三部份：语意概念标记与分类诗词语言概念分类方法、诗词语言的语意概念分类体系、本研究语言的语意分类体系。第四部分：语意概念分类的应用对资讯检索质量与使用需求的影响、对诗词情感表达与识别研究的影响。第五部分：遭遇的困难与未来的发展欢迎所内外各界人士踊跃参加！情报方法研究中心学术委员会二○○九年八月二十八日

个人分类: 学术报告|4345 次阅读|1 个评论

中信所第五期青年学术沙龙：文献标引与领域词汇获取相关主题

timy 2009-4-14 12:53

关于举办中信所第五期青年学术沙龙的通知　题目：文献综合自动标引与词语聚类研究时间：4月17日（周五）下午2：00 地点：中信所办公大楼333室承办单位：研究生部形式：沙龙以研讨为主，拟请暨南大学副教授刘华博士做主题发言，报告大纲如下：　　　 1.　基于关键词主题度的文献综合自动标引研究良好的信息组织和资源表示是高质量信息利用的基石，文献综合自动标引，即类目、主题词和摘要的标引，是信息组织和资源表示的核心。目前，文献自动标引基本上是类目、主题词和摘要分别标引，分成三个研究领域：文本分类、主题词标引和自动文摘。实际上，文献综合自动标引有其共同基础，例如，文本分类的关键步骤类向量构建是基于词语权重计算和选择的，主题词标引更是直接以主题特征明显的词语为标引项，自动文摘的句子权重计算也以词语权重计算为基础。因此，文献综合自动标引都是基于词语权重计算，力图凸显主题特征明显的特征词（如领域术语）。三者在关键词主题度计算的基础，可以合而为一。关键词是标识和表达文档主题概念的词语，关键词的主要特征是主题性。针对关键词的领域不均匀性和邻界域两个特征，提出并模拟计算了关键词表征文本主题特征程度的主题度。以关键词及其主题度为领域知识，完成了一个文献综合自动标引系统，集成文本分类、主题词标引和自动文摘功能。　　 2. 　词语聚类研究领域知识获取是文本处理中的基础关键技术，目前，有许多方法来获取领域词语，主要分为两类：基于规则和基于统计的。基于规则的方法主要利用人工构建好的领域知识在大规模语料中利用模板匹配的方式获取领域词语。也有一些知识库主要依靠专家手工构建，如WordNet、HowNet。基于统计的方法简单快速，主要利用机器学习的方法进行领域词语获取，如基于Bootstrapping、互信息、TFIDF等的领域词语自动获取。本报告将简要介绍如何利用大规模分类语料库中关键词标引的特征提取方法自动获取领域词语。并演示相关的实验结果。主题发言人介绍：刘华，男，1975年生，博士、暨南大学副教授。1998年从湖南科技大学中文系毕业，获学士学位，爱好文学；2002年从云南师大毕业，获硕士学位，主攻语言学；2005年毕业于北京语言大学中文信息处理专业，师从张普教授，获博士学位，主攻计算机软件和计算语言学。目前主要从事信息组织、信息检索、数据挖掘及自然语言处理等领域的教学与科研工作，特别是在文本分类、主题词标引、自动文摘、新词语发现和词语聚类方面有一定的研究。曾参与或主持的项目包括863项目、973项目、国家语言文字应用十五科研课题重大项目、国家社科基金项目（主持、在研）、国家语委项目（主持、在研）、广东省社科项目（主持、在研）等。近3年来在国内外期刊和会议上发表学术论文20余篇，EI、ISTP收录论文3篇。参加人员：中信所学术沙龙成员，所内广大青年职工。所学术委员会所青年学术沙龙 2009年4月13日欢迎感兴趣者参加，并能参加讨论。

个人分类: 同行交流|4595 次阅读|0 个评论

NLPOE2008发表论文已全部被EI收录

liuysd 2009-4-11 11:36

我们去年在澳大利亚举办的Web Intelligence 2008国际会议上，成功组办了自然语言处理与本体工程的workshopNLPOE2008。今天已经全部被EI收录，今年我们还将继续组办NLPOE2009。征文通知见附件。另外，我们同时在Fourth International Conference on Innovative Computing, Information and Control国际会议上组办同名(NLPOE)的Invited Session。这个会议的第1届(icicic2006)的论文被ISTP全部收录，被EI部分收录，第2届(icicic2007)、第3届(icicic2008)全部被EI、ISTP收录，部分论文被SCI收录。征文通知见附件。 NLPOE2009征文通知 ICICIC2009

个人分类: 科研笔记|4492 次阅读|0 个评论

冯志伟：《语料库语言学与计算语言学研究丛书》序【转载】

timy 2009-3-28 21:17

转载于： http://www.lingviko.net/feng/clcl.pdf 《语料库语言学与计算语言学研究丛书》 1 序冯志伟语料库语言学与计算语言学研究丛书旨在向国内读者推荐语料库语言学与计算语言学这两个学科最新和最经典的外文著作。语料库语言学的语料要建立在计算机上，而计算语言学则专门研究自然语言的计算机处理，这两个学科都要使用计算机，都与计算机有着不解之缘。这篇序言主要介绍这两个学科的学术背景，并且讨论这两个学科之间的关系，以方便读者的阅读和理解。 1.语料库语言学研究简介语料库是为一个或多个应用目标而专门收集的、有一定结构的、有代表性的、可被计算机程序检索的、具有一定规模的语料的集合。语料库应该按照一定的语言学原则，运用随机抽样方法，收集自然出现的连续的语言运用文本或话语片段来建立。从其本质上讲，语料库实际上是通过对自然语言运用的随机抽样，以一定大小的语言样本来代表某一研究中所确定的语言运用总体。语料库一般可分为如下类型： ●按语料选取的时间划分，可分为历时语料库（diachroniccorpus）和共时语料库（synchroniccorpus）。 ●按语料的加工深度划分，可分为标注语料库（annotatedcorpus）和非标注语料库（non-annotatedcorpus）。 ●按语料库的结构划分，可分为平衡结构语料库（balancestructurecorpus）和自然随机结构的语料库（randomstructurecorpus）。 ●按语料库的用途划分，可分为通用语料库（generalcorpus）和专用语料库（specializedcorpus）。专用语料库又可以进一步根据使用的目的来划分，例如，又可以进一步分为语言学习者语料库（learnercorpus）、语言教学语料库（pedagogicalcorpus）。 ●按语料库的表达形式划分，可分为口语语料库（spokencorpus）和文本语料库（textcorpus）。 ●按语料库中语料的语种划分，可分为单语种语料库（monolingualcorpora）和多语种语料库（multilingualcorpora）。多语种语料库又可以再分为比较语料库（comparablecorpora）和平行语料库（parallelcorpora）。比较语料库的目的侧重于特定语言现象的对比，而平行语料库的目的侧重于获取对应的翻译实例。 ●按语料库的动态更新程度划分，可分为参考语料库（referencecorpus）和监控语料库（monitorcorpus）。参考语料库原则上不作动态更新，而监控语料库则需要不断地进行动态更新。早在1897年，德国语言学家Kaeding就使用大规模的语言材料来统计德语单词在文本中的出现频率，编写了《德语频率词典》（J.Kaeding,H.ufigkeitsw.rterbuchderdeutschenSprache,Steglitz:publishedbytheauthor,1897）。由于当时还没有计算机，Kaeding使用的语言材料不是机器可读的（machinereadable），所以他的这些语言材料还不能算真正意义上的语料库，但是Kaeding使用大规模语言资料来编写频率词典的工作，是具有开创性的。 1959年，英国伦敦大学教授RandolphQuirk提出建立英语用法调查的语言资料库，叫做SEU（SurveyofEnglishUsage），当时由于技术条件的限制，SEU是用卡片来建立的，也不是机器可读的。后来Quirk把这些语言资源逐步转移到计算机上，使之成为机器可读的语料库，并根据这个语料库领导编写了著名的《当代英语语法》（R.Quirk，TowardsadescriptionofEnglishusage,TransactionsofthePhilologicalSociety,pp.40-61,1960.）。 1964年，A.Juilland和E.Chang-Rodriguez根据大规模的西班牙语资料来编写《西班牙语单词频率词典》(A.JuillandandE.Chang-Rodriguez,FrequencyDictionaryofSpanishWords,TheHague,Mouton，1964.)。在收集语言资料时，注意到了抽样框架、语言资料的平衡性、语言资料的代表性等问题。 1979年，美国Brown大学的NelsonFrancis和HenryKucera在计算机上建立了机器可读的BROWN语料库（布朗语料库），这是世界上第一个根据系统性原则采集样本的平衡结构语料库，规模为100万词次，并用手工做了词类标注（partofspeechtagging）。 BROWN语料库是一个代表当代美国英语的语料库 (W.Francis,Problemsofassembling,describingandcomputerizinglargecorpora,ScripterVerlag,pp.110-123,1979.)。接着，英国Lancaster大学的GeoffreyLeech教授提出倡议，挪威Oslo学的StigJohansson教授主持完成，最后在挪威Bergen大学的挪威人文科学计算中心联合建立了 LOB语料库（LOB是Lancaster，Oslo和Bergen的首字母缩写），规模与Brown语料库相当。这是一个代表当代英国英语的语料库。欧美各国学者利用BROWN和LOB这两个语料库开展了许多大规模的研究，取得了引人注目的成绩。近年来，语料库语言学的研究硕果累累，关于这些研究成果，我在《应用语言学中的语料库》（世界图书出版公司、剑桥大学出版社2006年版）一书的导读中已经做过介绍，有兴趣的读者可以参看。从20世纪90年代初、中期开始，语料库逐渐由单语种向多语种发展，多语种语料库开始出现。目前多语种语料库的研究正朝着不断扩大库容量、深化加工和不断拓展新领域等方向继续发展。随着从事语言研究和机器翻译研究的学者对多语种语料库重要性的逐渐认识，国内外很多研究机构都致力于多语种语料库的建设，并利用多语种语料库对各种各样的语言现象进行了深入的探索。在建设或研究语料库的时候，我们应当注意语料库的代表性、结构性和平衡性，还要注意语料库的规模，并制定语料的元数据规范。下面分别讨论这些问题。这只是我个人的意见，供读者参考。首先讨论语料库的代表性。语料库对于其应用领域来说，要具有足够的代表性，这样，才能保证基于语料库得出的知识具有较强的普遍性和较高的完备性。真实的语言应用材料是无限的，因此语料库样本的有限性是无法回避的。承认语料库样本的有限性，在语料的选材上，就要尽量追求语料的代表性，要使有限的样本语料尽可能多地反映无限的真实语言现象的特征。语料库的代表性不仅要求语料库中的样本取自于符合语言文字规范的真实的语言材料，而且要求语料库中的样本要来源于正在使用中的语言材料，包括各种环境下的、规范的或非规范的语言应用。语料库的代表性还要求语料具有时代性，能反映语言的发展变化和当代的语言生活规律。只有通过具有代表性的语料库，才能让计算机了解真实的语言应用规律，才有可能让计算机不仅能够理解和处理规范的语言，而且还能够处理不规范的但被广泛接受的语言、甚至包含有若干错误的语言。再来讨论语料库的结构性。语料库是有目的地收集的语料的集合，不是任意语言材料的堆积，因此要求语料库具有一定的结构。在目前计算机已经普及的技术条件下，语料库必须是以电子文本形式存在的、计算机可读的语料集合。语料库的逻辑结构设计要确定语料库子库的组成情况，定义语料库中语料记录的码、元数据项、每个数据项的数据类型、数据宽度、取值范围、完整性约束等。我们还有必要来讨论语料库的平衡性。平衡因子是影响语料库代表性的关键特征。在平衡语料库中，语料库为了达到平衡，首先要确定语料的平衡因子。影响语言应用的因素很多，如：学科、年代、文体、地域、登载语料的媒体、使用者的年龄、性别、文化背景、阅历、语料的用途（公函、私信、广告）等。不能把所有的特征都作为平衡因子，只能根据实际需要来选取其中的一个或者几个重要的指标作为平衡因子。最常用的平衡因子有学科、年代、文体、地域等。应该根据平衡语料库的用途来评测语料库所选择的平衡因子的恰当性。在建设语料库时，还应当考虑语料库的规模。大规模的语料库对于语言研究，特别是对于计算语言学的研究具有不可替代的作用。但随着语料库的增大，垃圾语料带来的统计垃圾问题也越来越严重。而且，当语料库达到一定的规模后，语料库的功能并不会随着其规模同步地增长。我们应根据实际的需要来决定语料库的规模，语料库规模的大小应当以是否能够满足其需要来决定。我们还应当考虑语料库的元数据（metadata）问题。语料库的元数据对语料库研究具有重要的意义。我们可通过元数据了解语料的时间信息、地域信息、作者信息、文体信息等各种相关信息；也可通过元数据形成不同的子语料库，满足不同兴趣研究者的研究需要；还可通过元数据对不同的子语料库进行比较，研究和发现一些对语言应用和语言发展可能有影响的因素；元数据还可记录语料的知识版权信息、语料库的加工信息和管理信息。由于在汉语书面文本中词与词之间没有空白，不便于计算机处理，因此，汉语书面文本的语料库一般都要做切词和词性标注。汉语书面文本经过切词和词性标注之后，带有更多的信息，更加便于使用。不过，关于语料库的标注（annotation）问题，学术界还存在不同的看法。有的学者主张对语料进行标注，认为标注过的语料库具有开发和研究上的方便性、使用上的可重用性、功能上的多样性、分析上的清晰性等优点。有的学者则对语料库标注提出批评。学术界对于语料库标注的批评主要来自两方面：一方面认为，语料库经过标注之后失去了客观性，所得到的标注语料库是不纯粹的，带有标注者对于语言的主观认识；另一方面认为，手工标注的语料库准确性高但一致性差，自动或半自动的标注一致性高但准确性差，语料库的标注难以做到两全其美，而目前大多数的语料库标注都需要人工参与，因而很难保证语料库标注的一致性（J.Sinclair,Corpus,Concordance,Collocation,OxfordUniversityPress,1991）。我们认为，不论标注过的语料库还是没有标注过的语料库都是有用的，其中都隐藏着丰富的语言学信息等待着我们去挖掘，我们甚至可以使用机器学习的技术，从语料库中自动地获取语言知识，不论标注过的语料库还是没有标注过的语料库都有助于语言学的发展。近年来，在语料库的建立和开发中逐渐创造了一些独特的方法，提出了一些初步的原则，并且对这些方法和原则在理论上进行了探讨和总结，逐渐形成了语料库语言学（corpuslinguistics）。由于语料库是建立在计算机上的，因此，语料库语言学是语言学和计算机科学交叉形成的一门边缘学科。目前语料库语言学主要是利用语料库对语言的某个方面进行研究，是一种新的研究手段，同时也逐步建立了自己学科的理论体系，正处于迅速的发展过程之中。语料库语言学是一种新的获取语言知识的方法。描写语言学基本上是通过语言学家用手工方法或内省的方法，从有限的语料资料中归纳总结个别的语言数据来获取语言知识的。由于人的记忆能力有限，任何语言学家，哪怕是语言学界的权威泰斗，都不可能记忆和处理浩如烟海的全部语言数据，因此，使用传统的手工方法来获取语言知识，犹如以管窥豹，以蠡测海。这种获取语言知识的方法不仅效率极低，而且带有很大的主观性。我国传统语言学中倡导的所谓例不过十不立，反例不过十不破的朴学精神貌似严格，实际上，在浩如烟海的语言数据中，以十个正例或十个反例就轻而易举地来决定语言规则的取舍，难以万无一失地保证这些规则的可靠性。语料库语言学提倡建立语料库，在计算机的辅助下，使用统计的方法或机器学习的方法，自动或半自动地从浩如烟海的语料库中获取准确的语言知识。随着因特网日新月异的发展，因特网上有着无比丰富的文本语言数据，其中有经过标注的结构化的语言数据，也有未经过标注的非结构化的语言数据，我们可以从因特网上这些大量的语言数据中自动或半自动地获取语言知识。这是语言学获取语言知识方式的巨大变化，在语言学的发展历史上具有革命性的意义。我们应该敏锐地注意到这样的变化，努力学习语料库语言学的理论和方法，逐渐改变获取语言知识的手段。语料库语言学也为语言研究人员提供了一种新的思维角度，辅助人们的语言直觉和内省判断，从而克服语言研究者本人的主观性和片面性。我们预计，语料库方法将会逐渐成为语言学研究的主流方法，受到语言研究者的普遍欢迎。语料库语言学还为语言研究的现代化提供了强有力的手段。语料库把语言学家从艰苦繁重的手工劳动中解放出来，使语言学家可以集中精力来研究和思考其他重要问题，这对于促进语言学研究的现代化具有不可估量的作用。目前，语料库语言学主要研究机器可读自然语言文本的采集、存储、检索、统计、自动切分、词性标注、语义标注，并研究具有上述功能的语料库在词典编纂、语言教学、语言定量分析、词汇研究、词语搭配研究、语法研究、多语言跨文化研究、法律语言研究、作品风格分析等领域中的应用，已经初步展现出这门新兴学科强大的生命力，并且也影响和推动了计算语言学的发展。 2.计算语言学研究简介 1946年美国宾夕法尼亚大学的J.P.Eckert和J.W.Mauchly设计并制造出了世界上第一台电子计算机ENIAC，电子计算机惊人的运算速度，启示着人们考虑传统翻译技术的革新问题。为了探索如何用计算机来改进翻译技术，1952年在美国的MIT召开了第一次机器翻译会议，1954年美国乔治敦大学在国际商用机器公司（IBM公司）的协同下，用IBM-701计算机，进行了世界上第一次机器翻译试验，把几个简单的俄语句子翻译成英语，拉开了人类历史上使用计算机来处理自然语言的序幕。接着，苏联、英国、日本也进行了机器翻译试验，机器翻译出现热潮。为了推动机器翻译的研究，1954年美国出版了第一本机器翻译的杂志，这个杂志的名称叫做MachineTranslation（《机器翻译》）。1965年MachineTranslation杂志改名为MachineTranslationandComputationalLinguistics（《机器翻译和计算语言学》）杂志，在杂志的封面上，首次出现了ComputationalLinguistics这个新学科的名字，令人遗憾的是，andComputationalLinguistics这三个单词是用特别小号的字母排印的，与大号字母排印的MachineTranslation形成强烈的对照。这说明，当时学者们对于计算语言学是否能够算为一门真正的独立的学科还没有确实的把握。计算语言学刚刚登上学术这个庄严的殿堂的时候，还带有千呼万唤始出来，犹抱琵琶半遮面那样的羞涩，以至于这个刊物不敢用与MachineTranslation同样大小的字母来排印它。当时MachineTranslation杂志之所以改名，是因为在1962年美国成立了机器翻译和计算语言学学会AssociationformachineTranslationandComputationalLinguistics），通过改名可以使杂志的名称与学会的名称保持一致。根据这些史料，我们认为，远在1962年，就出现了计算语言学这个学科了，尽管它在刚出现的时候还是偷偷摸摸的，显示出少女般的羞涩，然而，它却悄悄地登上了庄严的学术殿堂。 40多年来，计算语言学发展迅速，逐渐建立了完整的理论和方法，成为了一门独立的学科，取得了很大的成绩，在当代语言学中引人注目。由于计算机的速度和存储量的增加，使得计算语言学在语音合成（speechsynthesis）、语音识别（speechrecognition）、文字识别（characterrecognition）、拼写检查（spellingcheck）、语法检查（grammarcheck）这些应用领域，进行了商品化的开发。除了早期就开始的机器翻译（machinetranslation）和信息检索（informationretrieval）等应用研究进一步得到发展之外，计算语言学在信息抽取（informationextraction）、问答系统（questionansweringsystem）、自动文摘（textsummarization）、术语的自动抽取和标引（termextractionandautomaticindexing）、文本数据挖掘（textdatamining）、自然语言接口（naturallanguageinteraction），计算机辅助语言教学（computer-assistedlanguagelearning）等新兴的应用研究中，都有了长足的进展，计算语言学的技术在多媒体系统（multimediasystem）和多模态系统（multimodalsystem）中也得到了应用。 3.语料库语言学和计算语言学之间的关系在过去的40多年中，从事计算语言学应用系统开发的绝大多数学者，都把自己的目的局限于某个十分狭窄的专业领域之中，他们采用的主流技术是基于规则的句法-语义分析，尽管这些应用系统在某些受限的子语言（sub-language）中也曾经获得一定程度的成功，但是，要想进一步扩大这些系统的覆盖面，用它们来处理大规模的真实文本，仍然有很大的困难。因为从计算语言学应用系统所需要装备的语言知识来看，其数量之浩大和颗粒度之精细，都是以往的任何系统所远远不及的。而且，随着系统拥有的知识在数量上和程度上发生的巨大变化，系统在如何获取、表示和管理知识等基本问题上，不得不另辟蹊径。这样，在计算语言学中就提出了大规模真实文本的自动处理问题。 1990年8月在芬兰赫尔辛基举行的第13届国际计算语言学会议（即COLING'90）为会前讲座确定的主题是：处理大规模真实文本的理论、方法和工具，这说明，实现大规模真实文本的处理已经成为计算语言学在今后相当长的时期内的战略目标。为了实现战略目标的转移，计算语言学需要在理论、方法和工具等方面实行重大的革新。1992年6月在加拿大蒙特利尔举行的第四届机器翻译的理论与方法国际会议（TMI-92）上，宣布会议的主题是机器翻译中的经验主义和理性主义的方法。所谓理性主义，就是指基于规则（rule-based）的方法，所谓经验主义，就是指以大规模语料库的分析为基础的方法，也就是基于语料库（corpus-based）的方法。语料库的建设和语料库语言学的崛起，为计算语言学战略目标转移提供了语言资源方面的保证。随着人们对大规模真实文本处理的日益关注，越来越多的学者认识到，基于语料库的方法（即经验主义的方法）至少是对基于规则的方法（即理性主义的方法）的一个重要补充。因为从大规模和真实这两个因素来考察，语料库才是最理想的语言知识资源。当前的计算语言学研究提倡建立语料库，使用机器学习（machinelearning）的方法，让计算机自动地从浩如烟海的语料库中获取准确的语言知识。在每两年召开一次的自然语言处理中的经验主义方法会议（EmpiricalMethodsinNaturalLanguageProcessing,简称EMNLaP）上，基于语料库的机器学习方法成为了会议的主流议题。计算语言学和语料库语言学发生了鱼水难分的密切联系。 21世纪，这种基于语料库的机器学习方法在计算语言学中进一步以惊人的步伐加快了它的发展的速度。我认为，计算语言学的加速发展在很大的程度上受到下面三种彼此协同的因素的推动。第一个因素是带标记语料库的建立。在语言数据联盟（LinguisticDataConsortium，简称LDC）和其他相关机构的帮助下，计算语言学的研究者可以方便地获得口语和书面语的大规模的语料库，而且其中还包括数量可观的标注过的语料库，如宾州树库（PennTreebank），布拉格依存树库（PragueDependencyTreeBank），宾州命题语料库（PropBank），宾州话语树库（PennDiscourseTreebank），修辞结构库（RSTBank）和TimeBank。这些语料库是带有句法、语义、语用、修辞结构等不同层次的标记的标准文本语言资源。这些标注语料库的存在使得计算语言学的研究可以使用有监督的机器学习方法（supervisedmachinelearning）来处理那些在传统上非常复杂的自动句法分析和自动语义分析等问题。这些标注语料库也推动了计算语言学中有竞争性的评测机制的建立，不再采用传统的人工评测方法而采用机器自动评测方法，评测的范围涉及到自动句法分析、信息抽取、词义排歧、问答系统、自动文摘等领域。第二个因素是统计机器学习技术的成熟。对于机器学习的日益增长的重视，导致了计算语言学的研究者与统计机器学习的研究者更加频繁地交流，彼此之间互相影响。支持向量机技术（supportvectormachine）、最大熵技术（maximumentropy）、多项逻辑回归（multinomiallogisticregression）、图式贝叶斯模型（graphicalBayesianmodels）等统计机器学习技术在计算语言学中得到了普遍的应用，深受计算语言学研究者的欢迎。第三个因素是高性能计算机系统的发展。高性能计算机系统的广泛应用，为机器学习系统的大规模训练和效能发挥提供了有利的条件，而这些在上一个世纪是难以想象的。进入21世纪以来，除了有监督的机器学习方法之外，大规模的无监督统计学习方法（unsupervisedstatisticalmachinelearning）在计算语言学中也得到了广泛的关注。机器翻译（machinetranslation）和主题模拟（topicmodeling）等领域中统计方法的进步，说明了在计算语言学也可以只训练完全没有标注过的语料库来构建机器学习系统，这样的系统也可以得到有成效的应用。由于建造可靠的标注语料库要花费很高的成本，建造的难度很大，在很多问题中，这成为了使用有监督的机器学习方法的一个限制性因素。因此，今后在计算语言学研究中将会更多地使用无监督的机器学习技术。我们相信，计算语言学和语料库语言学的联系将会更加密切，进一步发展到水乳交融的程度。世界图书出版公司北京公司为了引进国外关于语料库语言学和计算语言学的专著和论文集，出版了这套语料库语言学与计算语言学丛书。这套丛书可以帮助读者更好地了解这两门新兴学科的发展概貌，扩大读者的语言学视野，吸引更多的读者来关注这两门新兴的学科。这套语料库语言学与计算语言学研究丛书目前收入6本国外有关语料库语言学研究的论文集和专著，1本国外有关计算语言学的专著，今后还会不断引进其他最新的相关著作，力求反映当前语料库语言学和计算语言学的研究成果和发展动向。　　《语料库语言学的进展》（AdvancesinCorpusLinguistics）是第23届国际英语语料库语言学年会的论文选集，包括22篇论文，反映了语料库语言学的最新发展情况。论文中心内容是讨论理论、直觉和语料的关系以及语料库在语言学研究中的作用。大多数论文是关于英语某个特定方面的经验研究，从词汇和语法到话语和语用，涉及面很广。此外，还讨论了语言变异、语言发展、语言教学、英语与其他语言的跨语言比较、语言研究软件工具的研制等问题。论文的作者中有许多著名的语言学家，如M.A.K.Halliday、JohnSinclair、GeoffreyLeech和MichaelHoey等。本文集既注意理论，又注意方法，清楚地显示了在经验主义方法的影响下语料库语言学这个新兴学科正在稳步地发展中。《通过语料分析进行教与学》（TeachingandLeaningbydoingcorpusanalysis）是第四次教学与语言语料库国际会议文集（2000年7月1924日在Graz举行）。该文集反映了在语言教学中应用语料库取得的进展，不论把语料库作为一种资源还是作为一种方法，它对于语言的教学或研究都有积极的作用。文集强调了发现式学习（discoverylearning）的重要性，指出发现式学习在课堂教学和课外研讨中都有很好的效果。文集还强调了在使用中学习口语和书面语的重要性，提出要充分利用现代的语料库来学习、翻译和描述语言。文集主张以学生为中心，以基于语料库的语言调查为手段来进行语言教学。文集所收的文章既有回顾性的，也有前瞻性的，在这些文章中，作者们描述了他们使用语料库来教学的实践与担心，成功与失败，让读者来分享他们的教学经验。《语言学中的数学方法》（MathematicalMethodsinLinguistics）是一本关于计算语言学的专著。全书包括A,B,C,D,E五篇。A篇讲述集合论，B篇讲述逻辑和形式系统，C篇讲述抽象代数，D篇讲述作为形式语言的英语，E篇讲述形式语言、形式语法和自动机。如果读者从A篇开始，一篇一篇地仔细阅读，反复推敲，认真做练习，逐步深入下去，就可以升堂入室，了解到语言学中使用的主要的数学方法。现代语言学的研究，特别是面向计算机的语言学研究，离开了数学将寸步难行。在这种情况下，语言学工作者有必要进行更新知识的再学习，学习一点与语言学研究有关的数学知识，从而改进自己的知识结构。本书是专门为语言学工作者写的，讲数学问题时都紧紧扣住语言，深入浅出，实例丰富，作者还精心设计了大量的练习，书末附有练习答案选，正好满足了语言学工作者更新知识的迫切需要，是一本不可多得的优秀读物。《超句法表示结构的形式与功能》（Formandfunctionofparasyntacticrepresentationstructure）根据真实的语料数据，从功能的视角来研究韵律和句法之间的相互作用。作者介绍了Halliday关于声调是一个信息单位的解释，Halford关于从韵律方面和句法方面定义谈话单位（talkunit）的思想，Esser关于抽象表达结构的概念，在这些理论的基础上，作者建立了一个修正的谈话单位模式（modifiedtalkunitmodel）。这种谈话单位模式是一种超句法的模式（parasyntacticunit），既要进行定量的分析，也要进行功能的分析，并在声调单位的边界处来研究韵律状态和句法状态的相互作用。这项研究的数据是从LondonLund英语口语语料库中采集的，样本包含50000个单词。研究结果表明，使用韵律和句法之间的相互作用，可以更有效地对语言信息进行结构化的描述。本研究应用了语料库语言学的方法来分析谈话单位在风格和语用方面的潜在特征，对于英语口语进行功能主义和经验主义的分析，具有开创性。《应用语料库语言学：多维视角》（AppliedCorpusLinguistics:AMultidimensionalPerspective）是美国印第安纳大学跨文化交流中心第四届北美研讨会的文集（2002年11月在Indiananpolis举行），作者来自美国、比利时、中国、法国、德国、爱尔兰、荷兰、西班牙等8个国家，内容涉及基于语料库的课堂教学、口语话语分析、书面语话语分析、网络话语分析等。整个文集分为两部分：第一部分是语料库语言学在口语话语分析和书面语话语分析中的应用；第二部分是语料库语言学在直接教学法中的应用。《拓展基于语料研究的范围》（ExtendingtheScopeofCorpus　basedResearch）是北亚利桑那大学现代英语和中古英语计算机文档国际会议的文集，该会议于2001年在Arizona举行。这次会议的主题是对语料库语言学的新挑战。这种新挑战包括：改进语料库语言学的方法论标准，划清基于语料库的研究与理论语言学之间的界限，进一步探讨语料库语言学在语言教学中的应用。文集中的文章清楚地显示了基于语料库的研究正在迎击这样的挑战。《应用语言学中的语料库》（CorporainAppliedLinguistics）以丰富而有趣的实例说明了语料库在应用语言学中的作用，本书广泛地使用了COBUILD英语银行（BankofEnglish）语料库中丰富的语言材料，把应用语言学与语料库密切地结合起来，对于如何在应用语言学中发挥语料库的作用，提出了许多独到的见解。本书还讨论了语料库对应用语言学的重要性和它的局限性。语料库对应用语言学的重要性在于：语料库是收集和存储语言数据的一种手段，借助词语索引（concordancelist）和频率（frequency），语料库可以大大地改善人们的语言直觉，弥补内省方法的不足，从而克服主观性和片面性。而语料库的局限性是：语料库只能给我们关于某种语言现象频率高低的信息，但不能给我们某种语言现象是否可能的信息；语料库只能告诉我们语言事实本身，但不能进行推理；语料库只能给我们提供例证，但不能对例证提供解释，对例证的解释要依靠语言学家对于语言的直觉和内省；此外，文本语料库还不能提供关于声调、手势以及社会背景方面的信息等。世界图书出版公司北京公司出版的这套语料库语言学和计算语言学研究丛书内容丰富而新颖，是反映这两个学科当前发展情况的一面镜子。读者可以通过这面镜子，对当前的语料库语言学和计算语言学有一个鸟瞰式的认识。希望广大读者喜爱这套丛书，从阅读中开阔眼界，获得新知。是为序。 2008-12-6 --------------------------------------------------------------------------------------------- 1 .《语料库语言学与计算语言学研究丛书》，世界图书出版公司出版。

个人分类: 自然语言处理|9135 次阅读|2 个评论

北京大学计算语言学研究所俞士汶教授"自然语言处理与自然语言理解"报告PPT

liuysd 2009-3-12 14:48

2009月3月11日，北京大学计算语言学研究所俞士汶教授在中国科学技术信息研究所的学术报告，如期进行，报告由中信所武夷山总工程师主持，报告短暂而热烈，会场出现了少有的加登子的现象（中信所从事自然语言处理研究的人员不是太多）。尽管如此，由于各种原因，还是有一些想到会但未能如愿的相关研究人员，如南理工的章成志博士等进行了留言，南师大曲维光教授也发邮件表示了遗憾与羡慕，为此，我把俞老师的PPT上传至博客，希望能够实现更大范围的共享，均因智者而受益！俞士汶教授学术报告PPT

个人分类: 学术报告|6940 次阅读|2 个评论

Natural Language Processing and Ontology Engineering (NLPOE 2009)(EI收录)

liuysd 2009-3-6 22:29

Workshop on 2nd Natural Language Processing and Ontology Engineering (NLPOE2009) （ http://www.wi-iat09.disco.unimib.it/IAT09/workshops.htm ） In conjunction with The 2009 IEEE/WIC/ACM International Conference on Web Intelligence (WI-09) September 15-18, 2009, Milan, Italy Call for Papers Natural Language Processing (NLP) addresses the problems of automated understanding and generation of natural human languages. The former identifies the syntactic structure of a sentence, judges the semantic relations among the syntactic constituents, in hopes of reaching at an eventual understanding of the sentence. The latter process constructs the semantic structures and syntactic constituents according to the semantic and syntactic properties of the lexical items selected, and eventually generates grammatically well-formed sentences. The goal of the NLP applications is to facilitate human-machine communication using natural languages. In particular, it is to establish various computer application software systems to process natural language, such as machine translation, computer-assisted teaching, information retrieval, automatic text categorization, automatic summarization, speech recognition and synthesis, information extraction from the text, intelligent search on the Internet. Today, with the wide use of the Internet, the demand for language information puts a high premium on automated processing of massive language information. Ontology engineering is a subfield of artificial intelligence and computer science, which aims at a structured representation of terms and relationship between the terms within particular domain, with the purpose to facilitate knowledge sharing and knowledge reuse. Ontology project involves the development of Ontology building programs, Ontology life-cycle management, the research of Ontology building methods, support tools and ontology languages, and a series of similar activities. Ontologies have found important applications in information sharing, system integration, knowledge-based software development and many other issues in software industry. However, ontology engineering is a time-consuming and painstaking endeavor, and NLP technology has important contributions to make in quick and automatic development of ontologies. This workshop will focus on the recent advances made in Ontology engineering and NLP, with the aim to promote the interaction between and common growth of the two areas. We are particularly interested in the building of upper-level language ontology in NLP and the application of NLP technology in Ontology engineering. More importantly, we expect that individuals and research institutions in the areas of both Ontology engineering and NLP could pay attention to this workshop, which may contribute to the integration and growth of these two areas. The topics of the workshop include, but are not limited to, the following: 1.Natural language understanding, including syntactic parsing, word sense disambiguation, semantic role labeling etc; 2.Text mining, including named entity recognition, term recognition, term and synonyms and concept extraction, relation extraction etc) 3.Lexical resources and corpora, including dictionaries, thesaurus, ontology, etc; 4.Ontology learning and population from text, Web and other resources; 5.Application issues of ontology based NLP: information extraction, text categorization, text summarization and other applications; 6.Other topics of relevance in ontology learning, ontology evolution, ontology modeling and ontology application etc. Paper Submission Paper submissions should be limited to a maximum of 4 pages (only one more page is available and extra payment is required for the extra page). The papers must be in English and should be formatted according to the IEEE 2-column format (see the Author Guidelines at http://www.computer.org/portal/pages/cscps/cps/final/wi08.xml ). All submitted papers will be reviewed by at least 2 program committee members on the basis of technical quality, relevance, significance, and clarity. The workshop only accepts on-line submissions. Please use the Submission Form on the WI'09 website to submit your paper. Publication All papers accepted for workshops will be included in the Workshop Proceedings published by the IEEE Computer Society Press that are indexed by EI, and will be available at the workshops. Important Dates Workshop paper submission: April 30, 2009 Author notification: June 3, 2009 Conference dates: September 15-18, 2009 Workshop Organizers Zhifang Sui Associate Professor Institute of Computational Linguistics (ICL), Peking University No.5 Yiheyuan Rd. haidian District.100871,Beijing China E-mail:suizhifang@gmail.com Tel:086-01062753081-105 Yao Liu Associate Professor Institute of Scientific and Technical Information of China No.15 Fuxing Road haidian District, Beijing 100038 China E-mail:liuy@istic.ac.cn Tel:086-01058882053 Program Committee Chengzhi Zhang Institute of Scientific and Technical Information of China , China Christian Galinski International Information Centre for Terminology , Austria Daqing He University of Pittsburgh , USA De Zhang Institute of Scientific and Technical Information of China , China Donghong Ji Wuhan University , China Erhong Yang Beijing Language and Culture University , China Fernand Vandamme Baggage Institute for Knowledge Management ， Belgium Guifa Teng Agricultural University of Hebei , China Kun Yu University of Tokyo, Japan Heting Chu Long Island University , USA Hui Wang National University of Singapore , Singapore J uanzi Li Tsinghua Univeristy , China J unfeng Hu Peking University , China J un Zhao Institute of Automation Chinese Academy of Sciences , China Lezhong Li u Muenchen University , Germany Lin Wang Baggage Institute for Knowledge Management ， Belgium Mengjie Zhang Victoria University of Wellington , New Zealand Qin Lu Hong Kong Polytechnic University , Hong Kong , China Tzonghan Tsai Yuan Ze University, Tai Wan, China Weiguang Qu NanJing Normal University , China Xueqiang Lv Beijing Information Science and Technology University , China Xinglong Wang TheUniversityofManchester , UK . Yangsen Z hang Beijing Information Science and Technology University, China Yidong Chen Xiamen University, China Ye Tian Encyclopedia of China Publishing House , China Yuli Wang Encyclopedia of China Publishing House, China Zuxu Dai WuHan Institute of Technology,china For further details or clarifications, please see the conference web site or contact the PC chairs Zhifang Sui suizhifang@gmail.com Yao Liu liuysd@163.com

个人分类: 会议征文|7003 次阅读|0 个评论

学术报告通知:自然语言处理与自然语言理解

热度 3 liuysd 2009-3-4 08:58

学术报告通知题目：自然语言处理与自然语言理解报告人：俞士汶北京大学信息科学技术学院教授时间：2009年3月11日（星期三）下午2：30 地点：中信所研究生部三层333教室（北京海淀区复兴路15号中央电视台西门）俞士汶教授简历：自1964年从北京大学计算数学专业毕业后一直在北大工作。1990年晋升教授。1993年起担任博士生导师。现在是北大信息科学技术学院教授、北大计算语言学研究所学术指导委员会主席、北大软件与微电子学院语言信息工程系主任，兼任中国中文信息学会、中国语文现代化学会常务理事等职。已培养博士生18名，硕士生17名，在读博士生9名。在计算语言学与中文信息处理领域合作完成了《现代汉语语法信息词典》、大规模基本标注语料库、机器翻译译文质量自动评估软件、综合型语言知识库等有广泛影响的研究工作。获得2007年度教育部科技进步奖一等奖及多项政府部门和北京大学颁发的奖励。出版著作8部，发表论文140多篇。报告提纲： 1 关于研究对象与目标 2 自然语言处理的主攻方向 3 综合型语言知识库概要 4 向自然语言理解前进 5 领域知识工程与领域知识库 6 结语与致谢欢迎所内外各界人士踊跃参加！中国科学技术信息研究所研究生部学术委员会二○○九年三月二日

个人分类: 学术报告|5755 次阅读|1 个评论

自然语言处理与计算语言学书籍汇总【ZZ】

热度 1 timy 2009-2-22 21:11

这里汇总整理了18本自然语言处理与计算语言学的相关书籍介绍，按国外书籍（1~4），国内书籍（5~18），其中国内书籍又按自然语言处理（5~9），计算语言学（10~13），中文信息处理（14~17），文选（18）顺序整理，如果有遗漏，欢迎补充！一、自然语言处理与计算语言学书籍汇总之一：国外书籍 1、《Speech and Language Processing》 a) 作者: Daniel Jurafsky / James H. Martin b) 副标题: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition c) ISBN: 9780130950697 d) 定价: USD 97.00 e) 出版社: Prentice Hall f) 装帧: Paperback g) 第一版出版年: 2000-01-26；第二版出版年：2006 h) 相关网站： http://www.cs.colorado.edu/~martin/slp.html i) 英文简介：This book takes an empirical approach to language processing, based on applying statistical and other machine-learning algorithms to large corpora.Methodology boxes are included in each chapter. Each chapter is built around one or more worked examples to demonstrate the main idea of the chapter. Covers the fundamental algorithms of various fields, whether originally proposed for spoken or written language to demonstrate how the same algorithm can be used for speech recognition and word-sense disambiguation. Emphasis on web and other practical applications. Emphasis on scientific evaluation. Useful as a reference for professionals in any of the areas of speech and language processing. j) 中文译名：自然语言处理综论 k) 译者: 冯志伟 / 孙乐 l) ISBN: 9787121007767 m) 页数: 588 页 n) 出版社: 电子工业出版社 o) 定价: 78.0 p) 装帧: 平装 q) 出版年: 2005 r) 中文简介：本书是一本全面系统地讲述计算机自然语言处理的优秀教材。本书英文版出版之后好评如潮，国外许多著名大学纷纷把本书选为自然语言处理和计算语言学课程的主要教材，该书被誉为该领域教材的黄金标准。本书包含的内容十分丰富，分为四个部分，共21章，深入细致地探讨了计算机处理自然语言的词汇、句法、语义、语用等各个方面的问题，介绍了自然语言处理的各种现代技术。从层次的角度看，本书的论述是按照自然语言的不同层面逐步展开的，首先论述单词的自动形态分析，接着论述自动句法分析，然后论述各种语言单位的自动语义分析，最后论述连贯文本的自动分析、对话与会话的智能代理以及自然语言生成。从技术的角度看，本书介绍了正则表达式、有限状态自动机、文本- 语音转换、发音与拼写的概率模型、词类自动标注、N元语法、隐马尔可夫模型、上下文无关语法、特征与合一、词汇化剖析与概率剖析、一阶谓词演算、词义排歧、修辞结构理论、机器翻译等非常广泛的内容。本书具有覆盖全面、注重实用、强调评测、语料为本四大特色。在本书的配套网站上，还提供了相关的资源和工具，便于读者在实践中进一步提高。 2、 Foundations of Statistical Natural Language Processing a) 作者: Christopher D. Manning / Hinrich Schuetze b) ISBN: 9780262133609 c) 页数: 680 d) 定价: USD 82.00 e) 出版社: The MIT Press f) 装帧: Hardcover g) 出版年: 1999-06-18 h) 相关网站： http://nlp.stanford.edu/fsnlp/ i) 英文简介：Statistical approaches to processing natural language　text have become dominant in recent years. This foundational text is　the first comprehensive introduction to statistical natural language　processing (NLP) to appear. The book contains all the theory and　algorithms needed for building NLP tools. It provides broad but rigorous　coverage of mathematical and linguistic foundations, as well as　detailed discussion of statistical methods, allowing students and　researchers to construct their own implementations. The book covers　collocation finding, word sense disambiguation, probabilistic parsing,　information retrieval, and other applications. j) 中文译名：统计自然语言处理基础 k) 译者: 苑春法 l) ISBN: 9787505399211 m) 页数: 418 n) 出版社: 电子工业出版社 o) 定价: 55.0 p) 装帧: 平装 q) 出版年: 2005-1-1 r) 中文简介：近年来，自然语言处理中的统计学方法已经逐渐成为主流。本书是一本全面系统地介绍统计自然语言处理技术的专著，被国内外许多所著名大学选为计算语言学相关课程的教材。本书涵盖的内容十分广泛，分为四个部分，共16章，包括了构建自然语言处理软件工具将用到的几乎所有理论和算法。全书的论述过程由浅入深，从数学基础到精确的理论算法，从简单的词法分析到复杂的语法分析，适合不同水平的读者群的需求。同时，本书将理论与实践紧密联系在一起，在介绍理论知识的基础上给出了自然语言处理技术的高层应用（如信息检索等）。在本书的配套网站上提供了许多相关资源和工具，便于读者结合书中习题，在实践中获得提高。 3、 Natural Language Understanding (2nd Edition) a) 作者: James Allen b) ISBN: 9780805303346 c) 定价: USD 66.00 d) 出版社: Addison Wesley e) 装帧: Paperback f) 出版年: 1994-08-03 g) 英文简介：From a leading authority in artificial intelligence, this book delivers a synthesis of the major modern techniques and the most current research in natural language processing. The approach is unique in its coverage of semantic interpretation and discourse alongside the foundational material in syntactic processing. h) 中文译名：自然语言理解 i) 译者: 刘群 j) ISBN: 9787121007552 k) 页数: 508 l) 定价: 59.0 m) 出版社: 电子工业出版社 n) 装帧: 平装 o) 出版年: 2005-01-01 p) 中文简介：本书是讲授自然语言理解的经典教材。书中全面而深入地介绍了自然语言理解领域中使用的理论和技术，共分为句法处理、语义解释和上下文与世界知识三大部分。具体探讨了上下文无关文法、 chart句法分析器、转移网络形式体系、逻辑形式语言、知识表示、篇章结构和语用推理以及会话agent等多方面的内容。本书理论与实践并重，阐述清晰，简明易懂。世界多所院校采用本书作为自然语言理解的教材。对本领域的研究人员而言，本书也是一本优秀的参考书。 4、 Statistical Language Learning a) 作者: Charniak, Eugene b) ISBN: 9780262531412 c) 定价: $22.00 d) 出版社: The MIT Press e) 出版年：1996年9月1日 f) 英文简介：Eugene Charniak breaks new ground in artificial intelligence research by presenting statistical language processing from an artificial intelligence point of view in a text for researchers and scientists with a traditional computer science background. New, exacting empirical methods are needed to break the deadlock in such areas of artificial intelligence as robotics, knowledge representation, machine learning, machine translation, and natural language processing (NLP). It is time, Charniak observes, to switch paradigms. This text introduces statistical language processing techniques word tagging, parsing with probabilistic context free grammars, grammar induction, syntactic disambiguation, semantic word classes, word-sense disambiguation along with the underlying mathematics and chapter exercises. Charniak points out that as a method of attacking NLP problems, the statistical approach has several advantages. It is grounded in real text and therefore promises to produce usable results, and it offers an obvious way to approach learning: one simply gathers statistics. Language, Speech, and Communication 二、自然语言处理与计算语言学书籍汇总之二：国内书籍这里汇总整理了18本自然语言处理与计算语言学的相关书籍介绍，按国外书籍（1~4），国内书籍（5~18），其中国内书籍又按自然语言处理（5~9），计算语言学（10~13），中文信息处理（14~17），文选（18）顺序整理，如果有遗漏，欢迎补充！ 5、统计自然语言处理 a) 作者: 宗成庆 b) ISBN: 9787302165989 c) 页数: 475 d) 定价: 66 e) 出版社: 清华大学出版社 f) 装帧: 平装 g) 出版年: 2008-5-1 h) 内容简介：本书全面介绍了统计自然语言处理的基本概念、理论方法和最新研究进展，内容包括形式语言与自动机及其在自然语言处理中的应用、语言模型、隐马尔可夫模型、语料库技术、汉语自动分词与词性标注、句法分析、词义消歧、统计机器翻译、语音翻译、文本分类、信息检索与问答系统、自动文摘和信息抽取、口语信息处理与人机对话系统等，既有对基础知识和理论模型的介绍，也有对相关问题的研究背景、实现方法和技术现状的详细阐述。 6、自然语言的计算机处理 a) 作者: 冯志伟 b) ISBN: 9787810460361 c) 页数: 523 d) 定价: 20 e) 出版社: 上海外语教育出版社 f) 出版年: 1996 g) 简介：自然语言处理（Natural Language Processing, 简称NLP）就是利用电子计算机为工具对人类特有的书面形式和口头形式的自然语言的信息进行各种类型处理和加工的技术，这种技术现在已经形成一门专门的边缘性交叉性学科，它涉及语言学、数学和计算机科学，横跨文科、理科和工科三大知识领域。自然语言处理的目的在于建立各种自然语言处理系统，如机器翻译系统、自然语言理解系统、情报自动检索系统、电子词典和术语数据库系统、计算机辅助教学系统、语音自动识别系统、语音自动合成系统、文字自动识别系统等。由于自然语言处理离不开电子计算机，因此，自然语言处理又可以叫做自然语言的计算机处理（Natural Language Processing by Computer），以强调电子计算机对自然语言处理的作用。 7、自然语言理解:一种让机器懂得人类语言的研究(第2版) a) 作者: 姚天顺 / 朱靖波 b) ISBN: 9787302054351 c) 页数: 470 d) 定价: 39.8 e) 出版社: 清华大学出版社 f) 装帧: 平装 g) 出版年: 2002-10-1 h) 简介：自然语言理解是人工智能的一个重要分支，主要研究如何利用计算机来理解和生成自然语言。本书重点介绍了自然语言理解所涉及的各个方面，包括语法分析、语义分析、概念分析、语料库语言学、词汇语义驱动、中间语言、WordNet、词汇树邻接文法、链接文法、基于语段的机器翻译方法、内识别与文本过滤、机器翻译的评测等，既有对基础知识的介绍，又有对最新研究进展的综述，同时还结合了作者多年的研究成果。本书可作为高等院校计算机、人工智能等专业的高年级本科生或研究生的教材及教学参考书，也可供从事中文信息处理、数据挖掘以及人工智能研究的相关人员参考。 8、自然语言处理技术基础 a) 作者: 王小捷、常宝宝 b) ISBN: 9787563505272 c) 页数: 146 d) 定价: 19.0 e) 出版社: 北京邮电大学出版社 f) 装帧: 平装 g) 出版年: 2002-12-01 h) 简介：本书包括了三个方面的内容。第一部分介绍基于规则的自然语言处理技术，分别从语法和语义两个层面入手。首先介绍了几种语法系统的形式化表示方案，在此基础上，介绍了几种典型的上下文无关句法分析和基于复杂特征的句法分析方法。在语义层面，分别从词义和句义两个层次介绍了进行词义和句义分析的方法。第二部分介绍基于统计的自然语言处理技术，包括词汇层的一些统计语言模型以及在句法层的概率上下文无关语法。第三部分介绍一种重要的应用机器翻译，分别从规则和统计两个方面来介绍它的理论和实现。 9、计算机自然语言处理 a) 作者: 王晓龙 b) ISBN: 730210089 c) 页数: 170 d) 定价: 23.0 e) 出版社: 清华大学出版社 f) 装帧: 精装 g) 出版年: 2005-04-01 h) 简介：计算机自然语言处理技术在我国现代化及信息化建设中起着越来越重要的作用,我国政府已经将它列入国家中长期科学技术发展纲领。近年来,语言处理技术, 特别是基于国际互联网的中文语言处理技术正在引起我国广大科技工作者的高度重视。本书既全面阐述了中文语言处理技术的特殊规律,又借鉴了国内外学者在计算语言学领域里的最新成就,还包括了作者的实践经验和体会。本书可以作为计算机相关专业研究生的专业课教材,也可供相关专业高年级大学生和从事自然语言处理技术研究和应用的科技人员参考。 10、计算语言学概论 a) 作者: 俞士汶 b) ISBN: 9787100037969 c) 页数: 357 d) 定价: 20 e) 出版社: 商务印书馆 f) 装帧: 平装 g) 出版年: 2003-9-1 h) 简介：本教材从基础算法和应用三个方面，较为系统地介绍计算语言学的基础理论、相关的自然语言处理技术和应用。 11、计算语言学基础 a) 作者: 冯志伟 b) ISBN: 9787100032841 c) 页数: 280 d) 定价: 16.0 e) 出版社: 商务印书馆 f) 装帧: 平装 g) 出版年: 2001-8-1 h) 内容简介：《计算语言学基础》从语言学的角度，回顾了计算语言学的产生和发展的历史，从词汇的计算机处理、自动句法分析、自动语义分析等方面，系统地讲述计算语言学的基础知识，特别是介绍了计算语言学的基本理论和方法。这是一本计算语言学的基础性入门读物，作者尽量考虑到计算语言学跨学科的特点。叙述力求深入浅出，文字力求简明扼要，可供语言学工作者、计算机工作者、计算语言学工作者以及对语言信息处理有兴趣的广大读者阅读。 12、计算语言学导论 a) 作者: 翁富良 / 王野翊 b) ISBN: 9787500420804 c) 页数: 207 d) 出版社: 中国社会科学出版社 e) 定价: 20.0 f) 装帧: 平装 g) 出版年: 2005-10-01 h) 简介：语言是反映人的思维的最重要的一面镜子，又是人与人之间交流的最重要的媒介。对语言的研究，是一个经久不衰的古老课题。几千年来，中外学者从语言与思维、语言与现实的关系等不同角度。在词源、注释、分类、语法等各个方面开展了广泛的研究。近一两百年来，西方学者在逻辑学、数学和分析哲学方面的成果，大大推动了语言形式他的研究。而随着计算机科学的发展，建立语言的形式化计算模型成为语言学的重要课题。计算语言学作为以形式化的计算模型来分析、理解和处理语言的科学也就应运而生。而信息革命的展开，更使计算语言学的研究达到了一个空前的程度。 13、计算语言学 a) 作者: 刘颖 b) ISBN: 9787302057888 c) 页数: 185 d) 定价: 22.0 e) 出版社: 清华大学出版社 f) 装帧: 平装 g) 出版年: 2002-10-01 h) 内容简介：计算语言学是一门涉及语言学、计算机科学和数学等多门学科交叉的学科，覆盖面很广，本书侧重最经典的工作，阐述计算语言学的基本理论和方法。主要介绍现代句法理论和语义理论，词法、句法和语义阶段重要的分析算法及语料库和统计语言学。本书结构完整，层次分明，条理清楚。既便于教学，又便于自学。（注：转载于：我爱自然语言处理： www.52nlp.cn ，略有调整）

个人分类: 自然语言处理|9872 次阅读|3 个评论

征文信息两则

timy 2009-1-12 22:33

全国第十届计算语言学学术会议(CNCCL-2009) Deadline: 2009年4月10日第十届汉语词汇语义学研讨会征文通知(CLSW2009) Deadline: 2009年3月20日

个人分类: 同行交流|3812 次阅读|0 个评论

语义信息字符串公式

geneculture 2009-1-2 11:50

图语义信息的字符串公式(图文并茂的小作品) http://commons.wikimedia.org/wiki/File:String_Formula.JPG 理解上述（大、小）两类字符串的语义关系之形式化原理的区别，至少需要掌握以下两个知识点：知识点之一什么叫字符串? 答案如下：字符串（ String ），是由零个或多个字符组成的有限序列。一般记为： ( ) 它是编程语言中表示文本的数据类型。通常以串的整体作为操作对象，如：在串中查找某个子串、求取一个子串、在串的某个位置上插入一个子串以及删除一个子串等。两个字符串相等的充要条件是：长度相等，并且各个对应位置上的字符都相等。设p、q是两个串，求q在p中首次出现的位置的运算叫做模式匹配。串的两种最基本的存储方式是顺序存储方式和链接存储方式。目录 1 形式理论 1.1 串接和子串 1.2 词典排序 1.3 字符串运算 2 字符串数据类型 2.1 字符串长度 2.2 字符编码 2.3 实现 2.4 表示法 3 字符串实用程序 4 字符串操作 5 算法 6 参见 http://en.wikipedia.org/wiki/String_(computer_science ) String In computer programming and some branches of mathematics , a string is an ordered sequence of symbols . These symbols are chosen from a predetermined set or alphabet . In computer programming , a string is generally understood as a data type storing a sequence of data values, usually bytes, in which elements usually stand for characters according to a character encoding , which differentiates it from the more general array data type. In this context, the terms binary string and byte string are used to suggest strings in which the stored data does not (necessarily) represent text. A variable declared to have a string data type usually causes storage to be allocated in memory that is capable of holding some predetermined number of symbols. When a string appears literally in source code , it is known as a string literal and has a representation that denotes it as such. Contents 1 Formal theory 1.1 Concatenation and substrings 1.2 Lexicographical ordering 1.3 String operations 1.4 Topology 2 String datatypes 2.1 String length 2.2 Character encoding 2.3 Implementations 2.4 Representations 3 Vectors 4 String processing algorithms 5 Character string oriented languages and utilities 6 Character string functions 7 Notes 8 See also 知识点之二什么叫语义? 答案蕴含在语义学的以下答案之中：语义学（Semantics），也作语意学，是一个涉及到语言学、逻辑学、计算机科学、自然语言处理、认知科学、心理学等诸多领域的一个术语。虽然各个学科之间对语义学的研究有一定的共性，但是，具体的研究方法和内容大相径庭。语义学的研究对象是自然语言的意义，这里的自然语言可以是词汇，句子，篇章等等不同级别的语言单位。但是各个领域里对语言的意义的研究目的不同：语言学的语义学研究目的在于找出语义表达的规律性、内在解释、不同语言在语义表达方面的个性以及共性；逻辑学的语义学是对一个逻辑系统的解释，着眼点在于真值条件，不直接涉及自然语言；与计算机科学相关的语义学研究在于机器对自然语言的理解；认知科学对语义学的研究在于人脑对语言单位的意义的存储及理解的模式。目录 1 语言学的语义学 2 逻辑学的语义学 3 其他学科的语义学 4 语义学和语用学的关系 5 中国的语义学研究 6 参看 7 外部链接 http://en.wikipedia.org/wiki/Semantics Semantics is the study of meaning in communication . The word derives from Greek ? ( semantikos ), significant, from ? ( semaino ), to signify, to indicate and that from ? ( sema ), sign, mark, token. In linguistics it is the study of interpretation of signs as used by agents or communities within particular circumstances and contexts. It has related meanings in several other fields. Semanticists differ on what constitutes meaning in an expression. For example, in the sentence, John loves a bagel, the word bagel may refer to the object itself, which is its literal meaning or denotation , but it may also refer to many other figurative associations, such as how it meets John's hunger, etc., which may be its connotation . Traditionally, the formal semantic view restricts semantics to its literal meaning, and relegates all figurative associations to pragmatics , but many find this distinction difficult to defend. The degree to which a theorist subscribes to the literal-figurative distinction decreases as one moves from the formal semantic , semiotic , pragmatic , to the cognitive semantic traditions. The word semantic in its modern sense is considered to have first appeared in French as smantique in Michel Bral 's 1897 book, Essai de smantique'. In International Scientific Vocabulary semantics is also called semasiology . The discipline of Semantics is distinct from Alfred Korzybski's General Semantics , which is a system for looking at non-immediate, or abstract meanings. Contents 1 Linguistics 1.1 The dynamic turn in semantics 1.2 Prototype theory 2 Computer science 3 Psychology 4 References 5 See also 5.1 Major philosophers and theorists 5.2 Linguistics and semiotics 5.3 Logic and mathematics 5.4 Computer science 6 External links

个人分类: 信息学基础研究|762 次阅读|0 个评论

长尾真报告摘记：跨越语言障碍

timy 2008-11-12 20:46

日本国立国会图书馆馆长长尾真先生，于2008年11月8日在第8届中日自然语言处理共同促进会议上，作了题为跨越语言障碍的学术报告。对主要内容摘记如下：一、语言与语言学 1. 语言表达中所存在的规则，现在手工收集这些规则，已经达到了极限。（博主注：这就是针对海量数据情况下，为什么统计学习方法超过规则方法的原因，专家针对海量数据提取所有规则几乎是不可能的事情，所以现在的主流方向是统计学习方法，有时候结合一些规则效果还会有所提高。） 2. 通过对单词在句子、句子在文章里的出现情况进行分类，可以确定他们的含义。（博主注：我没有整明白这句话的确切含义，是不是通过单词或句子的语境，来理解单词或句子的含义呢？）二、语言资源建设 1. 多语言语料库建设：NICT（日本情报通信研究机构）正在收集中日平行语料库，他们的目标是收集1000万句对，目前已经收集了100万句对。 2. 语音语料库的应用：依靠语音语料库，日本国会的速记使用语音系统代替或辅助，并准备明年开始实施。（博主注：如果中文也能做得这么好，那么有名的亚伟速录是否会受到严重挑战？） 3. 语料库相关软件的建设：开发多语言、平行语料库的处理软件，建设语料库与词典并普及它们的应用。现在处理上亿单词的语料库，超级计算机可以在一两天就得到结果。 4. 语料库应该是中性的，可以用于各种用途。（博主注：语料库是中性的，这个问题不大，一般根据应用的不同，对语料库的标注是有侧重的，比如POS标注词性，而情感分析用标注，则标注带褒贬等情感极性的标记。）三、语言翻译 1.构建实例库与词典：通过分析可比语料库可以抽出改写实例（博主注：一般称为复述实例吧），利用词汇与短语的复述可以自动构建词典（博主注：这里的词典似乎是同义词词典或者主题词词典。） 2. 类义词典的自动构建：对包含同义词和上下位类关系的句子进行分析，从而构建类义词典；通过分析专业领域的文章，构建相应的术语词典以及概念词典，可以阐明改领域的知识结构。 3. 机器翻译的课题：多语言翻译、语言网格、机器翻译质量的提高、大规模翻译实例数据库建设。四、信息检索的课题 1. 信息的可靠性问题：推测信息的可靠性；人们对搜索到的信息可以相信到什么程度？通过与学术内容和事实相比较来推测信息的可靠性。 2. 危险信息的监测：可疑信息源的检测、相关信息的历时追踪、对某一时间点突然猛增的一系列相关信息进行及时扑捉。（博主注：这个就是舆情监测与分析需要去解决的问题，已经热了一阵子了）。 3. 抄袭文章与图片的检测：检测出由某个文件的某一部分与另一文件的某一部分相同或相似，检测出某一图片或漫画与另一图片或漫画的相似程度。（博主注：关于文档复制检测的研究比较多了，CNKI等公司就有类似的论文抄袭检测工具。但关于图片或漫画的抄袭检测研究和相关系统，我几乎没看过，难道是因为日本的漫画业太发达了，街头卖的抄袭作品太多，所以推动了学术界研究这个？）。 4.对话系统：广博的知识与报纸热门话题的积累（博主注：把百科知识和热门事件输入到电脑，让他们无所不知，就和一个陌生人刚到一个新城市一样，多看看这个城市的小报，很快就知道这个城市的一些特点了），对话情景信息的获取，推测对方所具有的知识（博主注：根据用户输入的查询式的专指度，有时能在一定程度上推测用户输入词语的专业程度，从而推测改用户是一般用户而是特殊用户），推测对方的意图。

个人分类: 同行交流|5452 次阅读|1 个评论

长尾真报告摘记：数字图书馆的发展

timy 2008-11-12 10:55

2008年11月7日，日本国立图书馆馆长长尾真先生在中信所情报学研究生教育30周年会议上作了题为数字图书馆发展的主题演讲。摘记一些内容如下： 1. 数字图书馆：根据使用者的需求，引导其有效地利用海量的知识信息宝库； 2. 全球性数字图书馆活动：世界数字图书馆(World Digital Library) ，百万书库项目 (Million Book Project)，欧盟DL项目(European Digital Library Project) 。（日本数字图书馆已经不再胶片化，而是转向数字化。）（博主注：这些项目都涉及到多国语言的处理，为了彻底实现数字图书馆的目标，为不同用户服务，多语言自然语言处理问题不可回避。） 3. 网络信息的收集：利用差分收集技术，只存储数据更新部分。 4.DL今后的课题：（1）跨越OPAC检索：提供能够修正拼写错误的功能，修正模糊表达的功能，半自动建立术语联想词典实现联想检索；（2）用户接口的改进：以对话形式明确用户要求（博主注：不清楚这种对话形式是什么样的，是虚拟参考咨询中的自动问答呢，还是为了和用户直接对话？）；（3）集体智慧的利用：参加联想检索用的联想词典的完善工作，参加对老照片等图像数据的标注和解释工作（博主注：依靠集体力量对特定类型信息进行标注，和社会标注还不太一样，也许这种方式的标注相对比较容易控制质量，减少不规范和语义有冲突的标注）；（4）引进NLP技术：术语的自动收集以及词典的半自动构建（多语言）类义词典的自动构建（多语言）机器翻译系统（多语言）的利用实现能够接受自然语言检索要求的语句或提供对话方式的咨询利用文本数据自动构建图书目录利用文本数据自动生成摘要附：长尾真的简介， 1936年出生，59年毕业于京都大学工学系电子工学专业，61年京都大学研究生院硕士课程毕业，66年从京都大学获得工学博士称号，73年担任京都大学教授，97年担任京都大学校长，2004年担任信息通信研究机构理事长，2007年4月开始担任现在的职务。研究开发的业绩涉及自然语言处理、图像处理、信息工学、智能信息学等多个领域。

个人分类: 同行交流|5220 次阅读|2 个评论

国内外知识抽取研究进展综述

huabolin 2008-10-24 13:43

国内外知识抽取研究进展综述化柏林（中国科学技术信息研究所，北京 100038）（发表于《情报杂志》2008年第2期）信息泛滥与知识贫乏的问题越来越突出，用基于 NLP的技术从文献中抽取知识有望解决这一矛盾。首先对知识抽取的含义进行界定，接下来论述知识抽取的意义。通过对国内外知识抽取研究现状的分析总结知识抽取的抽取对象、抽取模式。发现国内关于知识抽取研究差距较大，从文献中抽取知识并进行实验研究的还很少，有待重视。全文：国内外知识抽取研究进展综述

个人分类: 知识抽取|5142 次阅读|1 个评论

从信息构建看未来的知识管理

huabolin 2008-10-24 13:31

从信息构建看未来的知识管理化柏林 ( 中国科学技术信息研究所，北京 100038) （发表于《情报学报》2004年第4期，人大复印资料全文转载）摘要本文从信息构建出发，进而引申到知识管理与知识推理，最终提出了知识基础工程。在设计并实现自然语言的语法开发平台时，产生了构建知识库的设想。利用语法开发平台，就可以对自然语言的语法进行开发，加上一个好的算法，就可以对大规模文本进行自动分析。对分析过的句子进行内容提取，并用面向对象方法和逻辑形式进行格式化，得到以面向对象为特征的常识知识库和以逻辑命题为特征的专家知识库，这应该是知识发现、知识管理的最高层次，也是知识工程的核心。 **************************** 从信息构建看未来的知识管理

个人分类: 知识抽取|3405 次阅读|0 个评论

基于NLP的知识抽取系统架构研究

huabolin 2008-10-24 13:20

基于NLP的知识抽取系统架构研究化柏林中国科学技术信息研究所，北京 100038 （发表于《现代图书情报技术》2007年第10期）摘要在参考自然语言处理平台及知识抽取系统的系统结构的基础上，提出一个基于 NLP 的知识抽取系统的详细设计方案。自然语言处理过程包括分词、词性标注、句法分析、语义分析等八大模块，知识抽取过程包括论文类型分析、篇章结构分析、知识抽取、知识表示等四大模块。通过对基于 NLP 的知识抽取系统架构的研究，明确自然语言处理与知识抽取的关系，分析出知识抽取的系统流程及关键技术。全文：基于NLP的知识抽取系统架构研究

个人分类: 知识抽取|4813 次阅读|0 个评论

知识抽取中的停用词处理技术

huabolin 2008-10-24 13:13

知识抽取中的停用词处理技术化柏林 ( 中国科学技术信息研究所，北京 100038) （发表于《现代图书情报技术》2007年第8期）【摘要】在知识抽取的分词过程中，需要提前把停用词标引出来。停用词处理的关键在于停用词的认定、停用词表的获取与组织技术以及停用词匹配技术。停用词的识别常常需要停用词表，识别过程中需要判断假停用词以降低噪声。实验表明，对停用词进行单独处理可以大大加快词语切分速度以及后续的句法分析归约速度。知识抽取中的停用词处理技术

个人分类: 知识抽取|4567 次阅读|0 个评论

IEEE NLP-KE' 08之会议印象

timy 2008-10-22 00:40

2008年10月19-21日， NLP-KE2008会议在首都师范大学国际文化大厦召开。大会的主题报告有：MSRA 周明博士的利用统计方法生成中文对联，PtoPA公司的CEO Huang Shengyang的 Getting closer to the Human Being - Caiwa: a conversation agent platform upon natural language ，阿里巴巴Sun J博士的从Web上自动构建知识库，北京词网公司的张越的垂直搜索引擎中使用的NLP技术。 12个Session分别为：WSD1、WSD2、Speech Recognition、Lexical Information、Lexical Knowledge、Multple-words Expression、MT、IR、Semantics、Text Classification、Text Classification Summarization、Sentimental Emotion Analysis。大会主题发言中，基本上都是介绍工业界各自的产品。带有典型应用驱动性质的NLP技术，在Web信息处理中发挥的作用日益显现。我个人对后面两个报告比较感兴趣，因为这两个报告分别演示了知识资源（包括概念、概念与概念间的关系）在电子商务、垂直搜索领域中的应用，不但与大会主题（NLP和知识工程）很贴近，而且说明了知识组织的强大用途。传统的信息组织方式渐渐的已经不适应现在海量信息管理，因此，大家便提出知识组织，试图从内容和知识层面，对海量信息进行深度挖掘和组织。对于应用驱动型研究，工业界就是最好的实践者，而其面临的一些难题也许就是学术界应该去深入研究的话题。全程听了6个Session，给我感觉的总体感觉是：统计模型的继续流行、Google-like语料的广泛利用、语言资源的深入利用、领域知识的有效利用。前面两个其实应该可以合并，因为利用Google等搜索引擎抓过来的语料来进行处理，这个时候统计模型结合规则就开始工作了。有几个报告人都使用Wordnet、HowNet及一般词典资源。另外有几个报告人都建立了建立领域词典（如菜谱词典）或领域知识结构（如足球本体、中医本体等）。暂且先写这么多，等有时间细读感兴趣的文章后，到时再写。欢迎交流讨论。

个人分类: 同行交流|6548 次阅读|3 个评论

MetaMap程序是如何把生物医学文本有效地匹配到一体化医学语言系统的超级词表的

zilu85 2008-10-12 08:35

文摘：一体化医学语言系统（ UMLS ）是生物医学领域里面最大的词表，可以用在诸如年决策支持系统、病历管理、信息检索和数据挖掘之中。如何利用 UMLS 成为目前的重要话题。本文介绍了 MetaMap 程序是如何把生物医学的文本与 UMLS 中的超级词表（ MetaThesaurus ）相匹配，换言之，就是在生物医学文本中发现超级词表中的概念的方法。 MetaMap 使用知识密集型的方法：包括了符号、自然语言处理和计算语言学等技术。除了应用于信息检索和数据挖掘， MetaMap 是美国国立医学图书馆（ NLM ）的初步标引系统（ indexing initiative system ）的基础之一，这个标引系统应用于图书馆半自动和全自动的生物医学文献标引。概述目前，把自然语言的文本与生物医学知识库（包括 MeSH 词表和 UMLS ）进行匹配的技术得到了长足的发展，例如 MicroMeSH ， CHARTLINE CLARIT 等等。 MetaMap 的算法 MetaMap 是一个把生物医学文本与 UMLS 超级词表中的概念匹配起来的程序，该程序可以设置很多参数，这些参数用于控制 MetaMap 的输出以及内部运行（如单词变形的程度、是否忽略超级词表中含有常见词的字串，是否考虑字母的顺序等等）。 1 ．切分任一文本都被切分成简单的名词短语，这样就限定了下一步处理的范围，匹配的工作也更加易于管理。使用专家系统中的最小承诺切分器对文本进行浅显句法分析，对于在专家词典中没有唯一标签的单词，该切分器使用 Xerox 句子成分标签器标出句子结构（如名词、动词）。例如，对于 ocular complication of myasthenia gravis （重症肌无力的眼部并发症），切分器发现两个名词短语： ocular complication 和 of myasthenia gravis 经过简单的句法分析，将 ocular complication 分为，指明了 complication 是短语的中心部分（ head ），对于标为介词、连词、限定词的单词，以后的处理将忽略之。 2 ．产生变形体对于每一个短语，利用专家词典以及同义词补充数据库中的知识，产生这些短语的变形体。所谓变形体包括这个短语本身（称之为发源词）以及首字母缩写词、缩写词、同义词和词源变异词，这些词的组合，最后是词形和拼写变形体。其基本过程如下图所示（不包括词形变异计算和拼写变异计算，为了提高效率，这些计算最后进行）。对于 ocular 这个发源词的变形体产生如下图： Ocular{ ， 0=} Eye{ ,2=s} Eyes{ ,3=si} Optic{ ,4=ss} Ophthalmic{ ,4=ss} Ophthalmia{ ,7=ssd} Oculus{ ,3=4} Oculi{ ,4=di} 这些变形体按照其生成的过程按照树状结构排列，每一变形体后面跟着该变形体的词性，然后是对其与发源词的距离以及过程评分。例如，第一行 ocular （形容词）的距离评分为 0 ，过程为空（）。因为它本身就是发源词。同理，名词 ophthalmia 与发源词的距离为 7 ，其过程为 ssd ，即它是发源词 ocular 的同义词 eye 的同义词 ophthalmic 的词源变形。 3 ．检索候选词经过检索超级词表，检索到包含有至少一个变形体的候选字串集合，可以通过参数来控制此检索过程，如 stop_large_n 参数可以排除对超级词表中出现 2000 次以上的单字母变形体和出现 1000 次以上的双字母变形体。另外，如果可能的话，还可以通过使用特殊的小型索引来提高候选词检索的效率。 4 ．候选词的评价对每一个超级词表候选词的评价首先是计算出与输入的短语词相匹配的候选词，然后用 4 种指标的加权平均组成的语言学评价函数计算输入短语与候选词之间的匹配程度，这 4 种指标是：中心度（ centrality ），即包含中心词；变形情况（ variation ）：距离倒数的平均值；覆盖面（ coverage ）和内敛度（ cohesiveness ）。后两个指标用于测量候选词与文本的匹配程度和有多少个片段。最后按照匹配程度排列这些候选词。上面的例子中，短语 ocular complication 的 9 个候选词如下图所示。如果候选词不是表达该概念的优选词，用括号把优选词显示出来。需要注意的是，所有用户文本中 complication 相对应的候选词的评分都要比 ocular 的高，这是因为 complication 是短语的中心词。 5 ．建立匹配把含有短语中相连的各个部分的候选词组合起来，就完成了完整的匹配。完整匹配的强度计算与候选匹配的计算一样。评分最高的完整匹配代表了 MetaMap 对原始短语的最优的表达。也就是说，对于 ocular complication 短语，其最高评分的完整匹配是 ocular 与 complication 或者 ocular 与 complication specific to antepartum or postpartum 组合。对于 complication 匹配过程说明了 MetaMap 的最大问题，即含义模糊的问题。两个概念都含有 complication 字串， MetaMap 无法区分之。这个问题在下面一部分可以得到部分的解决。数据维护每一次 UMLS 改版， MetaMap 都要更新其数据库文件，包括预先计算变形词表、语义类型和 MeSH 树状结构号的信息，以及按照超级词表中含有的单词的字串索引。需要力量最多的就是创建单词索引文件。采用 4 种方式过滤超级词表中的文件（主要是 MRCON ）。（1）手工过滤超级词表中的少量字串会引起问题，需要在进行其它过滤前将其手工过滤掉。如数字、单个字母、特殊的例子如 periods for menstruation （月经期间）和含义模糊。幸运的是超级词表的设计者制定了可禁止的同义词的理念，即不能完整表达自己本身的字串或者缩写或者非正式的字串。超级词表中大多数可以导致出现问题的含义模糊都被标上可禁止字串。上面例子中提到的与 complication 匹配的 complication specific to antepartum or postpartum 就是因为没有被标上可禁止的例子。以后版本中会解决这个问题。（2）词汇过滤词汇过滤是最温和的过滤。就是去掉实际上与表示某一概念的字串相同的字串，造成实际上相同的字串的情况包括： ² 不必要的附加说明。 ² 超级词表多义词指示符 ² NEC/NOS 变异 ² 字法通用：如对有逗号的字串进行重排，除非字串好像是用连词或介词的存在而决定的。 ² 大小写变异。 ² 连字符变异。 ² 拥有词汇过滤就是根据上述标准对某一概念的所有字符串进行规范化，对每一组字串去掉其它的，仅保留一个字串。（3）类型过滤除了滤除可禁止同义词，还可以根据术语语义类型（ term type ， TTY ）排除一些术语。一般排除的类型包括缩写、过时的或某一种内部结构（如在 LOINC 中的实验检测描述， LOINC 是超级词表组成成分之一）。（4）句法过滤最后一种过滤是指一种对超级词表字串本身的切分程序。由于一般的 MetaMap 处理包括了对文本中发现的简单名词短语的匹配，超级词表字串如果过于复杂不见得达到较好的匹配。这样要把含有一个以上的简单短语的字串也去掉。由于合成短语（含有正常格式的介词短语）很容易处理，所以这样的合成短语不被去除。由于 MetaMap 既可用于高密度的语义处理，也可用于浏览，为此建立了三种不同过滤程度的数据模式： ² 严格模式：所有上述的三种过滤都用上。这种选择最适合准确度要求高的语义处理。严格模式包括英语超级词表（共 1 ， 339 ， 479 字串）中的 706 ， 593 （ 53% ）的字串。 ² 中度模式：包括了手工、词汇和类型过滤，但是没有句法过滤。这种方式适合将输入文本作为一个整体来看待而不是分为简单的短语。中度模式包括了 982 ， 447 个字串（ 73% ）。 ² 宽松模式：只有手工和词汇过滤，采用这种模式可以获得全部的超级词表的字串，适用于浏览。宽松模式包括了 1 ， 146 ， 962 （ 86% ）的超级词表字串。超级词表的可用资源：略。应用：略。

个人分类: 生物医学文本挖掘|13164 次阅读|1 个评论

从文本资源中建立医学本体的方法（节译）

zilu85 2008-9-30 23:15

医学领域里，人们普遍认可应该通过建立本体来开发无歧义的词表。本研究的目标是帮助肺病学专家对其诊断和治疗活动进行编码，用一个采用专业本体表现医学知识的软件。本文介绍了我们根据从文本中抽取术语建立医学本体的知识工程学的方法。将自然语言处理工具应用于病人出院小结的文本上开发出建立肺病学本体所必需的资源。结果表明，在建立此类本体上，将分布分析和词汇-句法模式结合使用可以达到令人满意的效果。引言近10年以来，法国公立医院一直相互交流其医疗活动的信息。对于每一个病人的信息可以通过病人的出院小结加以收集，每个病人的诊断采用国际疾病分类法归类。一般法国的编码过程都是由医生使用医学专业词表手工完成。这些词表是为了帮助医生对常用术语进行编码而编撰的，很明显这些根据词表编撰的编码工具不能准确地满足医生的需要。实际上，词表中存在着词汇含义模糊，词汇不全面等问题，其一致性和完整性的维护也是个问题。更严重的是，部分地由于词表的含义模糊性，编码上的不一致也成为众所周知的问题。因此，有文献提出自动化编码任务需要对医学条目的概念化组织，即把这些条目的含义应当写进本体内模型结构之中。本体就是一种正规的结构，其目标就是通过基本元素、概念，及其定义和相互关系的组织来表示特定的知识领域。我们认为开发本体资源会有助于开发高效能、可信度高的高级编码工具。目标我们认为，应当根据本体开发的目标来设计分类体系结果的分类标准。我们注意到目前还没有涵盖了肺病领域法语编码过程的本体。本研究的目标就是建立一个这样的本体。关于建立本体方法的报道很多，但是很少有详细介绍概念化的步骤的，就是获取和组织概念及其关系的过程。我们研究的主要限制是需要由知识工程师而不是直接由医生建立本体。对于知识工程师而言，主要的问题是辨别和分类某一领域的概念。我们应用了一种由文本驱动的方法并将文本报告作为信息的主要资源。用自然语言处理工具来分析语料。本文所采用的方法是以差异性语义规则（differential semantics principles）为基础的。我们研究的主要假设就是联合使用如下两种方法可以提高建立本体的效率：1）用分布分析来建立术语表资源的方法；2）观察那些表现所需要的关系的语料中的句子来识别语义关系的方法。首先，本文介绍了本研究中使用的材料和工具，然后在方法部分详细介绍了建立本体的各个步骤，结果部分介绍了对本体评价的统计学测量，本体专业覆盖面及其在辅助编码上的使用。最后，通过讨论本研究的收获得出作出结论。 http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1839277blobtype=pdf

个人分类: 生物信息学|4452 次阅读|0 个评论

机器学习与人工智能学习资源导引[zz]

timy 2008-9-16 18:00

转载于： http://bbs.byr.edu.cn/wForum/disparticle.php?boardName=PR_AIID=3229pos=12 我经常在 TopLanguage 讨论组上推荐一些书籍，也经常问里面的牛人们搜罗一些有关的资料，人工智能、机器学习、自然语言处理、知识发现（特别地，数据挖掘）、信息检索这些无疑是 CS 领域最好玩的分支了（也是互相紧密联系的），这里将最近有关机器学习和人工智能相关的一些学习资源归一个类：首先是两个非常棒的 Wikipedia 条目，我也算是 wikipedia 的重度用户了，学习一门东西的时候常常发现是始于 wikipedia 中间经过若干次 google ，然后止于某一本或几本著作。第一个是人工智能的历史（History of Artificial Intelligence），我在讨论组上写道：而今天看到的这篇文章是我在 wikipedia 浏览至今觉得最好的。文章名为《人工智能的历史》，顺着 AI 发展时间线娓娓道来，中间穿插无数牛人故事，且一波三折大气磅礴，可谓事实比想象更令人惊讶。人工智能始于哲学思辨，中间经历了一个没有心理学（尤其是认知神经科学的）的帮助的阶段，仅通过牛人对人类思维的外在表现的归纳、内省，以及数学工具进行探索，其间最令人激动的是 Herbert Simon （决策理论之父，诺奖，跨领域牛人）写的一个自动证明机，证明了罗素的数学原理中的二十几个定理，其中有一个定理比原书中的还要优雅，Simon 的程序用的是启发式搜索，因为公理系统中的证明可以简化为从条件到结论的树状搜索（但由于组合爆炸，所以必须使用启发式剪枝）。后来 Simon 又写了 GPS （General Problem Solver），据说能解决一些能良好形式化的问题，如汉诺塔。但说到底 Simon 的研究毕竟只触及了人类思维的一个很小很小的方面 Formal Logic，甚至更狭义一点 Deductive Reasoning （即不包含 Inductive Reasoning , Transductive Reasoning (俗称 analogic thinking）。还有诸多比如 Common Sense、Vision、尤其是最为复杂的 Language 、Consciousness 都还谜团未解。还有一个比较有趣的就是有人认为 AI 问题必须要以一个物理的 Body 为支撑，一个能够感受这个世界的物理规则的身体本身就是一个强大的信息来源，基于这个信息来源，人类能够自身与时俱进地总结所谓的 Common-Sense Knowledge （这个就是所谓的 Emboddied Mind 理论。），否则像一些老兄直接手动构建 Common-Sense Knowledge Base ，就很傻很天真了，须知人根据感知系统从自然界获取知识是一个动态的自动更新的系统，而手动构建常识库则无异于古老的 Expert System 的做法。当然，以上只总结了很小一部分我个人觉得比较有趣或新颖的，每个人看到的有趣的地方不一样，比如里面相当详细地介绍了神经网络理论的兴衰。所以我强烈建议你看自己一遍，别忘了里面链接到其他地方的链接。顺便一说，徐宥同学打算找时间把这个条目翻译出来，这是一个相当长的条目，看不动 E 文的等着看翻译吧:) 第二个则是人工智能（Artificial Intelligence）。当然，还有机器学习等等。从这些条目出发能够找到许多非常有用和靠谱的深入参考资料。然后是一些书籍书籍： 1. 《Programming Collective Intelligence》，近年出的入门好书，培养兴趣是最重要的一环，一上来看大部头很容易被吓走的:P 2. Peter Norvig 的《AI, Modern Approach 2nd》（无争议的领域经典）。 3. 《The Elements of Statistical Learning》，数学性比较强，可以做参考了。 4. 《Foundations of Statistical Natural Language Processing》，自然语言处理领域公认经典。 5. 《Data Mining, Concepts and Techniques》，华裔科学家写的书，相当深入浅出。 6. 《Managing Gigabytes》，信息检索好书。 7. 《Information Theory：Inference and Learning Algorithms》，参考书吧，比较深。相关数学基础（参考书，不适合拿来通读）： 1. 线性代数：这个参考书就不列了，很多。 2. 矩阵数学：《矩阵分析》，Roger Horn。矩阵分析领域无争议的经典。 3. 概率论与统计：《概率论及其应用》，威廉费勒。也是极牛的书，可数学味道太重，不适合做机器学习的。于是讨论组里的 Du Lei 同学推荐了《All Of Statistics》并说到机器学习这个方向，统计学也一样非常重要。推荐All of statistics，这是CMU的一本很简洁的教科书，注重概念，简化计算，简化与Machine Learning无关的概念和统计内容，可以说是很好的快速入门材料。 4. 最优化方法：《Nonlinear Programming, 2nd》非线性规划的参考书。《Convex Optimization》凸优化的参考书。此外还有一些书可以参考 wikipedia 上的最优化方法条目。要深入理解机器学习方法的技术细节很多时候（如SVM）需要最优化方法作为铺垫。王宁同学推荐了好几本书：《Machine Learning, Tom Michell》, 1997. 老书，牛人。现在看来内容并不算深，很多章节有点到为止的感觉，但是很适合新手（当然，不能新到连算法和概率都不知道）入门。比如决策树部分就很精彩，并且这几年没有特别大的进展，所以并不过时。另外，这本书算是对97年前数十年机器学习工作的大综述，参考文献列表极有价值。国内有翻译和影印版，不知道绝版否。《Modern Information Retrieval, Ricardo Baeza-Yates et al》. 1999 老书，牛人。貌似第一本完整讲述IR的书。可惜IR这些年进展迅猛，这本书略有些过时了。翻翻做参考还是不错的。另外，Ricardo同学现在是Yahoo Research for Europe and Latin Ameria的头头。《Pattern Classification (2ed)》, Richard O. Duda, Peter E. Hart, David G. Stork 大约也是01年左右的大块头，有影印版，彩色。没读完，但如果想深入学习ML和IR，前三章（介绍，贝叶斯学习，线性分类器）必修。还有些经典与我只有一面之缘，没有资格评价。另外还有两本小册子，论文集性质的，倒是讲到了了不少前沿和细节，诸如索引如何压缩之类。可惜忘了名字，又被我压在箱底，下次搬家前怕是难见天日了。（呵呵，想起来一本：《Mining the Web - Discovering Knowledge from Hypertext Data》）说一本名气很大的书：《Data Mining: Practical Machine Learning Tools and Techniques》。Weka 的作者写的。可惜内容一般。理论部分太单薄，而实践部分也很脱离实际。DM的入门书已经不少，这一本应该可以不看了。如果要学习了解 Weka ，看文档就好。第二版已经出了，没读过，不清楚。信息检索方面，Du Lei 同学再次推荐：信息检索方面的书现在建议看Stanford的那本《Introduction to Information Retrieval》，这书刚刚正式出版，内容当然up to date。另外信息检索第一大牛Croft老爷也正在写教科书，应该很快就要面世了。据说是非常pratical的一本书。对信息检索有兴趣的同学，强烈推荐翟成祥博士在北大的暑期学校课程，这里有全slides和阅读材料： http://net.pku.edu.cn/~course/cs410/schedule.html maximzhao 同学推荐了一本机器学习：加一本书：Bishop, 《Pattern Recognition and Machine Learning》. 没有影印的，但是网上能下到。经典中的经典。Pattern Classification 和这本书是两本必读之书。《Pattern Recognition and Machine Learning》是很新（07年），深入浅出，手不释卷。最后，关于人工智能方面（特别地，决策与判断），再推荐两本有意思的书，一本是《Simple Heuristics that Makes Us Smart》另一本是《Bounded Rationality: The Adaptive Toolbox》不同于计算机学界所采用的统计机器学习方法，这两本书更多地着眼于人类实际上所采用的认知方式，以下是我在讨论组上写的简介：这两本都是德国ABC研究小组（一个由计算机科学家、认知科学家、神经科学家、经济学家、数学家、统计学家等组成的跨学科研究团体）集体写的，都是引起领域内广泛关注的书，尤其是前一本，後一本则是对 Herbert Simon （决策科学之父，诺奖获得者）提出的人类理性模型的扩充研究），可以说是把什么是真正的人类智能这个问题提上了台面。核心思想是，我们的大脑根本不能做大量的统计计算，使用fancy的数学手法去解释和预测这个世界，而是通过简单而鲁棒的启发法来面对不确定的世界（比如第一本书中提到的两个后来非常著名的启发法：再认启发法（cognition heuristics）和选择最佳（Take the Best）。当然，这两本书并没有排斥统计方法就是了，数据量大的时候统计优势就出来了，而数据量小的时候统计方法就变得非常糟糕；人类简单的启发法则充分利用生态环境中的规律性（regularities），都做到计算复杂性小且鲁棒。关于第二本书的简介： 1. 谁是 Herbert Simon 2. 什么是 Bounded Rationality 3. 这本书讲啥的：我一直觉得人类的决策与判断是一个非常迷人的问题。这本书简单地说可以看作是《决策与判断》的更全面更理论的版本。系统且理论化地介绍人类决策与判断过程中的各种启发式方法（heuristics）及其利弊（为什么他们是最优化方法在信息不足情况下的快捷且鲁棒的逼近，以及为什么在一些情况下会带来糟糕的后果等，比如学过机器学习的都知道朴素贝叶斯方法在许多情况下往往并不比贝叶斯网络效果差，而且还速度快；比如多项式插值的维数越高越容易overfit，而基于低阶多项式的分段样条插值却被证明是一个非常鲁棒的方案）。在此提一个书中提到的例子，非常有意思：两个团队被派去设计一个能够在场上接住抛过来的棒球的机器人。第一组做了详细的数学分析，建立了一个相当复杂的抛物线近似模型（因为还要考虑空气阻力之类的原因，所以并非严格抛物线），用于计算球的落点，以便正确地接到球。显然这个方案耗资巨大，而且实际运算也需要时间，大家都知道生物的神经网络中生物电流传输只有百米每秒之内，所以 computational complexity 对于生物来说是个宝贵资源，所以这个方案虽然可行，但不够好。第二组则采访了真正的运动员，听取他们总结自己到底是如何接球的感受，然后他们做了这样一个机器人：这个机器人在球抛出的一开始一半路程啥也不做，等到比较近了才开始跑动，并在跑动中一直保持眼睛于球之间的视角不变，后者就保证了机器人的跑动路线一定会和球的轨迹有交点；整个过程中这个机器人只做非常粗糙的轨迹估算。体会一下你接球的时候是不是眼睛一直都盯着球，然后根据视线角度来调整跑动方向？实际上人类就是这么干的，这就是 heuristics 的力量。相对于偏向于心理学以及科普的《决策与判断》来说，这本书的理论性更强，引用文献也很多而经典，而且与人工智能和机器学习都有交叉，里面也有不少数学内容，全书由十几个章节构成，每个章节都是由不同的作者写的，类似于 paper 一样的，很严谨，也没啥废话，跟《Psychology of Problem Solving》类似。比较适合 geeks 阅读哈。另外，对理论的技术细节看不下去的也建议看看《决策与判断》这类书（以及像《别做正常的傻瓜》这样的傻瓜科普读本），对自己在生活中做决策有莫大的好处。人类决策与判断中使用了很多的 heuristics ，很不幸的是，其中许多都是在适应几十万年前的社会环境中建立起来的，并不适合于现代社会，所以了解这些思维中的缺点、盲点，对自己成为一个良好的决策者有很大的好处，而且这本身也是一个非常有趣的领域。（完）

个人分类: 自然语言处理|5218 次阅读|1 个评论

帐号		自动登录	找回密码
密码			注册

关闭安全验证

标签: 自然语言处理

相关帖子

相关日志

关闭 安全验证

标签: 自然语言处理

相关帖子

相关日志

关闭安全验证