科学网 › 标签 › 文本挖掘

标签: 文本挖掘

相关帖子	版块	作者	回复/查看	最后发表

没有相关内容

相关日志

言多必露，文本挖掘可以揭示背景信息: 热度 1 liwei999 2011-7-11 01:03; 言多必露，挖掘有商用价值的背景信息文本挖掘（text mining）中，Demographic Profile Extraction 的任务是要给网虫自动分类，揭示其背景信息（年龄，性别，身份，族裔，人生阶段，家庭背景等）。一些简单的规则，查准率高（high precision），查全率并不高(moderate recall)，譬如： I am　X -- X (student, teacher, engineer, etc) as X -- X (student, teacher, engineer, etc) 简单的　my+Y 型规则也很有意思： my pet/dog/cat/... -- pet owner my university/college -- college student (or employee) my daughter/son/kid/... -- parent 如此简单的信息抽取也可能很有效，原因是如今有的是数据：每个ID发言的全部档案都可以让系统过一遍，东方不亮西方亮。只要你是一个饶舌的网络活跃分子，除非你刻意隐瞒自己的身份，散布虚假信息（多数社会网络的网友不属于此类），你的背景信息迟早会暴露出来。所谓言多必露。与恶意人肉搜索不同，企业感兴趣的背景信息并不是针对任何ID本人，而是针对群体分类，着眼于商用价值。譬如，对于　pet　owner　类的网民，可以有针对性地投放广告，达到广告效应的最优化。同理，如果抽取出ID的身份或与其相关的重要生活事件（life events: e.g. graduation, marriage, child-birth, job-change, relocation, retirement），商业价值不言而喻。价值很大，可行性没大问题，这就是技术的力量。 Related post: 《立委科普：机器八卦》【置顶：立委科学网博客NLP博文一览（定期更新版）】; 个人分类: 立委科普|5503 次阅读|1 个评论

文本挖掘：预测未来的水晶球: 热度 1 meixianghao 2011-6-14 09:07; 文本挖掘：预测未来的水晶球未来十年，哪些技术会对我们的生活产生重大影响？近日，英国《新科学家》杂志遴选出了七项技术，并作了解读。今天我们介绍其中的第四项技术。从20世纪80年代开始，政治科学家Philip Tetlock就致力于从那些有远见卓识的人们那里搜集预言。他的关注对象主要是280位专家，他们大多是电视评论家或者政府顾问，能够就诸如中国崛起或中东安全等问题作出自己的预测。随着时间的流逝，Philip Tetlock会检查他们的预言是否已变为现实，其结果却往往令人沮丧。“那些花费了毕生时光研究世界发展态势的人，其预言的准确程度甚至还不如一只猴子投掷飞镖的命中率高。”一位对Tetlock的研究知情的人士这样评价。但是，现在出现了一种新型的强大的预测方法——“文本挖掘”，使得情况有了很大的不同。这项技术能够将网络上海量的信息汇集到一起，包括人们发表在博客上的各种评论、意见，以及贴在Facebook等社交网络上的各式言论等，对这些信息进行取样分析，从而获得对于世界局势的洞察力，并据此对世界的未来作出预测。研究者们还发明了一种对国民焦虑程度进行测量的方法，这种方法非常有效，足以提高对股票市场动向预测的准确度。还有人将谷歌搜索作为一种预测工具来使用。例如，他们搜索出的大量与工作有关的条目显示出失业率正在上升。这仅仅还只是个开端。目前有几家公司正致力于将整个互联网的信息一网打尽，分类存档后进行分析，以作出更加有力的预测。位于美国加州尔湾的WiseWindow公司，宣称他们正在监测Facebook以及其他社交网站上人们发表的超过7700万条评论。这家公司从这些浩如烟海的信息中搜寻数据，从中找到能够显示消费者意见的线索以及一些潜在的趋势。不少公司和制造商前来购买这些信息，将其视为打败竞争对手的制胜法宝。上述由公司作出的预测并没有经过深度检测，至少没有公开地被检测过。但是，如果人们能够证实这些由公司作出的预测，其准确度与专业人员在网民言论和词条搜索的基础上所作的研究同样成功有效，网络预测将会被大大地推进一步。这对于我们所有人来说都是一个好消息。比如说，利用它，政府如果能够更有效地控制经济趋势，他们或许能把经济衰退扼杀在萌芽状态：一个基于社交媒体的预测体系也许能对阻止2008年的金融危机有所帮助？现在做出这样一个大胆的判断可能还为时过早，但到目前为止网络预测所取得的成就显示，上述愿望并非不着边际的幻想。当然，任何事物都有不好的一面。如今，人们在博客上贴出的那些分享彼此想法的意见和言谈，早已变成了广告商的目标。不管喜不喜欢，事实上所有网民都已成了一个巨大的市场研究项目的组成部分。（郭勉愈/编译）《科学时报》 (2011-06-14 A3 技术经济); 个人分类: 技术与经济|4373 次阅读|1 个评论

[转载]姬东鸿——文本挖掘与本体构建: LuDoor 2011-1-8 08:56; 这是姬东鸿关于文本挖掘与本体构建讲座的ppt 姬东鸿文本挖掘与本体构建; 个人分类: 报告、讲座|6 次阅读|0 个评论

生于忧患，死于安乐: 热度 1 zilu85 2010-11-10 12:54; 【下面一段是我为某医学信息学期刊组织文本挖掘专栏时候写下的编者按，但是出于某种原因，该刊物没有发表这一段文字，看到很多人关注到了这个问题，就把它复制粘贴到这里吧】今天，网络飞速发展，电子资源日益丰富，专业人员可以方便地在家免费利用信息资源。在这种形势下，说图书情报部门存在着生存危机，绝不是危言耸听。在享受高科技给我们带来种种便利的同时，我们也感觉到来接受图书情报部门服务（如到图书馆阅览、借阅和复印）的读者越来越少了，也许有一天，图书馆真的会成为一个文化场所，而不再是信息交流和知识的宝库了。很多有识之士在探讨图书情报机构未来出路，从文献管理向信息管理再到知识管理的转型，是业内人士普遍看好的方向之一。为了能够在未来的知识管理活动中占得一席之地，信息管理专业人员应当尽早地学习和掌握与知识管理相关的技术，文本挖掘和知识发现就是我们可以选择的研究方向之一。本期发表了几篇利用文本挖掘和文献计量学方法挖掘知识和表现学科结构的论文，从中可以看到，文本挖掘和知识发现的技术比较容易掌握，相关的免费应用软件也比较多，有文献计量学作为基础，相信很多的同行都可以参与这个方向的研究，并做出优异的成果来。【因为是要在期刊上发表，上面的文字只是委婉地表达我的想法，在武汉参加第六届科学计量学与大学评价学术会议的时候，午餐的饭桌上我说出了同样的想法：即图书情报人员要有生存危机。来自台湾的一位专家则委婉地说太深沉了，我理解她的意思是说我的看法太消极了。不过会议结束的时候，蒋国华老师说现在谁还去图书馆谁是傻瓜，惹得很多人无奈地笑。我上大学的时候（1981-1986），曾看见图书馆的老师给临床的一位专家打电话，说我们这里来了一本外文原版书，我给你留下了，你来借吧。不一会儿，这位专家一路小跑过来，千恩万谢地办理借书手续、兴高采烈地捧着书走了。这样的好日子一去不复返了。 2008年，在某专业的课题论证会议上，大部分应该是情报人员做的课题，都给了这个专业的专家来做了，因为他们认为这种分析（如系统性综述）是他们专业人员的事儿，而来自专门的情报分析机构的人只能小声嘟囔：不懂情报，不懂情报。目睹此情此景，真有一种中国足球的感觉。我们本来守着金山，我们本来站在一片沃土上，我们又恰逢这个信息的时代，新技术层出不去，网络发达为信息获取和交流合作提供了极大的便利，我总是对我的学生说：在这个领域，随便挖上一锹都有可能遇到金子。如果有一天我们真的靠边站了，我们怪谁呢？】; 个人分类: 生物医学文本挖掘|4712 次阅读|2 个评论

在BICOMB中如何处理WOS中的关键词: zilu85 2010-8-24 11:44; 不知道WOS中这个DE字段算是什么，是关键词吗？怎么来的？没有仔细考证，曾经在WOS网页上粗略地找过字段描述，似乎没有找到确切的答案，但是很多人希望能统计分析这个在SCI数据库中唯一直接表示记录文本内容的标识。其实，分析这个内容标识符效果并不好，我发现在我检索的文献记录的集合中，至少有1/3的记录没有这个字段。如果非要处理的话，可以观察一下DE字段的格式：在下载后的文献记录中，DE字段是排成一行，中间用;分割的，BICOMB一般只能把分成不同行的同一字段算作来自于同一篇文章，比如： CF： asads regegfrfd 如果是： CF：asads；regegfrfd 就只能当做一条记录来处理，这样就不能统计同一字段两个条目的共同出现次数了。后来，我发现在CNKI格式中，对于《作者》字段可以处理这种排成一行的条目，所以，我可以用CNKI来处理WOS下载下来的数据，也就是说，在建立项目时候，采用CNKI格式，输入的待处理的记录则是来自于WOS的，偷梁换柱啊，只不过是把CNKI格式中《作者》项进行一下修改，把标识符，分隔符按照WOS记录中的情况设定好就可以了。需要说明的是，WOS中的DE字段很麻烦，一个是分隔符；后面有空格，这就使得软件处理后，很多DE词前面有空格，统计结果就不准了。还有，就是DE字段中，第一个DE的首字母大写，其余的首字母又小写。我的做法是在输入BIOCOMB之前，Editpad Lite（一个小文本处理软件）把所有的字母都变成大写，然后，把所有的；+空格替换为；（无空格）。当然，用写字板，记事本，都可以，word似乎有格式符号镶嵌在里面，不太适合。很多文献管理软件，比如noteexpress，endnot等等，都可以用于整理文献记录的格式，作为文本内容深入分析的预处理。; 个人分类: 休闲|11789 次阅读|3 个评论

[转载]文本挖掘软件Thomson Data Analyzer (简称TDA）网络培训: xupeiyang 2010-8-15 15:19; 许老师，您好：我司将在 8 月 27 日举行 TDA(Thomson data analyzer ，贵单位已经购买的产品 ) 的在线网络培训，期待您的和您的同事参加，如果条件允许，也欢迎您组织相关同事一起在会议室（培训教室）参加！另，此前一天， 8 月 26 日，我司举办 TI(Thomson Innovation) 的在线网络培训，也欢迎感兴趣的老师参加。 Thomson Innovation 集全球最全面的国际专利与业内最强大的知识产权分析工具（指 Aureka ）于一身，可提供全面、综合的内容，包括全球专利信息、科技文献以及著名的商业和新闻内容。凭借强大的分析和可视化工具， Thomson Innovation 允许用户快速、轻松地识别与其工作相关的信息，提供信息资源来帮助用户在知识产权和业务战略方面做出更快更准确的决策。详细介绍见附件 1 。附件 2 是在线培训的一个说明性文件，仅供参考！有任何问题，也可以和培训师联系， Celine Li ( 李惠美 ) ， 010-57601238 ， celine.li@thomsonreuters.com 详细通知 ( 请提前注册 ) 如下： Thomson data analyzer 主题： TDA basic training 主持人： Celine Li 日期： 2010 年 8 月 27 日（周五）时间： 1 4 :00~16:00, 中国时间（北京）注册： https://thomsonscientific.webex.com/thomsonscientific-sc/k2/j.php?ED=138648007UID=1005237562RT=NiM0NQ%3D%3DFM=1 内容介绍： Thomson Data Analyzer (TDA ），是一款具有强大分析功能的文本挖掘软件，可以对文本数据进行多角度的数据挖掘及可视化的全景分析。本次培训将重点介绍如何利用 TDA 进行数据清理与数据分析，以帮助您从大量的专利、科技文献中发现有价值的市场竞争情报和行业技术情报，帮助您洞察技术发展趋势、发现行业出现的新兴技术、寻找合作伙伴，以及为您的研究战略和发展提供有价值的情报信息。 Thomson Innovation 主题： Thomson Innovation overview training 主持人： Celine Li 日期： 2010 年 8 月 26 日（周四）时间： 1 4 : 3 0~16: 3 0, 中国时间（北京）注册： https://thomsonscientific.webex.com/thomsonscientific-sc/k2/j.php?ED=138606297UID=1005237342RT=NiM0NQ%3D%3DFM=1 内容介绍： Thomson Innovation 集全球最全面的国际专利与业内最强大的知识产权分析工具于一身，提供全面、综合的内容，包括专利信息、科技文献以及著名的商业和新闻信息。在本次培训课程中您将了解到如何在海量的专利数据信息中准确检索到有价值的信息？如何对已有专利进行分析以揭示专利背后的技术发展趋势？如何通过技术、专利预警来监测竞争对手最新的技术、市场动态？以及如何利用 Thomson Innovation 来建立企业内部技术文档以提高您的协同工作效率。宁笔 Bill Ning 汤森路透科技与医疗集团 Thomson Reuters 汤森路透私人有限公司北京代表处北京市海淀区科学院南路 2 号融科资讯中心 C 座南楼 1211-1212 单元 , 100190 电话 :86 10 57601237 手机 : 86 13910787842 传真 : 86 10 82862088 bill.ning@thomsonreuters.com www.thomsonreuters.com scientific.thomsonreuters.com www.thomsonscientific.com.cn This email is for the sole use of the intended recipient and contains information that may be privileged and/or confidential. If you are not an intended recipient, please notify the sender by return email and delete this email and any attachments.; 个人分类: 信息分析|9019 次阅读|0 个评论

至今才悟到的一些基本问题: zilu85 2010-6-30 12:00; 拜读武夷山老师的博文《科学计量学、科学史和情报学的历史联系》，勾起了我对学科之间关系的兴趣，于是禁不住把自己的想法也一吐为快。呵呵，不怕您笑话，这么简单的问题，我到今天才考虑出来点眉目。无论是信息计量学，文献计量学，还是科学计量学，其主要活动就是数数，掰手指头或者打算盘都行。从命名的原则上讲，信息、文献是数数的对象，而科学则是说这种计数活动的应用对象。这样一想，其实本身是一个活动（计数）的两个方面，如同小姑娘总要在不同场合穿不同的衣裳。尽管文献计量学历史悠久一些，信息计量学和科学计量学提出的似乎晚一点；尽管有着三大定律（洛特卡、布拉德福、齐夫）和两大规律（增长和老化），以及引文分析，看着似乎很繁杂，但是，从应用的角度考虑，我个人认为文献计量学能解决的无外乎两件事：（1）科学结构的分析，某个专题领域的研究主题，无论是用论文的同被引分析，还是主题词/关键词的共词聚类分析，还是作者同被引分析，甚至引文年代分布，都是通过对文献计数的方法展现科学研究活动的基本状况的，这当然属于科学计量学的了。（2）绩效评价：科研单位和个人乃至国家的科研活动成果评价，比如发表文献量，被引用数量，当然可以扩大到国家层次上，也可以缩小到期刊水平上，这些研究不是科学计量学又是什么呢？所以，从应用对象而言，文献计量学就是科学计量学的一个组成部分，甚至可以说文献计量学仍然是科学计量学到目前为止的主要的研究手段。如果深入一点儿，不是以整篇文章作为计数单位，比如从文章中抽取出来主题词，或者概念，或者知识，以及这些东东直接的关系，那就可以说是信息计量学了，只不过进展不大，后来又被数据挖掘所侵占了。这就又涉及到了文本挖掘的问题了，我一直也困扰，从1986年，在武汉大学听邱均平老师的第一堂课开始，我一直从事文献计量学的研究，这些年来改称自己研究的领域是数据挖掘和知识发现，其实有赶时髦的嫌疑，自己心里也嘀咕，自己所研究的还不就是文献计量学那一套吗？虽然我对数据挖掘的定义、文本挖掘的主要任务，乃至文本挖掘在生物医学领域的主要研究方向达到倒背如流（主要是为了讲课用），但是，心里还是害怕别人问这个问题的。后来，一个具体的例子让我对二者的区别有了些许的领悟。一个难缠的学生，给我提出这样一个问题：影响健康公平研究的主要外因有哪些？希望我用情报学的方法来解决之。我最初自然的联想就是找到有关于健康公平的文献，抽取其中概念以及概念间的联系，形成一个规则或者模板，然后返回到大的文献集合中，找到答案。结果发现，得到的是影响健康公平的因素，而不是影响健康公平研究的因素。这就是文献计量学和文本挖掘的分别：寻找影响健康公平研究的因素，实际上是文献计量学或者科学计量学的任务，是对一个学科发展状况的分析，所以还是要从文献计量学中寻找办法；寻找影响健康公平的因素，则是文本挖掘的任务，如同目前在生物信息学领域大量出现的论文中涉及到的蛋白间作用，基因与疾病关系等等一样的（这个基因能引起哪些疾病？）。我也做过阿司匹林有哪些副作用的分析，只是那时候对学科间的关系还是稀里糊涂的。最后，重温一下生物医学领域的文本挖掘的主要任务： 2005年，Aaron M. Cohen and William R. Hersh. A survey of current work in biomedical text mining. BRIEFINGS IN BIOINFORMATICS. VOL 6. NO 1. 5771. MARCH 2005 （1）命名实体识别（Named Entity Recognition ）：识别出文献集中某一种事物的各种名称，比如某一组期刊论文中所有的药物名，一组MEDLINE文摘中基因名称和符号。（2）文本分类(Text classification)：自动判别一篇文献是否具有某种特性，一般是指该文献是否讨论某一个主题或者含有特定类型的信息。（3）同义词或者缩略语抽取（Synonym and abbreviation extraction）：主要是未发现的基因名称同义词或者缩略语的抽取。（4）关系抽取（Relationship extraction）：发现特定一对实体之间有某种预先设定好的关系，比如基因，蛋白或者药物之间的各种生物医学关系或者特定的某种关系（如调控关系）。（5）形成假说（Hypothesis generation）：基于Swanson的非相关互补文献的发现。（6）集成系统平台（Integration frameworks）：TXTGate，PubMatrix，Textpresso等。 2007 年， Pierre Zweigenbaum ， Dina Demner-Fushman ， Hong Yu ， Kevin B. Cohen. Frontiers of biomedical text mining: current progress. Brief Bioinform . 2007 September ; 8(5): 358375. （1）从文本中抽取事实（EXTRACTING FACTS FROM TEXTS）（1.1）识别命名实体（Named entity recognition）（1.2）确认生物医学实体关系（Identifying relations between biomedical entities）（2）基于信息抽取的研究（BEYOND INFORMATION EXTRACTION）（2.1）总结（Summarization）：自动总结文本的内容，确认一篇或者多篇论文的最重要的内容，并简洁规范地表示之。（2.2）处理非文本资料（Processing non-textual material）：用图像分析技术和自然语言处理技术来分析图表以及图表相关的文字，或者处理特殊类型的文字，比如化合物。（2.3）回答问题（Question answering）：高精度的文献检索，给出简短的回答，提供支持材料和链接。（2.4）基于文献的发现（Literature-based discovery）：还是Swanson的研究。（3）评估系统和面向用户的系统（ASSESSMENT AND USER-FOCUSED SYSTEMS）（3.1）注释文本集和大规模评价（Annotated text collections and large-scale evaluation）：用于评价文本挖掘系统的语料库等等。（3.2）了解用户需求（Understanding user needs）：在系统开发过程中考虑到用户需求、行为以及与系统工具的相互作用，以此来判断生物医学信息学服务和工具是否必须和有用。比如对FlyBase数据库的开发中就利用了对用户行为的观察和用户反馈信息。通过对上面的两篇文章的分析汇总，我们大致可以归纳出，在生物医学领域，文本挖掘主要内容就是（1）文本挖掘的基本技术，如命名实体识别和关系抽取；（2）以文本挖掘基本技术为基础，开展的应用性的研究；（3）有关系统的开发和评价研究。对了，下面是一个文本挖掘的入门读物，很简单，有兴趣的同行可以看看： K. Bretonnel Cohen, Lawrence Hunter Getting Started in Text Mining.PLoS Computational Biology, 2008,4( 1): e20.( www.ploscompbiol.org ); 个人分类: 生物医学文献计量学|6322 次阅读|5 个评论

东京大学辻井润一教授访问我所 4月19日: xupeiyang 2010-4-20 09:06; 2010 年 4 月 19 日，日本东京大学辻井润一教授、中国科学技术信息研究所王惠临研究员访问所馆，所馆 20 多名科研人员参加了本次学术交流活动。辻井润一博士是东京大学情报理工学系教授，同时在英国曼彻斯特大学、英国国家文本挖掘中心从事研究工作，并与微软亚洲研究院在生物医学文本挖掘及自然语言领域有着广泛的合作。此次访问，辻井润一教授做了题为《 Deep parsing and Semantic search － Applications for the biomedical domain 》的学术报告，介绍了自然语言处理、语义检索及生物医学文本挖掘领域的研究进展。所馆相关部门科研人员与辻井润一博士进行了深入交流，并就生物医学文本挖掘、语义检索等领域开展研究与合作进行了探讨。; 个人分类: 热点前沿|2026 次阅读|1 个评论

[转载]CFP: 第六届全国信息检索学术会议(CCIR 2010): timy 2010-4-9 10:40; http://ir.hit.edu.cn/ccir2010/index.php 第六届全国信息检索学术会议CCIR 2010 中国中文信息学会信息检索学术会议原全国信息检索与内容安全学术会议哈尔滨工业大学信息检索研究中心承办征文通知为促进国内信息检索和内容安全技术的研究和应用，加强同行间的学术交流与合作，中国中文信息学会信息检索与内容安全专业委员会拟定于2010年8月13~15日在哈尔滨召开第六届全国信息检索学术会议。本次会议由中国中文信息学会信息检索主办，哈尔滨工业大学信息检索研究中心承办。会议论文的工作语言为中文，但可接受英文论文。会议向全国征集有关大规模文本计算、信息检索与信息挖掘方面的论文。征文要求论文须未公开发表过，全文不超过8000字，每篇论文均应有中英文两种文字标题、作者、姓名、单位、电子邮件和不超过300字的摘要，具体格式参见论文模板(下载模板，或从左边相关下载菜单处下载)。所有录用论文将以专门的论文集形式出版。会议被录用论文的1/3以上论文（中文论文）推荐到《中文信息学报》、《计算机研究与发展》、《计算机学报》、《上海交通大学学报》、《哈尔滨工业大学学报》、《模式识别与人工智能》、《智能系统学报》等期刊的正刊上发表。其余的论文将全部收录到中文核心期刊《微型电脑应用》的增刊中。会议还将评出5篇左右的优秀学生论文。投稿方式：直接登录会议网站 http://ir.hit.edu.cn/ccir2010/ 上传论文。时间表发征稿通知：4月9日论文截止日期：6月9日审稿通知日期：7月9日会议报到：8月12日开会日期：8月13日-15日征文范围论文包括但不限于以下内容： 1. 信息检索及文本挖掘的模型、算法及基础理论； 2. 大规模信息搜索系统的体系架构、性能、可扩展性等问题研究； 3. 信息检索评价测试集、评价方法和标准、实验设计、数据收集和分析； 4. 交互式检索、用户界面和可视化、用户模型及分析、基于任务的信息检索； 5. WEB信息检索、企业搜索、应用和链接分析、 Adversarial IR； 6. 分布式信息检索、信息融合； 7. 数字图书馆； 8. 跨语言和多语言信息检索、面向信息检索的机器翻译技术； 9. 视频、图象、语音、声音、音乐等多媒体的检索； 10 .文本挖掘、文本分类、文本聚类、倾向性分析及相关的机器学习方法； 11. 文本过滤、协同过滤、主题检测和跟踪、人物跟踪； 12. 自动文摘、文本综述、信息抽取； 13. 基于文本知识库的问答系统、问答式检索； 14. 面向信息安全、情报分析领域的信息内容处理技术、系统及应用； 15. 个性化、社会化信息检索技术与基于隐私保护的信息处理技术； 16. 移动应用。会议网站 http://ir.hit.edu.cn/ccir2010 会议联系方式刘挺（总负责）电话：0451-86413683-801 E-mail： tliu@ir.hit.edu.cn 秦兵（会议组织）电话：0451-86413683-809 E-mail： qbin@ir.hit.edu.cn 李冰（咨询）电话：0451-86413683-800 E-mail： bli@ir.hit.edu.cn; 个人分类: 研究方法|4323 次阅读|2 个评论

使用Web指纹研究网络仇恨: limer 2010-3-12 22:22; 前面有两篇博文都介绍了陈炘钧博士，今天再转载他一个旧新闻，以及他最新的一个研究论文： A focused crawler for Dark Web forums（面向黑暗网络论坛定向爬虫）来自 http://www3.interscience.wiley.com/journal/123319793/abstract 目前，互联网仇恨和煽动性言论的确是一个世界性问题，利用互联网监测这些特殊言论有利于政府管理、决策与行动，这是情报分析的重点应用领域。以下内容转载自新华网 http://news.xinhuanet.com/overseas/2008-10/01/content_10138080.htm 据加拿大《明报》报道，一名美国华裔互联网专家提出崭新概念，将互联网上的匿名仇恨言词转为网络指纹，协助追踪这些仇恨言词的来源，达到互联网反恐的目的。一年一度的国际网络空间警务大会(Policing Cyberspace International Conference)在加拿大温哥华市中心展开，主办单位特地邀请该名华裔专家陈炘钧主持专题演讲，与近百名来自各国的互联网安全专家一同讨论，设法防范已经渗透至线上游戏的互联网仇恨及恐怖主义言论。美国亚利桑那大学人工智能实验室主任陈炘钧，9月29日早上在大会上演示文稿他所主持的黑网计划(Dark Web Project)时表示，许多有政治诉求的组织皆在网上宣传其政治理念，许多恐怖主义分子便藏身其中，在网上散播仇恨观念。执法单位必须要能厘清这些人在互联网背后的真实身份，才能阻止恐怖主义通过互联网蔓延。我是在帮互联网用户制作指纹。陈炘钧解释，黑网计划是收集互联网上涉及恐怖主义及仇恨的论坛留言、视频或是网站文字，以先进的超级计算机分析其用字遣词、语调、文法习惯等特征，再将这些特征数据化，绘制成特别的图谱。他说，这些图谱便是互联网活跃人士的指纹，就算这些人使用假网络帐号让执法单位难以追踪，但通过这个图谱也能锁定这些仇恨言论的来源。陈炘钧透露，通过这种方法来锁定互联网仇恨言论的作者，准确度高达92%至95%。但他强调，由于涉及到公民自由的问题，有关确认仇恨言论作者的真实身份，则需要执法部门和情报分析人员跟进。 29日开始为期两天的国际网络空间警务大会，主要讨论互联网安全及反恐。与会人士除了加国互联网安全专家外，还包括美国特务局(Secret Service)、联邦调查局(FBI)、泰国警方，及英国、南非和韩国的互联网保安专家。而微软(Microsoft)以及美国迪士尼(Walt Disney)等公司，也派出专人与会，交流互联网保安的心得。卑诗律政厅长欧博理(Wally Oppal)表示，互联网犯罪日益猖獗，特别是互联网诈骗导致的身份盗窃罪案，已经让270万名加拿大人受害。但这类案件中，骗徒可能与受害人分别身处不同的国家，因此由哪一国来起诉，以及依循哪一国的法令，则是一个很大的问题。（中新网10月1日电）; 个人分类: 生活点滴|3583 次阅读|0 个评论

新书推荐：情报检索语言与智能信息处理丛书: timy 2010-3-9 10:20; 2009年底东南大学出版社出版了一套情报检索语言与智能信息处理丛书，该丛书由南京农业大学信息管理系侯汉清教授主编，涉及情报检索与智能信息处理相关话题，丛书共分8本书，分别为： (1) 薛春香著《网络环境下知识组织系统构建与应用研究》; (2) 陆勇著《面向信息检索的汉语同义词自动识别》; (3) 杜慧平、仲云云著《自然语言叙词表自动构建研究》; (4) 章成志、白振田著《文本自动标引与自动分类研究》; (5) 张雪英著《情报检索语言的兼容转换》; (6) 刘华梅、戴剑波著《受控词表的互操作研究》; (7) 何琳著《领域本体的半自动构建及检索研究》; (8) 李运景著《基于引文分析可视化的知识图谱构建研究》。这8本书基本上是从情报学角度，结合计算机科学、语言学等多学科方法，进行某一具体问题的研究，对信息检索、信息组织、文本挖掘等方面的研究者和爱好者可能有一定帮助。感兴趣的读者，可以点击相应链接查看内容简介和章节目录。情报检索语言与智能信息处理丛书目录： http://press.seu.edu.cn/book.search.php?code=978-7-5641-1913-3; 个人分类: 研究方法|5305 次阅读|2 个评论

计算机情感分析的价值: 热度 1 limer 2010-2-16 17:21; 情感分析是近几年来计算机科学领域的新兴热点，就本质上来说它还是一个文本挖掘研究。目前，就我看到的情感分析往往是针对某一个特定的评价对象，利用社会性媒体上（BBS、论坛、博客、新闻、SNS）的文本信息进行积极、消极和中立性评价，并给出一个综合性的评价结果，常常以三者的比例出现。如果做的更细一点就是将评论人进行按地区、年龄、工作等人口属性进行分类，或者按照事物属性进行更详细更多维度的评价，这样的挖掘结果无疑符合营销管理的需求。可问题是，这样的比例式结果到底有多大用处，是否有实用价值，我的疑问来自四个方面，或者说情感分析要走向实用还需过四关：第一关：情感分析通常是基于海量数据的，这似乎可以保障评价的客观性，问题是单个用户对某一特定事物的评价常常是依赖于不完全信息的，情报学的透视原理告诉我们海量数据比一定数量的抽样数据提供更多信息。事实上，我们对某一事物的评价完全可以通过少量关键信息获得，所以海量数据的采集是否有必要呢？如果你说海量数据采集成本不大，甚至完全可以忽略，好，这一关可以通过，对于不那么智能的计算机来说，数据多点总比数据少点更好，输出的结果更令人可信。第二关：情感分析的数据多来自社会性媒体，如BBS和论坛，这样的数据源内有很多噪音和虚假信息，很多利益相关人会开展社会性媒体营销，就是利用人工大规模发布虚假信息，也就是很多托，这些托们发表的评论数据显然会干扰最后的挖掘结果，并使其失去意义。这一关并不好过，在使用数据以前，你必须进行数据清洗，去除那些虚假信息，这并不容易。事实上，有些帖子的内容真假难辨，连大活人都经常被忽悠。如果你说，没问题，从整体上看虚假信息不会对最后的整体结果产生颠覆性影响，ok，你放弃了结果的精确性，这一关也可以过。第3关：情感分析的结果只有三面，这一形式过于简单，人类的情感何其复杂，仅仅利用消极、积极和中立三面难于概括人类的丰富而真实的情感，所以情感分析的结果对决策者到底有多大影响还很难说，这一方面的实证研究极其缺乏。也许你说，三种态度虽然简单，但基本上可以代表了人类的态度信息，好，你对此问题进行模糊处理，这一关也可以勉强通过。第4关：情感分析的结果多是静态的，而人类的态度是动态的，经常因为最新的消息和即时感受而发生改变，而这一改变不一定会进一步显示到互联网上，所以互联网挖掘的结果常常是跨时空的，这样的结果缺乏动态性所以其价值就大打折扣。也许你说可以区分意见发表时间，可问题是当初发表意见那波人不一定是现在发表意见那波人，从统计机制上看，结果仍存在瑕疵。好了，这四关要全部通过并不容易，每一关都可能导致情感分析结果意义丧失。当然，情感分析毕竟还处于幼儿阶段，它还有很大的改进空间，以上四个问题并非完全不可克服，嵌入语义、加入时间维度、识别并去除噪音都是可以努力和完善的地方。; 个人分类: 生活点滴|7595 次阅读|1 个评论

试一试，把citeSpace 再说明白些: 热度 3 zilu85 2010-1-22 17:13; 【博主按】这是我编写的一部教材中对CiteSpace的介绍，估计这一次我是把这个东西想明白了，就是不知道能不能说明白。请各位赐教。 CiteSpace ：由美国德雷赛尔大学信息科学与技术学院的陈超美开发。该程序可以登录到cluster.cis.drexel.edu/~cchen/citespace后免费使用。如何表现一个研究领域？CiteSpace的开发者陈超美认为：可以用研究前沿和知识基础随着时间相对应地变化情况来表示一个研究领域的状况。研究前沿（Research Fronts）：在CiteSpace中，采用一种突发词检测算法来确定研究前沿中的概念，基本原理就是统计相关领域论文的标题和摘要中词汇频率，根据这些词汇的增长率来确定哪些是研究前沿的热点词汇。根据这些术语在同一篇文章中共同出现的情况进行聚类分析后，可以得到研究前沿术语的共现网络。因此，研究前沿系指临时形成的某个研究课题及其基础研究问题的概念组合，也是正在兴起或突然涌现的理论趋势和新主题，代表一个研究领域的思想现状。研究前沿的知识基础（Intellective Base）：即含有研究前沿的术语词汇的文章的引文，实际上它们反映的是研究前沿中的概念在科学文献中的吸收利用知识的情况。对这些引文也可以通过它们同时被其他论文引用的情况进行聚类分析，这就是同被引聚类分析（co-citation cluster analysis），最后形成了一组被研究前沿所引用的科学出版物的演进网络，即知识基础文章的同被引网络。因此上，CiteSpace就是利用三个网络（研究前沿术语的共现，知识基础文章的同被引和研究前沿术语引用知识基础文章）随着时间演变的情况来寻找研究热点及趋势，并以可视化的方式展示出来。具体做法包括：首先，下载相关文献，用户可以从Web of Science中检索并以固定格式下载某一主题的文献记录，主要包括作者、题目、摘要和文献的引文等字段，将检索到的文献记录输入到系统之后，系统会生成对文章标题、文摘和描述词的频率统计，然后设置参数，如确定要分析领域的总的时间段范围和分割后每一个时间片段的长度等；运行系统后会得到研究前沿术语的共现网络，知识基础文章的同被引网络和研究前沿术语引用知识基础文章网络三种可视化的结果。; 个人分类: 生物医学文本挖掘|28162 次阅读|6 个评论

国外专利文本挖掘可视化工具研究（刚发表的文章）: xupeiyang 2009-12-30 11:19; 本文发表在《图书情报工作》2009年53卷24期：86 - 90页国外专利文本挖掘可视化工具研究王敏李海存许培扬中国医学科学院医学信息研究所摘要：本文首先简要介绍专利信息分析概念以及开展专利信息分析的一般流程，其次概述专利分析工具可实现的主要功能；然后根据专利分析软件可分析的数据源，将分析工具分为非结构化数据分析工具、结构化数据分析工具和混合型数据分析工具三大类，进而对国外常用的 13 种专利文本挖掘可视化分析工具进行系统介绍和比较；最后对专利分析工具应用及其发展提出建议。关键词：文本挖掘可视化工具专利分析竞争情报 Foreign Text mining and data visualization tools in patent information analysis Wang min, Li Haicun, Xu Peiyang Abstract: This article starts with an introduction of the definition of patent information analysis and its process, and then summarizes the main function of patent analysis tools. The main part in this article is to provide a detailed overview and comparison of thirteen foreign text mining and data visualization tools in patent information analysis, which can be classified into structured analysis tools, unstructured analysis tools and hybrid analysis tools according to different types of data sources. Finally, the article gives some suggestions as to the application and development of patent information analysis tools. Keywords : text mining; data visualization tools; patent information analysis; Competitive intelligence 中国医学科学院医学信息研究所中央级公益性基本科研业务费专项资助课题名称：信息可视化在医学信息分析中的应用研究(编号CR2009029) 全文见附件：国外专利文本挖掘可视化工具研究; 个人分类: 信息分析|2325 次阅读|0 个评论

2009-4-21-科学计量学-科学计量学研究进展2: junpengyuan 2009-4-27 11:21; 本次课程是本门课最后一次课程，主要介绍文本挖掘中的聚类、关联规则一些经典算法的原理，还有就是科学计量学在科技评价中的应用简介，具体的应用可以参加我们主编的一本图书：潘云涛 . 科技评价理论、方法及实证 . 科技文献出版社课件请见： http://www.uushare.com/user/felixyuan/file/1541332 总结一下，所有的课件： http://www.sciencenet.cn/m/ user_content.aspx?id=215554 http://www.sciencenet.cn/m/ user_content.aspx?id=217243 http://www.sciencenet.cn/m/ user_content.aspx?id=217913 http://www.sciencenet.cn/m/ user_content.aspx?id=219072 http://www.sciencenet.cn/m/ user_content.aspx?id=220779 http://www.sciencenet.cn/m/ user_content.aspx?id=222110 http://www.sciencenet.cn/m/ user_content.aspx?id=228456 http://www.sciencenet.cn/m/ user_content.aspx?id=225996 http://www.sciencenet.cn/m/ user_content.aspx?id=228463; 个人分类: 科学计量|3482 次阅读|1 个评论

2009-4-14-科学计量学课件--科学计量学研究进展: junpengyuan 2009-4-13 23:48; 本节课主要介绍科学计量学最近的研究进展，包括科学知识图谱、网络信息计量学、内容分析法、文本挖掘等。重点在科学知识图谱和文本挖掘。本节主要是向大家介绍一些新的方法和思路，如果大家有兴趣，可以深入钻研下去，也是不错的研究方向。 PPT还是在网盘： http://www.uushare.com/user/felixyuan/file/1496398; 个人分类: 科学计量|3304 次阅读|0 个评论

利用本体为基础的文本挖掘方法从MEDLINE文摘中抽取生物学关系抽取并应答查询: zilu85 2008-10-14 02:14; 生物学文本数据存储量的急剧增长使得造成了人类方便有效地获取所需信息上的困难。问题的出现是由于大多数信息都隐含在无结构或者半结构的文本中，这些文本计算机无法轻易地理解。本文介绍了一个基于本体的生物学信息抽取与查询应答系统（ Biological Information Extraction and Query Answering ， BIEQA ），该系统首先通过对一组存储在生物学本体中的概念进行文本挖掘，然后应用自然语言处理技术和共现分析技术挖掘出概念间可能的生物学关系。系统用文本挖掘方法将每一对生物学概念间频繁出现的生物学关系抽取出来。挖掘出来的关系都标有成员隶属程度的模糊值，该值等于该关系出现频次占整个文献集合中关系频次的比例，称作模糊生物学关系。把从文本集合中抽取出来的模糊生物学关系与其他诸如关系中出现的生物学条目等相关信息存储于数据库中。数据库与问询处理模型集成在一起。查询处理模型带有界面，指导用户生成不同精确度的正规检索策略。 Biological relation extraction and query answering from MEDLINE abstracts using ontology-based text mining Muhammad Abulaish and Lipika Dey Data Knowledge Engineering Volume 61, Issue 2 , May 2007, Pages 228-262; 个人分类: 生物医学文本挖掘|4805 次阅读|1 个评论

MetaMap程序是如何把生物医学文本有效地匹配到一体化医学语言系统的超级词表的: zilu85 2008-10-12 08:35; 文摘：一体化医学语言系统（ UMLS ）是生物医学领域里面最大的词表，可以用在诸如年决策支持系统、病历管理、信息检索和数据挖掘之中。如何利用 UMLS 成为目前的重要话题。本文介绍了 MetaMap 程序是如何把生物医学的文本与 UMLS 中的超级词表（ MetaThesaurus ）相匹配，换言之，就是在生物医学文本中发现超级词表中的概念的方法。 MetaMap 使用知识密集型的方法：包括了符号、自然语言处理和计算语言学等技术。除了应用于信息检索和数据挖掘， MetaMap 是美国国立医学图书馆（ NLM ）的初步标引系统（ indexing initiative system ）的基础之一，这个标引系统应用于图书馆半自动和全自动的生物医学文献标引。概述目前，把自然语言的文本与生物医学知识库（包括 MeSH 词表和 UMLS ）进行匹配的技术得到了长足的发展，例如 MicroMeSH ， CHARTLINE CLARIT 等等。 MetaMap 的算法 MetaMap 是一个把生物医学文本与 UMLS 超级词表中的概念匹配起来的程序，该程序可以设置很多参数，这些参数用于控制 MetaMap 的输出以及内部运行（如单词变形的程度、是否忽略超级词表中含有常见词的字串，是否考虑字母的顺序等等）。 1 ．切分任一文本都被切分成简单的名词短语，这样就限定了下一步处理的范围，匹配的工作也更加易于管理。使用专家系统中的最小承诺切分器对文本进行浅显句法分析，对于在专家词典中没有唯一标签的单词，该切分器使用 Xerox 句子成分标签器标出句子结构（如名词、动词）。例如，对于 ocular complication of myasthenia gravis （重症肌无力的眼部并发症），切分器发现两个名词短语： ocular complication 和 of myasthenia gravis 经过简单的句法分析，将 ocular complication 分为，指明了 complication 是短语的中心部分（ head ），对于标为介词、连词、限定词的单词，以后的处理将忽略之。 2 ．产生变形体对于每一个短语，利用专家词典以及同义词补充数据库中的知识，产生这些短语的变形体。所谓变形体包括这个短语本身（称之为发源词）以及首字母缩写词、缩写词、同义词和词源变异词，这些词的组合，最后是词形和拼写变形体。其基本过程如下图所示（不包括词形变异计算和拼写变异计算，为了提高效率，这些计算最后进行）。对于 ocular 这个发源词的变形体产生如下图： Ocular{ ， 0=} Eye{ ,2=s} Eyes{ ,3=si} Optic{ ,4=ss} Ophthalmic{ ,4=ss} Ophthalmia{ ,7=ssd} Oculus{ ,3=4} Oculi{ ,4=di} 这些变形体按照其生成的过程按照树状结构排列，每一变形体后面跟着该变形体的词性，然后是对其与发源词的距离以及过程评分。例如，第一行 ocular （形容词）的距离评分为 0 ，过程为空（）。因为它本身就是发源词。同理，名词 ophthalmia 与发源词的距离为 7 ，其过程为 ssd ，即它是发源词 ocular 的同义词 eye 的同义词 ophthalmic 的词源变形。 3 ．检索候选词经过检索超级词表，检索到包含有至少一个变形体的候选字串集合，可以通过参数来控制此检索过程，如 stop_large_n 参数可以排除对超级词表中出现 2000 次以上的单字母变形体和出现 1000 次以上的双字母变形体。另外，如果可能的话，还可以通过使用特殊的小型索引来提高候选词检索的效率。 4 ．候选词的评价对每一个超级词表候选词的评价首先是计算出与输入的短语词相匹配的候选词，然后用 4 种指标的加权平均组成的语言学评价函数计算输入短语与候选词之间的匹配程度，这 4 种指标是：中心度（ centrality ），即包含中心词；变形情况（ variation ）：距离倒数的平均值；覆盖面（ coverage ）和内敛度（ cohesiveness ）。后两个指标用于测量候选词与文本的匹配程度和有多少个片段。最后按照匹配程度排列这些候选词。上面的例子中，短语 ocular complication 的 9 个候选词如下图所示。如果候选词不是表达该概念的优选词，用括号把优选词显示出来。需要注意的是，所有用户文本中 complication 相对应的候选词的评分都要比 ocular 的高，这是因为 complication 是短语的中心词。 5 ．建立匹配把含有短语中相连的各个部分的候选词组合起来，就完成了完整的匹配。完整匹配的强度计算与候选匹配的计算一样。评分最高的完整匹配代表了 MetaMap 对原始短语的最优的表达。也就是说，对于 ocular complication 短语，其最高评分的完整匹配是 ocular 与 complication 或者 ocular 与 complication specific to antepartum or postpartum 组合。对于 complication 匹配过程说明了 MetaMap 的最大问题，即含义模糊的问题。两个概念都含有 complication 字串， MetaMap 无法区分之。这个问题在下面一部分可以得到部分的解决。数据维护每一次 UMLS 改版， MetaMap 都要更新其数据库文件，包括预先计算变形词表、语义类型和 MeSH 树状结构号的信息，以及按照超级词表中含有的单词的字串索引。需要力量最多的就是创建单词索引文件。采用 4 种方式过滤超级词表中的文件（主要是 MRCON ）。（1）手工过滤超级词表中的少量字串会引起问题，需要在进行其它过滤前将其手工过滤掉。如数字、单个字母、特殊的例子如 periods for menstruation （月经期间）和含义模糊。幸运的是超级词表的设计者制定了可禁止的同义词的理念，即不能完整表达自己本身的字串或者缩写或者非正式的字串。超级词表中大多数可以导致出现问题的含义模糊都被标上可禁止字串。上面例子中提到的与 complication 匹配的 complication specific to antepartum or postpartum 就是因为没有被标上可禁止的例子。以后版本中会解决这个问题。（2）词汇过滤词汇过滤是最温和的过滤。就是去掉实际上与表示某一概念的字串相同的字串，造成实际上相同的字串的情况包括： ² 不必要的附加说明。 ² 超级词表多义词指示符 ² NEC/NOS 变异 ² 字法通用：如对有逗号的字串进行重排，除非字串好像是用连词或介词的存在而决定的。 ² 大小写变异。 ² 连字符变异。 ² 拥有词汇过滤就是根据上述标准对某一概念的所有字符串进行规范化，对每一组字串去掉其它的，仅保留一个字串。（3）类型过滤除了滤除可禁止同义词，还可以根据术语语义类型（ term type ， TTY ）排除一些术语。一般排除的类型包括缩写、过时的或某一种内部结构（如在 LOINC 中的实验检测描述， LOINC 是超级词表组成成分之一）。（4）句法过滤最后一种过滤是指一种对超级词表字串本身的切分程序。由于一般的 MetaMap 处理包括了对文本中发现的简单名词短语的匹配，超级词表字串如果过于复杂不见得达到较好的匹配。这样要把含有一个以上的简单短语的字串也去掉。由于合成短语（含有正常格式的介词短语）很容易处理，所以这样的合成短语不被去除。由于 MetaMap 既可用于高密度的语义处理，也可用于浏览，为此建立了三种不同过滤程度的数据模式： ² 严格模式：所有上述的三种过滤都用上。这种选择最适合准确度要求高的语义处理。严格模式包括英语超级词表（共 1 ， 339 ， 479 字串）中的 706 ， 593 （ 53% ）的字串。 ² 中度模式：包括了手工、词汇和类型过滤，但是没有句法过滤。这种方式适合将输入文本作为一个整体来看待而不是分为简单的短语。中度模式包括了 982 ， 447 个字串（ 73% ）。 ² 宽松模式：只有手工和词汇过滤，采用这种模式可以获得全部的超级词表的字串，适用于浏览。宽松模式包括了 1 ， 146 ， 962 （ 86% ）的超级词表字串。超级词表的可用资源：略。应用：略。; 个人分类: 生物医学文本挖掘|13165 次阅读|1 个评论

从文本资源中建立医学本体的方法（节译）: zilu85 2008-9-30 23:15; 医学领域里，人们普遍认可应该通过建立本体来开发无歧义的词表。本研究的目标是帮助肺病学专家对其诊断和治疗活动进行编码，用一个采用专业本体表现医学知识的软件。本文介绍了我们根据从文本中抽取术语建立医学本体的知识工程学的方法。将自然语言处理工具应用于病人出院小结的文本上开发出建立肺病学本体所必需的资源。结果表明，在建立此类本体上，将分布分析和词汇-句法模式结合使用可以达到令人满意的效果。引言近10年以来，法国公立医院一直相互交流其医疗活动的信息。对于每一个病人的信息可以通过病人的出院小结加以收集，每个病人的诊断采用国际疾病分类法归类。一般法国的编码过程都是由医生使用医学专业词表手工完成。这些词表是为了帮助医生对常用术语进行编码而编撰的，很明显这些根据词表编撰的编码工具不能准确地满足医生的需要。实际上，词表中存在着词汇含义模糊，词汇不全面等问题，其一致性和完整性的维护也是个问题。更严重的是，部分地由于词表的含义模糊性，编码上的不一致也成为众所周知的问题。因此，有文献提出自动化编码任务需要对医学条目的概念化组织，即把这些条目的含义应当写进本体内模型结构之中。本体就是一种正规的结构，其目标就是通过基本元素、概念，及其定义和相互关系的组织来表示特定的知识领域。我们认为开发本体资源会有助于开发高效能、可信度高的高级编码工具。目标我们认为，应当根据本体开发的目标来设计分类体系结果的分类标准。我们注意到目前还没有涵盖了肺病领域法语编码过程的本体。本研究的目标就是建立一个这样的本体。关于建立本体方法的报道很多，但是很少有详细介绍概念化的步骤的，就是获取和组织概念及其关系的过程。我们研究的主要限制是需要由知识工程师而不是直接由医生建立本体。对于知识工程师而言，主要的问题是辨别和分类某一领域的概念。我们应用了一种由文本驱动的方法并将文本报告作为信息的主要资源。用自然语言处理工具来分析语料。本文所采用的方法是以差异性语义规则（differential semantics principles）为基础的。我们研究的主要假设就是联合使用如下两种方法可以提高建立本体的效率：1）用分布分析来建立术语表资源的方法；2）观察那些表现所需要的关系的语料中的句子来识别语义关系的方法。首先，本文介绍了本研究中使用的材料和工具，然后在方法部分详细介绍了建立本体的各个步骤，结果部分介绍了对本体评价的统计学测量，本体专业覆盖面及其在辅助编码上的使用。最后，通过讨论本研究的收获得出作出结论。 http://www.pubmedcentral.nih.gov/picrender.fcgi?artid=1839277blobtype=pdf; 个人分类: 生物信息学|4454 次阅读|0 个评论

自动标引研究的回顾与展望: 热度 2 timy 2008-1-17 16:48; 章成志 1, 2 　　 1 （南京理工大学信息管理系南京 210094 ） 2 （中国科学技术信息研究所北京 100038 ）本文对自动标引的研究进行总结与回顾。首先对标引对象进行界定；然后分析自动标引研究的三个阶段、并给出 50 年研究历程中的代表性方法；接着详细描述自动标引研究路线图、并对抽词标引与赋词标引方法进行详细分类；最后指出自动标引中存在的问题、并对今后的自动标引研究和应用方向进行展望。自动标引；抽词标引；赋词标引 TP391 ； G252 Review and Prospect of Automatic Indexing Research Zhang Chengzhi 1, 2 1 (Department of Information Management , Nanjing University of Science Technology , Nanjing 210094, China ) 2 (Institute of Scientific Technical Information of China , Beijing 100038, China ) The re view of the automatic indexing research is presented. Firstly, the indexing object in the automatic indexing is proposed. Then, three phases and the representative methods of the automatic indexing in the past 50 years are described respectively . The road map of automatic indexing research is explained in detail. The classification of the keyword extraction and keyword assignment methods is put forward respectively . Finally, the issues in the automatic indexing are summarized, and the future research topics and application related to the automatic indexing are discussed. Automatic Indexing, Keyword extraction, Keyword Assignment 1 引言自动标引包括关键词自动提取（又称自动抽词标引）与自动赋词标引两种类型。关键词自动提取是一种识别有意义且具有代表性片段或词汇的自动化技术。关键词自动提取在文本挖掘领域被称为关键词抽取（ Keyword Extraction ），在计算语言学领域通常着眼于术语自动识别（ Automatic Term Recognition ），在信息检索领域，就是指自动标引（ Automatic Indexing ）。自动标引属于文本信息抽取的范畴。文本信息抽取是从文本数据中抽取人们关注的特定的信息。由于关键词是表达文件主题意义的最小单位，因此大部分对非结构化文件的自动处理，如自动标引、自动摘要、自动分类、自动聚类、相关反馈、自动过滤、事件检测与跟踪、知识挖掘、信息可视化、概念检索、检索提示、关联知识分析、自动问答等，都必须先进行关键词提取的动作，再进行其他的处理。可以说，关键词提取是所有文件自动处理的基础与核心技术。目前大多文档都不具有关键词 , 同时手工标引费力费时且主观性较强 , 因此关键词自动标引是一项值得研究的技术。 2 标引对象的界定在对自动标引的研究做比较分析时，首先要明确自动标引的对象，即关于标引主体的问题。与自动标引比较相关的概念，主要有标引词、主题词、关键短语、术语等，本节对这些概念做个简要介绍。标引词是指表示文献内容特征的词语，包括主题词、关键词、关键词短语（也称关键短语）等。在图书情报领域，关键词是指揭示文献主题的、有实质意义的语词，一般来源于文献的标题、摘要、正文等部分。在图书情报界，主题是指能概括文献的主要内容、具有一定描述规则的规范化词语。在自然语言处理研究领域中的话题检测与跟踪（ Topic Detection and Tracking ）研究中，话题通常被定义为由某些原因或条件引起的发生于特定时间和地点、并可能伴随某些必然结果的一个事件。在语言学界，与主题这一概念相关概念的还有话题。本文对主题的研究仅限于图书情报领域所研究的主题。主题词又称叙词。它是以概念为基础从自然语言中优选出来，经过规范化处理的具有组配功能的动态性词或词组。在情报检索中，用它来描述文献和检索提问的主题内容。它是构成主题词表的最小词汇单元。主题词包括正式主题词和非正式主题词两种。正式主题词是规范化的、用于标引和检索的词或词组；非正式主题词是收在主题词表中，提供从非规范词指向规范词的检索入口的引导词。主题词或主题词集合是浓缩程度最高、涵义最明确的替代文献形式。关键短语是具有强文本表示功能的特征短语。所谓强文本表示功能，是指在文本表示时，能将文本的内容特征（例如领域类别、主题思想、中心意义等）鲜明地表示出来。通常所说的短语范围很广，包括自由短语、固定短语和半固定短语三类。术语是各门学科为确切表达本领域内的概念而创造和使用的专门词语。可以看出关键词概念比较模糊，有的关键词本身就是关键短语。图 1 给出术语、主题和标引词的关系。如图 2 所示，根据文本描述颗粒度不同，可将信息描述粗分为自然语言和控制词表两种方法，其中自然语言途径主要有全文、文摘、标题、关键短语、关键词等，控制词表途径主要有描述符、标题词、分类号、主题词等。需要指出的是，本文对自动标引中的标引对象界定为关键词、关键短语或主题词。 3 自动标引的五十年研究历程 3.1 自动标引研究的三个阶段从 Luhn 于 1957 年开始进行自动标引后开始，到目前为止，自动标引研究经历了 50 年的发展历程。一直到 20 世纪 90 年代初，关于关键词自动提取的研究一直就没有停止过。 20 世纪 90 年代初到 90 年代末，自动标引研究渐渐冷却，原因主要包括： ① 全文索引逐渐被人采用，并且基本上能满足用户需要； ② 传统的自动标引方法的效率到了极限； ③ 网络兴起之初的冲击与信息需求环境的改变。 20 世纪 90 年代末一直到现在，关键词自动提取的研究逐渐升温，尤其是最近几年，关键词自动提取研究进行的如火如荼，产生该现象的主要原因为： ① 全文索引的功能越来越难以满足实际需求，用户需要更加精确的结果； ② 另外互联网的很多服务，例如自动摘要，文档分类与聚类，文本分析，主题检索等都要依赖于关键词自动提取的结果，只有这样才能有希望从根本上提高信息服务质量。 3.2 五十年研究的代表方法根据见诸于报道的自动标引研究情况，结合自动标引研究领域的影响程度和自动标引方法的创新程度，笔者归纳出 1957~2007 年五十年时间里比较有代表性的自动标引方法。 1957年，Luhn开始自动标引研究，首次将计算机技术引入文献标引领域，开创了以词频为特征的统计标引方法，其理论基础是Zipf定律，该方法具有一定的客观性和合理性，并且简单易行，在自动标引中占有重要地位； 1958年，Luhn提出基于绝对频率加权法的自动标引方法；P.B.Baxendale提出从论题句和介词短语中自动提取关键词； 1959年，Edmundson与Oswald提出基于相对频率加权法的自动标引方法； 1960年，Maron Kuhns提出基于相关概率的赋词标引方法； 1969年，H.P.Edmundson提出了一些新的加权方法，如提示词(预示词)加权法、题名加权法、位置加权法，并探讨了不同加权法的最优组合问题； 1970年，Lois L. Earl利用句法分析等语言学方法与词频统计方法相结合的方法来提取关键词； 1973年，Salton等提出基于词区分值的自动标引方法； 1975年，Salton等将VSM模型用于自动标引中； 1983年，Dillon等提出一种基于概念的自动标引方法，研制了FASIT系统； 1985年，Devadason提出基于深层结构标引方法； 1990年，Deerwester Dumais等提出潜在语义分析标引法； 1993年，Silva Milidiu提出基于相信函数模型的赋词标引方法； 1995年，Cohen提出N-Gram分析法的自动标引方法。 1997年，简立峰提出基于PAT树的关键词提取方法； 1999年，Frank等人提出基于朴素贝叶斯(Naive Bayes，NB)的关键词提取方法； Turney 利用遗传算法和C4.5决策树算法等机器学习方法进行关键短语提取的研究； 2001年，Anjewierden Kabel提出基于本体的自动标引方法； 2003年，Tomokiyo Hurst提出了基于语言模型的关键词提取方法；Hulth利用Bagging算法进行了基于集成学习的关键词抽取； 2004年，李素建提出基于最大熵模型的关键词提取方法； 2006年，张阔提出基于SVM自动标引模型； 2007年，Ercan, G. Cicekli, I提出基于词汇链的自动标引方法。 4 自动标引研究路线图与方法分类通过对自动标引研究的综述，本文总结出自动标引的研究路线图（ Road Map ）如图 3 所示。主要有三个领域的研究者对自动标引进行了不同角度的研究，即：图书情报领域，主要从资源构建角度进行研究，为主题标引提供了丰富的词表资源；语言学领域从语言分析的角度研究了主题提取的机制与方法，利用词法知识、句法知识、语义知识以及篇章知识进行不同层次的主题提取研究；人工智能领域主要从机器学习角度对自动标引进行了大量的研究，如利用启发式知识、标记数据的机器学习、无标记的机器学习、集成学习等方法的运用。如图 3 所示，这三个领域分别从两个维度对自动标引进行研究，即：自动化程度维度，先后经历人工标引、机器辅助标引、自动标引等阶段；知识复杂程度维度，先后经历字、词、短语、语块、句法、语义、篇章结构等不同颗粒度的多种知识。 4.1 自动标引方法分类根据标引结果的来源不同，可以将自动标引分为抽词标引和赋词标引。表 1 对抽词标引和赋词标引方法做了详细的分类，描述了具体的方法，并给出了各种方法的优缺点。 4.2 抽词标引方法的详细分类如前所述，根据标引的词语的来源不同，可以将自动标引分为自动抽词标引和自动赋词标引。自动抽词标引是指直接从原文中抽取词或短语作为标引词来描述文献主题内容的过程。它涉及到如何从原文中抽取能够表达其实质意义的词汇，以及如何根据这些词汇确定标引词。赋词标引是指使用预先编制的词表中词来代替文本中的词汇进行标引的过程。即，将反映文本主题内容的关键词（欲用作标引的关键词）转换为词表中的主题词（或叙词等），并用其标引的方法。自动抽词标引，可以进行如下的大致分类。 4.2.1 从机器学习角度分类 l 监督学习：将关键词自动提取看成一种分类问题： NB ， SVM 等； l 非监督学习：利用非监督学习方法，如聚类方法获取关键词。图 4 给出了基于机器学习的自动抽词方法的逻辑视图。 4.2.2 从所使用的特征分类 l 规则信息，多为语言学特征，如标题、章节名、名词等作为关键词的概率大，相应的对这些特征赋予较高权重。其他的规则信息还包括对首次出现位置（DEP）靠前的、词性（POS）名词性成分高的词语赋较大权重等； l 统计信息，TF*IDF 、长度，短语的独立性等。 4.3 赋词标引方法详细分类通常的赋词标引方法是借助于外部资源，如后控词表（包括同义词、上下位词、相关词等）、叙词表、本体等资源，将自动赋词过程转换为主题词的分类过程，或将文本的关键词转换为主题词。如图 5 所示，根据赋词标引所依据的外部资源对赋词标引方法进行详细分类。 5 自动标引存在的问题与研究展望 5.1 自动标引存在的问题自动标引中存在的问题包括标引数据集不平衡问题、标引代价敏感问题、标引数据标注瓶颈问题、标引颗粒度问题、标引关键词数问题、标引结果评价问题、标引系统实用化问题等 7 个方面的问题。下面分别对这 7 个问题进行说明。 5.1.1 标引数据集不平衡问题对于一个文本来说，通常标引的关键词词数为 3-5 个，标引的关键词词数要远小于标引的非关键词词数。从自动分类角度来看，这个问题一般被称为分类数据集不平衡问题。在数据偏斜的情况下，样本无法准确反映整个空间的数据分布，分类器容易被大类淹没而忽略小类，分类不平衡问题是导致分类效果不理想的一个重要因素。 5.1.2 标引代价敏感问题在实际的关键词标引中，人们一般不希望将关键词误标为非关键词，一个关键词漏标的代价比将一个非关键词标为关键词的代价高。这个问题一般被称为代价敏感问题。 5.1.3 标引数据标注瓶颈问题机器学习算法需要大量的标引样本，但已标引的样本所能提供的信息有限。另一方面，容易获得的未标引样本（如互联网上网页）数量相对于标引样本较多，且更接近整个样本空间上的数据分布。提供尽可能多的标引样本需要艰苦而缓慢的手工劳动，制约了整个系统的构建，这就产生了一个标注瓶颈的问题。因此 , 如何用少量的已标引样本和大量的未标引样本训练出一个好分类器，逐渐引起人们的关注。 5.1.4 标引颗粒度问题一般说来，较专指的词适合作关键词，但专指度并不是越大越好。过于专指，不仅增加了自动标引的难度，而且，在实际应用中，比如信息检索中，由于该词过于专指，不被一般用户所接受，使得该词作为检索入口的概率就会减小。在文本聚类中，专指越多，则特征向量越容易稀疏，增加了聚类的难度。因此，应该根据应用的场合，进行专指度自适应式的关键词自动标引。 5.1.5 标引关键词数问题对标引的关键词数有限制。根据应用场合选择合适的数目。在信息检索中，关键词作为一个揭示文本主题的单位，标引的关键词数适合定在 9 个词以内。主要原因为：首先，根据 7 (+/-) 2 认知规则， 9 是一般用户不需要特别努力，能够记住的词条个数；其次，文献的关键词手工标引词一般为 3~5 个，最多小于 10 个。值得注意的是，在某些文件自动处理（如自动分类、自动聚类）应用中，为了增加特征数目，同时又不至于产生高维数据问题，一般将关键词数目控制在 50 左右即可达到很好的特征选择效果。 5.1.6 标引结果评价问题传统的作法是对照人工标引的结果或者专家打分的方式，如 863 自动文摘测评中关于关键词提取的评估方法，这种方法比较主观，成本也比较高。因此，构建一个自动标引的通用评价模型，以减少自动标引的主观性，节省评价成本，是一项有意义的工作。 5.1.7 标引系统实用化问题绝大多数标引系统不是完全自动的，标引技术仍然处于实验阶段。正如十几年前 Wellisch 的比喻：自动标引系统的研制在某种意义上恰似机械鸟的制造，经过 20 多年的试验，有些外貌开始像鸟，有些能够模仿几声鸟鸣，有些能扑打一番翅膀，但至今还没有一只会飞、会鸣。十多年过去了，标引系统的进一步实用化依然是人们追求的目标。 5.2 自动标引研究与应用展望从自动标引研究路线图可以看出，自动标引的研究主流方法为统计学习模型与语言知识（如词类、句法、语义、篇章结构等）的结合。今后的研究趋势主要存在如下四个方向。 5.2.1 本体的自动构建，并用于自动赋词标引中从自动标引的研究历史可以看出，绝大部分研究集中在抽词标引上面，图书情报、语言学、人工智能三个领域的研究者都对抽词标引进行了大量的研究与应用。由于资源的匮乏或词表造价昂贵，使得赋词标引研究与应用相对较少。即便如此，机器辅助编制词表的研究一直没有停止过，该研究成果可以直接用于赋词标引。近年来，随着本体学习的研究的不断深入，本体有望自动或半自动地被构建，并且可用于自动赋词标引当中。基于本体的自动赋词方法是在概念层面上对文本进行标引，并能识别概念之间的关系，标引结果可以用于语义检索当中。 5.2.2 多种标引方法的集成学习、更理想的机器学习方法的运用标引是一项富有智能性的工作。我们可以借助认知理论对标引任务进行分析和理解。自动标引模型，从最初依据启发式知识进行标引，发展到后来利用监督学习与非监督学习方法进行标引，都只是从一定程度上对标引行为进行拟合。目前还没有一种方法能完全能模拟并达到标引员的标引能力。多种模型或方法的集成，能在一定程度上提高自动标引的质量。多种标引模型或方法的集成学习要求每个标引模型标引结果存在差别，同时保证标引结果优于随机猜测的结果。因此，寻求更加理想的机器学习方法，并用于自动标引任务中，是今后自动标引研究的趋势之一。 5.2.3 深层语言知识的获取及其在自动标引任务中的运用自动标引主要依据候选对象的若干特征进行分析，将主题表达能力强的候选对象作为标引结果，如本文的标引结果为自动标引；抽词标引；赋词标引。在所使用的特征当中，绝大部分是通过词法分析或少量的句法分析而来。随着深层语义分析和篇章分析研究的不断深入，这些研究成果可用于自动标引任务，提高标引质量。 5.2.4 自动标引的应用领域将不断扩展最初，自动标引被用来解决文献缺少关键词这一问题。自动标引发展到今天，应用早已超过这一范围，它已经被广泛用于文本检索、自动问答、文本知识发现（或称文本挖掘）等领域。今后，随着互联网海量数据规模的进一步扩大，信息爆炸问题将变得更加紧迫。对信息资源进行基于主题的自动标引，并进行后续的数据挖掘，不仅能解决高维数据计算问题，并且能从主题或语义层次上对信息资源进行揭示和控制。随着语义网的不断深入研究和应用，作为一个传统的研究课题，自动标引将不断被赋予新的含义和特定任务。同时，自动标引的应用领域将不断扩展。参考文献： 1 曾元显 . 关键词自动提取技术与相关词反馈 . 中国图书馆学会会报 , 1997, 59: 59-64. 2 王强军 , 李芸 , 张普 . 信息技术领域术语提取的初步研究 . 术语标准化与信息技术 ,2003, 1: 32-33, 37. 3 Xun E, Huang C, Zhou M. A Unified Statistical Model for the Identification of English baseNP. In: Proceedings of 4th ACM Conference on Digital Libraries, Beakeley , CA , USA , 2000: 254-255. 4 李素建 , 王厚峰 , 俞士汶 , 辛乘胜 . 关键词自动标引的最大熵模型应用研究 . 计算机学报 , 2004, 27(9):1192-1197. 5 张燕飞 . 信息组织的主题语言 . 武汉 : 武汉大学出版社 , 2005: 226. 6 Allan J, Carbonell J, Doddington G, Yamron J, Yang Y. Topic Detection and Tracking Pilot Study: Final Report. In: Proceedings of DARPA Broadcast News Transcription and Understanding Workshop. Lansdowne , Virginia , USA , 1998: 194-218. 7 侯汉清 , 马张华 . 主题法导论 . 北京 : 北京大学出版社 , 1991: 1. 8 刘华 . 基于关键短语的文本内容标引研究 . 北京语言大学博士学位论文 . 2005: 11-13. 9 戚雨春 , 董达武 , 许以理 , 陈光磊 . 语言学百科词典 . 上海 : 上海辞书出版社 , 1993: 97. 10 Lahtinen T. Automatic Indexing: an Approach Using an Index Term Corpus and Combining Linguistic and Statistical Methods. Academic Dissertation, University of Helsinki , Finland , 2000: 34. 11 Harter S P. Online Information Retrieval: Concepts, Principles and Techniques. Orlando , Florida : Academic Press, Inc., 1986: 42. 12 Luhn H P. A Statistical Approach to Mechanized Encoding and Searching of Literary Information. IBM Journal of Research and Development, 1957, 1(4): 309-317 13 Luhn H P. The Automatic Creation of Literature Abstracts. IBM Journal of Research and Development. 1958. 2(2): 159-165. 14 Baxendale P E. Machine-made Index for Technical Literature an Experiment. IBM. Journal of Research and Development, 1958, 2(4): 354-361. 15 Edmundson H P, Oswald V A. Automatic Indexing and Abstracting of the Contents of Documents. Planning Research Corp, Document PRC R-126, ASTIA AD No. 231606, Los Angeles , 1959: 1-142. 16 Maron M E, Kuhns J L. On Relevance, Probabilistic Indexing and Information Retrieval. Journal of the Association for Computer Machinery, 1960, 7(3): 216-244. 17 Edmundson H P. New Methods in Automatic Abstracting Extracting. Journal of the Association for Computing Machinery, 1969, 16(2): 264-285. 18 Lois L E. Experiments in Automatic Indexing and Extracting. Information Storage and Retrieval, 1970, 6: 313-334. 19 Salton G, Yang C S. On the Specification of Term Values in Automatic Indexing, Journal of Documentation, 1973, 29(4): 351-72. 20 Salton G, Wong A, Yang C S. A Vector Space Model for Automatic Indexing. Communications of ACM, 1975, 18(11): 613-620. 21 Dillon M, Gray A S. FASIT: A Fully Automated Syntactically Based Indexing System. Journal of the American Society for Information Science, 1983, 34(2): 99-108. 22 Devadason F. Computerization of Deep Structure Based Indexes. International Classification, 1985, 12(2): 87-94. 23 Deerwester S, Dumais S T, Landauer T K, Furnas G W, Harshman R A. Indexing by Latent Semantic Analysis. Journal of the American Society for Information Science, 1990, 41(6): 391-407. 24 Silva W T, MiliDiu R L. Belief Function Model for Information Retrieval. Jounral of the American Society for Information Science, 1993, 44(1): 10-18. 25 Cohen J D. Highlights: Language and Domain-independent Automatic Indexing Terms for Abstracting. Journal of the American Society for Information Science, 1995, 46(3): 162-174. 26 Chien L F. PAT-tree-based Keyword Extraction for Chinese Information Retrieval. In: Proceedings of the 20th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR1997), Philadelphia, PA, USA, 1997: 50-59. 27 Frank E, Paynter G W, Witten I H. Domain-Specific Keyphrase Extraction. In: Proceedings of the 16th International Joint Conference on Aritifcal Intelliegence, Stockholm, Sweden, Morgan Kaufmann, 1999: 668-673. 28 Turney P D. Learning to Extract Keyphrases from Text. NRC Technical Report ERB-1057, National Research Council , Canada . 1999: 1-43. 29 Anjewierden A, Kabel S. Automatic Indexing of Documents with Ontologies. In: Proceedings of the 13th Belgian/Dutch Conference on Artificial Intelligence (BNAIC-01), Amsterdam , Neteherlands, 2001: 23-30. 30 Tomokiyo T, Hurst M. A language Model Approach to Keyphrase Extraction. In: Proceedings of the ACL Workshop on Multiword Expressions: Analysis, Acquisition Treatment, Sapporo , Japan , 2003: 33-40. 31 Hulth A. Improved Automatic Keyword Extraction Given More Linguistic Knowledge. In: Proceedings of the 2003 Conference on Emprical Methods in Natural Language Processing, Sapporo , Japan , 2003: 216-223. 32 Zhang K, Xu H, Tang J, Li J Z. Keyword Extraction Using Support Vector Machine. In: Proceedings of the Seventh International Conference on Web-Age Information Management (WAIM2006), Hong Kong , China , 2006: 85-96. 33 Ercan G, Cicekli I. Using Lexical Chains for Keyword Extraction. Information Processing and Management, 2007, 43(6): 1705-1714. 34 韩客松 , 王永成 . 中文全文标引的主题词标引和主题概念标引方法 . 情报学报 , 2001, 20(2): 212-216. 35 索红光 , 刘玉树 , 曹淑英 . 一种基于词汇链的关键词抽取方法 . 中文信息学报 , 2006, 20(6): 25-30. 36 Dennis S F. The Design and Testing of a Fully Automatic Indexing-searching System for Documents Consisting of Expository Text. In: G. Schecter eds. Information Retrieval: a Critical Review, Washington D. C.: Thompson Book Company, 1967: 67-94. 37 Salton G, Buckley C. Automatic Text Structuring and Retrieval Experiments in Automatic Encyclopaedia Searching. In: Proceedings of the Fourteenth SIGIR Conference, New York : ACM, 1991: 21-30. 38 Salton G, Yang C S, Yu C T. A Theory of Term Importance in Automatic Text Analysis, Journal of the American society for Information Science, 1975, 26(1): 33-44. 39 马颖华 , 王永成 , 苏贵洋 , 张宇萌 . 一种基于字同现频率的汉语文本主题抽取方法 . 计算机研究与发展 , 2004, 40(6): 874-878. 40 Matsuo Y, Ishizuka M. Keyword Extraction from a Single Document Using Word Co-ocuurrence Statistical Information. International Journal on Artificial Intelligence Tools, 2004, 13(1): 157-169. 41 Witten I H, Paynter G W, Frank E, Gutwin C, Nevill-Manning C G. KEA: Practical Automatic Keyphrase Extraction. In: Proceedings of the 4th ACM Conference on Digital Library (DL99) , Berkeley , CA , USA , 1999: 254-26. 42 张庆国 , 薛德军 , 张振海 , 张君玉 . 海量数据集上基于特征组合的关键词自动抽取 . 情报学报 , 2006, 25(5): 587-593. 43 Keith Humphreys J B. Phraserate: An Html Keyphrase Extractor. Technical Report, University of California , Riverside , 2002: 1-16. 44 侯汉清 , 章成志 , 郑红 . Web 概念挖掘中标引源加权方案初探 . 情报学报 , 24(1): 87-92. 45 Boris L, Andreas H. Automatic Multi-lable Subject Indexing in a Multilingual Environment. In: Proceedings of 7th European Conference in Research and Advanced Technology for Digital Libraries (ECDL 2003), Trondheim , Norway , 2003: 140-151. 46 苏新宁 . 信息检索理论与技术 , 北京 : 科学技术文献出版社 , 2004: 215-217. 47 曾蕾 . 知识组织系统 . 见 : 曾民族主编 . 知识技术及其应用 . 北京 : 科学技术文献出版社 , 2006: 122. 48 苏金树 , 张博锋 , 徐昕 . 基于机器学习的文本分类技术研究进展 . 软件学报 , 2006, 17(9): 1848-1859. 49 Yaakov H-K. Automatic Extraction of Keywords from Abstracts. In: Proceedings of the 7th Internationl Conference on Knowledge-Based Intelligent Information and Engineering Systems (KES2003), Oxford , UK , 2003: 843-946. 50 Leouski A V, Croft W B. An Evaluation of Techniques for Clustering Search Results. Technical Report IR-76, Department of Computer Science, University of Massachusetts , Amherst , 1996: 1-19. 51 章成志 . 主题聚类及其应用研究 , 南京大学博士学位论文 , 2007: 28-50. 52 储荷婷 . 索引自动化 : 自动标引的主要方法 . 情报学报 , 1993,12(3): 218-229. 53 Medelyna O. Automatic Keyphrase Indexing with a Domain-Specific Thesaurus. Master Thesis, University of Freiburg , Germany , 2005: 23-26. 注：本文发表于《现代图书情报技术》2007年第11期。全文链接地址： http://www.sciencenet.cn/upload/blog/file/2008/8/200882621585975867.pdf 相关论文： Automatic Keyword Extraction from Documents Using Conditional Random Fields ( PPT ) 基于Citation-KNN的语义隐含主题词自动抽取方法; 个人分类: 文本挖掘|10138 次阅读|11 个评论

更多...

帐号		自动登录	找回密码
密码			注册

关闭 安全验证

标签: 文本挖掘

相关帖子

相关日志

关闭安全验证