科学网

 找回密码
  注册

tag 标签: 自动标引

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

[转载]IEEE与Access Innovations合作对Xplore数字图书馆进行重新索引
热度 2 timy 2011-8-10 16:23
From: http://www.infotech.ac.cn/CN/item/showItemDetail.do?id=243 IEEE与Access Innovations合作对Xplore数字图书馆进行重新索引 IEEE(电气与电子工程师协会)与数据和内容管理行业的领导者Access Innovation合作,对IEEE Xplore数字图书馆数据库280万篇文章中的近210万篇IEEE出版文献重新进行了全面索引。 IEEE Xplore数据库包含IEEE的出版物来自于38个专业团体和7个技术委员会的出版机构,这些出版机构向160个国家的40万成员提供服务。2010年,IEEE共发布了1 300余个标准、发起或者资助举办了1 200余个会议。目前,Xplore数字图书馆包含2 828 776篇文章,其中约210万(74%)由IEEE出版。其余的文章来自于IET(工程技术学会)、AIP/AVS 应用物理学图书馆和IBM研究和发展期刊。 这是IEEE和Access Innovations之间的第7次重要合作。自2006年开始,Access完成了为期6年的IEEE叙词表更新工作。 “我们与Access Innovations的长期合作代表我们共同承诺致力于使我们的资源和IEEE多年积累的大量知识和信息成为可访问的有价值的资源,为此,我们将继续尽最大的努力。”IEEE索引和数据产品经理Adam D. Philippidis说。 要完成这次最新的项目,Access Innovations使用了一个数据协调元数据(Data Harmony Metadata)抽取器来判定文章的内容类型,并建立一个改进的规则库以识别文章内容类型,从而使得每一个特定类型的内容都能够使用IEEE叙词表以特定的方法被索引。 使用M.A.I(机器辅助索引)能提供高精确度、基于规则的索引(文本分类)内容类型。M.A.I是Access Innovations的知识管理产品数据协调元数据系列工具中的一部分。 Access Innovations还查看了IEEE叙词表所有词条的使用情况。最终,Access Innovations就进一步改进IEEE叙词表提出了如下建议:通过提供差异分析来识别没有被专门覆盖的领域以及词条重用情况。 Philippidis总结说:“我们非常感谢Access员工的辛勤工作,他们增强了Xplore的可检索性,改善了Xplore改进版本的发现能力。这一改进版本稍后就将提供给我们的合作成员。” 编译自:http://www.accessinn.com/library/news/11-02-25-IEEE-Collaborates-with-AII-to-Re-index-Xplore-Digital-Library.html
个人分类: 信息组织|2933 次阅读|5 个评论
Web信息智能采集与自动分类标引系统简介
limer 2010-1-14 14:24
Web信息智能采集与自动分类标引系统是我们汇海科技—武汉大学移动商务联合实验室的第一个联合研发项目,目前已经完成系统整合,进入系统测试阶段。现对其做点介绍。 概述: Web信息智能采集与自动分类标引系统是一个根据用户定制需求从互联网上自动采集和处理信息的智能系统,采集信息的类型包括新闻网页、论坛社区、SNS、BBS、博客、微博等。 功能列表: 1. Web信息的分布式多通道实时定向采集 2. 对采集Web页面进行正文提取 3. 相似性信息去重 4. 自动的主题分类(将一篇文章自动分类到预先设定的类目) 5. 自动的主题标引(抽取5~6个关键词) 6. 自动的作者,时间,发布单位抽取 7. 信息检索,包括全文检索,按时间范围检索,限定类目检索 8. 检索结果自动分类 应用方向: 1. 垂直搜索引擎 2. 舆情监控 3. 出版物评价信息监控 4. 企业竞争情报与市场情报监控 5. 机构负面信息监控 6. 区域形象评价 7. 用户倾向性分析 8. 在线社会网络分析与挖掘 9. 其他信息增值服务 其他概述: Web信息采集系统是基于Web信息的各种应用服务的基础,对采集到的Web信息,企业可以开展各种具体的内外增值服务,它是出版社涉足信息服务业的基础性和平台型工具,对于传统出版集团的出版选题、网络营销、竞争情报、产品评价、企业形象管理等工作都有很好的支撑性作用。 我们欢迎出版界朋友与我们合作进行系统研发、业务咨询和理论探讨,特别是有志于开展移动出版服务和增值性在线信息服务的合作。 武汉大学-汇海科技移动商务联合实验室 副主任 王晓光
个人分类: 生活点滴|8 次阅读|0 个评论
收藏:几个主要的自动标引工具
xuechunxiang 2009-10-13 15:00
摘自:Koraljka Golub等学者在NKOS2009研讨会上的发言ppt Evaluating Automated Subject Tools for Enhancing Retrieval ( http://www.comp.glam.ac.uk/pages/research/hypermedia/nkos/nkos2009/programme.html ) 1) Temis Categorizer (http://www.temis.com/index.php?id=78selt=1) 2) KEA (http://www.nzdl.org/Kea/) 3) TextGarden (http://kt.ijs.si/Dunja/textgarden/) 4) TerMine (http://www.nactem.ac.uk/software/termine/) 5) KnowLibs automated classifier (http://www.it.lth.se/knowlib/auto.htm) 6) Scorpion (http://www.oclc.org/research/software/scorpion/default.htm) 7) iVia projects libiViaClassification (http://ivia.ucr.edu/manuals/stable/libiViaClassification/5.4.0/)
个人分类: 学海泛舟|6198 次阅读|1 个评论
中信所第五期青年学术沙龙:文献标引与领域词汇获取相关主题
timy 2009-4-14 12:53
关于举办中信所第五期青年学术沙龙的通知   题目: 文献综合自动标引与词语聚类研究 时间:4月17日(周五)下午2:00 地点:中信所办公大楼333室 承办单位:研究生部 形式:沙龙以研讨为主,拟请暨南大学副教授刘华博士做主题发言,报告大纲如下:     1. 基于关键词主题度的文献综合自动标引研究 良好的信息组织和资源表示是高质量信息利用的基石,文献综合自动标引,即类目、主题词和摘要的标引,是信息组织和资源表示的核心。 目前,文献自动标引基本上是类目、主题词和摘要分别标引,分成三个研究领域:文本分类、主题词标引和自动文摘。 实际上,文献综合自动标引有其共同基础,例如,文本分类的关键步骤类向量构建是基于词语权重计算和选择的,主题词标引更是直接以主题特征明显的词语为标引项,自动文摘的句子权重计算也以词语权重计算为基础。因此,文献综合自动标引都是基于词语权重计算,力图凸显主题特征明显的特征词(如领域术语)。三者在关键词主题度计算的基础,可以合而为一。 关键词是标识和表达文档主题概念的词语,关键词的主要特征是主题性。针对关键词的领域不均匀性和邻界域两个特征,提出并模拟计算了关键词表征文本主题特征程度的主题度。以关键词及其主题度为领域知识,完成了一个文献综合自动标引系统,集成文本分类、主题词标引和自动文摘功能。    2.  词语聚类研究 领域知识获取是文本处理中的基础关键技术,目前,有许多方法来获取领域词语,主要分为两类:基于规则和基于统计的。基于规则的方法主要利用人工构建好的领域知识在大规模语料中利用模板匹配的方式获取领域词语。也有一些知识库主要依靠专家手工构建,如WordNet、HowNet。基于统计的方法简单快速,主要利用机器学习的方法进行领域词语获取,如基于Bootstrapping、互信息、TFIDF等的领域词语自动获取。 本报告将简要介绍如何利用大规模分类语料库中关键词标引的特征提取方法自动获取领域词语。并演示相关的实验结果。 主题发言人介绍 : 刘华,男,1975年生,博士、暨南大学副教授。1998年从湖南科技大学中文系毕业,获学士学位,爱好文学;2002年从云南师大毕业,获硕士学位,主攻语言学;2005年毕业于北京语言大学中文信息处理专业,师从张普教授,获博士学位,主攻计算机软件和计算语言学。 目前主要从事信息组织、信息检索、数据挖掘及自然语言处理等领域的教学与科研工作,特别是在文本分类、主题词标引、自动文摘、新词语发现和词语聚类方面有一定的研究。曾参与或主持的项目包括863项目、973项目、国家语言文字应用十五科研课题重大项目、国家社科基金项目(主持、在研)、国家语委项目(主持、在研)、广东省社科项目(主持、在研)等。近3年来在国内外期刊和会议上发表学术论文20余篇,EI、ISTP收录论文3篇。 参加人员:中信所学术沙龙成员,所内广大青年职工。 所学术委员会 所青年学术沙龙 2009年4月13日 欢迎感兴趣者参加,并能参加讨论。
个人分类: 同行交流|4592 次阅读|0 个评论
基于Citation-KNN的语义隐含主题词自动抽取方法
timy 2008-8-7 19:51
章成志 1,2 刘耀 1 王惠临 1 ( 1. 中国科学技术信息研究所 北京 100038 , 2. 南京理工大学信息管理系 南京 210094 ) 摘 要 : 现有的关键词抽取技术仅仅是对正文词汇的抽取,不能够抽取语义上隐含的主题。语义隐含主题的抽取是关键词自动抽取技术的难点。众所周知, KNN 方法作为机器学习领域的一个经典的方法,在很多领域都有出色的表现。本文以 KNN 算法为基础,提出基于 Citation-KNN 的语义隐含主题词自动抽取方法。 实验结果表明该方法在进行语义 隐含主题词抽取 任务上的有效性。 关键词 :关键词抽取;隐含语义主题词; Citation-KNN Automatic Implicit Semantic Subject Extraction Based on Citation-KNN Zhang Cheng-Zhi 1, 2 , Liu Yao 1 , Wang Huilin 1 1. Institute of Scientific Technical Information of China , Beijing 100038, China 2. Department of Information Management, Nanjing University of Science Technology, Nanjing 210094, China Abstract: Currently, the keywords extraction method can only extract words appeared in the articles and it cannot extract the implicit semantic subject (ISS). It is a difficult work to extract implicit subject in an article in the task of automatic keywords extraction. As we all know, KNN method is a classic method in machine learning field and is also well used in many other fields. In this paper, we proposed an automatic ISS extraction method based on Citation-KNN method which transforms from the KNN method. Experimental results show that the proposed method can not only improve the precision and recall of keyword extraction, but also extract implicit subject efficiently. key words: Automatic Keyword Extraction; Implicit Semantic Subject; Citation-KNN     注: Citation-KNN最初由Jun Wang和Jean-Daniel Zucker提出,并用于解决多示例学习问题(Wang Zucker 2000)。Citation-KNN是对传统KNN算法的一种改进,主要思想是借助于文献计量学中的引用与被引用这一思路。如图1示,在对测试样本x i 进行类别决策时,除了考虑最近邻的K个训练样本的类别外(即测试样本的引文),还考虑到训练样本集中将x i 作为其K个最近邻之一的训练样本(即测试样本的被引样本)的类别。         参考文献: Anjewierden A, Kabel S. 2001. Automatic Indexing of Documents with Ontologies. In: Proceedings of the 13th Belgian/Dutch Conference on Artificial Intelligence (BNAIC-01), Amsterdam, Neteherlands. 23~30. Baeza-Yates R, Ribeiro-Neto B. 1999. Modern Information Retrieval. New York: Association for Computing Machine (ACM) Press, 27-30. Chien LF. 1997. PAT-tree-based Keyword Extraction for Chinese Information Retrieval. In: Proceedings of the ACM SIGIR International Conference on Information Retrieval, Philadelphia, USA: ACM Press, 50~59. Cover TM, Hart PE. 1968. Nearest neighbor pattern classification. IEEE Transactions on Information Theory, IT-13 : 21~27. Edmundson H P, Oswald V A. 1959. Automatic Indexing and Abstracting of the Contents of Documents. Planning Research Corp, Document PRC R-126, ASTIA AD No. 231606, Los Angeles. 1~142. Edmundson H P. 1969. New Methods in Automatic Abstracting Extracting. Journal of the Association for Computing Machinery.16(2): 264~285. Ercan G, Cicekli I. 2007. Using Lexical Chains for Keyword Extraction. Information Processing and Management, 43(6): 1705~1714. Frank E, Paynter GW, Witten IH, et al.. 1999. Domain-specific keyphrase extraction. In: Proceedings of the Sixteenth International Joint Conference on Artificial Intelligence (IJCAI-99), California: Morgan Kaufmann, 668~673. Hulth A. 2003. Improved Automatic Keyword Extraction Given More Linguistic Knowledge. In: Proceedings of the 2003 Conference on Emprical Methods in Natural Language Processing, Sapporo, Japan, 216~223. Lois L E. 1970. Experiments in Automatic Indexing and Extracting. Information Storage and Retrieval, 6: 313~334. Luhn H P. 1957. A Statistical Approach to Mechanized Encoding and Searching of Literary Information. IBM Journal of Research and Development, 1(4): 309~317. Luhn H P. 1958. The Automatic Creation of Literature Abstracts. IBM Journal of Research and Development. 2(2): 159~165. Salton G, Wong A, Yang C S. 1975. A Vector Space Model for Automatic Indexing. Communications of ACM, 18(11): 613~620. Tan P, Steinbach M, Kumar V. 2006. Introduction to Data Mining. Boston: Addison-Wesley, 225. Tomokiyo T, Hurst M. 2003. A language Model Approach to Keyphrase Extraction. In: Proceedings of the ACL Workshop on Multiword Expressions: Analysis, Acquisition Treatment, Sapporo, Japan, 33~40. Turney P D. 1999. Learning to Extract Keyphrases from Text. NRC Technical Report ERB-1057, National Research Council, Canada. 1~43. Turney PD. 1997. Extraction of Keyphrase from Text: Evaluation of Four Algorithms. Techial Repor ERB-1051, National Research Council, Institute for Information Technology. Turney PD. 2000. Learning algorithms for keyphrase extraction. Information Retrieval. 2:303~336. Wang J, Zucker J D. 2000. Solving the Multiple-instance Problem: A Lazy Learning Approach. In: Proceedings of 17th International Conference on Machine Learning (ICML2000). San Francisco: Morgan Kaufmann Publishers, 1119-1125. Yang Y, Liu X. 1999. A Re-examination of Text Categorization Methods. In: Proceedings of 22nd Annual International ACMSIGIR Conference on Research and Development in Information Retrieval (SIGIR99), Berkeley, CA, USA, 42~49. Zhang CZ, Su XN, Zhou DM. 2008. Document Clustering Using Sample Weighting . In: He YX, Xiao GZ, Sun MS eds. Recent Advance of Chinese Computing Technologies Singapore: Chinese and Oriental Languages Information Processing Society, 3: 260-265. 李素建 王厚峰 俞士汶 辛乘胜,2004,关键词自动标引的最大熵模型应用研究,计算机学报,27(9):1192~1197.     全文链接地址: www.sciencenet.cn/ upload/blog/file/2008/11/2008112485938151997.doc      引用说明 : 章成志, 刘耀, 王惠临. 基于Citation-KNN的语义隐含主题词自动抽取方法 . In: Proceedings of 9th Chinese Lexical Semantics Workshop (CLSW2008), SINGAPORE, COLIPS PUBLICATION, 2007: 371-379. 相关论文 : 自动标引研究的回顾与展望 ( PDF ) Automatic Keyword Extraction from Documents Using Conditional Random Fields ( PPT )               knn
个人分类: 文本挖掘|8755 次阅读|1 个评论
自动标引研究的回顾与展望
热度 2 timy 2008-1-17 16:48
章成志 1, 2    1 (南京理工大学信息管理系 南京 210094 ) 2 (中国科学技术信息研究所 北京 100038 ) 本文对自动标引的研究进行总结与回顾。首先对标引对象进行界定;然后分析自动标引研究的三个阶段、并给出 50 年研究历程中的代表性方法;接着详细描述自动标引研究路线图、并对抽词标引与赋词标引方法进行详细分类;最后指出自动标引中存在的问题、并对今后的自动标引研究和应用方向进行展望。 自动标引;抽词标引;赋词标引 TP391 ; G252 Review and Prospect of Automatic Indexing Research Zhang Chengzhi 1, 2 1 (Department of Information Management , Nanjing University of Science Technology , Nanjing 210094, China ) 2 (Institute of Scientific Technical Information of China , Beijing 100038, China ) The re view of the automatic indexing research is presented. Firstly, the indexing object in the automatic indexing is proposed. Then, three phases and the representative methods of the automatic indexing in the past 50 years are described respectively . The road map of automatic indexing research is explained in detail. The classification of the keyword extraction and keyword assignment methods is put forward respectively . Finally, the issues in the automatic indexing are summarized, and the future research topics and application related to the automatic indexing are discussed. Automatic Indexing, Keyword extraction, Keyword Assignment 1 引 言 自动标引包括关键词自动提取(又称自动抽词标引)与自动赋词标引两种类型。 关键词自动提取是一种识别有意义且具有代表性片段或词汇的自动化技术 。 关键词自动提取 在文本挖掘领域被称为关键词抽取( Keyword Extraction ),在计算语言学领域通常着眼于术语自动识别( Automatic Term Recognition ) ,在信息检索领域,就是指自动标引( Automatic Indexing )。自动标引属于文本信息抽取的范畴。文本信息抽取是从文本数据中抽取人们关注的特定的信息。 由于关键词是表达文件主题意义的最小单位,因此大部分对非结构化文件的自动处理,如自动标引、自动摘要、自动分类、自动聚类、相关反馈、自动过滤、事件检测与跟踪、知识挖掘、信息可视化、概念检索、检索提示、关联知识分析、自动问答等,都必须先进行关键词提取的动作,再进行其他的处理。可以说,关键词提取是所有文件自动处理的基础与核心技术 。 目前大多文档都不具有关键词 , 同时手工标引费力费时且主观性较强 , 因此关键词自动标引是一项值得研究的技术 。 2 标引对象的界定 在对自动标引的研究做比较分析时,首先要明确自动标引的对象,即关于标引主体的问题。与自动标引比较相关的概念,主要有标引词、主题词、关键短语、术语等,本节对这些概念做个简要介绍。 标引词是指表示文献内容特征的词语,包括主题词、关键词、关键词短语(也称关键短语)等。 在图书情报领域,关键词是指揭示文献主题的、有实质意义的语词,一般来源于文献的标题、摘要、正文等部分 。 在图书情报界,主题是指能概括文献的主要内容、具有一定描述规则的规范化词语。在自然语言处理研究领域中的话题检测与跟踪( Topic Detection and Tracking )研究中,话题通常被定义为由某些原因或条件引起的发生于特定时间和地点、并可能伴随某些必然结果的一个事件 。在语言学界,与主题这一概念相关概念的还有话题。本文对主题的研究仅限于图书情报领域所研究的主题。主题词又称叙词。它是以概念为基础从自然语言中优选出来,经过规范化处理的具有组配功能的动态性词或词组。在情报检索中,用它来描述文献和检索提问的主题内容。它是构成主题词表的最小词汇单元。主题词包括正式主题词和非正式主题词两种。正式主题词是规范化的、用于标引和检索的词或词组;非正式主题词是收在主题词表中,提供从非规范词指向规范词的检索入口的引导词。主题词或主题词集合是浓缩程度最高、涵义最明确的替代文献形式 。 关键短语是具有强文本表示功能的特征短语。所谓强文本表示功能,是指在文本表示时,能将文本的内容特征(例如领域类别、主题思想、中心意义等)鲜明地表示出来 。通常所说的短语范围很广,包括自由短语、固定短语和半固定短语三类 。 术语是各门学科为确切表达本领域内的概念而创造和使用的专门词语 。 可以看出关键词概念比较模糊,有的关键词本身就是关键短语。图 1 给出术语、主题和标引词的关系。如图 2 所示,根据文本描述颗粒度不同,可将信息描述粗分为自然语言和控制词表两种方法,其中自然语言途径主要有全文、文摘、标题、关键短语、关键词等,控制词表途径主要有描述符、标题词、分类号、主题词等。 需要指出的是,本文对自动标引中的标引对象界定为关键词、关键短语或主题词。 3 自动标引的五十年 研究历程 3.1 自动标引研究的三个阶段 从 Luhn 于 1957 年开始进行自动标引后开始,到目前为止,自动标引研究经历了 50 年的发展历程。一直到 20 世纪 90 年代初,关于关键词自动提取的研究一直就没有停止过。 20 世纪 90 年代初到 90 年代末,自动标引研究渐渐冷却,原因主要包括: ① 全文索引逐渐被人采用,并且基本上能满足用户需要; ② 传统的自动标引方法的效率到了极限; ③ 网络兴起之初的冲击与信息需求环境的改变。 20 世纪 90 年代末一直到现在,关键词自动提取的研究逐渐升温,尤其是最近几年, 关键词自动提取研究进行的如火如荼,产生该现象的主要原因为: ① 全文索引的功能越来越难以满足实际需求,用户需要更加精确的结果; ② 另外互联网的很多服务,例如自动摘要,文档分类与聚类,文本分析,主题检索等都要依赖于关键词自动提取的结果,只有这样才能有希望从根本上提高信息服务质量。 3.2 五十年研究的代表方法 根据见诸于报道的自动标引研究情况,结合自动标引研究领域的影响程度和自动标引方法的创新程度,笔者归纳出 1957~2007 年五十年时间里比较有代表性的自动标引方法。 1957年,Luhn开始自动标引研究,首次将计算机技术引入文献标引领域,开创了以词频为特征的统计标引方法,其理论基础是Zipf定律,该方法具有一定的客观性和合理性,并且简单易行,在自动标引中占有重要地位 ; 1958年,Luhn提出基于绝对频率加权法的自动标引方法 ;P.B.Baxendale提出从论题句和介词短语中自动提取关键词 ; 1959年,Edmundson与Oswald提出基于相对频率加权法的自动标引方法 ; 1960年,Maron Kuhns提出基于相关概率的赋词标引方法 ; 1969年,H.P.Edmundson提出了一些新的加权方法,如提示词(预示词)加权法、题名加权法、位置加权法,并探讨了不同加权法的最优组合问题 ; 1970年,Lois L. Earl利用句法分析等语言学方法与词频统计方法相结合的方法来提取关键词 ; 1973年,Salton等提出基于词区分值的自动标引方法 ; 1975年,Salton等将VSM模型用于自动标引中 ; 1983年,Dillon等提出一种基于概念的自动标引方法,研制了FASIT系统 ; 1985年,Devadason提出基于深层结构标引方法 ; 1990年,Deerwester Dumais等提出潜在语义分析标引法 ; 1993年,Silva Milidiu提出基于相信函数模型的赋词标引方法 ; 1995年,Cohen提出N-Gram分析法的自动标引方法 。 1997年,简立峰提出基于PAT树的关键词提取方法 ; 1999年,Frank等人提出基于朴素贝叶斯(Naive Bayes,NB)的关键词提取方法 ; Turney 利用遗传算法和C4.5决策树算法等机器学习方法进行关键短语提取的研究 ; 2001年,Anjewierden Kabel提出基于本体的自动标引方法 ; 2003年,Tomokiyo Hurst提出了基于语言模型的关键词提取方法 ;Hulth利用Bagging算法进行了基于集成学习的关键词抽取 ; 2004年,李素建提出基于最大熵模型的关键词提取方法 ; 2006年,张阔提出基于SVM自动标引模型 ; 2007年,Ercan, G. Cicekli, I提出基于词汇链的自动标引方法 。 4 自动标引研究路线图 与方法分类 通过对自动标引研究的综述,本文总结出自动标引的研究路线图( Road Map )如图 3 所示。主要有三个领域的研究者对自动标引进行了不同角度的研究,即:图书情报领域,主要从资源构建角度进行研究,为主题标引提供了丰富的词表资源;语言学领域从语言分析的角度研究了主题提取的机制与方法,利用词法知识、句法知识、语义知识以及篇章知识进行不同层次的主题提取研究;人工智能领域主要从机器学习角度对自动标引进行了大量的研究,如利用启发式知识、标记数据的机器学习、无标记的机器学习、集成学习等方法的运用。 如图 3 所示,这三个领域分别从两个维度对自动标引进行研究,即:自动化程度维度,先后经历人工标引、机器辅助标引、自动标引等阶段;知识复杂程度维度,先后经历字、词、短语、语块、句法、语义、篇章结构等不同颗粒度的多种知识。 4.1 自动标引方法分类 根据标引结果的来源不同,可以将自动标引分为抽词标引和赋词标引。表 1 对抽词标引和赋词标引方法做了详细的分类,描述了具体的方法,并给出了各种方法的优缺点。 4.2 抽词标引方法的详细分类 如前所述,根据标引的词语的来源不同,可以将自动标引分为自动抽词标引和自动赋词标引。自动抽词标引是指直接从原文中抽取词或短语作为标引词来描述文献主题内容的过程。它涉及到如何从原文中抽取能够表达其实质意义的词汇,以及如何根据这些词汇确定标引词 。赋词标引是指使用预先编制的词表中词来代替文本中的词汇进行标引的过程。即,将反映文本主题内容的关键词(欲用作标引的关键词)转换为词表中的主题词(或叙词等),并用其标引的方法 。 自动抽词标引,可以进行如下的大致分类。 4.2.1 从机器学习角度分类 l 监督学习:将关键词自动提取看成一种分类问题: NB , SVM 等; l 非监督学习:利用非监督学习方法,如聚类方法获取关键词。 图 4 给出了基于机器学习的自动抽词方法的逻辑视图。 4.2.2 从所使用的特征分类 l 规则信息,多为语言学特征,如标题、章节名、名词等作为关键词的概率大,相应的对这些特征赋予较高权重。其他的规则信息还包括对首次出现位置(DEP)靠前的、词性(POS)名词性成分高的词语赋较大权重等; l 统计信息,TF*IDF 、长度,短语的独立性等。 4.3 赋词标引方法详细分类 通常的赋词标引方法是借助于外部资源,如后控词表(包括同义词、上下位词、相关词等)、叙词表、本体等资源,将自动赋词过程转换为主题词的分类过程,或将文本的关键词转换为主题词。如图 5 所示,根据赋词标引所依据的外部资源对赋词标引方法进行详细分类。 5 自动标引存在的问题 与研究展望 5.1 自动标引存在的问题 自动标引中存在的问题包括标引数据集不平衡问题、标引代价敏感问题、标引数据标注瓶颈问题、标引颗粒度问题、标引关键词数问题、标引结果评价问题、标引系统实用化问题等 7 个方面的问题。下面分别对这 7 个问题进行说明。 5.1.1 标引数据集不平衡问题 对于一个文本来说,通常标引的关键词词数为 3-5 个,标引的关键词词数要远小于标引的非关键词词数。从自动分类角度来看,这个问题一般被称为分类数据集不平衡问题。在数据偏斜的情况下,样本无法准确反映整个空间的数据分布,分类器容易被大类淹没而忽略小类,分类不平衡问题是导致分类效果不理想的一个重要因素 。 5.1.2 标引代价敏感问题 在实际的关键词标引中,人们一般不希望将关键词误标为非关键词, 一个关键词漏标的代价比将一个非关键词标为关键词的代价高。 这个问题一般被称为 代价敏感问题。 5.1.3 标引数据标注瓶颈问题 机器 学习算法需要大量的标引样本,但已标引的样本所能提供的信息有限。另一方面,容易获得的未标引样本(如互联网上网页)数量相对于标引样本较多,且更接近整个样本空间上的数据分布。提供尽可能多的标引样本需要艰苦而缓慢的手工劳动,制约了整个系统的构建,这就产生了一个标注瓶颈的问题 。因此 , 如何用少量的已标引样本和大量的未标引样本训练出一个好分类器,逐渐引起人们的关注 。 5.1.4 标引颗粒度问题 一般说来,较专指的词适合作关键词,但专指度并不是越大越好。过于专指,不仅增加了自动标引的难度,而且,在实际应用中,比如信息检索中,由于该词过于专指,不被一般用户所接受,使得该词作为检索入口的概率就会减小。在文本聚类中,专指越多,则特征向量越容易稀疏,增加了聚类的难度。因此,应该根据应用的场合,进行专指度自适应式的关键词自动标引。 5.1.5 标引关键词数问题 对标引的关键词数有限制。根据应用场合选择合适的数目。在信息检索中,关键词作为一个揭示文本主题的单位,标引的关键词数适合定在 9 个词以内。主要原因为:首先,根据 7 (+/-) 2 认知规则 , 9 是一般用户不需要特别努力,能够记住的词条个数 ;其次,文献的关键词手工标引词一般为 3~5 个,最多小于 10 个。值得注意的是,在某些文件自动处理(如自动分类、自动聚类)应用中,为了增加特征数目,同时又不至于产生高维数据问题,一般将关键词数目控制在 50 左右即可达到很好的特征选择效果 。 5.1.6 标引结果评价问题 传统的作法是对照人工标引的结果或者专家打分的方式,如 863 自动文摘测评中关于关键词提取的评估方法,这种方法比较主观,成本也比较高。因此,构建一个自动标引的通用评价模型,以减少自动标引的主观性,节省评价成本,是一项有意义的工作 。 5.1.7 标引系统实用化问题 绝大多数标引系统不是完全自动的,标引技术仍然处于实验阶段。正如十几年前 Wellisch 的比喻:自动标引系统的研制在某种意义上恰似机械鸟的制造,经过 20 多年的试验,有些外貌开始像鸟,有些能够模仿几声鸟鸣,有些能扑打一番翅膀,但至今还没有一只会飞、会鸣 。十多年过去了,标引系统的进一步实用化依然是人们追求的目标。 5.2 自动标引研究与应用展望 从自动标引研究路线图可以看出,自动标引的研究主流方法为 统计学习模型与语言知识(如词类、句法、语义、篇章结构等)的结合。今后的研究趋势主要存在如下四个方向。 5.2.1 本体的自动构建,并用于自动赋词标引中 从自动标引的研究历史可以看出,绝大部分研究集中在抽词标引上面,图书情报、语言学、人工智能三个领域的研究者都对抽词标引进行了大量的研究与应用。由于资源的匮乏或词表造价昂贵,使得赋词标引研究与应用相对较少。即便如此,机器辅助编制词表的研究一直没有停止过,该研究成果可以直接用于赋词标引。近年来,随着本体学习的研究的不断深入,本体有望自动或半自动地被构建,并且可用于自动赋词标引当中。基于本体的自动赋词方法是在概念层面上对文本进行标引,并能识别概念之间的关系,标引结果可以用于语义检索当中。 5.2.2 多种标引方法的集成学习、更理想的机器学习方法的运用 标引是一项富有智能性的工作。我们可以借助认知理论对标引任务进行分析和理解 。自动标引模型,从最初依据启发式知识进行标引,发展到后来利用监督学习与非监督学习方法进行标引,都只是从一定程度上对标引行为进行拟合。目前还没有一种方法能完全能模拟并达到标引员的标引能力。多种模型或方法的集成,能在一定程度上提高自动标引的质量。多种标引模型或方法的集成学习要求每个标引模型标引结果存在差别,同时保证标引结果优于随机猜测的结果。因此,寻求更加理想的机器学习方法,并用于自动标引任务中,是今后自动标引研究的趋势之一。 5.2.3 深层语言知识的获取及其在自动标引任务中的运用 自动标引主要依据候选对象的若干特征进行分析,将主题表达能力强的候选对象作为标引结果,如本文的标引结果为 自动标引;抽词标引;赋词标引。在所使用的特征当中,绝大部分是通过词法分析或少量的句法分析而来。随着深层语义分析和篇章分析研究的不断深入,这些研究成果可用于自动标引任务,提高标引质量。 5.2.4 自动标引的应用领域将不断扩展 最初,自动标引被用来解决文献缺少关键词这一问题。自动标引发展到今天,应用早已超过这一范围,它已经被广泛用于文本检索、自动问答、文本知识发现(或称文本挖掘)等领域。今后,随着互联网海量数据规模的进一步扩大,信息爆炸问题将变得更加紧迫。对信息资源进行基于主题的自动标引,并进行后续的数据挖掘,不仅能解决高维数据计算问题,并且能从主题或语义层次上对信息资源进行揭示和控制。随着语义网的不断深入研究和应用,作为一个传统的研究课题,自动标引将不断被赋予新的含义和特定任务。同时,自动标引的应用领域将不断扩展。 参考文献 : 1 曾元显 . 关键词自动提取技术与相关词反馈 . 中国图书馆学会会报 , 1997, 59: 59-64. 2 王强军 , 李芸 , 张普 . 信息技术领域术语提取的初步研究 . 术语标准化与信息技术 ,2003, 1: 32-33, 37. 3 Xun E, Huang C, Zhou M. A Unified Statistical Model for the Identification of English baseNP. In: Proceedings of 4th ACM Conference on Digital Libraries, Beakeley , CA , USA , 2000: 254-255. 4 李素建 , 王厚峰 , 俞士汶 , 辛乘胜 . 关键词自动标引的最大熵模型应用研究 . 计算机学报 , 2004, 27(9):1192-1197. 5 张燕飞 . 信息组织的主题语言 . 武汉 : 武汉大学出版社 , 2005: 226. 6 Allan J, Carbonell J, Doddington G, Yamron J, Yang Y. Topic Detection and Tracking Pilot Study: Final Report. In: Proceedings of DARPA Broadcast News Transcription and Understanding Workshop. Lansdowne , Virginia , USA , 1998: 194-218. 7 侯汉清 , 马张华 . 主题法导论 . 北京 : 北京大学出版社 , 1991: 1. 8 刘华 . 基于关键短语的文本内容标引研究 . 北京语言大学博士学位论文 . 2005: 11-13. 9 戚雨春 , 董达武 , 许以理 , 陈光磊 . 语言学百科词典 . 上海 : 上海辞书出版社 , 1993: 97. 10 Lahtinen T. Automatic Indexing: an Approach Using an Index Term Corpus and Combining Linguistic and Statistical Methods. Academic Dissertation, University of Helsinki , Finland , 2000: 34. 11 Harter S P. Online Information Retrieval: Concepts, Principles and Techniques. Orlando , Florida : Academic Press, Inc., 1986: 42. 12 Luhn H P. A Statistical Approach to Mechanized Encoding and Searching of Literary Information. IBM Journal of Research and Development, 1957, 1(4): 309-317 13 Luhn H P. The Automatic Creation of Literature Abstracts. IBM Journal of Research and Development. 1958. 2(2): 159-165. 14 Baxendale P E. Machine-made Index for Technical Literature an Experiment. IBM. Journal of Research and Development, 1958, 2(4): 354-361. 15 Edmundson H P, Oswald V A. Automatic Indexing and Abstracting of the Contents of Documents. Planning Research Corp, Document PRC R-126, ASTIA AD No. 231606, Los Angeles , 1959: 1-142. 16 Maron M E, Kuhns J L. On Relevance, Probabilistic Indexing and Information Retrieval. Journal of the Association for Computer Machinery, 1960, 7(3): 216-244. 17 Edmundson H P. New Methods in Automatic Abstracting Extracting. Journal of the Association for Computing Machinery, 1969, 16(2): 264-285. 18 Lois L E. Experiments in Automatic Indexing and Extracting. Information Storage and Retrieval, 1970, 6: 313-334. 19 Salton G, Yang C S. On the Specification of Term Values in Automatic Indexing, Journal of Documentation, 1973, 29(4): 351-72. 20 Salton G, Wong A, Yang C S. A Vector Space Model for Automatic Indexing. Communications of ACM, 1975, 18(11): 613-620. 21 Dillon M, Gray A S. FASIT: A Fully Automated Syntactically Based Indexing System. Journal of the American Society for Information Science, 1983, 34(2): 99-108. 22 Devadason F. Computerization of Deep Structure Based Indexes. International Classification, 1985, 12(2): 87-94. 23 Deerwester S, Dumais S T, Landauer T K, Furnas G W, Harshman R A. Indexing by Latent Semantic Analysis. Journal of the American Society for Information Science, 1990, 41(6): 391-407. 24 Silva W T, MiliDiu R L. Belief Function Model for Information Retrieval. Jounral of the American Society for Information Science, 1993, 44(1): 10-18. 25 Cohen J D. Highlights: Language and Domain-independent Automatic Indexing Terms for Abstracting. Journal of the American Society for Information Science, 1995, 46(3): 162-174. 26 Chien L F. PAT-tree-based Keyword Extraction for Chinese Information Retrieval. In: Proceedings of the 20th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR1997), Philadelphia, PA, USA, 1997: 50-59. 27 Frank E, Paynter G W, Witten I H. Domain-Specific Keyphrase Extraction. In: Proceedings of the 16th International Joint Conference on Aritifcal Intelliegence, Stockholm, Sweden, Morgan Kaufmann, 1999: 668-673. 28 Turney P D. Learning to Extract Keyphrases from Text. NRC Technical Report ERB-1057, National Research Council , Canada . 1999: 1-43. 29 Anjewierden A, Kabel S. Automatic Indexing of Documents with Ontologies. In: Proceedings of the 13th Belgian/Dutch Conference on Artificial Intelligence (BNAIC-01), Amsterdam , Neteherlands, 2001: 23-30. 30 Tomokiyo T, Hurst M. A language Model Approach to Keyphrase Extraction. In: Proceedings of the ACL Workshop on Multiword Expressions: Analysis, Acquisition Treatment, Sapporo , Japan , 2003: 33-40. 31 Hulth A. Improved Automatic Keyword Extraction Given More Linguistic Knowledge. In: Proceedings of the 2003 Conference on Emprical Methods in Natural Language Processing, Sapporo , Japan , 2003: 216-223. 32 Zhang K, Xu H, Tang J, Li J Z. Keyword Extraction Using Support Vector Machine. In: Proceedings of the Seventh International Conference on Web-Age Information Management (WAIM2006), Hong Kong , China , 2006: 85-96. 33 Ercan G, Cicekli I. Using Lexical Chains for Keyword Extraction. Information Processing and Management, 2007, 43(6): 1705-1714. 34 韩客松 , 王永成 . 中文全文标引的主题词标引和主题概念标引方法 . 情报学报 , 2001, 20(2): 212-216. 35 索红光 , 刘玉树 , 曹淑英 . 一种基于词汇链的关键词抽取方法 . 中文信息学报 , 2006, 20(6): 25-30. 36 Dennis S F. The Design and Testing of a Fully Automatic Indexing-searching System for Documents Consisting of Expository Text. In: G. Schecter eds. Information Retrieval: a Critical Review, Washington D. C.: Thompson Book Company, 1967: 67-94. 37 Salton G, Buckley C. Automatic Text Structuring and Retrieval Experiments in Automatic Encyclopaedia Searching. In: Proceedings of the Fourteenth SIGIR Conference, New York : ACM, 1991: 21-30. 38 Salton G, Yang C S, Yu C T. A Theory of Term Importance in Automatic Text Analysis, Journal of the American society for Information Science, 1975, 26(1): 33-44. 39 马颖华 , 王永成 , 苏贵洋 , 张宇萌 . 一种基于字同现频率的汉语文本主题抽取方法 . 计算机研究与发展 , 2004, 40(6): 874-878. 40 Matsuo Y, Ishizuka M. Keyword Extraction from a Single Document Using Word Co-ocuurrence Statistical Information. International Journal on Artificial Intelligence Tools, 2004, 13(1): 157-169. 41 Witten I H, Paynter G W, Frank E, Gutwin C, Nevill-Manning C G. KEA: Practical Automatic Keyphrase Extraction. In: Proceedings of the 4th ACM Conference on Digital Library (DL99) , Berkeley , CA , USA , 1999: 254-26. 42 张庆国 , 薛德军 , 张振海 , 张 君玉 . 海量数据集上基于特征组合的关键词自动抽取 . 情报学报 , 2006, 25(5): 587-593. 43 Keith Humphreys J B. Phraserate: An Html Keyphrase Extractor. Technical Report, University of California , Riverside , 2002: 1-16. 44 侯汉清 , 章成志 , 郑红 . Web 概念挖掘中标引源加权方案初探 . 情报学报 , 24(1): 87-92. 45 Boris L, Andreas H. Automatic Multi-lable Subject Indexing in a Multilingual Environment. In: Proceedings of 7th European Conference in Research and Advanced Technology for Digital Libraries (ECDL 2003), Trondheim , Norway , 2003: 140-151. 46 苏新宁 . 信息检索理论与技术 , 北京 : 科学技术文献出版社 , 2004: 215-217. 47 曾蕾 . 知识组织系统 . 见 : 曾民族主编 . 知识技术及其应用 . 北京 : 科学技术文献出版社 , 2006: 122. 48 苏金树 , 张博锋 , 徐昕 . 基于机器学习的文本分类技术研究进展 . 软件学报 , 2006, 17(9): 1848-1859. 49 Yaakov H-K. Automatic Extraction of Keywords from Abstracts. In: Proceedings of the 7th Internationl Conference on Knowledge-Based Intelligent Information and Engineering Systems (KES2003), Oxford , UK , 2003: 843-946. 50 Leouski A V, Croft W B. An Evaluation of Techniques for Clustering Search Results. Technical Report IR-76, Department of Computer Science, University of Massachusetts , Amherst , 1996: 1-19. 51 章成志 . 主题聚类及其应用研究 , 南京大学博士学位论文 , 2007: 28-50. 52 储荷婷 . 索引自动化 : 自动标引的主要方法 . 情报学报 , 1993,12(3): 218-229. 53 Medelyna O. Automatic Keyphrase Indexing with a Domain-Specific Thesaurus. Master Thesis, University of Freiburg , Germany , 2005: 23-26. 注:本文发表于《现代图书情报技术》2007年第11期。 全文链接地址: http://www.sciencenet.cn/upload/blog/file/2008/8/200882621585975867.pdf 相关论文: Automatic Keyword Extraction from Documents Using Conditional Random Fields ( PPT ) 基于Citation-KNN的语义隐含主题词自动抽取方法
个人分类: 文本挖掘|10123 次阅读|11 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-20 12:38

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部