科学网

 找回密码
  注册

tag 标签: 内容分析

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

基于自引网络和内容分析的学者研究主题挖掘
rbwxy197301 2015-9-23 09:58
基于自引网络和内容分析的学者研究主题挖掘 摘要:学者研究主题挖掘可以帮助科研人员快速准确的了解研究者的研究主题,并跟踪其研究主题的变化情况。本文利用作者自引网络与内容分析相结合的研究方法,并以NodeXL为研究工具,探讨了学者研究主题的挖掘,并根据点入中心度等指标发现了研究成果中的重要文献。通过对Egghe、Leydesdorff和Glanzel三位学者的实证 研究发现,这种方法可以比较有效地发现其研究主题及他们研究主题的差异,并可以发现其研究成果之间的继承性和研究主题的变化。 关键词:作者自引网络 内容分析 研究主题 魏瑞斌.基于自引网络和内容分析的学者研究主题挖掘 .情报学报,2015,34(6):635-645 9 魏瑞斌-基于自引网络和内容分析的学者研究主题挖掘.pdf
个人分类: 科学计量学|2122 次阅读|0 个评论
书评:《信息分析的核心》之信息分析
热度 2 huabolin 2011-3-2 10:46
书评:《信息分析的核心》之信息分析
陈功编著的《信息分析的核心》一书已由新星出版社于 2010 年 7 月出版。本书在信息分析实践的基础上,从情报学和信息分析的原理出发,利用大量详实的案例,全面阐释了信息分析的关键与核心,强调了两个观点:发现和预测是信息分析的关键;应用训练是情报学这一应用科学的根本。《信息分析的核心》从原理、方法、实践三个层面对信息分析的核心进行了论述,本文则从形式、内容、思想三个方面对《信息分析的核心》一书进行分析述评。 1 形式分析 1.1 洒脱的行文 本书由原理、方法、实践三编构成,其中每编又由若干篇观点鲜明的小文章组成,其中原理编有 41 篇,方法编有 35 篇,实践编有 21 篇,共 97 篇。全书没有划分显性的章节,也没有标注序号,对于专业书籍,使用这种以问题为引子的方式并不多,颇有散文集的方式,感觉新颖独特,也印证了作者喜欢“天马行空”的性格。 1.2 统一的阵型 对于每篇小文章,采用理论铺垫与观点陈述、案例分析论证、结论三部分的论述模式。从字数上来看,理论铺垫或观点陈述大约占 40% ,案例分析说明论证部分大约占 50% ,最后的结论部分大约占 10% ,基本上符合“ 451 ”阵型。 本书共有 97 篇文章(不包含自序与后记),这些文章的标题按照特征可以分为三类,即:提问型标题、主题型标题、观点型标题。各类型标题数量分布如表 1 所示。 表 1 标题类型数量分布 提问型 主题型 观点型 合计 原理编 13 15 13 41 方法编 8 21 6 35 实践编 10 7 4 21 合计 31 43 23 97 提问型标题共有 31 个,例如:“观点是如何形成的?”、“为什么说研究体制是终极武器?”、“战略开支还敢不花钱?”等。主题型标题共有 43 个,例如:“信息分析与趋势判断”、“思维训练与应用学科”、“信息分析的四种工作模式”等。观点型标题共有 23 个,例如:“战略必须依靠信息分析的支撑”、“‘思维实验室’可以创造奇迹”、“‘长官意识’有害于信息客观性”。当然有些问句(特别是反问句)也带有明显的观点性,例如“美国人不了解阿富汗?”暗含着“美国人很了解阿富汗”的意思。 1.3 实用的附录 书中把引用文献与参考文献进行了区分。引用文献以脚注的形式列在了相应页面的下面,共引用 89 处,包括图书、论文、报纸、网页、讲话等多种文献形式,其中包昌火的《情报研究方法论》、陈功的《分析的艺术》等文献多次被引用。参考文献列在了书的末尾,共 72 篇,全部是图书,没有其他形式的文献,所列参考文献是对作者构思产生重要影响的文献。 书的后面附有信息小词典,这些词汇解释很有用,基本上是作者在实践过程中的认知,而并非学术定义。一共列了 81 个词汇,词条没有标号,也没有序化,至少不是按照字顺排列(包括拼音顺序或笔画顺序)的,也不是按文中出现顺序进行排列的,也不是按照内涵大小依次排列的,也没有按照词条分类进行排列的。 索引是著书的一项重要内容。外文的图书附录一般会有术语索引,中文硕博士论文一般会有图表索引(或者是图表目录)。本书中一共出现了 118 处案例,如果能在附录里做个案例索引,那么这本书的特色将会更加突出。 2 内容分析 2.1 经济预测优势尽显 作者在业界有几个较为著名的关于形势方面的趋势判断,而书的写作成稿过程又恰逢金融危机的大环境,因此书中大量使用金融危机及经济预测方面的案例。例如,股市的趋势预测(自序 V )、 2008 年全融危机的预测( P148 )、钢铁行业形势( P93 )、华尔街金融风暴( P95 )、迪拜危机( p79-81 )、 2008 年美国白宫和国会对汽车行业的援助( P248-249 )、 2010 年中央经济工作会议后的经济形势判断( P262-265 )等,通过这些切合时代的真实案例,充分体现了作者及其团队在经济预测方面的独特视角与成功模式,也反映了作者的信息敏感性以及与时代紧密结合的特征。 2.2 案例分析无处不在 几乎每篇文章都有案例,有些案例是作者独创的或亲身经历的,有些案例是广为传播但作者从不同的视角进行了分析。书中案例从来源上讲分为两类,一类是安邦案例,例子说明过程中使用“在安邦研究总部”或者“我们在进行 … 分析时”等指示语。另外一类是非安邦案例,对于非安邦案例,作者往往也加上自己的观点、评论。本书共出现了正规案例分析 118 处 (文字在百字以上,有分析过程,用于证明作者观点的案例),篇均 1.36 个,也就是说平均起来,每篇文章都会有一个或多个案例。案例数量分布如表 2 所示。 表 2 书中案例数量分布 非安邦案例 安邦案例 合计 原理编 35 13 48 方法编 31 10 41 实践编 25 4 29 合计 91 27 118 其中,安邦案例又分为三类,即安邦的信息分析与咨询案例、安邦人的实证考察案例、安邦的内部管理与学习案例。信息分析与咨询案例是安邦的产品,如讲到“无证不立、孤证慎立”时用到安邦研究总部在 2009 年关于中国钢铁行业的经营态势分析。安邦人的实证考察案例是指安邦人员在进行研究过程中的一些例子,例如在讲到“成才的关键是知识能力训练”时讲述了“非典”时期安邦两位人员参加科技部一个会议时不同的笔录所反映出知识能力的区别。安邦的内部管理与学习案例指安邦公司在研究过程中所建立的平台、形成的学习方法、研究套路等,如讲到“英雄不问出处吗?”时指出安邦研究平台的每一条信息旁边加的搜索引擎链接按钮。通过这些案例,读者可以深入地了解安邦人员、安邦体制、安邦产品,这也是对一家公司进行信息分析的三大要素。 2.3 新颖观点层出不穷 书中不仅提出了一些“思维训练”、“思维实验室”、“窗口分析法”等新的概念,也从实践的角度阐明了作者的一些观点。这些观点可以分为现象评判型、概念关系型、工作指导型等三种类型。第一类是现象评判型,例如:“缺乏逻辑的证据,只是现象;没有证据的逻辑,实际上只是猜想”、“现在缺的不是方法,而是训练”、“信息分析按照情报学理论来解释,永远做的是一种黑箱系统的分析”。第二类是概念关系型,例如“报告是供参考的,简报才是参与决策的”、“战略是框架,政策是文件。战略因人而定,政策因事而定”。第三类是工作指导型,例如“信息分析人员在一个很长的时间里面,保持研究状态,汇总信息资源,通过逐渐逼近的方式,对各种动向和趋势,做出自己的趋势判断,完成预测”、“趋势判断主要依靠两样东西搞研究。一是跟踪研究体制,另一种是运作模式识别”等。 3 思想分析 3.1 系统贯主线 尽管封面和扉页上印有 “ 一流学者 ‘ 发现 ’ 问题,二流学者 ‘ 解决 ’ 问题,三流学者 ‘ 讨论 ’ 问题,四流和不入流学者 ‘ 研究 ’ 问题 ” 。但全书并非按照这样的路线来组织,书中也没有使用大量篇幅来论证上述观点(只是在著作开篇《大师安在?》一文中进行论证),实际上贯穿本书主线的是系统科学思想。例如:“信息分析的四个关键因素:资源( Input )、工具 (Process) 、可验证 (Output) 、反应(串联起 IPO )”、“信息分析的意识流,是逻辑,是证据,是系统模型,所强调的不外乎是在客观证据的基础上,建立合理的逻辑关系,最后形成一个系统,用来解释事物和发展规律”、“信息分析是实证科学,从证据开始,到证据结束”、“逻辑、证据和系统模型是信息分析的三大核心要素”等等,这些观点及论述都体现着系统科学或系统论的思想。作者十几年的程序实践让其认定系统论不仅仅是思想,也是重要的实践和现实。 围绕着信息分析的资源 (Input) 、工具 (Process) 、可验证 (Output) 、反应 ( 串联起 IPO) 这四个关键因素作者展开了诸多论述,如图 1 所示。 (注:此图并非书中原图,而是本人读完此书之后绘出的图。) 3.2 实践出真知 全书虽然分为了理论编、方法编与实践编,但在理论编与方法编部分,也大量使用案例,几乎在每一个理论阐释与方法解析过程中都举例说明或用案例论证。作者有着丰富的信息分析实践,在实践过程中有很多体会,而这种实践以及实践中所产生的体会对于信息分析与情报工作从业人员具有启发与借鉴意义,对高校情报学专业的师生也具有很强的指引作用。因此,《信息分析的核心》一书架起理论与实践相结合的桥梁,也是解决情报学“理论与实践脱离”这一问题的有益尝试。作为一名企业家,身处竞争激烈的行业,敢于把多年的从业体会揭示出来,其精神难能可贵,也足以看出作者对这个行业及学科的喜爱程度。针对情报学这样一门应用学科,希望有情报实践的人多讲讲课、写写书,而有情报理论的人多多参与实践、从实践中总结提炼理论并把理论用于实践。 3.3 十年磨一剑 作者用了将近十年的时间,把情报实践中的点点滴滴汇聚起来,完成了这本可读性很强的“小书”,可谓用心良苦、字斟句酌。十年磨一剑,一剑刺喉,剑指信息分析的核心。信息分析的三大核心要素是逻辑、证据和系统模型。关于逻辑的论述,包括“逻辑与分析逻辑”、“分析逻辑是柄思想之剑”等。关于证据的论述,如“就事论事说实证”、“从证据到证据的分析”、“无证不立,孤证慎立”,“事实永远只能接近”等。关于系统模型,有“什么是系统?”、“世间万物皆为系统”、“‘系统语言’的基础有哪些?”、“信息分析的系统工具”、“只有数学模型才是模型吗?”等等。除此之外,作者还阐述了信息分析三样最宝贵的东西:各种各样的流程、跟踪研究的模式、技术系统平台,这三样东西形成的研究体制最为重要,是信息分析的终极武器,这也是安邦咨询的研究体制。在书名里使用“核心”一词,足以反映作者具备扎实的理论功底、丰富的实践经验以及独到的思想见解。 4 结束语 《信息分析的核心》一书运用信息分析与情报学理论来解释一些现象,并运用大量的案例来论证信息分析与情报学的理论与观点,是一本情报理论与实践结合紧密的好书。能让读者逐字逐句地读,并建立全文倒排索引,采用内容分析法的方式撰写书评,的确是一本有特色的佳作。 不包括类比与没有进行分析的简单举例。类比如 118 页的“电影里面有很多终极武器,飞天入地 … ”,简举例如 117 页的“如物理学中的光谱分析方法、化学中的比色方法”等。 注: 原文发表于《情报理论与实践》2011年第1期:P126-128
个人分类: 著作评析|6954 次阅读|3 个评论
为什么要引用(续2)
zilu85 2010-5-8 11:11
尽管有了基于引文情景分析的方法和结果,对于引用动机的解释还是存在着争议。对于引文分析的评价也不都是消极: 1977年,G. Nigel Gilbert认为引用是为了说服别人,即:作者为了证明引用文献中所发布的结果,选择引用他们认为是权威的论文,因此,可以说作者通过引用被引文献提供了说服性的支持。通过引用,作者可以既显示出他们对科学界某一特殊领域的忠诚,也为被引用论文的价值建立起一个共识做出了贡献。这种想法为论文质量研究和同被引分析研究中的发现提供了合理的解释,也对以往引用内容分析的研究结论进行了反驳。 引用情景分析方法通过检查引文标号附近的文本文字,确定引用作者的具体想法与被引文献之间的关联,但是很多研究都是对引用进行了简单的分类,没有注意到引文情景的科学内容。为此,Henry G. Small于1978年对化学领域高被引论文样本进行了涉及到具体内容的引文情景分析,发现在引用文献中,对特定文献的引用情景(即引用文献中的上下文)具有高度的一致性,所以引文可以作为化学领域中特定想法、方法和实验数据的标准符号。他们得出结论:作者是按照科学研究的正规要求把特定的思想与特定的文献关联起来的,因此,被引文献实际上是作为在文本中表达的想法的符号而存在的,在这个过程中,高被引论文由于其典范意义而被频繁引用。 上述研究证明被引文献可以作为概念符号或者说服别人的手段,因此引文与被引文献之间具有实质上的联系,作者力图证明引文计数作为引文分析的基本指标还是可靠的指标。尽管如此,作者为什么引用这一篇而不是另一篇,依然是引用动机研究中不可回避的问题,已有的研究中都认为这是明显地受到了马太效应的影响,但是一直以来没有过深入系统的研究。
个人分类: 生物医学文献计量学|4774 次阅读|2 个评论
最早的植物人研究论文内容分析(1947年)
xupeiyang 2010-2-5 10:40
http://www.gopubmed.org/web/gopubmed/1?WEB01ifb4e4i7le0wI4cInI00f01000j10040001rl Title: Syncope following barium chloride intravenously in the horse? PMID: 18921725 Related Articles Authors: Auchterlonie, L A Journal: Vet Rec , Vol. 59 (49): 674 , 1947 No abstract given. Pubmed MeSH: Barium Compounds Wikipedia: Barium , Carotid sinus syncope , Chlorides , Domestic Horse , Drop attack , Equus caballus , Equus przewalskii , Fainting , Horse , Micturition Syncope , Presyncope , Syncope Title: Studies of syncope; biologic interpretation of vasodepressor syncope. PMID: 18904528 Related Articles Authors: ENGEL, C L , ROMANO, J Journal: Psychosom Med , Vol. 9 (5): 288-94 , 1947 Sep-Oct No abstract given. Wikipedia: Carotid sinus syncope , Drop attack , Fainting , Micturition Syncope , Neurocardiogenic syncope , Presyncope , Syncope , Syncope, vasovagal , Vasodepressor syncope , Vasovagal Syncope Title: PMID: 18918027 Related Articles Authors: LEGER, L , COSTE, M Journal: Presse Med , Vol. 55 (16): 174 , 1947 No abstract given. Pubmed MeSH: Carotid Sinus , Syncope 3 of 33,204 documents semantically analyzed top author statistics Term: 1947 Description: year 1947 Top Years Publications 1947 3 Top Journals Publications Vet Rec 1 Psychosom Med 1 Presse Med 1 Top Authors Publications Auchterlonie L 1 ROMANO J 1 ENGEL C 1 COSTE M 1 LEGER L 1 Top Terms Publications Syncope 3 Horses 1 Chlorides 1 Barium 1 Barium Compounds 1 Syncope, Vasovagal 1 Carotid Sinus
个人分类: 神经科学|2910 次阅读|0 个评论
基于句子匹配的文章自写度测评系统
huabolin 2008-10-24 13:28
基于句子匹配的文章自写度测评系统 化柏林 (中国科学技术信息研究所 北京100038) (发表于《现代图书情报技术》2007年第11期) 【摘要】 针对人工进行不同文章中相同内容的判断存在着较大困难的局面,提出一个基于句子匹配的文章自写度测评系统。设计基于句子匹配的文章自写度测评系统的系统结构,论述句子分析器、句子匹配器与文章自写度评价器3个关键模块的详细流程,并设计相应算法。选取小规模数据进行实验,实验结果表明,基于句子匹配的文章自写度测评系统从技术上完全可行。最后分析基于句子匹配的文章自写度测评系统的难点及问题。 全文:基于句子匹配的文章自写度测评系统
个人分类: 知识抽取|4244 次阅读|2 个评论
基于NLP的知识抽取系统架构研究
huabolin 2008-10-24 13:20
基于NLP的知识抽取系统架构研究 化柏林 中国科学技术信息研究所,北京 100038 (发表于《现代图书情报技术》2007年第10期) 摘 要 在参考自然语言处理平台及知识抽取系统的系统结构的基础上,提出一个基于 NLP 的知识抽取系统的详细设计方案。自然语言处理过程包括分词、词性标注、句法分析、语义分析等八大模块,知识抽取过程包括论文类型分析、篇章结构分析、知识抽取、知识表示等四大模块。通过对基于 NLP 的知识抽取系统架构的研究,明确自然语言处理与知识抽取的关系,分析出知识抽取的系统流程及关键技术。 全文:基于NLP的知识抽取系统架构研究
个人分类: 知识抽取|4854 次阅读|0 个评论
图书情报学核心期刊论文标题计量分析研究
huabolin 2008-10-24 11:19
图书情报学核心期刊论文标题计量分析研究 化柏林 ( 中国科学技术信息研究所,北京 100038) (发表于《情报学报》,2007年第3期) 摘要 从中文科技期刊数据库 ( 重庆维普 ) 选取了 1989 年到 2005 年的 17 种图书情报学核心期刊 (2004 版 ) 的所有论文,滤掉 会议通知、征稿简则、年度索引等非正式论文后, 利用 VBA 对 42989 篇文献的标题进行统计分析。统计结果表明,标题长度符合正态分布,标题的句型相对比较集中。大多数作者会从标题中抽出一至三个关键词。标题中的停用词与动词分布相对集中,而题首词、题尾词以及题含关键词分布相对分散一些。对标题的规律性分析有利于进一步指导标题的拟定,计量分析的结果为后续的摘要分析以及正文内容分析提供了一些基础数据。 关键词 图书情报学, 核心期刊, 标题, 计量分析, 内容分析 Title Statistical Analysis of Papers from Core Journal on Library and Informatics Hua Bolin ( Institute of Scientific and Technical Information of China, Beijing 100038) Abstract Based on all papers which is published on library and informatics core journals from 1989 to 2005 from China Journal Full-text Database, 42989 titles are analyzed by using VBA after filtering conference notice, call for papers and annual index. The result shows the following three conclusions. First, length of title is in accord with normal distribution, and sentence patterns of title are relative centralized. Second, most of authors extract one to three keywords from corresponding title. Last, stop-word and verb in title are relatively centralized, but first word, last word and keywords in title are relatively scattered. Analysing disciplines of title are convenient to guide sketching title. Furthermore, analytical result imply basic data for following abstract analysis and text content analysis. Keywords library and informatics, core journal , title, bibliometrics, content analysis 目前,计量分析的研究主要集中在作者、作者机构、地区、关键词、分类号、参考文献等方面,对于标题、摘要、正文等更能反映文章内容的计量分析却很少。本文从中文科技期刊数据库(重庆维普)选取了1989年到2005年的17种图书情报学核心期刊(2004版)的所有论文,利用VBA过滤掉会议通知、征稿简则、年度索引等非正式论文后,得到42989篇文章,然后对文章标题长度、题首与题尾词、高频动词、高频停用词、标题常用句型以及题含关键词数量进行了统计分析。 1标题长度统计 42989篇文章的标题一共695076个字符,平均每篇文章标题为16个字符。标题最长的为88个字符,最短的为2个字符。最长的为英文标题,所以字符数很长,但如果用单词计数,那么又变得太短。对于英文字符的处理有以下几种方式:一种是把英文翻译成中文进行计数,一种是按英文与中文的对应统计规律进行换算(包括一个英文单词平均对应几个中文字符或几个英文字符对应一个中文字符)。对于英文单词,译成中文后的字符数会变少,如Internet翻译成因特网后会由8个字符变成3个字符;对于英文缩写,译成中文后的字符数会变多,如XML翻译成可扩展标记语言后会由3个字符变成7个字符。所以总体上来讲英文单词与英文缩略语的弹性长度以及出现频率对标题长度统计的影响基本持平,可以忽略不计。文章标题长度端点值如表1所示。 表 1 文章标题长度示意表 文章标题 长度 Integration of a ResourceOriented Vocabulary with KnowledgeOriented Vocabulary Systems 88 Electronic Journals in the Digital Environment: Issues and Future Trends 71 《图书馆论坛》又被确定为图书馆学、情报学类的核心期刊( 2004年版),并被选定为2003年中文社会科学引文索引(CSSCI)来源期刊 70 ChemVillage、 CAonCD、Chemistry Server和Beilstein/Gmelin CrossFile的比较分析 67 深化改革,抓紧机遇,开拓图书信息工作的新格局在全国市场经济与图书馆建设馆长研讨班开幕式上的讲话(摘要) 1993年9月14日 65 新世纪新视点三人谈之继承与创新,信息资源建设在新世纪面临的新课题张勇:剪不断,理还乱的馆藏情结文献资源建设思想的反思与探索 65 适应市场经济的新形势 深化图书馆事业的改革在全国市场经济与图书馆建设馆长研讨班开幕式上的讲话(摘要) 1993年9月14日 64 以三个代表重要思想为指导,大力推进我国图书馆现代化建设在中国图书馆学会第六次全国会员代表大会暨 2001年学术年会上的讲话 63 两种情报观: Information还是Intelligence?在情报学和情报工作中引入Intelligence的思考 61 图书馆个性化服务平台开发工具 Oracle9i Application Server Portal与uPortal的比较 61 论邮购 3 复分论 3 论文献 3 论馆风 3 论丛书 3 论别集 3 论浏览 3 导读论 3 评析 2 回归 2 新议 2 表1中所列第三条是非正式论文,但由于数据库加工商提供了作者、关键词等,所以没能过滤掉。标题长度10个字符以下的为3341篇,40个字符以上的为163篇,不到千分之四,50个字符以上的有28篇,仅为万分之六,说明长标题数量很少。其中文章标题长度为9~22个字符的文章数量都超过1000篇,共36209篇,占84%。介于8~24个字符的文章数量达到38644篇,占90%。介于5~36个字符的文章数量达到42560,占99%。也就是说,绝大多数文章标题的长度为5到36个字符。其中15个字符的最多,为3909篇,总体上符合正态分布,标题长度与数量分布如图1所示。 图 1 标题长度与文章数量关系分布图 较长的标题一般含有标点符号,包括带有破折号的讲话,带有书名号的书评,带有引号、冒号、顿号等标点符号。不含英文字符及日期的最长标题为65个字符,此标题含有两个破折号和一个冒号。不带标点符号和英文字符的最长标题为35个字符基于多层次概念语义网络结构的中文医学信息语义标引体系和语义检索模型研究。42989篇文章中带有正副标题的有2815篇,书评有1926篇,分别占文章总数的6.5%和4.5%。 2标题含关键词数量统计 标题与关键词数量关系有好几个侧面。以关键词为主体,主要考虑篇含关键词个数。而以标题为主体,主要考虑标题含关键词数量。篇含关键词个数反映文章的关键词数量,见文献 ,题含关键词个数反映标题的关键词数量,题含关键词数量肯定小于或等于篇含关键词数量。题含关键词数量又有两种计算方法,一种是每篇文章标题含有的篇内关键词数量,反映文章标题与本文所提供的关键词的关系,另一种是每篇文章标题含有的所有关键词的数量关系,反映所有关键词在标题中的命中次数。 42989篇文章提供了43980个关键词,共202821次,其中有20671个关键词出现在相应的文章标题中,占关键词个数的47%,共出现85263次,占关键词总次数的42 %,也就是说有接近一半的关键词出现在了对应文章的标题中。42989篇文章中有85263个关键词出现在标题里,平均每篇文章标题中含有两个篇内关键词。最多的为9个,但经过人工验证,题含篇内关键词超过5个的大都是数据库商后加工的,并不是作者先行提供的。标题中出现一到三个关键词的文章数达37139篇,占文章总数的86%,标题中出现零个关键词的文章数达2753篇。题含篇内关键词个数与文章数量关系如图2所示。 图 2 题含篇内关键词个数与文章篇数统计图 用所有关键词对所有标题进行全切分,43980个关键词在42989篇文章中一共出现了444497次,平均每篇文章标题含10个次关键词,平均每个关键词在所有标题中出现10次,是题含篇内关键词数量的5倍。全切分题含关键词最多的为36个,有1篇,专业图书馆学科馆员组织模式探讨以中国科学院文献情报中心学科馆员制度建设为例,最少的为0个,有42篇。标题中含10个关键词的最多,有4314篇,其中5个到18个关键词的文章数都在1000篇以上,共39421篇,占文章总数的92%,5到16个关键词的文章数达36978篇,占文章总数的86%。标题全切分的很多关键词有包含关系,如图书馆包含图书。全切分题含关键词数与文章数量关系如图3所示。 图 3 标题全切分含关键词个数与文章篇数统计图 两种不同的计算方法有着不同的研究意义。第一种反映标题与关键词的直接关系,而第二种只是用关键词表对标题的全切分结果,直接的文献计量意义并不大。从总次数上,444497次基本是85263的5倍,从词的分布广度上,除去端点值外,35个也接近8个的5倍,题含篇内关键词为1~3个的文章数量占了86%,而采用全切分题含关键词数量为5~16个的文章数量占86%,5~16个也是1~3个的5倍。采用全切分题含关键词数量从各个方面基本是题含篇内关键词数量的 5倍。 3标题高频词统计分析 用43980个关键词作为词典,使用正向最大向量对42989篇文章标题进行切分,然后对未切分出来的字符串用199801《人民日报》语料词典进行嵌套切分,直到不能再分为止。得到停用词表,停用词是指基于关键词的检索中出现频率太高而没大有检索意义的词,但是这些停用词在全文检索特别是进行句法分析时就相当有意义。 停用词和未登录词一共出现了3621个,95783次,平均每个词出现26.5次,每篇文章标题出现2.2个。位于前20位的词共出现65068次,占总次数的68%,前50位的词共出现75942次,占总次数的80%,说明停用词的分布非常集中,题含高频停用词统计如表2所示。 表 2 标题停用词高频统计表(前 20 位) 停用词 频次 停用词 频次 停用词 频次 停用词 频次 的 27959 及 1945 谈 1366 几 732 与 7680 在 1808 关于 1306 下 691 论 3861 和 1796 试 1131 从 609 中 3445 对 1794 基于 1021 新 555 我国 2136 及其 1691 浅 832 之 496 出现频率最高的是的,42989篇文章标题中出现了27959次,其中出现两次以上的有1634篇,3324次,也就是说24635篇文章标题中出现了的,占文章总数的57%。其中有53篇文章出现了3个的,还有一篇出现了5个的,即从读者获取信息能力的现状谈信息能力的培养由一次对读者的文献信息能力的调查引出的话题。这些标题中有一些是主副标题,有一些不是,如一种基于改进的支持向量机的两类文本分类方法的研究。 中文标题主要由三部分构成,限定研究范畴、确定研究主题和反映研究侧面。标题首部主要是限定研究范畴,主间确定研究主题,尾部反映研究侧面。因此,统计标题前两个字符和后两个字符也颇有意义。标题前两个字符一共出现了5057个,平均每个出现8.5次,频率最高的为图书,2387次,占题首词总数的5.6%,前50位一共出现了21589次,占50%,说明最常出现的五十个词占了五千多个词的一半,标题前两个字符高频统计如表3所示。 表 3 题首词高频统计表(前 50 位) 题首词 频次 题首词 频次 题首词 频次 题首词 频次 题首词 频次 图书 2387 浅谈 540 利用 248 论网 175 建立 142 网络 1683 中国 524 21 212 谈谈 166 浅议 140 信息 1294 文献 462 国外 210 In 163 试析 138 关于 1268 电子 460 面向 203 期刊 162 一种 131 高校 1182 论图 451 公共 195 浅析 161 浅论 128 我国 1157 情报 418 论信 194 国内 160 大学 126 基于 1087 企业 381 中文 193 加强 153 计算 125 试论 1049 《中 346 略论 183 论高 153 因特 124 数字 879 美国 319 网上 178 如何 147 提高 121 知识 541 现代 289 科技 177 市场 145 数据 119 在前50位的题首词中,论图、论信、论网、In、论高、因特等六个词为不合法的中文词,论图的全称为论图书或论图书馆,论信为论信息、论网为论网上或论网络,In为Internet,因特为因特网、论高为论高校,这六个不合法词中,有三个是关于网络的。这些高频题首词可以分为以下几类,程度副词加动词的,试论、浅谈、略议、浅析、浅议、浅论,论,共出现6425次,占文章总数的15%,说明每七篇文章就有一篇以论(包括议、析、谈、评、述等)开头的;二类是介词,如关于、基于、利用、从等,共出现4420篇,占文章总数的10%,说明每十篇文章就有一篇是以介词(包括关于、基于、利用、从等)开头的,三类是以地点状语开头的,以我国、我省、我馆等开头的有1309篇。通过题首词能分析出部分句型,但不能完整的反映标题的句型结构。 在42989篇文章标题中,后两个字符一共出现了3475个,平均每个词出现12次。其中以研究最多,为3285次,占7.6%。出现前50名的一共有24830次,占58%,这个值大于题首词的50%,说明题尾词要比题首词相对更集中一些。题尾词高频统计如表4所示。 表 4 题尾词高频统计表(前 50 位) 题首词 频次 题首词 频次 题首词 频次 题首词 频次 题首词 频次 研究 3285 管理 635 策略 348 开发 228 述评 167 分析 1795 初探 626 教育 334 刍议 227 创新 166 思考 1698 工作 566 趋势 312 检索 226 我见 163 探讨 1294 方法 559 探析 272 实践 224 模型 154 应用 981 利用 551 综述 271 比较 222 改革 153 建设 956 书馆 479 模式 264 设计 220 体系 147 对策 952 影响 402 技术 254 构想 190 构建 144 问题 950 实现 369 探索 254 关系 187 浅析 140 服务 915 系统 365 启示 239 商榷 182 控制 138 发展 732 作用 350 评价 236 展望 172 途径 136 在标题后两个字符的前50个高频词中,除了书馆不是合适的词,其它词大都为可名词化的动词。后两个字符主要是通用性词语或反映研究侧面的词语。通用性词语如研究、思考、问题、初探、刍议等,反映研究侧面的词语如应用、实现、策略、设计等。 主题词大都是名词,主题词是能反映文章主题的最好的词,但不是唯一的词。比如同样是讲搜索引擎的文章,《Google搜索引擎技术实现探究》与《Google搜索引擎的使用技巧》的主题词都是搜索引擎,但文章内容大相径庭,读者群也完全不一样。所以除了题尾词以外,标题中的动词也很有指示性。本研究利用199801《人民日报》语料词典用最大向量法进行切分,然后用一元概率法进行词性标记,把标题中的动词抽取出来,得到标题中的动词统计结果。标题动词高频统计如表5所示。 表 5 标题动词高频统计表(前 50 位) 题动词 频次 题动词 频次 题动词 频次 题动词 频次 题动词 频次 论 6450 分析 1005 浅析 466 检索 311 构想 196 研究 2532 服务 871 构建 461 看 303 存在 196 试 2257 影响 716 加强 437 是 280 选择 195 谈 1869 实现 686 面向 426 学 274 深化 191 发展 1694 管理 625 改革 403 评价 259 议 181 建设 1550 建立 623 应 373 启示 255 信息化 181 思考 1543 工作 581 实践 368 创新 254 挑战 178 探讨 1308 提高 512 探索 342 教育 228 培养 177 应用 1295 开发 494 谈谈 334 使用 223 变革 171 利用 1011 设计 480 开展 320 综述 200 发挥 170 42989篇文章标题中共出现1665个动词,共56624次,平均每个词出现34次,其中前50位出现了36455次,占标题动词的65%。 目前,对文章内容进行计量分析,最多的是从关键词入手,而出现在标题里的关键词应该受到更多的关注。本研究设定最大向量长度为6个字符,利用正向最大向量法对标题进行切分,标题中出现了11031个关键词,共135640次,平均每个词出现12次,每篇文章出现3.2个。如果采用全切分的话,这些值会大很多。标题所含关键词高频统计如表6所示。 表 6 题含高频关键词统计表 ( 前 50 位 ) 关键词 频次 关键词 频次 关键 频次 关键词 频次 关键词 频次 图书馆 3624 应用 1257 实现 653 图书馆学 467 比较研究 359 研究 2514 问题 1100 影响 643 21世纪 446 美国 356 高校图书馆 2211 网络环境下 1005 初探 642 开发 433 《中图法》 351 发展 1597 分析 999 管理 621 信息服务 418 技术 350 思考 1543 服务 855 工作 576 数据库 394 图书馆信息 346 建设 1499 利用 765 中国 543 提高 391 信息 339 数字图书馆 1384 公共图书馆 749 方法 540 改革 369 作用 332 探讨 1295 对策 704 建立 481 构建 367 探索 316 应用 1257 高校 698 设计 478 实践 365 检索 304 问题 1100 系统 658 现状 474 知识管理 360 浅析 303 标题中出现的关键词以图书馆最多,3624次,频次前50位的词一共出现了38058次,占标题关键词的28%。 标题中的停用词、题首词、题尾词、题中动词以及题中关键词分别出现了3621个、5057个、3475个、1665个、11031个,平均每个词出现的次数分别为27 次、9次、12次、34次12次,说明停用词和动词的分布比较集中,题首词分布最分散。这五类词一共出现了374025次,每个词平均两个字符的话就是748050个字符,而这一数值比所有标题总字符数695076略大一些,说明停用词、题首词、题尾词、题中动词以及题中关键词构成了标题的全部。关键词以名词居多,而停用词绝不属于关键词,题首、题尾词也大都不是关键词,因此关键词与其它词重复并不多。这五类词中,主要是题首词、题尾词与停用词、题中动词有一部分重复。图4显示了这些词的平均出现次数。 图 4 标题各类词平均次数统计图 4标题句法结构统计分析 对文章标题仅仅进行词频统计分析是不够的,对标题的句法结构进行分析是理解标题语义的前提。而词性标记又是句法结构分析的前提。因此要进行语义分析,首先要做的就是分词、词性标记。 对42989篇文章标题切分后再进行词性标记,共出现20101种词性标记结果,其中出现一次的为16666种,占39%。前50位的一共7909篇,占文章总数的18%。标题词性标记高频统计如表7所示。 表 7 标题词性标记高频统计表 ( 前 50 位 ) POS 频次 POS 频次 POS 频次 POS 频次 POS 频次 NuN 563 Nv 231 pNNuv 115 vvNuN 104 NNNuv 78 NpN 433 NNuv 204 VNN 112 vnuN 94 vNpN 75 NN 405 vN 187 NfuN 112 Nvn 94 vNNuv 75 NNv 370 nNuN 169 NpNuv 111 Nnn 87 NuNN 74 NNuN 346 nNN 169 NN 110 Npn 87 pNuN 73 vNuN 333 NuNv 167 vNNuN 109 NvuN 86 npN 73 N 326 NnuN 162 nNNv 108 NuNn 85 NNuvpv 73 NNN 284 NpNfuv 125 NNn 108 NpNN 82 Nuvpv 73 Nn 242 vNvN 121 NNv 107 NcN 82 Nuv 72 NNn 240 NNNv 117 NpNv 106 NpNuN 80 Nnv 70 标记集中N为关键词,其余标记采用199801《人民日报》语料库的标记集中的首字符,如n包括标记集中nr、ns、n等。其实对这种标题进行词性标记和句法剖析意义并不是很大。我们更想要的是标题的句型结构。对句型结构进行分析,越是助词、连词等停用词(大都是虚词),越能说明句子结构,因此略掉关键词,剩余的句型结构分析是比较有意义的。 滤掉关键词后共出12958个句型,出现两次以上的有1855个,共31839篇,占文章总数的74%,出现一次的有11103篇,基本上都是切分不完全的错误案例,如关于同城...的...中的同城就没能切分出来。出现10次以上的有255个,共26909篇,占文章总数的63%。非关键词句型高频统计如表8所示。 表 8 非关键词句型高频统计表(前 30 位) 句型 频次 句型 频次 句型 频次 ... 5242 论 ... 414 我国 ...的... 226 ...的 ... 4870 ...及其 ... 397 ...中 ...的... 187 ...与 ... 1824 ...的 ...及... 369 浅谈 ...的... 155 ...的 ...与... 1197 试论 ...的... 331 谈 ...的... 152 论 ...的... 755 ...及 ... 311 ...和 ... 152 ...在 ...中的... 575 ...的 ...和... 292 论 ...与... 133 ...与 ...的... 531 ...的 ...及其... 279 试论 ... 124 ...中的 ... 478 我国 ... 275 《 ...》... 122 关于 ...的... 470 对 ...的... 258 ...之 ... 115 基于 ...的... 424 ...对 ...的... 239 ...下的 ... 111 前30位共计21008篇,占文章总数的49%。之所以句型数量如此之多,一方面由于有一些未登录词直接当停用词处理了,另一方面同义词太多,没有进行归一,如和和与等表并列的词是基本一致,可以归一的。把高频同义词或近义词进行归一可以使分析结果更有效一些。高频近义词归一如表9所示。 表 9 高频近义词归一表 结果 情况 浅* 浅、略、试、小 再* 再、进一步 论* 论、谈、议、谈、述、谈谈 N* 三、四、五、六、七、八、九、十、若干、一些、几、 个* 个、点、种、类、大 关于* 关于、有关、有关于 我国* 我国、我们、我省、我馆、我校、我院、我市 和* 和、与、及、以及、及其 中* 上、中、下、 进行* 进行、开展、从事 重视* 关注、重视、加强、改进 表9列了标题中高频近义词的静态结构,实际计算过程中并不完全按照表中情况与结果的一一对应,而是要充分考虑它们组合的情况。如试论、谈谈、小议最终都归一成论*。这样使得句型分布更集中一些。通过归一后,12958个句型变成了11823个,减少了一千多个。其中出现100次以上的有30种,计23612次,占文章总数的55%,比归一前提高了六个百分点。归一后非关键词句型高频统计如表10所示。 表 10 归一后非关键词句型高频统计表(前 30 位) 句型 频次 句型 频次 句型 频次 ... 5242 基于 ...的... 424 我 * ...的...和 * ... 141 ...的 ... 4870 论 * ...的...和 * ... 350 ...的 N * 个 * ... 137 ...和 * ... 2684 论 * ...和 * ... 343 ...的 ...和 * ...的... 129 ...的 ...和 * ... 2138 我 * ... 291 ...中 * ... 125 论 * ...的... 1572 ...中 * ...的... 281 《 ...》... 122 论 * ... 853 对 ...的... 258 ...中 * 的...和 * ... 120 ...和 * ...的... 686 我 * ...的... 244 ...之 ... 115 ...中 * 的... 589 ...对 ...的... 239 论 * ...在...中 * 的... 107 ...在 ...中 * 的... 578 论 * ...中 * 的... 155 我 * ...和 * ... 103 关于 * ...的... 470 论 * ...和 * ...的... 144 关于 * ...的N * 个 * ... 102 这种统计没有很好的处理未登录词,如果只采用虚词来构成句型,准确率会有很大提高。只采用虚词出现了1626个句型,标题虚词句型高频统计如表11所示。 表 11 标题虚词句型高频统计表 ( 前 30 位 ) 句型 频次 句型 频次 句型 频次 ...的 ... 10831 ...的 ...和... 612 ...和 ...的... 207 ... 10133 基于 ...的... 546 从 ...的... 205 ...与 ... 2790 ...及 ... 545 ...下 ...的... 199 ...的 ...与... 2050 对 ...的... 532 ...下的 ... 183 ...与 ...的... 1009 ...的 ...及其... 487 ...的 ...与...的... 181 关于 ...的... 882 ...对 ...的... 482 从 ... 167 ...中的 ... 866 ...中 ...的... 387 ...为 ... 163 ...在 ...中的... 861 ...的 ...的... 342 ...在 ...的... 143 ...的 ...及... 693 ...和 ... 317 ...中 ... 141 ...及其 ... 630 ...之 ... 242 ...及 ...的... 101 标题虚词句型出现100篇以上的有30种,共出现39627篇,占文章总数的86%,说明大多数文章都采用了表11中所列句型。可以看出采用虚词句型比非关键词句型分析要有效得多。 5结束语 清华同方、万方数据、重庆维普等全文数据库商目前只提供检索功能,随着把全文检索系统改成中国知网、知识链接门户等更大的工程,检索不再是唯一的功能,紧随其后的应该就是统计功能,因此,不久的将来,这三大数据库商会陆续推出统计功能,也就是计量分析查询系统,届时大多数计量分析系统将有计算机来提供,而不是人来写。大多数编辑部将不再接受此类文章。作为管理信息系统的三大常规模块之一的统计模块,在全文数据目前的计量分析方法或理论的文章,这类文章比较少。 标题、关键词、摘要与正文是能反映文献内容特征的字段,而且分析关键词、标题、摘要的可操作性很强。通过这些简单统计分析,能够反映出期刊论文标题的一些问题和规律,但如果想把这种规律定量地求出来,数据量还是太小,样本范围太窄,处理精度也太粗。另外,进行大量统计分析时发现维普的论文数据质量也不高,错误很多,比如全记录显示与概要显示中的作者有极其大的不一致,好像是从不同的表中检索出来的结果,而且1990年以前的数据也不全,这给本研究的数据可信度打了一定的折扣。 分词时应该获取停用词后对标题进行重新切分,先用停用词表把停用词切分出来,再用关键词表进行切分,会提高准确率,而分词时采用一遍扫描而不考虑前后关系,以及没考虑未登录词也是很有问题的,致使分词准确率不够高。在统计题首词与题尾词时只是截取了两个字符,取出来的大部分是合法词,但也有一些不是,如论网、书馆、因特等,因此这个统计分析需要进一步提高程序的覆盖度。句型分析时,只对高频近义词进行了归一,对于低频近义词并没有任何处理,这使得大量的标题因为有未切分出的串而成为了一个新的句型。而且许多标题不是句子,使用句型这个术语也有不妥之处。目前,这种针对标题和摘要进行计量分析的研究和论文都很少,因此,笔者在行文时对术语的使用有一定困难,如题首词、题尾词、标题句型、题含篇内关键词数、全切分题含关键词数等,而且能得到传统的计量分析定律的指导也很少。 对于标题进行分词及词性标记是有意义的,但对标题进行句法剖析意义并不算大。因为好多标题就不是完整的句子,没有完整的句法结构,不具有时态、语态等句子属性。因此本研究从摘要开始进行句法分析,利用规则对句子进行分析与归约,得到句子成分结构与功能结构,然后进行语法统计分析,为语义分析和知识提取做好铺垫。 最能反映文章内容的当属文章正文,可是正文结构复杂、内容繁多、数据获取较困难,因此目前进行大规模正文分析还是很有难度的。随着越来越多的文章采用pdf转换而不是扫描得来的数据,元数据的不断扩充,RDF及XML的广泛应用,本体库的逐步构建,加上自然语言处理的研究新热与人工智能的飞速发展,进行大规模正文分析的日子也是越来越近。 参 考 文 献 1 化柏林 .图书情报学核心期刊论文关键词计量分析研究. 情报科学 , 2007,(5,8) 作者简介: 化柏林 ,男,1977年生,硕士,主要研究方向为自然语言处理。
个人分类: 情报探讨|4435 次阅读|0 个评论
图书情报学核心期刊论文关键词计量分析研究(下)
huabolin 2008-10-24 11:14
图书情报学核心期刊论文关键词计量分析研究 ( 下 ) 化柏林 中国科学技术信息研究所,北京 100038 (发表于《情报科学》2007年第8期) 应用型计量分析分为四类,其中主题型计量分析与评价型计量分析占主流,而预测型计量分析与资源获取型计量分析却很少。本实验以获取可计算资源为目的,从中文科技期刊数据库(重庆维普)选取了1989年到2005年的17种图书情报学核心期刊(2004版)的所有论文,利用VBA对文献的关键词进行统计分析,主要从数量分布、词长规律、增长趋势以及关键词与文章的数量关系进行了分析,并按功能对关键词进行了分类。 图书情报学;核心期刊;关键词;计量分析;内容分析 G350 Keywords Statistical Analysis of Papers from Core Journal on Library and Informatics HUA Bolin Institute of Scientific and Technical Information of China, Beijing 100038, china Applicable bibliometrics are classified into four categories. Subject bibliometrics and evaluation bibliometrics are popular, but prediction bibliometrics and resource-acquirement bibliometrics are very poor. In order to acquire resource to support processing, we selected all papers which is published on library and informatics core journals from 1989 to 2005 from China Journal Full-text Database, and some aspects of them were analyzed by using VBA such as the count, length, increasing tendency of keywords and count relation between article and keywords. According to the analysis, it also presents keywords classification by function. library and informatics; core journal; keywords; bibliometrics; content analysis 5 图书情报核心关键词统计 求证图书馆学情报学的研究核心是一件很难的事情。图书、文献、数据、信息、知识、情报这几个概念根据不同的研究侧面可能会有不同的逻辑关系,但是无论它们的关系如何,围绕这个几个概念的相关活动仍是图书情报的研究重点,甚至应该是研究核心。因此本文对这些概念的相关活动进行了单独统计分析。对这些活动之间的逻辑关系与流程分析正在进一步研究中。从图3中可以看出四字关键词占绝对优势,而且四字关键词比较规范,一般由名词加动词、名词加名词或形容词加名词构成,因此把含数据、信息、知识、情报、图书、文献的四字关键词进行统计也颇有意义,含数据、信息、知识、情报、图书、文献的四字高频关键词如表2所示。 表2含数据信息知识情报图书文献的四字关键词高频统计(各前20位) 关键词 频次 关键词 频次 关键词 频次 关键词 频次 关键词 频次 关键词 频次 数据挖掘 146 信息服务 2103 知识管理 655 情报检索 810 文献资源 324 图书编目 246 数据仓库 109 信息资源 732 知识经济 564 情报工作 462 文献检索 274 图书采购 211 书目数据 58 信息产业 593 知识产权 243 情报服务 382 地方文献 145 图书分类 190 数据备份 39 信息检索 580 知识创新 168 竞争情报 349 文献信息 134 图书补充 131 数据质量 32 信息技术 480 知识组织 154 情报研究 232 文献标引 116 图书外借 106 数据存储 26 信息管理 359 知识服务 147 情报教育 106 专利文献 106 电子图书 99 数据安全 26 信息组织 275 知识结构 95 情报分析 105 文献编目 101 图书著录 89 数据结构 23 信息需求 257 知识共享 67 情报需求 96 电子文献 100 图书采访 69 数据模型 22 信息市场 216 知识发现 62 情报机构 96 文献利用 93 中文图书 67 数据处理 22 信息系统 213 隐性知识 54 情报用户 93 文献著录 91 图书情报 56 数据转换 22 信息网络 189 知识传播 31 情报系统 79 科技文献 69 图书排架 50 数据格式 16 网络信息 186 显性知识 27 情报意识 63 文献采访 67 图书流通 50 数据管理 14 信息咨询 170 知识获取 26 图书情报 56 文献分类 65 图书评介 41 数据组织 14 信息安全 158 知识检索 24 情报事业 52 参考文献 60 图书保护 41 数据分析 13 文献信息 134 知识转化 23 情报职能 50 文献传递 58 图书发行 40 数据压缩 11 信息工作 133 知识工程 23 科技情报 49 文献工作 54 西文图书 33 数据采集 11 信息利用 123 知识仓库 21 情报科学 43 文献计量 52 图书开架 32 编目数据 11 信息开发 119 知识挖掘 19 情报信息 43 文献服务 48 图书市场 31 数据检索 10 信息时代 115 知识主管 19 情报管理 36 文献收集 44 图书管理 30 数据集成 9 信息交流 112 知识导航 17 情报人员 35 文献老化 44 图书改编 30 合计 634 合计 7247 合计 2439 合计 3237 合计 2045 合计 1642 在所有关键词中,含数据的关键词1,122个,共5,152次,平均4.59次/个;含信息的关键词3,405个,共21,202次,平均6.23次/个;含知识的关键词735个,共2,641次,平均3.59次/个;含情报的关键词879个,共7,409次,平均8.43次/个;含文献的关键词1,433个,共7,388次,平均5.16次/个;含图书(不含图书馆)的关键词706个,共3,954次,平均5.60次/个。可以看出,含情报的四字关键词相对较集中,含知识的四字关键词相对较分散。含数据、信息、知识、情报、图书(不含图书馆)、文献的关键词分布比重如图5所示。 图5图书情报核心关键词分布图 图5中左饼图是不带频次的,表征出现的个数,个数越多,说明研究侧面越宽泛或研究内容越具体。右边的饼图为计频的,计频比不计频高的有信息、情报,尤其是情报差别最大,说明关于情报的关键词相对比较规范、概念比较统一、研究领域比较集中。计频比不计频低的有图书、文献、数据、知识,其中知识差别最大,说明关于知识的关键词相对比较不规范、概念不够统一或研究比较分散。 43,980个关键词共计202,821个次,其中含图书馆三个字符的关键词出现了1,610个,共25,973次;个数占关键词总个数的3.7%,频次占关键词总频次的12.9%,也就是每八个关键词就有一个是显性关于图书馆的,可见图书馆在图书情报领域的重要地位。含图书馆的关键词按频次前30位如表3所示。 表3含图书馆的关键词高频统计表(前30位) 关键词 频次 关键词 频次 关键词 频次 图书馆 5855 图书馆自动化 595 图书馆学教育 102 高校图书馆 1998 图书馆建设 232 现代图书馆 101 数字图书馆 1889 大学图书馆 175 复合图书馆 98 图书馆管理 1237 专业图书馆 165 乡镇图书馆 98 图书馆学 1157 图书馆建筑 164 数字化图书馆 97 图书馆工作 1135 传统图书馆 151 图书馆网络 90 图书馆事业 1079 图书馆服务 147 社区图书馆 86 公共图书馆 991 虚拟图书馆 140 少儿图书馆 85 院校图书馆 955 图书馆学研究 113 中小型图书馆 78 图书馆员 785 电子图书馆 105 图书馆现代化 77 从表3中可以看出,关于不同功能的分类图书馆比较多,如高校图书馆,公共图书馆、少儿图书馆等,而反映图书馆的不同侧面的比较少,如图书馆员、图书馆建筑、图书馆网络等。关于图书馆业务流程(图书馆加动词)的非常少,反映流程的主要是以图书加动词为主。所以图书馆业务流程主要以图书的业务流程为主,也应验了图书是图书馆的主体。关于图书馆自动化、图书馆现代化、数字图书馆等近年来增势明显,但这些概念比较笼统,而图书馆学、图书馆工作、图书馆事业、图书馆学研究等非常稳定,不过热也不过冷。 6 关键词年度分布及增长分析 把每年的关键词频次统计出来倒排序,可以很清楚的看到当年的高频词,如表3所示。但是这个表并不能反映出当年的研究热点,只能反映出研究重点。像图书馆、中国、信息服务等年年都排在前面,这是学科的研究重点。近五年来高频关键词统计如表4所示。 表42001~2005年高频关键词统计表(各前10位) 2005年 频次 2004年 频次 2003年 频次 2002年 频次 2001年 频次 图书馆 503 图书馆 1018 图书馆 915 图书馆 802 图书馆 622 数字图书馆 298 数字图书馆 381 数字图书馆 369 高校图书馆 507 高校图书馆 326 高校图书馆 250 高校 351 信息服务 325 数字图书馆 391 数字图书馆 265 知识管理 143 中国 334 中国 319 中国 282 中国 263 中国 129 信息服务 285 高校 266 信息服务 272 信息服务 238 信息服务 128 读者服务 177 高校图书馆 240 网络环境 271 网络环境 205 网络环境 95 知识管理 153 网络环境 214 图书馆管理 137 知识经济 100 公共图书馆 93 信息检索 124 读者服务 190 企业 136 因特网 99 信息资源 93 数据库 123 网络信息资源 143 知识管理 123 图书馆管理 99 信息检索 82 资源共享 108 图书馆管理 120 图书馆员 115 信息资源 97 关键词的年度分布可以反映历年的研究重点,关键词增长可以反映历年的研究热点。关键词增长的计算方法很多。第一种是年增长量,用当年的频次减去上一年的频次,这种方法的弊端是高频关键词会靠前,如图书馆、中国等高频关键词会轮流排在前面;第二种方法是倍数,用当年的频次除以上一年的频次,这种方法会使得上一年较小的关键词排在前面,尤其是上一年频次为1的关键词;第三种方法是增长率,用当年的频次减去上一年的频次后再除以上一年的频次,得到的是相对于上一年的增长率;第四种方法是相对增长率,用当年的频次除以当年的所有关键词总频次f1,上一年的频次除以上一年的所有关键词总频次f2,然后用f1除以f2,当然也可以除以当年的文献数,这种情况主要是考虑不同年的文献量不一样,这种方法反映关键词在当年比重的增长情况;第五种方法是当年的关键词频次减去上一年的关键词频次再除以该关键词所有年的总频次,这种方法能够反映该关键词增长的高峰期,避免了基数大的词在当年排在了前面;第六种方法是把所有上一年为低频的次年变成高频的关键词统计出来,这种方式能反映出关键词的快速增长期,反映出新的研究热点。不同的计算方法有不同的优缺点,可以满足不同的需求。下面分别用第三种方法和第六种方法来分析近十年来的研究热点。用第三种方法计算高增长率的研究热点如表5所示。 表51996~2005年高增长率的研究热点统计表(增长倍数) 2005年 2004年 2003年 2002年 2001年 文章分析 12 问题 22 电子政务 17 服务理念 12 图书馆学教育 25 虚拟参考咨询服务 11 用户满意度 12 文献保障体系 13 信息获取 11 外国 23 向量空间模型 10 构建 10.5 信息共享 11 以人为本 11 学科发展 14 图书馆用户 10 随书光盘 9 读者意识 11 人力资源 10 竞争情报系统 13 信息资源整合 9 PHP 9 信息分类 9 建设目标 9 人力资源管理 12 开放存取 9 语义网 9 计算机软件 9 信息检索系统 9 CSSCI 10 制定 9 图书馆功能 8 信息发布 7 互操作 9 个性化服务 10 图书馆馆藏 8 B/S模式 8 图书馆合作 7 自动标引 9 关键技术 9 新模式 8 意义 8 信息决策 7 网络教育 8 中学图书馆 9 利用 7.5 作者 7.5 网络用户 6 目标管理 8 关系 9 2000年 1999年 1998年 1997年 1996年 电子商务 9.3 21世纪 12 知识经济 24 精神文明建设 21 文献利用 12 馆员素质 9 开发利用 9.7 文献检索 23 网络化 7 情报事业 9 信息咨询业 9 因特网 9.6 发展对策 19 电子出版物 6 信息教育 7 Intranet 8 大学图书馆 8.5 读者服务 18 信息资源管理 6 布局 6 信息交流 8 策略 8 开发 8.8 设计 6 图书馆网 5 表中列出了从1996年到2005年的增长较快的关键词,2001~2005年选取了前十名,1996~2000选取了前五名,它们大都实现了比上一年的十倍左右的增长。其中有一些能反映出研究热点,如2003年的电子政务、2000年的电子商务等,而有一些却不能反映研究热点,如2005年的制定、2002年的建设目标等。下面以第六种方法分析近十年来新的研究热点,如表6所示。 表61996~2005年突增研究热点统计表 2005年 2004年 2003年 2002年 2001年 本体 21/3 问题 46/2 信息共享 48/4 入世 28/4 影响因素 28/3 利用 17/2 网络导航 24/4 机读目录格式 21/4 服务理念 26/2 改革 26/4 对策研究 16/3 构建 23/2 数据库检索 21/4 用户培训 20/4 图书馆学教育 26/1 比较分析 16/3 馆藏 20/4 电子政务 18/1 复合图书馆 17/4 外国 24/1 现状分析 15/3 职业培训 19/4 立法 17/4 网络信息资源开发 17/4 馆际互借 22/3 网上 15/2 隐性知识 18/4 信息开发 15/4 著作权 17/2 西部地区 20/3 图像检索 14/4 作者 17/2 大学 15/4 职能 16/4 运行机制 19/4 优化 13/4 关键词 16/4 业务流程重组 14/4 社区图书馆 16/3 INTERNET 19/4 层次分析法 13/3 网格技术 15/3 文献服务 14/4 现代图书馆 15/4 SCI 18/4 文献计量 13/3 策略 15/2 图书采访 14/4 著作权法 15/4 西部大开发 18/3 2000年 1999年 1998年 1997年 1996年 电子商务 31/3 21世纪 39/3 知识经济 25/1 精神文明建设 22/1 读者研究 14/3 信息资源建设 26/4 开发利用 32/3 文献检索 24/1 数字图书馆 14/3 文献利用 13/1 互联网 26/4 比较研究 19/3 发展对策 20/1 电子出版物 14/2 图书馆网 12/2 图书馆服务 17/3 大学图书馆 19/2 读者服务 19/1 主题词 12/3 信息资源开发 16/2 著录 18/3 统计分析 13/4 利用 11/4 表6中列出了从1996年到2005年的增长突快的关键词,斜杠前面的为当年出现的次数,斜杠后面的为上一年出现的次数,本表列出的全是上一年不足5次,而当年出现的频次超过10次的关键词。如2005年的本体,2004年的隐性知识与网格技术,2003年的信息共享与电子政务,2002年的入世,2001年的西部地区和西部大开发,2000年的电子商务,1999年的21世纪,1998年的知识经济,1997年的精神文明建设等都反映了当年的时代特征和研究热点。当然针对每个关键词分年统计得到关键词的生命周期线,更能说明问题。 7 结束语 关键词是作者自行抽取或者数据库加工商补充的。不同的人抽取关键词的原则有很大的不同。所以关键词的词频分析能说明一点问题,但离文章内容分析差的很远,甚至还谈不上内容分析。但对关键词、标题和文摘的分析是内容分析的基础。真正的内容分析一定是针对文章的正文字段,在已有关键词、标题和摘要分析的研究基础上,利用这些概率词典和句法结构,正文分析的研究可以适当进行小规模实验。 最能反映文章内容的当属文章正文,可是正文结构复杂、内容繁多、数据获取较困难,因此目前进行大规模正文分析还是很有难度的。随着越来越多的文章采用pdf转换而不是扫描得来的数据,元数据的不断扩充,RDF及XML的广泛应用,本体库的逐步构建,加上自然语言处理的研究新热与人工智能的飞速发展,进行大规模正文分析的日子也是越来越近。 在图书情报界,构建其它领域本体的比较多,如花卉、民乐、军事、医学等,但还没有发现构建图书情报本领域的本体,本体在图书情报界如此之热,我们却不研究自己的本体。图书情报学和语言学、数学一样作为一个独立的学科领域,既有自己的学科属性,同时也为其它领域提供支撑。元数据研究了这么多年,主要还是针对文献的外部特征,没有深入到正文字段的内容描述。如文章内的论点、论据、论证、定义、诠释、分类、关键技术、难点、重点、发展历史、国外进展、应用前景、实验数据、实验过程、实验结果、测试、评价、缺点、尚未解决的问题等描述文献内容的元数据却少人问津。只要图书情报领域的专家把文献内容元数据构建起来,语言学家把描述这些元数据的语言学规律总结出来,进行真正的内容分析不是没有可能。一旦能够对正文内容进行分析,那计算机可做的事情就多得很了,搜索、文摘、分类、知识抽取(温有奎教授使用的知识元挖掘)等一系列的课题便会迎刃而解。 参考文献 〔 1 〕苏新宁 . 图书馆、情报与文献学学术影响力研究报告 (2000-2004) ――基于 CSSCI 的分析 〔 J 〕 情报学报, 2006 ,( 2 ): 131~153. 〔 2 〕 马费成,张勤 . 国内外基于知识管理研究热点 基于词频的统计分析 〔 J 〕 . 情报学报 , 2006 ,( 2 ): 163~171 . 〔 3 〕李长玲,化柏林 . 我国网络计量学研究的文献计量分析〔 J 〕 . 图书情报工作, 2006 ,( 9 ) : 46~50. 〔 4 〕化柏林,张新民 .情报学学科范畴研究的方法论 〔 J 〕 .情报学报, 2007 ,( x ) 〔 5 〕朱庆华,陈铭 . 信息分析基础、方法及应用〔 M 〕 . 北京:科学出版社, 2004 : 150 . 〔 6 〕李保利,陈玉忠,俞士汶 . 信息抽取研究综述 〔 J 〕 . 计算机工程与应用, 2003 , ( 10 ): 1~5,66. 〔 7 〕 李文兰,杨祖国 . 中国情报学期刊论文关键词词频分析 〔 J 〕 . 情报科学, 2005 ,( 1 ): 68~70 . 作者简介: 化柏林(1977-),男,山东临沂人,助理研究员,硕士,从事自然语言处理研究。
个人分类: 情报探讨|4156 次阅读|0 个评论
图书情报学核心期刊论文关键词计量分析研究(上)
huabolin 2008-10-24 11:07
图书情报学核心期刊论文关键词计量分析研究 ( 上 ) 化柏林 中国科学技术信息研究所,北京 100038 (发表于《情报科学》2007年第5期) 应用型计量分析分为四类,其中主题型计量分析与评价型计量分析占主流,而预测型计量分析与资源获取型计量分析却很少。本实验以获取可计算资源为目的,从中文科技期刊数据库(重庆维普)选取了1989年到2005年的17种图书情报学核心期刊(2004版)的所有论文,利用VBA对文献的关键词进行统计分析,主要从数量分布、词长规律、增长趋势以及关键词与文章的数量关系进行了分析,并按功能对关键词进行了分类。 ******************************************* 表1高频关键词前100位 关键词 频次 关键词 频次 关键词 频次 关键词 频次 关键词 频次 图书馆 5855 读者服务 718 研究 367 信息组织 275 教育 227 中国 3550 发展 702 信息管理 359 文献检索 274 现状 225 信息服务 2103 知识管理 655 期刊 357 计算机 274 继续教育 225 高校图书馆 1998 资源共享 652 电子商务 355 信息 267 信息服务业 224 数字图书馆 1889 图书馆自动化 595 21世纪 351 特点 263 大学生 221 图书馆管理 1237 信息产业 593 竞争情报 349 馆员素质 260 网络 220 高校 1228 信息检索 580 期刊工作 348 信息需求 257 信息市场 216 图书馆学 1157 美国 575 引文分析 345 文献检索课 254 信息资源管理 215 图书馆工作 1135 知识经济 564 信息资源建设 340 信息化 253 信息系统 213 图书馆事业 1079 网络信息资源 540 中图法 338 管理 253 网络建设 213 网络环境 1068 藏书建设 535 开发利用 332 图书分类法 251 图书采购 211 公共图书馆 991 信息技术 480 市场经济 329 图书编目 246 数字化 209 数据库 961 文献计量学 477 数据库建设 326 计算机网络 245 主题标引 208 院校图书馆 955 搜索引擎 476 文献资源 324 知识产权 243 互联网 201 情报学 940 情报工作 462 元数据 316 电子出版物 238 馆藏建设 200 情报检索 810 因特网 412 人才培养 310 计算机应用 237 标准化 198 读者工作 793 Internet 405 参考咨询 296 情报研究 232 XML 198 图书馆员 785 发展趋势 397 文献资源建设 296 图书馆建设 232 比较研究 194 企业 739 网络化 386 理论研究 282 核心期刊 230 第三版 192 信息资源 732 情报服务 382 期刊管理 279 机读目录 230 电子阅览室 191 ******************************************** 第一类关键词:限制性关键词 限制性关键词主要限定研究的范畴,以时间、地区等限制性名词居多,如中国、高校、企业、国外、21世纪、入世等。 ******************************************** 第二类关键词:主题性关键词 主题性关键词主要反映文章主题内容,主题性关键词从类的概念上又分为上位类关键词、同位类关键词和下位类关键词。同位类关键词相当于主题词,上位类关键词是反映文章的类属,而下位类关键词反映主题的细分。如李保利等的一篇《信息抽取研究综述》 文章,文章的主题是信息抽取,研究领域属于自然语言处理,而命名实体识别是信息抽取的一个研究重点。所以这三个词都出现在作者提供的关键词里。 ******************************************** 第三类关键词:槽关键词 槽关键词,也称属性关键词,反映主题的研究侧面,如设计实现、比较研究、现状、发展趋势等。文献 认为这些词是非实质性词,它们的确不是主题词,但可以是关键词。同一个主题不同的研究侧面会使文章内容有很大的不同,如同样研究搜索引擎,应用技巧型文章、技术实现型文章与发展趋势型文章会有相当大的差别,因此应该提供一个关键词来刻画文章的研究重点,以示区别,这为通过关键词进行精准检索带来了非常大的方便。 ******************************************* 图书情报学核心期刊论文关键词计量分析研究(上)
个人分类: 情报探讨|3130 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-25 05:29

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部