One early career position is available at Ingenio (CSIC-UPV) from May 2013 (flexible) for 12 months (with possible 6-12 month extension) for an EU-funded project on “Mapping and assessment of research portfolios in biomedicine”, with a salary of ~32K euro. 详情见附件。 PostdocIngenio2013.pdf
当得起“引文分析之父”大名的,最恰当的、唯一的人选,是尤金·加菲尔德( Eugene Garfield )博士,因为他是 SCI 的创始人。加菲尔德生于 1925 年,已经接近 90 岁高龄了,从年龄上看,当个“ XX 之父”,也不算占便宜。 这里不评述加菲尔德老先生的一生,而是说一则我最近发现的、很有趣的(至少我这么觉得)、跟老先生有关的引文悬案。 科学网上做文献计量学(或者科学计量学)的人很多,比如武夷山老师,刘玉仙同学,还有更年轻的陈凯华同学和赵星同学,在这个领域都做出过很不错的工作。我来说引文分析的事儿,有点儿班门弄斧了。不过,这一则小事儿的确是我刚刚注意到的,而且为了弄明白真相,我还颇为费力地在网上折腾了半天。 事情本身很小,上面提到的几位专家,还有没提到的更多的科学计量学专家们,对这个话题应该一点儿也不陌生。也许,这个我觉得是很有意思的悬案的东西,在人家那里一点儿也不“悬”,人家早就知道是怎么回事儿了,三言两语就能说清。如果真是这样的话,那么,我也不亏。至少,写这么一篇博文,可以解除我心头的一点儿疑虑。 有一个成语,叫做“三纸无驴”,相信不少人知道吧。其背后的故事,是说有人丢了一头驴,央告本村秀才帮忙写个“寻驴启示”。秀才满口答应,铺纸砚磨,洋洋洒洒,转眼间,已经写了三页纸。这人问秀才,找驴的事儿是怎么说的?秀才答:别着急呀,前面都是铺垫,我还没写到“驴”字呢。 我可不能学这个秀才,还是赶紧说“悬案”吧。 关于引文动机的研究,往最先追溯的话,一定会追到一个有 15 条的 list 上。即:最早的引文动机研究,列出了人们引用文献的时候, 15 个可能的出现的原因。这 15 条原因,译成中文是这样的: 1 、对先驱表示敬意; 2 、对相关工作表示肯定(即对同行表示敬意); 3 、指明研究方法和设备; 4 、提供背景性材料; 4 、对自己的工作的纠正; 6 、对他人工作的纠正; 7 、对前人工作的批评; 8 、用来支持自己的论点; 9 、提请关注即将发表的工作; 10 、提供线索,指向未能充分传播、恰当索引或未被引用的文献; 11 、鉴别数据和事实类别,如物理常数等; 12 、指明对某一观点或概念进行过讨论的原始文献; 13 、指明那些描述以个人名字命名的概念或术语的原始文献或其他文献; 14 、否定他人的工作或观点; 15 、对他人的优先权提出异议。 应该说,事实上也早就有人指出过,这个单子并不完整(没有穷举所有可能性),而且,整个单子的组织排序也不是特有规律。但不管怎么说,这是现有文献中研究引文动机的第一次努力,功不可没。 这才引出本文一开始提出的“悬案”——这个单子是谁提出的? 第一反应,先看别人对这个问题是怎么说的。我通过互联网查找,加上翻阅手头的资料,对此大致上有了一个了解。结论是:有关文献对此没有统一看法。 说到引文动机的时候,有相当多的文献(比如国内的文献计量学教材)说这是一个名叫马尔文·温斯托克( Melvin Weinstock )的人于 1971 年提出的,有一些国外的文献也持这一说法。还有不少文献(比如武夷山老师的文章和一些外文文献),认为这个 15 条,是尤金·加菲尔德于 1964 年提出的。有意思的是,还有一些文献(主要是中文文章)在做文献综述部门写到这个 15 条的时候,把加菲尔德和温斯托克的工作分别评述,在各自名下列出 15 条,全然忽略这俩人的 15 条说的是一回事儿的事实。这也太不应该了,如果作者读过原始文献的话,不会犯这样的错误。 下面是加菲尔德和温斯托克在各自的文献中的 15 条原文,各位看看是不是一回事儿: 加菲尔德列出的 15 条(出处: Eugene Garfield. “Can Citation Indexing Be Automated?” in Mary Elizabeth Stevens, Vincent E. Giuliano, and Laurence B. Heilprin, Eds., Statsitical Assocristiora Methods for Mechamked Documentation, Sympom”um Proceedings, W’a.rhkgton 1964. (National Bureau of Standards Miscellaneous Publication 269, December 15, 1965), pp. 189-192 . ): 1. Paying homage to pioneers 2. Giving credit for related work (homage to peers) 3. Identifying methodology, equipment, etc. 4. Providing background reading 5. Correcting one’s own work 6. Correcting the work of others 7. Criticizing previous work 8. Substantiating claims 9. Alerting to forthcoming work 10. Providing leads to p oorly disseminated, poorly indexed, or uncited work 11. Authenticating data and classes of fact—physical constants, etc. 12. Identifying original publications in which an idea or concept was discussed. 13. Identifying original publication or other work describing an eponymic concept or term as, e.g., Hodgkin’s Disease, Pareto’s Law, Friedel-Crafts Reaction, etc. 14. Disclaiming work or ideas of others (negative claims) 15. Disputing priority claims of others (negative homage) 温斯托克列出的 15 条(出处: Melvin Weinstock. "Citation Indexes" in Encyclopedia of Library and Information Science, New York: Marcel Dekker, 1971, Vol. 5, pp. 16-40 ) 1. Paying homage to pioneers 2. Giving credit for related work. 3. Identifying methodology, equipment, etc. 4. Providing background reading. 5. Correcting one’s own work 6. Correcting the work of others 7. Criticizing previous work 8. Substantiating claims 9. Alerting researchers to forthcoming work. 10. Providing leads to poorly disseminated, poorly indexed, or uncited work. 11. Authenticating data and classes of fact—physical constants, etc. 12. Identifying original publications in which an idea or concept was discussed. 13. Identifying the original publication describing an eponymic concept or term as, e.g., Hodgkin’s disease, Pereto’s Law, Friedel-Crsfts Reaction. 14. Disclaiming work or ideas of others. 15. Disputing priority Claim of Others. 第二反应,这事儿简单啊,加菲尔德文章发表在前( 1964 ),温斯托克文章发表在后( 1971 ),这个 15 条单子的 credit 应该归加菲尔德。而且,根据常识判断,温斯托克的文章(实际上是百科全书的一章),应该引用加菲尔德的文章才是,否则不就是我们常说的抄袭或者剽窃了吗? 于是,我回头认真看了一下这两篇文章的相关部分,加菲尔德 1964 年的文章说到这 15 条的时候,用了这么一句话引出:“ However, reference citations are also provided in papers for numerous reasons including, among others: ” 然后是 15 条,前后没有引用别人文献的痕迹。这说明这 15 条是加菲尔德提出的。 然后我去看了温斯托克的原文,他是这么说的: ”These references are supposed to identify those earlier researchers whose concepts, methods, apparatus, etc., inspired or were used by the author in developing his own article. Some specific reasons for using citations are as follows:” 然后就是 15 条。这里没有引用加菲尔德的文章。 本来我看好多文献把 15 条的单子归功于温斯托克,还以为这些文献的作者未必通读了温斯托克的原文,因为凭直觉,温斯托克应该引用了加菲尔德的文章。原因很简单,加氏文章在前,温氏文章在后。现在看,那些把 15 条的 credit 送给温斯托克的作者们也没有什么错,因为温斯托克没有引用加菲尔德的文章,让人误以为这是他的首创呢。 那么,是温斯托克这家伙剽窃吗? 第三反应,杀人不是割韭菜,割掉一茬,还接着长。说人剽窃这种事儿,要十分谨慎。再仔细看看,也许有新发现。结果,我还真是发现了一些线索。 线索 1 :温斯托克的这篇作为图情百科全书一章的文献,的确引用了加菲尔德的那篇列出 15 条单子的文献。这说明,温斯托克同志对于加菲尔德那篇文章的存在,是知晓的。不过,引用的地方,不是在列出 15 条单子的时候,而是在另外一个话题下。顺便说一句,无论是加菲尔德的这篇文献,还是温斯托克的这篇文献,都是主要在讲引文索引的事儿, 15 条单子的内容(即引用动机问题)都不是其主要话题。 不管怎么样,线索 1 说明,温斯托克在明知加菲尔德文献存在的情况下,没有在列出 15 条的时候引用加氏的文献,其剽窃的嫌疑更大了。 不过,同志哥还是刀下留人比较好。我们还有线索 2. 线索 2 :看温斯托克文章的作者单位,原来人家是加菲尔德创办的科学信息研究所( ISI —— Institute for Scientific Information )的资深信息科学家( Senior Information Scientist )。 60 年代的 ISI 可不是今天的 Thomson Reuters 这样的规模。我们有理由相信,加菲尔德和温斯托克是一个研究团队的,至少温氏是加氏手下的一兵。 那么,俩人都是搞引文的,应该知道该引用前人成果的时候,一定不能含糊吧。可是,为什么温氏没有引用加氏的文章呢?(注意:温斯托克在发表这篇文章后,还继续在 ISI 工作,并发表了其他文章,这说明他并没有因为在文章中没有引用加氏的文章而在工作岗位上受到什么影响。) 我觉得可能的原因有: 第一, 忘了。忘了就忘了。尽管侵犯了加菲尔德的知识产权,但加菲尔德仁德宽厚,没加怪罪。 第二, 15 条的归纳本来温斯托克就有份儿,那是集体的结晶,所以不引。 第三, 15 条的归纳是温斯托克弄出来的,结果被加菲尔德先用了,所以不引。 究竟是怎么回事儿,我说不好。不过,就算事实是这里的第二、第三的任何一种情况,现在的通行做法也是应该引用一下。 不管怎么说,这是悬案了。温斯托克不知所终,但加菲尔德老人家还活着。我想了想,还是觉得为了这点小事儿打扰老人家,也太不仁义了,再说加氏本人也未见得就记得清究竟是怎么回事儿。因此,我放弃了找当事人直接求证的想法。反正这也不算什么大事儿,悬案就悬案吧。
1. Manifestation of emerging specialties in journal literature: A growth model of papers, references, exemplars, bibliographic coupling, cocitation, and clustering coefficient distribution 期刊文献中新兴专业的显示:论文、引文、例子、引文耦合、同被引和聚类系数的分布 本文介绍了一种在期刊论文集合中表现一门科学专业诞生和发展的模型。所提出的模型,名曰“带有样例论文累积优势”( Cumulative Advantage by Paper with Exemplars , CAPE ),实为 Price 的累积优势模型的修正。修改之处有二:( 1 )参考文献分组引用;( 2 )模型考虑到了高被引的带有案例的参考文献在专业诞生之后马上会出现。这种简单的生长模型模拟了真实论文集合的诸多特征,包括论文 - 参考文献矩阵的结构,每篇论文参考文献数目的分布,每篇参考文献的引用论文数目的分布,引文耦合分布,同被引分布,引文耦合聚类系数分布,案例参考文献的时间分布。该模型让我们对文献和参考文献集合中链接产生和聚类的过程有了更为深刻的认识。介绍了两个样例和成功的模型: 131 篇关于微机电系统无线电频率开关的文章, 901 篇复杂网络的论文。 2. Co-citations and co-sitations: A cautionary view on an analogy. 与科学出版物的引文网络一样,万维网也是由网页通过超链接或者 sitation 联系在一起而成。在新出现的研究领域网络计量学( Webometrics )里,学者们对在文献计量学和超链接网络中所建立的引用概念进行了调查。本文主要探讨论文同被引和网页同被引的可能类似性,以构建 web 世界。报告了文献计量学和科学指标领域的实验研究,回顾了必须处理的几个技术问题。 Web 同被引似乎是描述 web 主题的有效途径,但是,有关网络同被引与传统的论文同被引之间类似的问题上有很多误解,因此在解释结构的时候要采取一些防范措施。 3. Comparative Study on Methods of Detecting Research Fronts Using Different Types of Citation 几种利用不同类型的引文发现研究前沿的方法的比较研究 本文对发现正在形成中的研究前沿的方法的优劣进行了比较研究,这三种引文网络:同被引,引文耦合,和直接引用网络,在 3 个研究领域(氮化镓,复杂网络和碳纳米管)。对每个研究领域都构建了三种引用网络:这些领域的论文被分成几个类别以探查研究前沿。我们评价了每一种引文网络在探查研究前沿上的优劣,对类内的每一篇论文所采用的指标有:显现度(通过归一化的类大小),速度(通过平均出版年),和拓扑结构上的适宜度(通过密度)。直接引用网络,可以较早地探查出大规模和初期的新兴类别,显示出在探查研究前沿方面最好的效果,而同被引则是最差的。此外,直接引用网络的聚类相关系数最大,表明通过直接引用联系起来的论文其内容相似性是最大的,且直接引用网络遗漏新兴研究领域的危险也最小,因为核心论文都被包括在最大的组成成分之中了。 4. CiteSpace II: Detecting and visualizing emerging trends and transient patterns in scientific literature 本文介绍了一种可以利用科学文献识别并显示科学发展新趋势和新动态的通用方法。这项研究在理论和方法上极大地促进了知识领域可视化研究。如何表现一个研究领域?本文利用了信息科学中的一对概念 — “研究前沿”和“知识基础”,通过它们随着时间而变化甚至相互影响的情况来达到显示学科发展趋势和动态的目的。研究前沿 (research front) 是指一组突现的动态概念以及潜在的研究问题,使用了研究前沿概念的科学文献随时间变化形成了一系列的演化网络;研究前沿的知识基础 (intellectual base) 则用上述文献中的引文和共引轨迹来表示。 Kleinberg 设计的突发监测算法 (burst detection algorithm) 可以用于辨认新兴研究前沿专业术语概念。 Freeman 提出的中间中心性测度可以把潜在范式变化的关键点凸显出来。我们设计并实现了两个互补的视图:聚类视图 (cluster views) 和时区视图 (time-zone views) 。这种方法的贡献在于: ① 通过对研究前沿术语的算法运算,在动态中认识知识基础的本质; ② 用研究前沿专业术语概念明确标出共引聚类的确切含义; ③ 直观地和靠算法识别的关键点的一致性大大简化了可视化的复杂性 .CiteSpace Ⅱ 应用 Java 程序实现了大规模生物集群灭绝 (mass extinction)(1981 ~ 2004 年 ) 和恐怖主义 (terrorism)(1990 ~ 2003 年 ) 两个研究领域的建模和可视化过程。可视化网络中的突出的趋势和关键点的作用经各自领域专家直接验证,这些专家本身就是关键点文章的作者。本文讨论了这项研究的实际意义,并明确了今后研究工作中存在的一系列挑战和机会. 5. Mining Enriched Contextual Information of Scientific Collaboration: A Meso Perspective 挖掘科学合作中丰富的背景信息:中层次视角 近年来,利用合著网络研究科学合作引起广泛的关注。两位作者之间如何合作以及合作的背景依然没有搞清楚。但是以往的研究都聚焦在合著网络的整体拓扑结构(宏观层面),或者对作者的影响力进行排序(微观层面)。这些研究都没有提供两位特定作者合作背景的信息,而这个问题会反映出丰富的社会经济上、学科上和单位的信息。与宏观和微观视角不同,本文提出一个新的方法( meso 中间视角),来分析科学合作,其做法就是将背景子图作为分析单位加以抽取。背景子图( contextual subgraph )是指一种捕捉两个作者之间关系和背景的大规模合著网络中的较小的子图。用该方法调查了图书情报领域,分析了四个时间段的所有子图的拓扑结构属性,包括大小,平均度,聚类系数,和网络中心性。结果显示背景子图可以捕获关于两个作者的有用的背景信息。
在文献检索的教学中,一般是不主张这样做的。我要找三大定律的相关论文,从查全查准的角度说,应该选择最相关的数据库,比如information abstracts之类的。 今天忽发奇想,看看在PubMed里检索一下又如何呢? (1)布拉德福定律: 策略:Bradford* AND journal* ,结果是62篇,如 Biomedical and health sciences publication productivity from Malaysia. Mapping the core journals of the physical therapy literature. 等等。很多标题中都用了mapping这个词。 (2)齐普夫定律 策略:zipf ,结果是7篇。 Can Zipf distinguish language from noise in noncoding DNA? Zipf -scaling behavior in the immune system. 哦,齐普夫定律其实适用面很广的啊,在分子生物学,细胞学都能用上。 (3)洛特卡定律 策略:lotka NOT (volterra OR model ),47篇,其中大多数都是混杂的非相关文献。相关的有几篇: A bibliometric study in crystallography. 可以作为应用三大定律分析特定领域的范文吧。 Lotka 's law and productivity index of authors in a scientific journal. Lotka 's law and the pattern of scientific productivity in the dental science literature. 我感兴趣的是这些定律在医学领域里是否有更新奇的应用,通过粗粗的检索,似乎齐普夫定律目前还在焕发青春。其余的比较稳定地在学科结构态势的展示和机构个人绩效评价的层面上。 明天,在PubMed看看引用和引文分析,文献老化和增长又会怎样呢?
近日,读到 JASIS ( 2010 年第一期的第一篇文章) Problems of Citation Analysis: A Study of Uncited and Seldom-Cited Influences ,对我的启发十分大,开始彻底颠覆我并不牢固的情报学基础认识,因此,我把我及时的感受写出来与大家分享,希望能够得到科学网前辈们的指点。 作者: M.H. MacRoberts and B.R. MacRoberts 全文: Problems of Citation Analysis: A Study of Uncited and Seldom-Cited Influences Problems of Citation Analysis: A Study of Uncited (论文下载仅作为学术用途) 一、 读文感受 文章提到了 引文分析的基础 : Cole and Cole (1972) found that highly cited physics papers also cited highly cited papers, and so on. If we did not know that biogeographic papers cited very few of their influences, we might come to the same conclusion as the Coles: that only a small number of individuals contribute to scientific progress. But knowing that the vast majority of influence is not cited and that influence is not to be found in the Thomson Reuters-monitored journals leads to a different conclusion: that manynot a fewcontribute to scientific progress. Cole 在 1972 年发现 高被引的物理学论文同样也会应用高被引论文等等 如果我们不了解生物地理学论文引用很少的对文章产生巨大影响的文献,我们可能得出与 Cole 相同的结论:仅有少数的个体对于科学的进步是有贡献的。但是,如果我们知道大量有影响的内容不会被 SCI 所引证,也许会导致一个不同的结论:是许多个体 而不仅仅是少数人 对于科学的进展有贡献。 (一) 举了两个例子: 1. The latitudinal gradient of species-area relationships for vascular plants of North America. published in 2007 in American Naturalist 一文中引证了 A total of 1,742 floras of North America north of Mexico ( 1742 种植物群),而这些植物群的资料范围覆盖了政府文献、论文、未出版的报告、网页内容、短评以及 2000 多页的参考资料。这部分内容也被提及,出现在 Appendix A ,然而该论文仅引用了 85 篇文献,而这些被引文献仅仅是 SCI 文献,这些文献主要是用于解释物种的多样性的文章。 2. 作者本人发表了一篇 2 页的短文 Palhinhaea cernua (L.) Vasconcellos Franco (Lycopodiaceae) new to Texasin Phytologia ,该期刊不是 SCI 论文。这篇文章通过 SCI EXPANDED 和 GOOGLE SCHOLAR 检索均发现没有任何引证,然而,这篇文章确被整合进了德州和北美的植物地理文献中,该信息被广泛的应用;另外, USDA 植物数据库以及自然服务( NATURESERVE )数据库都将该文章的研究纳入进去。换言之,该论文即被印刷版也被电子版的出版物所引用,这篇文章的研究目的已经达到了。 上面两个例子证明了,被引文献仅仅只能代表有影响文献资料的一个片段。 (二) 作者同样做了一个小的定量实证:(哈哈!虽然作者认为定量分析并不是一种包打天下的方法) We selected 10 theoretical/analytical biogeographical articles that were published in journals that are monitored by Thomson Reuters and examined their bibliographies. These 10 articles are from the 22 described in this study. We recorded whether the cited item was (a) a article from a journal not monitored by Thomson Reuters, (b) an article from a Thomson Reuters-monitored journal, (c) a book or chapter in a book, (d) an unpublished report, (e) a thesis or dissertation, or (f) an online Web source or CD-ROM. There were 530 citations in these 10 articles. We selected five data articles or sources used for data in the 22 theoretical/analytical articles, such as those listed in McLaughlin (2007). We recorded the same information that we recorded for the other sample. We stopped when we reached 530 items so that the two samples would be equal. Table 1 shows the data for the two groups. Statistical comparison of the two groups shows that there is no possibility of them being derived from the same population. Theoretical/analytical biogeographical articles predominantly cite theoretical/analytical articles from Thomson Reuters-monitored journals; data articles do not cite many Thomson Reuters-monitored articles but instead cite work from journals not monitored by Thomson Reuters, unpublished reports, theses/dissertations, and the grey literature. 对于两个群体的统计比较显示:理论或者分析类的植物地理文献主要引用了 SCI 的理论和分析文献;而数据类型的文献则没有引用太多的 SCI 文献,相反,他们主要引用的是非 SCI 文献、未发表的报告、研究论文,或者是灰色文献。 er二、反思 这篇文献对我的震撼是极大的。 主要有二点: (一) 以引文为基础的方法是不是对于所有学科的评价都有价值,是值得反思的。其实,自然科学中,除了植物地理学以外,很多学科的研究都包含了对于原始数据和基础理论分析的研究,而我们现在评价体系的一个重要指标 引文则是对于数据研究这部分内容的价值忽略了的。 (二) 文献计量学中 Cole 的理论:仅有少数的个体对于科学的进步是有贡献的 或者还应该包括 洛特卡定律 这些理论都从 分析方法(仅仅考虑第一作者) + 分析框架(仅仅展示核心作者) + 分析目的(评价作者贡献) 是出于一种狭隘、自私的学术观点。但是,如果我们反思 真的是只有小部分人对于科学的进步有贡献吗? 真的是一将功成万骨枯吗? 。这是我们图书情报学界急需要考虑的问题。 中国的情报学目前还从创作过自己有价值的理论,但研究中确充斥着各式各样标榜自己学术地位的所谓学科知识地图,这有时是一种讽刺。
文献计量学三大定律与两个期刊评价指标 布拉德福定律布拉德福(Samuel Clement Bradford),英国人,世界著名的文献学家和化学家。生于1878年10月1日,毕业于英国伦敦大学,1922年荣获科学博士学位。1925年起,担任南肯辛顿的科学图书馆馆长,直到1937年12月退休。1927年他与波拉德等人合作,创建了英国国际目录协会。1948年11月14日去世。1977年,英国Aslib主办的专业杂志Documentation为纪念布拉德福诞辰100周年,专门出版一期专刊,发表纪念文章和研究论文,为研究他的学术思想和科学贡献提供了很好素材。1934年1月他在Engineering周刊的图书与文献栏目发表了题为《专门学科的情报源》(Sources of Information on Specific Subject)一文,首次公开提出了定量描述文献分散的经验规律。这是一篇在文献计量学领域有重要历史意义的著名论文。成果推出之后并没有引起人们的关注,直到1948年,他的专著《文献工作》(Documentation)一书问世,全文收录了1934年的那篇文章,并扩展成为该书的第IX章,定名为文献的紊扰(Documentary Chaos)。这才引起一些学者,特别是维克利(B.C.Vickery)的重视和研究。 齐普夫定律乔治 金斯利 齐普夫(George Kingsye Zipf),美国哈佛大学教授、著名语言学家和心理学家。1935年,在前人研究的基础上,齐普夫以大量统计数据对词频分布规律进行系统研究,他首先检验了贡东关系式的可靠性和C的性质。他还根据汉莱为乔伊期的长篇小说《尤利西斯》一书所编的频率词典来进行工作。他在比贡东的规模大得多的基础上检验贡东的结果,并着重研究了C是否为一个常数。后来,他还根据其它一些文句中的词频统计得出了类似的结论,从而论证了单参数词频分布公式的正确性。1948年,时候46岁的齐普夫完成了他的专著《人类行为与最省力法则人类生态学引论》,1949年首次出版。最省力法则较好地解释了齐普夫定律的内在成因和机制,是齐普夫定律的理论基础。由于他的贡献,人们称单参数词频分布定律为齐普夫定律(Zipf's Law) 洛特卡定律洛特卡(Lotka,alfred James 1880-1049),美国人口统计学家。1880年生于波兰,1949年在美国新泽西州德班克去世早年在法国、德国、英国求学,获伯明翰大学理学学士学位,在莱比锡大学和科内乐大学进行物理学研究生课程。毕业后,供职于美国大家总公司及国家专利局和国家标准局。1924年起在纽约大都会人寿保险公司工作。1926年,当时供职于保险公司的洛特卡,在美国著名期刊《华盛顿科学院学报》上发表了题名科学生产率的频率分布(The Frequency Distribution of Scientific Productivity)。在该文中,洛特卡首先从科学文献作者与撰写的论文的纷乱现象中首先发现了平方反比的数量关系,提出了被称为经典的洛特卡定律。 (以上内容整理自:邱均平.信息计量学.武汉:武汉大学出版,2007) 影响因子尤金加菲尔德(Eugene Garfield)(1925.9.6),是美国著名的情报学家和科学计量学家1949年获得科学学士学会;1954年他又获得哥伦比亚大学图书馆学硕士学位; 1955年,美国宾州大学结构语言学博士)。 H指数加州大学圣地亚哥分校物理学家乔治赫希(JorgeE.Hirsch)。 这些定律和指标已被大家熟知,但为什么这些文献计量学有影响力的成果会来自物理学家、化学家、语言学家、人口统计学家......?这种现象不知在其它学科是否也有出现?是不是可以理解成学科无界呢?
这一次在英国开会期间,认识了一位奥地利的学者,名叫 Gernot Hebenstreit 。他为人幽默热情,喜欢与我们中国学者交流,并虚心学习汉语。他能不厌其烦地重复我们几个中国学者的名字,直到他认为记住为止。 会后我与他交流研究心得时,他向我推荐一款很好的软件- Mindmanager 。他告诉我,该软件可以用来辅佐科研与教学,尤其是在科研笔记中,很有帮助。 他在这一次大会上交流的论文题目挺有意思的 : Developments in corpus-based translation studies : A bibliometric approach . 用汉语表达,即 从文献计量学的角度探讨语料库翻译研究的发展 。这里暂时不评论他的研究,让我感兴趣的是文献计量学。 这一术语我原来曾看过几篇相关文献,觉得挺有趣的。人类认识事物的角度确是是多种多样的。其实,有时候,我们在科研工作中,稍微改变一点思维方式,就有可能发现新的东西,有时候甚至是独特的发现。 文献计量学是以文献体系和文献计量特征为研究对象,采用数学、统计学等计量方法,研究文献情报的分布结构、数量关系、变化规律和定量管理,并进而探讨科学技术的某些结构、特征和规律的一门学科。这一术语最早由英国人 Alan Britchard 于 1969 年提出。文献计量学中常用的定律很多,这里笔记下来的,有如下几个: 1 , Bradford (布拉德福)定律: 布拉德福定律是由英国著名文献学家 B.C.Bradford 于本世纪 30 年代率先提出的描述文献分散规律的经验定律。其文字表述为:如果将科技期刊按其刊载某专业论文数量多寡,以递减顺序排列,则可分出一个核心区和相继的几个领域,每区刊载的论文量相等,此时核心期刊和相继区域期刊数量成 1 : n : n2...... 的关系。 2 , Zipf (齐普夫)定律: Zipf's law, an empirical law formulated using mathematical statistics , refers to the fact that many types of data studied in the physical and social sciences can be approximated with a Zipfian distribution, one of a family of related discrete power law probability distributions. The law is named after the linguist George Kingsley Zipf who first proposed it (Zipf 1935, 1949), though J.B. Estoup appears to have noticed the regularity before Zipf. ( 该定义引自 http://en.wikipedia.org/wiki/Zipf's_law ) 用汉语来表达就是:如果把一篇较长文章中每个词出现的频率统计出来,按照高频词在前,低频词在后的递减顺序排列,并用自然数给这些词编上等级序号,即频次最高的词等级为 1 ,频次次之的等级为 2 ,以此类推,频次最小的词等级为 D 。若用 f 表示频次, r 表示等级序号,则有 fr = C ( C 为常数)。 我是学语言学,发现语言研究中,运用 ZIPF 定律来解释语言现象的研究还不多。《语言与语言词典》指出: ( 词频分布定律 ) 是指谈话者或写作者使用的词的分布和频次的总描述。 FR=C ,方程式中 F= 频次 ,R= 序号 , 即频率表上的位置; C= 常数。方程式表示词使用的总次数和词频表上的位置之间有一个固定比率。 齐普夫的表达仅适宜于中频词的情况,高频与低频词与该表述偏差较大。 对词频分布规律有许多补充和深化的研究。 词频分布规律是有较为丰富内涵的,学术界认为正态分布是描述自然科学的典型分布,而齐普夫分布将成为揭示社会科学规律的典型分布,所以社会科学界一直很重视这个定律。讨论词频分布何以呈现那种特殊的形状,对其成因提出假说,建立适当的理论模型描绘其分布过程是当前研究工作的热点。 目前较重要的假说有 2 个: 1 ) 省力原则 假说 : 提出这一假说的是齐普夫。他认为,在语言交流过程中, 省力法则 同时体现在说话人和听话人身上。说话人希望组成语言的词少,而且一词多义 , 以节省其精力。听话人认为最好是一词一义 , 使听到的词与其确切涵义容易匹配 , 减少他理解的功夫。这 2 种节省精力的倾向最后平衡的结果 , 便是词频的那种双曲线型分布。 2 ) 成功产生成功 假说 : 这方面以 H.A. 西蒙的研究最为著名。西蒙构造了一个概率模型,他所作的一个重要假说是:在文献中 , 一词使用的次数越多 , 则再次使用的可能性越大。该模型最后导出的分布与齐普夫分布相当接近, D.J.de S. 普赖斯后来建立了一个相类似的模型,又明确地提出了 成功产生成功 的假说。 研究词频分布对编制词表,制定标引规则,进行词汇分析与控制,分析作者著述特征具有一定意义。经验表明,中频词往往是包含大量有检索意义的关键词。而一篇文献全文输入计算机后,计算机是很容易检出中频词的。因此,词频分布也是文献自动分类、自动标引的研究对象。 这对于当前语料库语言学来说,也是一个值得深入研究的话题。 3 ,洛特卡定律: 洛特卡定律是由美国学者 A.J. 洛特卡在本世纪 20 年代率先提出的描述科学生产率的经验规律,又称 倒数平方定律 。它描述的是科学工作者人数与其所著论文之间的关系:写两篇论文的作者数量约为写一篇论文的作者数量的 1/4 ;写三篇论文的作者数量约为写一篇论文作者数量的 1/9 ;写N篇论文的作者数量约为写一篇论文作者数量的 1/ n2, 而写一篇论文作者的数量约占所有作者数量的 60 %。该定律被认为是第一次揭示了作者与数量之间的关系。 4 ,普莱斯指数: 1971 年美国科学家 D. 普莱斯提出了一个衡量各个知识领域文献老化的数量指标,即后人所称的 普莱斯指数 ,即:在某一知识领域内,把对年限不超过五年的文献的引文数量与引文总量之比当作指数,用以量度文献的老化速度和程度。其计算公式如下: P (普莱斯指数)=被引文献数量(小于或等于 5 年) X100 % / 被引文献总量 这些定律,可以对学术期刊评价的指标进行量化比较。 这个话题,暂时学到这。
拜读武夷山老师的博文 《科学计量学、科学史和情报学的历史联系》, 勾起了我对学科之间关系的兴趣,于是禁不住把自己的想法也一吐为快。呵呵,不怕您笑话,这么简单的问题,我到今天才考虑出来点眉目。 无论是信息计量学,文献计量学,还是科学计量学,其主要活动就是数数,掰手指头或者打算盘都行。从命名的原则上讲,信息、文献是数数的对象,而科学则是说这种计数活动的应用对象。这样一想,其实本身是一个活动(计数)的两个方面,如同小姑娘总要在不同场合穿不同的衣裳。尽管文献计量学历史悠久一些,信息计量学和科学计量学提出的似乎晚一点;尽管有着三大定律(洛特卡、布拉德福、齐夫)和两大规律(增长和老化),以及引文分析,看着似乎很繁杂,但是,从应用的角度考虑,我个人认为文献计量学能解决的无外乎两件事:(1)科学结构的分析,某个专题领域的研究主题,无论是用论文的同被引分析,还是主题词/关键词的共词聚类分析,还是作者同被引分析,甚至引文年代分布,都是通过对文献计数的方法展现科学研究活动的基本状况的,这当然属于科学计量学的了。(2)绩效评价:科研单位和个人乃至国家的科研活动成果评价,比如发表文献量,被引用数量,当然可以扩大到国家层次上,也可以缩小到期刊水平上,这些研究不是科学计量学又是什么呢?所以,从应用对象而言,文献计量学就是科学计量学的一个组成部分,甚至可以说文献计量学仍然是科学计量学到目前为止的主要的研究手段。如果深入一点儿,不是以整篇文章作为计数单位,比如从文章中抽取出来主题词,或者概念,或者知识,以及这些东东直接的关系,那就可以说是信息计量学了,只不过进展不大,后来又被数据挖掘所侵占了。 这就又涉及到了文本挖掘的问题了,我一直也困扰,从1986年,在武汉大学听邱均平老师的第一堂课开始,我一直从事文献计量学的研究,这些年来改称自己研究的领域是数据挖掘和知识发现,其实有赶时髦的嫌疑,自己心里也嘀咕,自己所研究的还不就是文献计量学那一套吗?虽然我对数据挖掘的定义、文本挖掘的主要任务,乃至文本挖掘在生物医学领域的主要研究方向达到倒背如流(主要是为了讲课用),但是,心里还是害怕别人问这个问题的。后来,一个具体的例子让我对二者的区别有了些许的领悟。 一个难缠的学生,给我提出这样一个问题:影响健康公平 研究 的主要外因有哪些?希望我用情报学的方法来解决之。我最初自然的联想就是找到有关于健康公平的文献,抽取其中概念以及概念间的联系,形成一个规则或者模板,然后返回到大的文献集合中,找到答案。结果发现,得到的是影响健康公平的因素,而不是影响健康公平研究的因素。这就是文献计量学和文本挖掘的分别: 寻找影响健康公平 研究 的因素,实际上是文献计量学或者科学计量学的任务,是对一个学科发展状况的分析,所以还是要从文献计量学中寻找办法; 寻找影响健康公平的因素,则是文本挖掘的任务,如同目前在生物信息学领域大量出现的论文中涉及到的蛋白间作用,基因与疾病关系等等一样的(这个基因能引起哪些疾病?)。我也做过阿司匹林有哪些副作用的分析,只是那时候对学科间的关系还是稀里糊涂的。 最后,重温一下生物医学领域的文本挖掘的主要任务: 2005年,Aaron M. Cohen and William R. Hersh. A survey of current work in biomedical text mining. BRIEFINGS IN BIOINFORMATICS. VOL 6. NO 1. 5771. MARCH 2005 (1) 命名实体识别(Named Entity Recognition ):识别出文献集中某一种事物的各种名称,比如某一组期刊论文中所有的药物名,一组MEDLINE文摘中基因名称和符号。 (2) 文本分类(Text classification):自动判别一篇文献是否具有某种特性,一般是指该文献是否讨论某一个主题或者含有特定类型的信息。 (3) 同义词或者缩略语抽取(Synonym and abbreviation extraction):主要是未发现的基因名称同义词或者缩略语的抽取。 (4) 关系抽取(Relationship extraction):发现特定一对实体之间有某种预先设定好的关系,比如基因,蛋白或者药物之间的各种生物医学关系或者特定的某种关系(如调控关系)。 (5) 形成假说(Hypothesis generation):基于Swanson的非相关互补文献的发现。 (6) 集成系统平台(Integration frameworks):TXTGate,PubMatrix,Textpresso等。 2007 年, Pierre Zweigenbaum , Dina Demner-Fushman , Hong Yu , Kevin B. Cohen. Frontiers of biomedical text mining: current progress. Brief Bioinform . 2007 September ; 8(5): 358375. (1)从文本中抽取事实(EXTRACTING FACTS FROM TEXTS) (1.1)识别命名实体(Named entity recognition) (1.2)确认生物医学实体关系(Identifying relations between biomedical entities) (2)基于信息抽取的研究(BEYOND INFORMATION EXTRACTION) (2.1)总结(Summarization):自动总结文本的内容,确认一篇或者多篇论文的最重要的内容,并简洁规范地表示之。 (2.2)处理非文本资料(Processing non-textual material):用图像分析技术和自然语言处理技术来分析图表以及图表相关的文字,或者处理特殊类型的文字,比如化合物。 (2.3)回答问题(Question answering):高精度的文献检索,给出简短的回答,提供支持材料和链接。 (2.4)基于文献的发现(Literature-based discovery):还是Swanson的研究。 (3)评估系统和面向用户的系统(ASSESSMENT AND USER-FOCUSED SYSTEMS) (3.1)注释文本集和大规模评价(Annotated text collections and large-scale evaluation):用于评价文本挖掘系统的语料库等等。 (3.2)了解用户需求(Understanding user needs):在系统开发过程中考虑到用户需求、行为以及与系统工具的相互作用,以此来判断生物医学信息学服务和工具是否必须和有用。比如对FlyBase数据库的开发中就利用了对用户行为的观察和用户反馈信息。 通过对上面的两篇文章的分析汇总,我们大致可以归纳出,在生物医学领域 ,文本挖掘主要内容就是(1)文本挖掘的基本技术,如命名实体识别和关系抽取;(2)以文本挖掘基本技术为基础,开展的应用性的研究;(3)有关系统的开发和评价研究。 对了,下面是一个文本挖掘的入门读物,很简单,有兴趣的同行可以看看: K. Bretonnel Cohen, Lawrence Hunter Getting Started in Text Mining.PLoS Computational Biology, 2008,4( 1): e20.( www.ploscompbiol.org )
《图书情报工作》2009年6月第53卷第12期刊专家视点发了一篇由比利时学者Ronald Rousseau(罗纳德 鲁索)撰写的题为《informetrics》英文论文。全文介绍了信息计量学的由来、研究内容、研究主题及其未来的一些发展方向。内容不是很多,但有些看法值得我们去关注。 阅读之余,试着对全文进行了翻译。一些术语和短语的理解上还不是完全到位,不到之处请有兴趣的同行批评指正。 1 Informetrics 1934 年,比利时图书情报学家、国际十进分类法开发者 Paul Otlet 出版了他的重要著作《 Treatise on Documentation 》。在这本著作中,他对信息科学的发展做了全面回顾,涉及了图书、图书馆和文献等许多主题。在专著中他把书目计量学( bibliometric )看作是对图书和文献许多方面的测度。这个新学科通过对与图书馆有关的目标和事实,发展出了许多文献计量学规律。根据 Otlet 观点,书目计量学研究包括单一对象还有对象的集合(这样适合利用统计学的方法)。关键特征间的联系一定会导致计量指标的出现。而且科学计量对象也一定会成为研究的内容。 Otlet 还提到一个例子是测度为什么一本书和一个作者的成果会被经常阅读和关注。数学在这个领域有了它的用武之地。 Otlet 发现所有的科学领域都在越来越多地利用数学的方法(物理学、化学、生物学、社会学、经济学),但比较遗憾的是在图书馆学领域比较缺乏数学的运用。非常明显,他的观点和 35 年之后 Pritchard 的观点非常相似。 Tague-Sutcliffe 、 Ingwersen 、 Bjorneborn 等人认为信息计量学( informetrics )研究的内容不仅仅是记录和书目,而是任何形式的信息;研究各种社会群体,不仅仅是科学家。它包括了书目计量学、信息计量学和网络计量学( webometrics )这些领域。信息计量学这个概念是由 Nacke 首提出的。 Ingwerson Bjorneborn 认为书目计量学是对可记录信息的生产、传播干什么进行定量研究的学科。科学计量对科学或经济活动进行研究的科学,它还包括是科研评价的研究。 2 信息计量学领域研究主题的概述 如何来准确地研究信息计量学领域有研究主题呢?一种比较经典的方法是利用信息计量学定律。尽管这些定律是对许多现象描述的基础上,而且一些问题还不能完全被认同,如描述文献信息作者分布的洛特卡定律和揭示文献词频分布的齐普夫定律等。 Leo Egghe 已经出版了一本全面描述信息分布规律的专著。其它形式的数学模型虽然没有象它们那样广泛使用,但可能在揭示一些现象时比这些定律更能够引用关注。有关文献提到的 Weibull 、 the generalized Waring distribution 等许多成果。 引文分析在信息计量学和科学计量学研究的应用研究中是非常重要的研究方法。在有关文献中基于出版和引用考虑设计的 h 指数逐渐被认同和被广泛应用。计量指标在世界大学排名等研究中扮演着非常重要的角色,如上海的世界大学科研能力排序和网络计量排序。 我们现在生活磊一个网络世界,信息计量在向网络计量方面发展。 web 是一个非常巨大和无所不在的网络,网络技术的应用不断上升是一件很正常的事。当然,我们不能忽略科学家、期刊、国家等形成的网络。在全球化、网络化的过程中,各种形式的网络、科研合作和分布变得越来越重要。这些巨大的网络需要专门的可视化工具,可视化已经成为信息计量学一个重要的研究分支。 管理者和管理科学领域的研究人员不仅利用信息计量数据进行研究绩效的评价,而且还利用越来越多的技术应用在创新研究过程当中。 无论是学术期刊论文,还是会议论文或者图书、学术专著等出版物都包含了大量的科学知识。通过对书目或全文数据的分析可以让我们了解到知识和来源和随着时间发展的过程。数学模型成为分析这些数据的重要工具。如何应用适当还能够帮助我们对知识的发展进行预测。 3informatics 的未来 在这个部分我们来描述一下这个学科的未来和提出自己的一些看法。除了信息的可视化展示外,我们认为网络计量学作为信息计量学的一个分支将会有非常迅速的发展。在研究过程中使用 Scopus 或者区域数据库的研究将会持续增长,而使用 Wos 会不断减少。我们也可以预见会有更多的理论文章(如 Woeginger 和 Marchand 利用公理方法的成果)。 数据挖掘和新趋势的预测现在主要是由计算机学者和信息计量学以外的信息科学家来研究的,他们将会融入到信息计量学研究领域。 中国学者将会扮演越来越重要的角色,而且中国可能会成为这个领域的引领者。美国的信息计量学研究只是在少数分支处于引领位置,而在整体上要落后于欧洲。如果有一两种中国期刊(信息计量学领域)被 Wos 收录,中国在这个领域的排序会有一个较大的提升。 Table 1 Number of publications about informetrics, bibliometrics, scientometrics, webometrics in the Web of Science, period 2000-2009 ( top 10 countries) 我个人对那些揭示基本结构和不同角色的信息计量研究成果比较感兴趣。例如输出引用矩阵和复合框架。许多输出引用矩阵能够用来计算影响因子和 h 指数,让我们可以揭示某些学科领域内两者之间的关系。 ( Personally, I am very interested in articles that reveal basic structures and their role in informetric research. Examples of such structures are the publication-citation matrix and the conglomerate framework. It was the understanding that any publication-citation matrix that can be used for the calculation of general impact factors can also be used for the calculation of an h-index, that led us to an article revealing the relation between the two most important indicators in the field, namely the impact factor and the h-index. ) 4 结论 信息计量学是信息科学非常重要的研究领域。而且它是科研评价、趋势预测和创新研究等应用研究的基础。