科学网

 找回密码
  注册

tag 标签: 文献计量学

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

友情转发:西班牙,文献计量学博士后,年薪约32K欧元
热度 1 曹聪 2013-1-8 17:25
One early career position is available at Ingenio (CSIC-UPV) from May 2013 (flexible) for 12 months (with possible 6-12 month extension) for an EU-funded project on “Mapping and assessment of research portfolios in biomedicine”, with a salary of ~32K euro. 详情见附件。 PostdocIngenio2013.pdf
个人分类: 其他|3456 次阅读|2 个评论
一则与引文分析之父相关的引文悬案
热度 12 nli2233 2012-12-29 12:29
当得起“引文分析之父”大名的,最恰当的、唯一的人选,是尤金·加菲尔德( Eugene Garfield )博士,因为他是 SCI 的创始人。加菲尔德生于 1925 年,已经接近 90 岁高龄了,从年龄上看,当个“ XX 之父”,也不算占便宜。 这里不评述加菲尔德老先生的一生,而是说一则我最近发现的、很有趣的(至少我这么觉得)、跟老先生有关的引文悬案。 科学网上做文献计量学(或者科学计量学)的人很多,比如武夷山老师,刘玉仙同学,还有更年轻的陈凯华同学和赵星同学,在这个领域都做出过很不错的工作。我来说引文分析的事儿,有点儿班门弄斧了。不过,这一则小事儿的确是我刚刚注意到的,而且为了弄明白真相,我还颇为费力地在网上折腾了半天。 事情本身很小,上面提到的几位专家,还有没提到的更多的科学计量学专家们,对这个话题应该一点儿也不陌生。也许,这个我觉得是很有意思的悬案的东西,在人家那里一点儿也不“悬”,人家早就知道是怎么回事儿了,三言两语就能说清。如果真是这样的话,那么,我也不亏。至少,写这么一篇博文,可以解除我心头的一点儿疑虑。 有一个成语,叫做“三纸无驴”,相信不少人知道吧。其背后的故事,是说有人丢了一头驴,央告本村秀才帮忙写个“寻驴启示”。秀才满口答应,铺纸砚磨,洋洋洒洒,转眼间,已经写了三页纸。这人问秀才,找驴的事儿是怎么说的?秀才答:别着急呀,前面都是铺垫,我还没写到“驴”字呢。 我可不能学这个秀才,还是赶紧说“悬案”吧。 关于引文动机的研究,往最先追溯的话,一定会追到一个有 15 条的 list 上。即:最早的引文动机研究,列出了人们引用文献的时候, 15 个可能的出现的原因。这 15 条原因,译成中文是这样的: 1 、对先驱表示敬意; 2 、对相关工作表示肯定(即对同行表示敬意); 3 、指明研究方法和设备; 4 、提供背景性材料; 4 、对自己的工作的纠正; 6 、对他人工作的纠正; 7 、对前人工作的批评; 8 、用来支持自己的论点; 9 、提请关注即将发表的工作; 10 、提供线索,指向未能充分传播、恰当索引或未被引用的文献; 11 、鉴别数据和事实类别,如物理常数等; 12 、指明对某一观点或概念进行过讨论的原始文献; 13 、指明那些描述以个人名字命名的概念或术语的原始文献或其他文献; 14 、否定他人的工作或观点; 15 、对他人的优先权提出异议。 应该说,事实上也早就有人指出过,这个单子并不完整(没有穷举所有可能性),而且,整个单子的组织排序也不是特有规律。但不管怎么说,这是现有文献中研究引文动机的第一次努力,功不可没。 这才引出本文一开始提出的“悬案”——这个单子是谁提出的? 第一反应,先看别人对这个问题是怎么说的。我通过互联网查找,加上翻阅手头的资料,对此大致上有了一个了解。结论是:有关文献对此没有统一看法。 说到引文动机的时候,有相当多的文献(比如国内的文献计量学教材)说这是一个名叫马尔文·温斯托克( Melvin Weinstock )的人于 1971 年提出的,有一些国外的文献也持这一说法。还有不少文献(比如武夷山老师的文章和一些外文文献),认为这个 15 条,是尤金·加菲尔德于 1964 年提出的。有意思的是,还有一些文献(主要是中文文章)在做文献综述部门写到这个 15 条的时候,把加菲尔德和温斯托克的工作分别评述,在各自名下列出 15 条,全然忽略这俩人的 15 条说的是一回事儿的事实。这也太不应该了,如果作者读过原始文献的话,不会犯这样的错误。 下面是加菲尔德和温斯托克在各自的文献中的 15 条原文,各位看看是不是一回事儿: 加菲尔德列出的 15 条(出处: Eugene Garfield. “Can Citation Indexing Be Automated?” in Mary Elizabeth Stevens, Vincent E. Giuliano, and Laurence B. Heilprin, Eds., Statsitical Assocristiora Methods for Mechamked Documentation, Sympom”um Proceedings, W’a.rhkgton 1964. (National Bureau of Standards Miscellaneous Publication 269, December 15, 1965), pp. 189-192 . ): 1. Paying homage to pioneers 2. Giving credit for related work (homage to peers) 3. Identifying methodology, equipment, etc. 4. Providing background reading 5. Correcting one’s own work 6. Correcting the work of others 7. Criticizing previous work 8. Substantiating claims 9. Alerting to forthcoming work 10. Providing leads to p oorly disseminated, poorly indexed, or uncited work 11. Authenticating data and classes of fact—physical constants, etc. 12. Identifying original publications in which an idea or concept was discussed. 13. Identifying original publication or other work describing an eponymic concept or term as, e.g., Hodgkin’s Disease, Pareto’s Law, Friedel-Crafts Reaction, etc. 14. Disclaiming work or ideas of others (negative claims) 15. Disputing priority claims of others (negative homage) 温斯托克列出的 15 条(出处: Melvin Weinstock. "Citation Indexes" in Encyclopedia of Library and Information Science, New York: Marcel Dekker, 1971, Vol. 5, pp. 16-40 ) 1. Paying homage to pioneers 2. Giving credit for related work. 3. Identifying methodology, equipment, etc. 4. Providing background reading. 5. Correcting one’s own work 6. Correcting the work of others 7. Criticizing previous work 8. Substantiating claims 9. Alerting researchers to forthcoming work. 10. Providing leads to poorly disseminated, poorly indexed, or uncited work. 11. Authenticating data and classes of fact—physical constants, etc. 12. Identifying original publications in which an idea or concept was discussed. 13. Identifying the original publication describing an eponymic concept or term as, e.g., Hodgkin’s disease, Pereto’s Law, Friedel-Crsfts Reaction. 14. Disclaiming work or ideas of others. 15. Disputing priority Claim of Others. 第二反应,这事儿简单啊,加菲尔德文章发表在前( 1964 ),温斯托克文章发表在后( 1971 ),这个 15 条单子的 credit 应该归加菲尔德。而且,根据常识判断,温斯托克的文章(实际上是百科全书的一章),应该引用加菲尔德的文章才是,否则不就是我们常说的抄袭或者剽窃了吗? 于是,我回头认真看了一下这两篇文章的相关部分,加菲尔德 1964 年的文章说到这 15 条的时候,用了这么一句话引出:“ However, reference citations are also provided in papers for numerous reasons including, among others: ” 然后是 15 条,前后没有引用别人文献的痕迹。这说明这 15 条是加菲尔德提出的。 然后我去看了温斯托克的原文,他是这么说的: ”These references are supposed to identify those earlier researchers whose concepts, methods, apparatus, etc., inspired or were used by the author in developing his own article. Some specific reasons for using citations are as follows:” 然后就是 15 条。这里没有引用加菲尔德的文章。 本来我看好多文献把 15 条的单子归功于温斯托克,还以为这些文献的作者未必通读了温斯托克的原文,因为凭直觉,温斯托克应该引用了加菲尔德的文章。原因很简单,加氏文章在前,温氏文章在后。现在看,那些把 15 条的 credit 送给温斯托克的作者们也没有什么错,因为温斯托克没有引用加菲尔德的文章,让人误以为这是他的首创呢。 那么,是温斯托克这家伙剽窃吗? 第三反应,杀人不是割韭菜,割掉一茬,还接着长。说人剽窃这种事儿,要十分谨慎。再仔细看看,也许有新发现。结果,我还真是发现了一些线索。 线索 1 :温斯托克的这篇作为图情百科全书一章的文献,的确引用了加菲尔德的那篇列出 15 条单子的文献。这说明,温斯托克同志对于加菲尔德那篇文章的存在,是知晓的。不过,引用的地方,不是在列出 15 条单子的时候,而是在另外一个话题下。顺便说一句,无论是加菲尔德的这篇文献,还是温斯托克的这篇文献,都是主要在讲引文索引的事儿, 15 条单子的内容(即引用动机问题)都不是其主要话题。 不管怎么样,线索 1 说明,温斯托克在明知加菲尔德文献存在的情况下,没有在列出 15 条的时候引用加氏的文献,其剽窃的嫌疑更大了。 不过,同志哥还是刀下留人比较好。我们还有线索 2. 线索 2 :看温斯托克文章的作者单位,原来人家是加菲尔德创办的科学信息研究所( ISI —— Institute for Scientific Information )的资深信息科学家( Senior Information Scientist )。 60 年代的 ISI 可不是今天的 Thomson Reuters 这样的规模。我们有理由相信,加菲尔德和温斯托克是一个研究团队的,至少温氏是加氏手下的一兵。 那么,俩人都是搞引文的,应该知道该引用前人成果的时候,一定不能含糊吧。可是,为什么温氏没有引用加氏的文章呢?(注意:温斯托克在发表这篇文章后,还继续在 ISI 工作,并发表了其他文章,这说明他并没有因为在文章中没有引用加氏的文章而在工作岗位上受到什么影响。) 我觉得可能的原因有: 第一, 忘了。忘了就忘了。尽管侵犯了加菲尔德的知识产权,但加菲尔德仁德宽厚,没加怪罪。 第二, 15 条的归纳本来温斯托克就有份儿,那是集体的结晶,所以不引。 第三, 15 条的归纳是温斯托克弄出来的,结果被加菲尔德先用了,所以不引。 究竟是怎么回事儿,我说不好。不过,就算事实是这里的第二、第三的任何一种情况,现在的通行做法也是应该引用一下。 不管怎么说,这是悬案了。温斯托克不知所终,但加菲尔德老人家还活着。我想了想,还是觉得为了这点小事儿打扰老人家,也太不仁义了,再说加氏本人也未见得就记得清究竟是怎么回事儿。因此,我放弃了找当事人直接求证的想法。反正这也不算什么大事儿,悬案就悬案吧。
个人分类: 人物纪事|8925 次阅读|19 个评论
进入阵地
热度 1 zilu85 2012-11-30 12:40
关于“情报学”,很多愤青在奔走呼号。既认同他们对这门科学的诟病,但在心底我还是有一片绿地,我还是感到希望的。 最近的一个月里,有3家单位找我咨询对学科发展动态进行分析的问题。我觉得,我个人,从90年代中期就开始的共现分析,已经从象牙塔里走出来,迎来了实战的考验了。 开始的时候,文献计量分析的主题凭自己的兴趣选,有时候也请教临床专家,他们最需要哪方面的信息。比如,我当年做硕士课题的时候,就是请教呼吸专家后确定的支气管肺泡灌洗这个主题的。但是,结果你也可想而知,也就是核心刊、核心作者、半衰期之类的;值得骄傲的是,因为不甘心,所以做了高被引论文的同被引聚类分析。但是,得到的东西,你送给临床专家人家也不感冒。所以,那时候,就是自娱自乐的研究。但是,终究要成长,要走向应用的。 最近找我们做某个学科领域研究结构和状况的单位和人多起来了,是他们主动找来的。我猜其原因,一来是信息越来越泛滥,专业人员把握和跟进自己领域越来越困难了;二来是信息技术越来越发展,很多分析方法情报专业以外的人也接触了,认可了。当然,还有最后,我们自己对自己手中的方法和工具认识也一点点加深了,甚至有点儿曙光初现的感觉。 从研究到应用,真的是一个痛苦的磨合过程。以前对我们服务对象的“无理要求”、“无端指责”十分愤慨,觉得他们不尊重我们专业,至少认为他们不懂我们专业,却认为自己懂。现在,心平气和地想,如果我们足够强大,是不会这么敏感的;如果我们能给他们提供他们所需要的,他们肯定能表现出应有的敬意的。所以,现在我的理念是,“做事不由东,累死也无功”。我们把身段放低,我就是为您服务的。要把用户的每一次要求都当做我们前进的契机,每一次解释都当做我们宣传自己专业理念和方法的演讲,积极地面对挑战,如同进入阵地,一心想着的就是把我们多年来琢磨和鼓捣出来的这个玩意儿送到前线,真正能够为一线服务。 可是啊,应用起来,问题真的很多很多: 如何选择分析的文献?如前一篇博文所翻译的,这是任何分析所面临的首要问题。选错了,后面分析都没有意义了。 阈值问题,截取高于多少的引文或者主题词能代表这个学科领域的基本情况? 聚类中,相似系数到底用哪个? 聚类结果如何判读?能不能自动地贴上语义标签?这个标签既不要太简单(只用一个词),又不要太繁琐(用好几篇文章)? 最后,到底如何表现一个学科或者领域的热点?前沿?emerging field?这些都如何定义? 这些都解决了,更要面对用户各种各样的千奇百怪的要求了。 要做的事情太多了,没时间探讨什么学科属性的哲学问题,也许等到我从下边把沙子和好,一砖一瓦地垒起来,在高处俯瞰的人就能看明白我们在从事的到底是什么东东了。 只是埋头垒墙的人看不到了。管他呢,我还是吹着口哨垒我的砖头吧。
个人分类: 休闲|4195 次阅读|1 个评论
考验你计量学是否入门的一道题
热度 7 zhaoxing 2012-4-3 14:22
考验你计量学是否入门的一道题
请见下图 图名为“咫尺天涯”。 文中每条连线表示两端学者有合作发表研究论文。 不负责任的说,没看懂隐含意义说明文献/科学/信息计量学还没入门哟! --------------------------- 答案: http://blog.sciencenet.cn/home.php?mod=spaceuid=1898do=blogid=557128
个人分类: 计量学|8040 次阅读|14 个评论
几篇有关文献网络的特色论文(二):前沿分析
热度 3 zilu85 2012-3-31 11:13
1. Manifestation of emerging specialties in journal literature: A growth model of papers, references, exemplars, bibliographic coupling, cocitation, and clustering coefficient distribution 期刊文献中新兴专业的显示:论文、引文、例子、引文耦合、同被引和聚类系数的分布 本文介绍了一种在期刊论文集合中表现一门科学专业诞生和发展的模型。所提出的模型,名曰“带有样例论文累积优势”( Cumulative Advantage by Paper with Exemplars , CAPE ),实为 Price 的累积优势模型的修正。修改之处有二:( 1 )参考文献分组引用;( 2 )模型考虑到了高被引的带有案例的参考文献在专业诞生之后马上会出现。这种简单的生长模型模拟了真实论文集合的诸多特征,包括论文 - 参考文献矩阵的结构,每篇论文参考文献数目的分布,每篇参考文献的引用论文数目的分布,引文耦合分布,同被引分布,引文耦合聚类系数分布,案例参考文献的时间分布。该模型让我们对文献和参考文献集合中链接产生和聚类的过程有了更为深刻的认识。介绍了两个样例和成功的模型: 131 篇关于微机电系统无线电频率开关的文章, 901 篇复杂网络的论文。 2. Co-citations and co-sitations: A cautionary view on an analogy. 与科学出版物的引文网络一样,万维网也是由网页通过超链接或者 sitation 联系在一起而成。在新出现的研究领域网络计量学( Webometrics )里,学者们对在文献计量学和超链接网络中所建立的引用概念进行了调查。本文主要探讨论文同被引和网页同被引的可能类似性,以构建 web 世界。报告了文献计量学和科学指标领域的实验研究,回顾了必须处理的几个技术问题。 Web 同被引似乎是描述 web 主题的有效途径,但是,有关网络同被引与传统的论文同被引之间类似的问题上有很多误解,因此在解释结构的时候要采取一些防范措施。 3. Comparative Study on Methods of Detecting Research Fronts Using Different Types of Citation 几种利用不同类型的引文发现研究前沿的方法的比较研究 本文对发现正在形成中的研究前沿的方法的优劣进行了比较研究,这三种引文网络:同被引,引文耦合,和直接引用网络,在 3 个研究领域(氮化镓,复杂网络和碳纳米管)。对每个研究领域都构建了三种引用网络:这些领域的论文被分成几个类别以探查研究前沿。我们评价了每一种引文网络在探查研究前沿上的优劣,对类内的每一篇论文所采用的指标有:显现度(通过归一化的类大小),速度(通过平均出版年),和拓扑结构上的适宜度(通过密度)。直接引用网络,可以较早地探查出大规模和初期的新兴类别,显示出在探查研究前沿方面最好的效果,而同被引则是最差的。此外,直接引用网络的聚类相关系数最大,表明通过直接引用联系起来的论文其内容相似性是最大的,且直接引用网络遗漏新兴研究领域的危险也最小,因为核心论文都被包括在最大的组成成分之中了。 4. CiteSpace II: Detecting and visualizing emerging trends and transient patterns in scientific literature 本文介绍了一种可以利用科学文献识别并显示科学发展新趋势和新动态的通用方法。这项研究在理论和方法上极大地促进了知识领域可视化研究。如何表现一个研究领域?本文利用了信息科学中的一对概念 — “研究前沿”和“知识基础”,通过它们随着时间而变化甚至相互影响的情况来达到显示学科发展趋势和动态的目的。研究前沿 (research front) 是指一组突现的动态概念以及潜在的研究问题,使用了研究前沿概念的科学文献随时间变化形成了一系列的演化网络;研究前沿的知识基础 (intellectual base) 则用上述文献中的引文和共引轨迹来表示。 Kleinberg 设计的突发监测算法 (burst detection algorithm) 可以用于辨认新兴研究前沿专业术语概念。 Freeman 提出的中间中心性测度可以把潜在范式变化的关键点凸显出来。我们设计并实现了两个互补的视图:聚类视图 (cluster views) 和时区视图 (time-zone views) 。这种方法的贡献在于: ① 通过对研究前沿术语的算法运算,在动态中认识知识基础的本质; ② 用研究前沿专业术语概念明确标出共引聚类的确切含义; ③ 直观地和靠算法识别的关键点的一致性大大简化了可视化的复杂性 .CiteSpace Ⅱ 应用 Java 程序实现了大规模生物集群灭绝 (mass extinction)(1981 ~ 2004 年 ) 和恐怖主义 (terrorism)(1990 ~ 2003 年 ) 两个研究领域的建模和可视化过程。可视化网络中的突出的趋势和关键点的作用经各自领域专家直接验证,这些专家本身就是关键点文章的作者。本文讨论了这项研究的实际意义,并明确了今后研究工作中存在的一系列挑战和机会. 5. Mining Enriched Contextual Information of Scientific Collaboration: A Meso Perspective 挖掘科学合作中丰富的背景信息:中层次视角 近年来,利用合著网络研究科学合作引起广泛的关注。两位作者之间如何合作以及合作的背景依然没有搞清楚。但是以往的研究都聚焦在合著网络的整体拓扑结构(宏观层面),或者对作者的影响力进行排序(微观层面)。这些研究都没有提供两位特定作者合作背景的信息,而这个问题会反映出丰富的社会经济上、学科上和单位的信息。与宏观和微观视角不同,本文提出一个新的方法( meso 中间视角),来分析科学合作,其做法就是将背景子图作为分析单位加以抽取。背景子图( contextual subgraph )是指一种捕捉两个作者之间关系和背景的大规模合著网络中的较小的子图。用该方法调查了图书情报领域,分析了四个时间段的所有子图的拓扑结构属性,包括大小,平均度,聚类系数,和网络中心性。结果显示背景子图可以捕获关于两个作者的有用的背景信息。
个人分类: 文献计量学|7195 次阅读|3 个评论
在医学文献库里检索情报学定律
热度 1 zilu85 2011-10-10 18:58
在文献检索的教学中,一般是不主张这样做的。我要找三大定律的相关论文,从查全查准的角度说,应该选择最相关的数据库,比如information abstracts之类的。 今天忽发奇想,看看在PubMed里检索一下又如何呢? (1)布拉德福定律: 策略:Bradford* AND journal* ,结果是62篇,如 Biomedical and health sciences publication productivity from Malaysia. Mapping the core journals of the physical therapy literature. 等等。很多标题中都用了mapping这个词。 (2)齐普夫定律 策略:zipf ,结果是7篇。 Can Zipf distinguish language from noise in noncoding DNA? Zipf -scaling behavior in the immune system. 哦,齐普夫定律其实适用面很广的啊,在分子生物学,细胞学都能用上。 (3)洛特卡定律 策略:lotka NOT (volterra OR model ),47篇,其中大多数都是混杂的非相关文献。相关的有几篇: A bibliometric study in crystallography. 可以作为应用三大定律分析特定领域的范文吧。 Lotka 's law and productivity index of authors in a scientific journal. Lotka 's law and the pattern of scientific productivity in the dental science literature. 我感兴趣的是这些定律在医学领域里是否有更新奇的应用,通过粗粗的检索,似乎齐普夫定律目前还在焕发青春。其余的比较稳定地在学科结构态势的展示和机构个人绩效评价的层面上。 明天,在PubMed看看引用和引文分析,文献老化和增长又会怎样呢?
个人分类: 生物医学文献计量学|4931 次阅读|1 个评论
“忐忑”背后的计量学原理
热度 7 timy 2011-2-23 15:49
“忐忑”背后的计量学原理
最近被网民称为神曲的“ 忐忑 ”很火,被很多人翻唱,之所以这么火,搞传媒的、做复杂网络研究的,估计都有各自的方法来解释。我想从文献计量的角度做个粗浅的理解,来解释一下“忐忑”是“真火”还是”假火”。 (1) “忐忑”(表示为A)被N个人(这里只一般意义上的人)传唱,也就是说A被N个对象引用,按照传统的文献计量方法,N越大,影响力越大; (2) 显然(1)有不合理的地方,存在虚假引用的情况,比如网络推手的恶意传播,某些娱乐节目的短信投票环节也存在这个问题,那么,就对(1)中的N个引用对象进行区分,某些娱乐节目的做法是请几个“大腕”来打分,他(她)的权重很高,一般人的投票权重很低,然后综合一下得分,从而得到最终排名; (3) 显然(2)中,请的“大腕”是什么人,这个很重要。是不是公认的权威,这是值得商榷的,比如请其他行业的人来评价某一行业的对象,是否合适?那么有没有比较好的方法呢,文献计量学里就有一个很好的方法,就是依靠引文来解决,发展到后来信息检索领域的经典的 PageRank算法 、 HITS算法 ,是度量引用对象权威程度的公认的好办法,这些方法能综合考虑引用和被引用对象之间的关系,能得到比较可信的权威度(当然,也有在PageRank上作弊的方法,研究人员也想出了很多对策进行“反作弊”)。让我们来继续看A,由于N个引用对象中,有王菲、梁静茹、郭德纲、杜汶泽等M(MN)个大腕来“引用”,通过PageRank、HITS等算法,计算得到这M个大腕本身的权重或者权威度都比较高,因此通过PageRank、HITS等算法,最终A的得分自然就高; (4) (3)中用PageRank,HITS算权威度需要很多数据,太麻烦了,有没有比较简单的方法呢? 有的,可以利用各大网站的排行榜,综合一下,也能得到大差不差的结果,单纯靠作弊成“大腕”的可能在一两个网站是可能的,但综合多个网站的排行榜的结果(排除转载的情况),一般可以过滤他(她)们,这个做法类似于综合利用多个大学排行榜,得到一个综合值,从而得到相对可信的排名。 (5) 其他问题,比如是否可以借用“文献半衰期”等方法,来预测下A能火多久等等问题,那就需要更多的数据来做分析了。 (注: 该图由博主制作,带头像的小图均来自于Google图像搜索结果) 以上仅供参考,欢迎讨论。
个人分类: 科学评论|4837 次阅读|18 个评论
中国历史上最早的SCI论文
热度 14 zhaoxing 2011-1-27 05:27
赵星 2011 年 1 月 27 日于 科学网博客( http://blog.sciencenet.cn/?1898 ) 一百年前的那个人,沉浸在古老封建中国最后的时光,撰写着一篇论文。他浑然不知,这将是中国历史上最早的 SCI 文章 。尽管,他并不是中国人。 他叫 Noah Fields Drake ( 1864-1945 ),出生于美国,地质学家,时任清朝北洋大学(现天津大学前身)教授,后也曾任教斯坦福大学等美国名校。他的文章名为“ The coal-fields around Tse Chou, Shansi, China. ”,发表于 1900 年的《 Transactions of the American Institute of Mining and Metallurgical Engineers 》(卷 : 30 ,页 : 261-277 )。 经考证, Drake 对于早期的中国矿产研究或确有贡献。北洋大学毕业生、地质学家王宠佑曾提到:“ ...... 是以每于暑假期内,从外国 Drake 氏赴矿山看矿,研究地质,长途跋涉 .....” 。台湾学者陈胜昆亦指出:“美国人德雷克 ...... 对于中国的地质矿产十分注意,并曾首次计算全国的煤储量。” 。 如果说 Drake 发表的还不是顶尖 SCI 期刊,那么中国历史上第二篇 SCI 收录论文就厉害了: Tingle A.(1904),The flowering of the bamboo. Nature ,70:342. 没错,这是篇 Nature ,作者单位是 Imperial Provincial Coll, Shantung (山东大学堂,感谢博友 hangzhou 注 ),文章现在看来挺有意思: http://www.nature.com/nature/journal/v70/n1815/abs/070342b0.html 当然,那时的《 Nature 》可没今天这么牛。 虽然中国人的名字现今已经占了 SCI 中 最常见名的大部分 , 但早期以中国机构为单位的 SCI 论文多为外国人所著。直到 1918 年,才有机构落款为 Pen Hsi Hu Coal Iron Co Ltd, Manchuria 的 Wang CF 发表“ Coal and iron deposits of the Pen-Hsi-Hu district, Manchuria ”一文,同样关于矿产,还是刊于 Drake 之前发表的期刊。 实际上, SCI 体系于上世纪 70 年代才得以构建,后由 有趣的商业企业——汤姆森路透公司 掌 控,发展过程充满随机、变数与经济利益。这些先人们的工作能成为中国 SCI 的开山之作,也实属机缘。不管怎样,他们还是与这些文章一起,见证了中国现代科学的萌发与国际显示度的开端。虽然,后来中国科学的曲折,以及 SCI 的种种怪状,他们可能不曾想象。 注: . 本文所涉 SCI 论文数据由完整版百年 web of science 数据库查得。 . 转引自:贾晓慧 , 张宝运 .(2007), 北洋大学工程教育中的人文精神 . 自然辩证法通讯 ,5. . 陈胜昆 .(1981), 中國近代的地質學研究(上)──外國地質學者在中國的調查研究 . 科學月刊 ,1. .关于期刊《Transactions of the American Institute of Mining and Metallurgical Engineers》, 朱志敏 老师提供了以下信息:早期矿床学的很多文章都发表在这个Transactions of the American Institute of Mining and Metallurgical Engineers,1905年SEG的ECONOMIC GEOLOGY(EG)创刊后,矿床学才有了自己行业的刊物;可能因为创刊后的20年,EG在矿业届的影响仍没有博文中提到的这个刊物高,所以仍有大量的矿床学文章发表在上面。
个人分类: 计量学|20721 次阅读|32 个评论
我国中文医学核心期刊文献计量学特征的对照研究
liueditor 2010-12-22 16:36
为了对医学期刊入选中文核心期刊提供文献计量学依据,对国内中文核心期刊、统计源期 刊和一般期刊文献计量学特征进行了对照研究。因此,在医学期刊编辑实践中,必须采取综合措施, 尽可能提高期刊的影响因子,适当向基金论文倾斜,多发表高水平学术论文,适时不断扩大期刊信 息容量,提高期刊的学术水平和影响力,从而实现期刊的全面发展。 完整论文
个人分类: 研究论文|4423 次阅读|0 个评论
引文分析存在的问题引发的反思——文献计量是不是走偏了?
yngcan 2010-12-8 12:20
近日,读到 JASIS ( 2010 年第一期的第一篇文章) Problems of Citation Analysis: A Study of Uncited and Seldom-Cited Influences ,对我的启发十分大,开始彻底颠覆我并不牢固的情报学基础认识,因此,我把我及时的感受写出来与大家分享,希望能够得到科学网前辈们的指点。 作者: M.H. MacRoberts and B.R. MacRoberts 全文: Problems of Citation Analysis: A Study of Uncited and Seldom-Cited Influences Problems of Citation Analysis: A Study of Uncited (论文下载仅作为学术用途) 一、 读文感受 文章提到了 引文分析的基础 : Cole and Cole (1972) found that highly cited physics papers also cited highly cited papers, and so on. If we did not know that biogeographic papers cited very few of their influences, we might come to the same conclusion as the Coles: that only a small number of individuals contribute to scientific progress. But knowing that the vast majority of influence is not cited and that influence is not to be found in the Thomson Reuters-monitored journals leads to a different conclusion: that manynot a fewcontribute to scientific progress. Cole 在 1972 年发现 高被引的物理学论文同样也会应用高被引论文等等 如果我们不了解生物地理学论文引用很少的对文章产生巨大影响的文献,我们可能得出与 Cole 相同的结论:仅有少数的个体对于科学的进步是有贡献的。但是,如果我们知道大量有影响的内容不会被 SCI 所引证,也许会导致一个不同的结论:是许多个体 而不仅仅是少数人 对于科学的进展有贡献。 (一) 举了两个例子: 1. The latitudinal gradient of species-area relationships for vascular plants of North America. published in 2007 in American Naturalist 一文中引证了 A total of 1,742 floras of North America north of Mexico ( 1742 种植物群),而这些植物群的资料范围覆盖了政府文献、论文、未出版的报告、网页内容、短评以及 2000 多页的参考资料。这部分内容也被提及,出现在 Appendix A ,然而该论文仅引用了 85 篇文献,而这些被引文献仅仅是 SCI 文献,这些文献主要是用于解释物种的多样性的文章。 2. 作者本人发表了一篇 2 页的短文 Palhinhaea cernua (L.) Vasconcellos Franco (Lycopodiaceae) new to Texasin Phytologia ,该期刊不是 SCI 论文。这篇文章通过 SCI EXPANDED 和 GOOGLE SCHOLAR 检索均发现没有任何引证,然而,这篇文章确被整合进了德州和北美的植物地理文献中,该信息被广泛的应用;另外, USDA 植物数据库以及自然服务( NATURESERVE )数据库都将该文章的研究纳入进去。换言之,该论文即被印刷版也被电子版的出版物所引用,这篇文章的研究目的已经达到了。 上面两个例子证明了,被引文献仅仅只能代表有影响文献资料的一个片段。 (二) 作者同样做了一个小的定量实证:(哈哈!虽然作者认为定量分析并不是一种包打天下的方法) We selected 10 theoretical/analytical biogeographical articles that were published in journals that are monitored by Thomson Reuters and examined their bibliographies. These 10 articles are from the 22 described in this study. We recorded whether the cited item was (a) a article from a journal not monitored by Thomson Reuters, (b) an article from a Thomson Reuters-monitored journal, (c) a book or chapter in a book, (d) an unpublished report, (e) a thesis or dissertation, or (f) an online Web source or CD-ROM. There were 530 citations in these 10 articles. We selected five data articles or sources used for data in the 22 theoretical/analytical articles, such as those listed in McLaughlin (2007). We recorded the same information that we recorded for the other sample. We stopped when we reached 530 items so that the two samples would be equal. Table 1 shows the data for the two groups. Statistical comparison of the two groups shows that there is no possibility of them being derived from the same population. Theoretical/analytical biogeographical articles predominantly cite theoretical/analytical articles from Thomson Reuters-monitored journals; data articles do not cite many Thomson Reuters-monitored articles but instead cite work from journals not monitored by Thomson Reuters, unpublished reports, theses/dissertations, and the grey literature. 对于两个群体的统计比较显示:理论或者分析类的植物地理文献主要引用了 SCI 的理论和分析文献;而数据类型的文献则没有引用太多的 SCI 文献,相反,他们主要引用的是非 SCI 文献、未发表的报告、研究论文,或者是灰色文献。 er二、反思 这篇文献对我的震撼是极大的。 主要有二点: (一) 以引文为基础的方法是不是对于所有学科的评价都有价值,是值得反思的。其实,自然科学中,除了植物地理学以外,很多学科的研究都包含了对于原始数据和基础理论分析的研究,而我们现在评价体系的一个重要指标 引文则是对于数据研究这部分内容的价值忽略了的。 (二) 文献计量学中 Cole 的理论:仅有少数的个体对于科学的进步是有贡献的 或者还应该包括 洛特卡定律 这些理论都从 分析方法(仅仅考虑第一作者) + 分析框架(仅仅展示核心作者) + 分析目的(评价作者贡献) 是出于一种狭隘、自私的学术观点。但是,如果我们反思 真的是只有小部分人对于科学的进步有贡献吗? 真的是一将功成万骨枯吗? 。这是我们图书情报学界急需要考虑的问题。 中国的情报学目前还从创作过自己有价值的理论,但研究中确充斥着各式各样标榜自己学术地位的所谓学科知识地图,这有时是一种讽刺。
个人分类: 专利|5091 次阅读|0 个评论
文献计量学的极限?
yuliping 2010-11-24 21:44
最近在思考一个问题,文献计量学的极限在哪里?如果从论文质量评价的角度,或者从学科水平评价的角度,在最理想的情况下,文献计量学的最佳境界在哪里? 微观上,或者在样本有限的情况下,文献计量学的作用是极其有限的,如论文评价、职称评审等,由于数据量偏少,比较公正客观的还是同行评议。 在样本或数据量较大的情况下,比如期刊评价、大型科研机构评价,文献计量学指标还是能够说明一定的问题的,这也正是许多高校和科研机构抓科研产出的直接动因。对科研机构总体的评价,采用同行评议的总体较少,基本上还是采用文献计量学指标进行评价。 数学上,我们有严格的可以证明的结果,比如某函数在某个区间内,有没有极值是可以严格证明的,但是对文献计量学而言,针对某个科技评价对象,我们实在难以确知它的精确作用,有很多不确定性因素。 再进一步,文献计量学指标的增长有没有极限?比如期刊影响因子会不会有一天会稳定在某个水平上波动,期刊论文参考文献的数量也不可能一直增长下去,也许有一天,优秀期刊的基金论文比甚至都没有普通期刊高所有这一切将会对文献计量学自身的发展有什么影响?这些都是一些有趣的问题。 文献计量学的产生固然是伟大的,感觉似乎存在某种先天不足,至少在这个领域,恐怕难以有学者能拿到诺贝尔奖。 2010.11.24 俞立平 于宁波
个人分类: 科研心得|4539 次阅读|2 个评论
洛特卡定律
terahertz 2010-11-12 09:29
1 ,概述 洛特卡定律 是由美国统计学家洛特卡在 1926 年率先提出的描述科学生产率的经验规律,又称 倒数平方定律 。 2 ,内容 用公式来表示: f(x)= c/ x 2 f(x) 为撰写 x 篇论文的作者出现的频率, c 是常数( 0.6079 ),表示作者取样总数的比例。 具体描述的是科学工作者人数与其所著论文之间的关系:写两篇论文的作者数量约为写一篇论文的作者数量的 1/4 ;写三篇论文的作者数量约为写一篇论文作者数量的 1/9 ;写n篇论文的作者数量约为写一篇论文作者数量的 1/ n 2 ,而写一篇论文作者的数量约占所有作者数量的 60 %。 3 ,问题 ( 1 )仅取 第一作者 为统计对象。 ( 2 ) 只是对物理、化学两学科领域抽样导出的理论估计,并非精确的统计分布。 ( 3 ) 研究的学科必须相对稳定,研究的论文时间区间必须足够长,研究的作者数目必须足够大,否则对该定律必须作相应的修正。 4 ,应用 (1) 研究科学家的活动规律,研究人才的著述特征,利于科学学的理论研究和科技史 的探讨。 ( 2 ) 预测特定学科的论文的作者数量和文献数量,掌握文献的增长趋势和交流规律,以利文献情报的科学管理和情报学的理论研究。
个人分类: 图书情报|14856 次阅读|2 个评论
生于忧患,死于安乐
热度 1 zilu85 2010-11-10 12:54
【下面一段是我为某医学信息学期刊组织文本挖掘专栏时候写下的编者按,但是出于某种原因,该刊物没有发表这一段文字,看到很多人关注到了这个问题,就把它复制粘贴到这里吧】 今天,网络飞速发展,电子资源日益丰富,专业人员可以方便地在家免费利用信息资源。在这种形势下,说图书情报部门存在着生存危机,绝不是危言耸听。 在享受高科技给我们带来种种便利的同时,我们也感觉到来接受图书情报部门服务(如到图书馆阅览、借阅和复印)的读者越来越少了,也许有一天,图书馆真的会成为一个文化场所,而不再是信息交流和知识的宝库了。 很多有识之士在探讨图书情报机构未来出路,从文献管理向信息管理再到知识管理的转型,是业内人士普遍看好的方向之一。 为了能够在未来的知识管理活动中占得一席之地,信息管理专业人员应当尽早地学习和掌握与知识管理相关的技术,文本挖掘和知识发现就是我们可以选择的研究方向之一。 本期发表了几篇利用文本挖掘和文献计量学方法挖掘知识和表现学科结构的论文,从中可以看到,文本挖掘和知识发现的技术比较容易掌握,相关的免费应用软件也比较多,有文献计量学作为基础,相信很多的同行都可以参与这个方向的研究,并做出优异的成果来。 【因为是要在期刊上发表, 上面的文字只是委婉地表达我的想法,在武汉参加第六届科学计量学与大学评价学术会议的时候,午餐的饭桌上我说出了同样的想法:即图书情报人员要有生存危机。来自台湾的一位专家则委婉地说太深沉了,我理解她的意思是说我的看法太消极了。不过会议结束的时候,蒋国华老师说现在谁还去图书馆谁是傻瓜,惹得很多人无奈地笑。 我上大学的时候(1981-1986),曾看见图书馆的老师给临床的一位专家打电话,说我们这里来了一本外文原版书,我给你留下了,你来借吧。不一会儿,这位专家一路小跑过来,千恩万谢地办理借书手续、兴高采烈地捧着书走了。 这样的好日子一去不复返了。 2008年,在某专业的课题论证会议上,大部分应该是情报人员做的课题,都给了这个专业的专家来做了,因为他们认为这种分析(如系统性综述)是他们专业人员的事儿,而来自专门的情报分析机构的人只能小声嘟囔:不懂情报,不懂情报。目睹此情此景,真有一种中国足球的感觉。 我们本来守着金山,我们本来站在一片沃土上,我们又恰逢这个信息的时代,新技术层出不去,网络发达为信息获取和交流合作提供了极大的便利,我总是对我的学生说:在这个领域,随便挖上一锹都有可能遇到金子。 如果有一天我们真的靠边站了,我们怪谁呢?】
个人分类: 生物医学文本挖掘|4747 次阅读|2 个评论
关于文献工具使用的一点忧虑
zilu85 2010-11-7 09:57
总有人向我请教citeSpace的用法,所以有些本来不想说的话,不得不说。和大家一样,觉得这是个很好的文献分析工具,尤其是可视化方面做的非常好,所以一接触到这个软件的时候,也满心欢喜地研究了一番,写了几篇如何使用的体会,写这些博文,一是为了和大家交流,也是为了记下来给自己看;另外一个原因,就是发现这个软件一直缺乏一个系统想尽的说明书,作者所发表的文章几乎都是介绍其内部算法的,比如什么是前沿啊,基础啊,之类的,所以觉得有必要把使用这个软件的基本步骤梳理一下。 但是,现在看来,有关知识图谱的研究论文已经呈现了铺天盖地的趋势,有同学给我留言就是我要用Citespace写文章,请您指导我如何使用。 这么说吧,比如你要了解未知的世界,如远方一片被浓雾笼罩着的森林,你会用望远镜,也可能用夜视镜,或者卫星图,或者通过Google的地图,总之,你要借助一个工具。不同的工具会给你呈现出不同的视觉图像,比如是俯瞰还是平视,比如是红外线的,为什么?因为这些工具的工作原理不同。所以,在使用一个文献研究的工具之前,你要弄清楚,这个工具是如何定义前沿,如何定义知识基础,它计算突发词的方法你是否接受?这些还都是在讨论中的问题,你可以在一边使用中一边体会和判断,但是不应该毫无保留地全盘接受这个工具内部所蕴含的算法。换言之,你要记住,你如果使用Citespace分析某个领域,就意味着你已经接受认可了陈超美老师所提出的关于前沿、基础等等的观点,并愿意将用这些观点所看到的世界景象传播出去。 这就是软件发明者一再发表论文解释其原理而非软件具体使用步骤的原因吧。 有的工具,如微波炉,仅仅是一个加热功能,出来的是半成品,虽然也附带给你一些菜谱,但是具体如何用你自己创造,你做什么菜都可以。 但是,有的工具,集成化的程度高,已经把发明者的一些思想固化在里面了,这无可厚非。 只是作为使用者你要想清楚,如果你要吃火锅就用从厨房里拿火锅炉子,不要用错了。如果全中国文献计量的研究者都用一种方式展示某个学科主题的研究历史、现状或结构,那就和全国人民都认为美国人民都生活在水深火热之中是一样的。
个人分类: 休闲|5575 次阅读|3 个评论
文献计量学三大定律与两个期刊评价指标
rbwxy197301 2010-9-27 23:42
文献计量学三大定律与两个期刊评价指标 布拉德福定律布拉德福(Samuel Clement Bradford),英国人,世界著名的文献学家和化学家。生于1878年10月1日,毕业于英国伦敦大学,1922年荣获科学博士学位。1925年起,担任南肯辛顿的科学图书馆馆长,直到1937年12月退休。1927年他与波拉德等人合作,创建了英国国际目录协会。1948年11月14日去世。1977年,英国Aslib主办的专业杂志Documentation为纪念布拉德福诞辰100周年,专门出版一期专刊,发表纪念文章和研究论文,为研究他的学术思想和科学贡献提供了很好素材。1934年1月他在Engineering周刊的图书与文献栏目发表了题为《专门学科的情报源》(Sources of Information on Specific Subject)一文,首次公开提出了定量描述文献分散的经验规律。这是一篇在文献计量学领域有重要历史意义的著名论文。成果推出之后并没有引起人们的关注,直到1948年,他的专著《文献工作》(Documentation)一书问世,全文收录了1934年的那篇文章,并扩展成为该书的第IX章,定名为文献的紊扰(Documentary Chaos)。这才引起一些学者,特别是维克利(B.C.Vickery)的重视和研究。 齐普夫定律乔治 金斯利 齐普夫(George Kingsye Zipf),美国哈佛大学教授、著名语言学家和心理学家。1935年,在前人研究的基础上,齐普夫以大量统计数据对词频分布规律进行系统研究,他首先检验了贡东关系式的可靠性和C的性质。他还根据汉莱为乔伊期的长篇小说《尤利西斯》一书所编的频率词典来进行工作。他在比贡东的规模大得多的基础上检验贡东的结果,并着重研究了C是否为一个常数。后来,他还根据其它一些文句中的词频统计得出了类似的结论,从而论证了单参数词频分布公式的正确性。1948年,时候46岁的齐普夫完成了他的专著《人类行为与最省力法则人类生态学引论》,1949年首次出版。最省力法则较好地解释了齐普夫定律的内在成因和机制,是齐普夫定律的理论基础。由于他的贡献,人们称单参数词频分布定律为齐普夫定律(Zipf's Law) 洛特卡定律洛特卡(Lotka,alfred James 1880-1049),美国人口统计学家。1880年生于波兰,1949年在美国新泽西州德班克去世早年在法国、德国、英国求学,获伯明翰大学理学学士学位,在莱比锡大学和科内乐大学进行物理学研究生课程。毕业后,供职于美国大家总公司及国家专利局和国家标准局。1924年起在纽约大都会人寿保险公司工作。1926年,当时供职于保险公司的洛特卡,在美国著名期刊《华盛顿科学院学报》上发表了题名科学生产率的频率分布(The Frequency Distribution of Scientific Productivity)。在该文中,洛特卡首先从科学文献作者与撰写的论文的纷乱现象中首先发现了平方反比的数量关系,提出了被称为经典的洛特卡定律。 (以上内容整理自:邱均平.信息计量学.武汉:武汉大学出版,2007) 影响因子尤金加菲尔德(Eugene Garfield)(1925.9.6),是美国著名的情报学家和科学计量学家1949年获得科学学士学会;1954年他又获得哥伦比亚大学图书馆学硕士学位; 1955年,美国宾州大学结构语言学博士)。 H指数加州大学圣地亚哥分校物理学家乔治赫希(JorgeE.Hirsch)。 这些定律和指标已被大家熟知,但为什么这些文献计量学有影响力的成果会来自物理学家、化学家、语言学家、人口统计学家......?这种现象不知在其它学科是否也有出现?是不是可以理解成学科无界呢?
个人分类: 生活随想|14043 次阅读|3 个评论
感兴趣的另类小软件
热度 5 zilu85 2010-9-24 11:44
tagxedo: www.tagxedo.com ,应该是词频统计的,没打开。 wordle: www.wordle.net ,应该是词频统计可视化,但是也没打开。通过这个学到一个新词,词云, word cloud。 vosviewer: http://www.vosviewer.com/ ,这个是共现可视化。 CiteSpace: http://cluster.cis.drexel.edu/~cchen/citespace/ ,这个目前在国内很流行,可是说明书不好,具体的内部算法(如突发词,前沿的定义)也是一家之言,如果你认可这种算法,就放心地用。 TI.exe: http://www.leydesdorff.net/software/chinese/index.htm ,共现分析软件,来自 Loet Leydesdorff 的网站,甚至有中文版,没用过。 BIBEXCEL : http://www8.umu.se/inforsk/Bibexcel/ 共现矩阵生成软件,在科学网的博客里已经介绍很多了。 gCLUTO: http://glaros.dtc.umn.edu/gkhome/cluto/gcluto/download ,双向聚类分析。 Cluster: http://bonsai.hgc.jp/~mdehoon/software/cluster/,聚类分析
个人分类: 休闲|7870 次阅读|6 个评论
文献计量学在科研中的运用
carldy 2010-8-5 05:12
这一次在英国开会期间,认识了一位奥地利的学者,名叫 Gernot Hebenstreit 。他为人幽默热情,喜欢与我们中国学者交流,并虚心学习汉语。他能不厌其烦地重复我们几个中国学者的名字,直到他认为记住为止。 会后我与他交流研究心得时,他向我推荐一款很好的软件- Mindmanager 。他告诉我,该软件可以用来辅佐科研与教学,尤其是在科研笔记中,很有帮助。 他在这一次大会上交流的论文题目挺有意思的 : Developments in corpus-based translation studies : A bibliometric approach . 用汉语表达,即 从文献计量学的角度探讨语料库翻译研究的发展 。这里暂时不评论他的研究,让我感兴趣的是文献计量学。 这一术语我原来曾看过几篇相关文献,觉得挺有趣的。人类认识事物的角度确是是多种多样的。其实,有时候,我们在科研工作中,稍微改变一点思维方式,就有可能发现新的东西,有时候甚至是独特的发现。 文献计量学是以文献体系和文献计量特征为研究对象,采用数学、统计学等计量方法,研究文献情报的分布结构、数量关系、变化规律和定量管理,并进而探讨科学技术的某些结构、特征和规律的一门学科。这一术语最早由英国人 Alan Britchard 于 1969 年提出。文献计量学中常用的定律很多,这里笔记下来的,有如下几个: 1 , Bradford (布拉德福)定律: 布拉德福定律是由英国著名文献学家 B.C.Bradford 于本世纪 30 年代率先提出的描述文献分散规律的经验定律。其文字表述为:如果将科技期刊按其刊载某专业论文数量多寡,以递减顺序排列,则可分出一个核心区和相继的几个领域,每区刊载的论文量相等,此时核心期刊和相继区域期刊数量成 1 : n : n2...... 的关系。 2 , Zipf (齐普夫)定律: Zipf's law, an empirical law formulated using mathematical statistics , refers to the fact that many types of data studied in the physical and social sciences can be approximated with a Zipfian distribution, one of a family of related discrete power law probability distributions. The law is named after the linguist George Kingsley Zipf who first proposed it (Zipf 1935, 1949), though J.B. Estoup appears to have noticed the regularity before Zipf. ( 该定义引自 http://en.wikipedia.org/wiki/Zipf's_law ) 用汉语来表达就是:如果把一篇较长文章中每个词出现的频率统计出来,按照高频词在前,低频词在后的递减顺序排列,并用自然数给这些词编上等级序号,即频次最高的词等级为 1 ,频次次之的等级为 2 ,以此类推,频次最小的词等级为 D 。若用 f 表示频次, r 表示等级序号,则有 fr = C ( C 为常数)。 我是学语言学,发现语言研究中,运用 ZIPF 定律来解释语言现象的研究还不多。《语言与语言词典》指出: ( 词频分布定律 ) 是指谈话者或写作者使用的词的分布和频次的总描述。 FR=C ,方程式中 F= 频次 ,R= 序号 , 即频率表上的位置; C= 常数。方程式表示词使用的总次数和词频表上的位置之间有一个固定比率。 齐普夫的表达仅适宜于中频词的情况,高频与低频词与该表述偏差较大。 对词频分布规律有许多补充和深化的研究。 词频分布规律是有较为丰富内涵的,学术界认为正态分布是描述自然科学的典型分布,而齐普夫分布将成为揭示社会科学规律的典型分布,所以社会科学界一直很重视这个定律。讨论词频分布何以呈现那种特殊的形状,对其成因提出假说,建立适当的理论模型描绘其分布过程是当前研究工作的热点。 目前较重要的假说有 2 个: 1 ) 省力原则 假说 : 提出这一假说的是齐普夫。他认为,在语言交流过程中, 省力法则 同时体现在说话人和听话人身上。说话人希望组成语言的词少,而且一词多义 , 以节省其精力。听话人认为最好是一词一义 , 使听到的词与其确切涵义容易匹配 , 减少他理解的功夫。这 2 种节省精力的倾向最后平衡的结果 , 便是词频的那种双曲线型分布。 2 ) 成功产生成功 假说 : 这方面以 H.A. 西蒙的研究最为著名。西蒙构造了一个概率模型,他所作的一个重要假说是:在文献中 , 一词使用的次数越多 , 则再次使用的可能性越大。该模型最后导出的分布与齐普夫分布相当接近, D.J.de S. 普赖斯后来建立了一个相类似的模型,又明确地提出了 成功产生成功 的假说。 研究词频分布对编制词表,制定标引规则,进行词汇分析与控制,分析作者著述特征具有一定意义。经验表明,中频词往往是包含大量有检索意义的关键词。而一篇文献全文输入计算机后,计算机是很容易检出中频词的。因此,词频分布也是文献自动分类、自动标引的研究对象。 这对于当前语料库语言学来说,也是一个值得深入研究的话题。 3 ,洛特卡定律: 洛特卡定律是由美国学者 A.J. 洛特卡在本世纪 20 年代率先提出的描述科学生产率的经验规律,又称 倒数平方定律 。它描述的是科学工作者人数与其所著论文之间的关系:写两篇论文的作者数量约为写一篇论文的作者数量的 1/4 ;写三篇论文的作者数量约为写一篇论文作者数量的 1/9 ;写N篇论文的作者数量约为写一篇论文作者数量的 1/ n2, 而写一篇论文作者的数量约占所有作者数量的 60 %。该定律被认为是第一次揭示了作者与数量之间的关系。 4 ,普莱斯指数: 1971 年美国科学家 D. 普莱斯提出了一个衡量各个知识领域文献老化的数量指标,即后人所称的 普莱斯指数 ,即:在某一知识领域内,把对年限不超过五年的文献的引文数量与引文总量之比当作指数,用以量度文献的老化速度和程度。其计算公式如下: P (普莱斯指数)=被引文献数量(小于或等于 5 年) X100 % / 被引文献总量 这些定律,可以对学术期刊评价的指标进行量化比较。 这个话题,暂时学到这。
个人分类: 读书心得体会 Harvest|7878 次阅读|1 个评论
至今才悟到的一些基本问题
zilu85 2010-6-30 12:00
拜读武夷山老师的博文 《科学计量学、科学史和情报学的历史联系》, 勾起了我对学科之间关系的兴趣,于是禁不住把自己的想法也一吐为快。呵呵,不怕您笑话,这么简单的问题,我到今天才考虑出来点眉目。 无论是信息计量学,文献计量学,还是科学计量学,其主要活动就是数数,掰手指头或者打算盘都行。从命名的原则上讲,信息、文献是数数的对象,而科学则是说这种计数活动的应用对象。这样一想,其实本身是一个活动(计数)的两个方面,如同小姑娘总要在不同场合穿不同的衣裳。尽管文献计量学历史悠久一些,信息计量学和科学计量学提出的似乎晚一点;尽管有着三大定律(洛特卡、布拉德福、齐夫)和两大规律(增长和老化),以及引文分析,看着似乎很繁杂,但是,从应用的角度考虑,我个人认为文献计量学能解决的无外乎两件事:(1)科学结构的分析,某个专题领域的研究主题,无论是用论文的同被引分析,还是主题词/关键词的共词聚类分析,还是作者同被引分析,甚至引文年代分布,都是通过对文献计数的方法展现科学研究活动的基本状况的,这当然属于科学计量学的了。(2)绩效评价:科研单位和个人乃至国家的科研活动成果评价,比如发表文献量,被引用数量,当然可以扩大到国家层次上,也可以缩小到期刊水平上,这些研究不是科学计量学又是什么呢?所以,从应用对象而言,文献计量学就是科学计量学的一个组成部分,甚至可以说文献计量学仍然是科学计量学到目前为止的主要的研究手段。如果深入一点儿,不是以整篇文章作为计数单位,比如从文章中抽取出来主题词,或者概念,或者知识,以及这些东东直接的关系,那就可以说是信息计量学了,只不过进展不大,后来又被数据挖掘所侵占了。 这就又涉及到了文本挖掘的问题了,我一直也困扰,从1986年,在武汉大学听邱均平老师的第一堂课开始,我一直从事文献计量学的研究,这些年来改称自己研究的领域是数据挖掘和知识发现,其实有赶时髦的嫌疑,自己心里也嘀咕,自己所研究的还不就是文献计量学那一套吗?虽然我对数据挖掘的定义、文本挖掘的主要任务,乃至文本挖掘在生物医学领域的主要研究方向达到倒背如流(主要是为了讲课用),但是,心里还是害怕别人问这个问题的。后来,一个具体的例子让我对二者的区别有了些许的领悟。 一个难缠的学生,给我提出这样一个问题:影响健康公平 研究 的主要外因有哪些?希望我用情报学的方法来解决之。我最初自然的联想就是找到有关于健康公平的文献,抽取其中概念以及概念间的联系,形成一个规则或者模板,然后返回到大的文献集合中,找到答案。结果发现,得到的是影响健康公平的因素,而不是影响健康公平研究的因素。这就是文献计量学和文本挖掘的分别: 寻找影响健康公平 研究 的因素,实际上是文献计量学或者科学计量学的任务,是对一个学科发展状况的分析,所以还是要从文献计量学中寻找办法; 寻找影响健康公平的因素,则是文本挖掘的任务,如同目前在生物信息学领域大量出现的论文中涉及到的蛋白间作用,基因与疾病关系等等一样的(这个基因能引起哪些疾病?)。我也做过阿司匹林有哪些副作用的分析,只是那时候对学科间的关系还是稀里糊涂的。 最后,重温一下生物医学领域的文本挖掘的主要任务: 2005年,Aaron M. Cohen and William R. Hersh. A survey of current work in biomedical text mining. BRIEFINGS IN BIOINFORMATICS. VOL 6. NO 1. 5771. MARCH 2005 (1) 命名实体识别(Named Entity Recognition ):识别出文献集中某一种事物的各种名称,比如某一组期刊论文中所有的药物名,一组MEDLINE文摘中基因名称和符号。 (2) 文本分类(Text classification):自动判别一篇文献是否具有某种特性,一般是指该文献是否讨论某一个主题或者含有特定类型的信息。 (3) 同义词或者缩略语抽取(Synonym and abbreviation extraction):主要是未发现的基因名称同义词或者缩略语的抽取。 (4) 关系抽取(Relationship extraction):发现特定一对实体之间有某种预先设定好的关系,比如基因,蛋白或者药物之间的各种生物医学关系或者特定的某种关系(如调控关系)。 (5) 形成假说(Hypothesis generation):基于Swanson的非相关互补文献的发现。 (6) 集成系统平台(Integration frameworks):TXTGate,PubMatrix,Textpresso等。 2007 年, Pierre Zweigenbaum , Dina Demner-Fushman , Hong Yu , Kevin B. Cohen. Frontiers of biomedical text mining: current progress. Brief Bioinform . 2007 September ; 8(5): 358375. (1)从文本中抽取事实(EXTRACTING FACTS FROM TEXTS) (1.1)识别命名实体(Named entity recognition) (1.2)确认生物医学实体关系(Identifying relations between biomedical entities) (2)基于信息抽取的研究(BEYOND INFORMATION EXTRACTION) (2.1)总结(Summarization):自动总结文本的内容,确认一篇或者多篇论文的最重要的内容,并简洁规范地表示之。 (2.2)处理非文本资料(Processing non-textual material):用图像分析技术和自然语言处理技术来分析图表以及图表相关的文字,或者处理特殊类型的文字,比如化合物。 (2.3)回答问题(Question answering):高精度的文献检索,给出简短的回答,提供支持材料和链接。 (2.4)基于文献的发现(Literature-based discovery):还是Swanson的研究。 (3)评估系统和面向用户的系统(ASSESSMENT AND USER-FOCUSED SYSTEMS) (3.1)注释文本集和大规模评价(Annotated text collections and large-scale evaluation):用于评价文本挖掘系统的语料库等等。 (3.2)了解用户需求(Understanding user needs):在系统开发过程中考虑到用户需求、行为以及与系统工具的相互作用,以此来判断生物医学信息学服务和工具是否必须和有用。比如对FlyBase数据库的开发中就利用了对用户行为的观察和用户反馈信息。 通过对上面的两篇文章的分析汇总,我们大致可以归纳出,在生物医学领域 ,文本挖掘主要内容就是(1)文本挖掘的基本技术,如命名实体识别和关系抽取;(2)以文本挖掘基本技术为基础,开展的应用性的研究;(3)有关系统的开发和评价研究。 对了,下面是一个文本挖掘的入门读物,很简单,有兴趣的同行可以看看: K. Bretonnel Cohen, Lawrence Hunter Getting Started in Text Mining.PLoS Computational Biology, 2008,4( 1): e20.( www.ploscompbiol.org )
个人分类: 生物医学文献计量学|6354 次阅读|5 个评论
Informetrics
rbwxy197301 2010-4-10 13:36
《图书情报工作》2009年6月第53卷第12期刊专家视点发了一篇由比利时学者Ronald Rousseau(罗纳德 鲁索)撰写的题为《informetrics》英文论文。全文介绍了信息计量学的由来、研究内容、研究主题及其未来的一些发展方向。内容不是很多,但有些看法值得我们去关注。   阅读之余,试着对全文进行了翻译。一些术语和短语的理解上还不是完全到位,不到之处请有兴趣的同行批评指正。 1 Informetrics 1934 年,比利时图书情报学家、国际十进分类法开发者 Paul Otlet 出版了他的重要著作《 Treatise on Documentation 》。在这本著作中,他对信息科学的发展做了全面回顾,涉及了图书、图书馆和文献等许多主题。在专著中他把书目计量学( bibliometric )看作是对图书和文献许多方面的测度。这个新学科通过对与图书馆有关的目标和事实,发展出了许多文献计量学规律。根据 Otlet 观点,书目计量学研究包括单一对象还有对象的集合(这样适合利用统计学的方法)。关键特征间的联系一定会导致计量指标的出现。而且科学计量对象也一定会成为研究的内容。 Otlet 还提到一个例子是测度为什么一本书和一个作者的成果会被经常阅读和关注。数学在这个领域有了它的用武之地。 Otlet 发现所有的科学领域都在越来越多地利用数学的方法(物理学、化学、生物学、社会学、经济学),但比较遗憾的是在图书馆学领域比较缺乏数学的运用。非常明显,他的观点和 35 年之后 Pritchard 的观点非常相似。 Tague-Sutcliffe 、 Ingwersen 、 Bjorneborn 等人认为信息计量学( informetrics )研究的内容不仅仅是记录和书目,而是任何形式的信息;研究各种社会群体,不仅仅是科学家。它包括了书目计量学、信息计量学和网络计量学( webometrics )这些领域。信息计量学这个概念是由 Nacke 首提出的。 Ingwerson Bjorneborn 认为书目计量学是对可记录信息的生产、传播干什么进行定量研究的学科。科学计量对科学或经济活动进行研究的科学,它还包括是科研评价的研究。 2 信息计量学领域研究主题的概述 如何来准确地研究信息计量学领域有研究主题呢?一种比较经典的方法是利用信息计量学定律。尽管这些定律是对许多现象描述的基础上,而且一些问题还不能完全被认同,如描述文献信息作者分布的洛特卡定律和揭示文献词频分布的齐普夫定律等。 Leo Egghe 已经出版了一本全面描述信息分布规律的专著。其它形式的数学模型虽然没有象它们那样广泛使用,但可能在揭示一些现象时比这些定律更能够引用关注。有关文献提到的 Weibull 、 the generalized Waring distribution 等许多成果。 引文分析在信息计量学和科学计量学研究的应用研究中是非常重要的研究方法。在有关文献中基于出版和引用考虑设计的 h 指数逐渐被认同和被广泛应用。计量指标在世界大学排名等研究中扮演着非常重要的角色,如上海的世界大学科研能力排序和网络计量排序。 我们现在生活磊一个网络世界,信息计量在向网络计量方面发展。 web 是一个非常巨大和无所不在的网络,网络技术的应用不断上升是一件很正常的事。当然,我们不能忽略科学家、期刊、国家等形成的网络。在全球化、网络化的过程中,各种形式的网络、科研合作和分布变得越来越重要。这些巨大的网络需要专门的可视化工具,可视化已经成为信息计量学一个重要的研究分支。 管理者和管理科学领域的研究人员不仅利用信息计量数据进行研究绩效的评价,而且还利用越来越多的技术应用在创新研究过程当中。 无论是学术期刊论文,还是会议论文或者图书、学术专著等出版物都包含了大量的科学知识。通过对书目或全文数据的分析可以让我们了解到知识和来源和随着时间发展的过程。数学模型成为分析这些数据的重要工具。如何应用适当还能够帮助我们对知识的发展进行预测。 3informatics 的未来 在这个部分我们来描述一下这个学科的未来和提出自己的一些看法。除了信息的可视化展示外,我们认为网络计量学作为信息计量学的一个分支将会有非常迅速的发展。在研究过程中使用 Scopus 或者区域数据库的研究将会持续增长,而使用 Wos 会不断减少。我们也可以预见会有更多的理论文章(如 Woeginger 和 Marchand 利用公理方法的成果)。 数据挖掘和新趋势的预测现在主要是由计算机学者和信息计量学以外的信息科学家来研究的,他们将会融入到信息计量学研究领域。 中国学者将会扮演越来越重要的角色,而且中国可能会成为这个领域的引领者。美国的信息计量学研究只是在少数分支处于引领位置,而在整体上要落后于欧洲。如果有一两种中国期刊(信息计量学领域)被 Wos 收录,中国在这个领域的排序会有一个较大的提升。 Table 1   Number of publications about informetrics, bibliometrics, scientometrics, webometrics in the Web of Science, period 2000-2009 ( top 10 countries) 我个人对那些揭示基本结构和不同角色的信息计量研究成果比较感兴趣。例如输出引用矩阵和复合框架。许多输出引用矩阵能够用来计算影响因子和 h 指数,让我们可以揭示某些学科领域内两者之间的关系。 ( Personally, I am very interested in articles that reveal basic structures and their role in informetric research. Examples of such structures are the publication-citation matrix and the conglomerate framework. It was the understanding that any publication-citation matrix that can be used for the calculation of general impact factors can also be used for the calculation of an h-index, that led us to an article revealing the relation between the two most important indicators in the field, namely the impact factor and the h-index. ) 4 结论   信息计量学是信息科学非常重要的研究领域。而且它是科研评价、趋势预测和创新研究等应用研究的基础。
个人分类: 信息检索|4176 次阅读|0 个评论
全球科技论文计量分析结果(1996 - 2007)
xupeiyang 2009-8-17 11:03
在线分析平台: http://www.scimagojr.com/countryrank.php?area=0category=0region=allyear=allorder=itmin=0min_type=it 数据来源: Scopus 数据 http://www.scopus.com/home.url 你可以在此平台上进行详细分析 前20名国家与地区 Country Publications Citable Publications Citations Self-Citations Citations per Publication H index 1 United States 4.219.708 4.003.719 63.717.842 30.614.841 15,37 959 2 United Kingdom 1.211.857 1.119.242 14.986.515 3.809.684 13,16 578 3 Japan 1.194.978 1.171.255 10.515.255 3.392.415 8,98 453 4 China 1.153.243 1.143.904 3.113.342 1.572.037 4,00 215 5 Germany 1.108.416 1.067.500 12.591.258 3.495.937 11,94 506 6 France 803.442 773.600 8.724.606 2.129.269 11,43 465 7 Canada 611.394 585.276 7.270.148 1.513.744 13,19 450 8 Italy 592.897 565.375 5.903.714 1.451.348 10,91 405 9 Spain 435.562 412.161 3.740.124 1.008.645 9,77 312 10 Russian Federation 396.307 393.613 1.549.942 497.674 3,88 222 11 Australia 388.814 367.661 4.063.249 912.051 11,91 341 12 India 379.492 363.142 1.653.066 584.659 5,01 187 13 Netherlands 338.859 323.892 4.651.736 847.670 14,98 392 14 Korea, Republic Of 306.376 301.487 1.728.217 426.142 7,16 204 15 Sweden 245.087 236.825 3.348.512 612.500 14,39 350 16 Switzerland 241.820 231.884 3.640.352 547.662 16,56 392 17 Brazil 227.420 221.341 1.270.308 407.290 6,98 196 18 Taiwan, Province of China 226.074 221.120 1.268.189 333.866 6,89 173 19 Poland 203.283 199.927 1.073.202 318.433 5,86 193 20 Belgium 183.154 175.862 2.129.360 350.842 12,78 298
个人分类: 信息分析|2132 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-24 01:16

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部