科学网 › 标签 › h指数批量统计法

标签: h指数批量统计法

相关帖子	版块	作者	回复/查看	最后发表

没有相关内容

相关日志

利用CSSCI研究h指数的方法及相关问题: 热度 4 周春雷 2010-9-4 11:15; 发文信息【周春雷.利用CSSCI研究h指数的方法及相关问题 .图书情报工作,2010(16):40-43.】作者信息【周春雷郑州大学信息管理系，郑州450001】针对 CSSCI仅提供分年度引文数据、不能直接用于h指数研究的不足，介绍了一种能实现跨年度引文信息合并的h指数统计方法来克服这一缺陷。最后指出利用CSSCI数据进行h指数研究值得关注的一些问题。 1 引言众所周知，学术成就评价标准一直是学术界争论不休的话题。美国学者Hirsch(2005)教授提出的h指数介绍了利用引文信息的新方法，能同时考察作者生产力和文章质量，提供了不同于发文量、总被引、期刊影响因子等传统文献计量指标的新视角，在国际上产生了深刻的影响。但很少有引文数据库直接支持精确的 h指数统计，南京大学研制的 CSSCI也不例外。研究者需要对获得的引文数据进行二次处理才能得到相应的h指数，这给相关研究带来了很多不便。为此，本文以CSSCI为例介绍一套适合程序处理的h指数统计方法，并讨论了h指数研究值得关注的一些问题。 2 利用CSSCI数据研究h指数的方法 2.1 引文数据获取途径 CSSCI引文数据的获取可以通过两种途径：来源文献和被引文献。通过来源文献途径将CSSCI的各来源期刊参考文献汇集起来，然后再施以特定作者视角抽取，即可得到该作者的被引信息，最终得到作者h指数。但是，这种方法实践难度很大且具有明显的知识产权风险，因此本文仅介绍被引文献途径的利用方法。被引检索结果的利用有两种办法：（1）复制浏览器分屏显示的检索结果并用自编程序处理。（2）勾选网页下方的选择所有选择框，点击下载按钮，将得到一个文本文件，其内容比浏览器呈现的结果更丰富。同理，需要将分屏得到的各文本文件合并，以得到全部被引信息。由于后一种方法涉及对引文数据库的多次查询，数据搜集速度明显慢于前一种方法，故本文主要基于前一种搜集方法进行介绍。 2.2 CSSCI 引文数据处理众所周知，计算h指数的关键在于同一作者的同一篇文献在全部统计年度内被引次数的合并问题，但 CSSCI并未很好地解决引文数据合并问题和作者同名问题。这些问题的存在，对统计作者真实h指数影响较大。这些问题的成因是多方面的，有的并非h指数研究者所能改变，需要多方努力才能解决。因此，本文重点关注引文数据合并问题。观察来自 CSSCI的数据可以发现，作者、被引文献篇名、被引期刊、被引次数等信息被相同的分割符号隔开，如果使用程序将这些信息分离并将同一作者的同一被引文献的数据合并在一起，再按照总被引次数降序排列即可获得该作者的h指数。（ 1）将CSSCI数据整理为EXCEL格式以下代码的功能是将 CSSCI数据整理为EXCEL格式，同时给每条被引数据附加年度信息。listbox3的内容是从CSSCI获取的数据，ss用来存储年度信息。最后一句代码通过替换分割符实现CSSCI数据到EXCEL格式的转换。 for i:=0 to listbox3.Items.Count-1 do begin iflength(listbox3.Items )5 then continue; if (pos(' 以下是： ',listbox3.Items )0) then ss:=copy(listbox3.Items ,9,4); if (pos(' 以下是： ',listbox3.Items )0) or (listbox3.Items ='') or(pos('序号被引作者被引文献篇名 ',listbox3.Items )0)then j:=1 else memo1.Lines.Add(ss+#9+listbox3.Items ); end; memo1.text:=stringreplace(memo1.Text,' ',#9, ); （ 2）规范篇名数据引文数据不规范问题虽非 h指数研究者所能完全解决，但我们可以通过篇名数据规范化消除一些明显的人为失误，如英文单词大小写不统一、引号、破折号不统一等。 2.3 h 指数统计过程（ 1）提取篇名和被引数据通过对每条被引数据实施列转行，提取出篇名和被引数据，代码从略。（ 2）累加同一文献的被引数据根据篇名聚类就是根据篇名列排序，累加同一文献被引数据，代码从略。（ 3）提取h指数将某作者的全部论文按被引次数降序排列，然后利用笔者在文献中介绍的提取h指数算法即可得到相应的h指数。利用本文介绍的这种方法，笔者实现了汇总某领域全部期刊被引信息并统计成千上万作者h指数信息的h指数批量统计法(LHEA) 。 3研究h指数时值得关注的问题值得注意的是，h指数是与引文数据库高度相关的。国外学者Bar-Ilan 基于WOS、Scopus和Google Scholar等不同引文数据库测量同一作者h指数的实证研究也表明h指数会因引文数据库而异。以国内引文数据库为例，由于收录文献类型、时间段、合作成果被引分配等差异，基于CNKI的h指数要普遍高于CSSCI。除了前文所述的引文数据年度分段问题和引文数据不规范问题外，还有以下问题会影响h指数的大小，因此值得研究者给予特别关注。（1）时间问题 h指数本为评价作者终身学术成就之用，从理论上说需要完整收集作者所发文章的被引数据。但是，计算h指数一般都要依托某个引文数据库进行，而引文数据库都有一定的引文回溯时间段，对超出引文数据库覆盖范围的作者来说，其h指数可能会受到时间段长度的影响。换言之，按作者终身被引数据和某个时间段内的被引数据所计算出的h指数是有很大差别的。值得注意的是，CSSCI中仅有1998年后的数据，因此对1998年以前即开始学术生涯的作者来说，其h指数可能在某种程度上被低估了。 h指数的时间问题一直是学术界关注的重要内容。为了解决h指数与科学家学术生涯的关联问题，Hirsch(2005) 根据科学家从事学术生涯的年份对h指数进行划分，提出了线性增长模型。梁立明(2006) 提出了h序列和h矩阵的概念试图使原本处于不同科研阶段的科学家变得可以相互比较。金碧辉(2007) 考虑了论文发表年龄，提出了AR指数。Burrell(2007) 则提出利用h速率评价科研人员的学术成绩。相信这些概念和指标对我们理解时间因素在h指数评价中的重要性会有很多启发。（2）收录范围问题截至2008年，CSSCI的来源刊物仅限于国内19个学科分类528种社会科学方面的中文期刊，其1998－2007年的来源文献累积起来近80万篇，引文记录500余万条。与国外成熟引文数据库来源期刊数以千计的规模相比小了许多。虽然规模较小，但CSSCI还是有自己的特色，其文献类型的丰富性值得肯定。与WoS数据库仅收录期刊类型被引信息不同，CSSCI在收录文献类型方面要广泛得多，它不仅收录来源文献记录的期刊被引信息，而且收录书籍、网络文献等的被引信息。引文数据库的规模和收录文献类型的广泛程度对h指数的影响较大。在h指数实证研究中，该问题对不同学科的影响存在很大差异。如果只考虑期刊论文的被引情况，一些文科类学者的h指数会偏低，因为很多本应进入作者h核的非期刊类型的文献被忽略了。以历史学为例，除期刊论文外，专著也是该学科的重要学术交流方式。因此，我们在h指数分学科实证研究中应注意类似问题。（3）作者唯一标识问题 Rousseau(2008)将因作者名称问题引起的h指数统计误差称为h指数精度问题。该问题在各引文数据库中普遍存在，一些大的引文数据库采取了各种措施试图解决它。但到目前为止，尚无完美解决方案，精度问题依然是制约h指数研究的瓶颈。作者重名问题是导致h指数精度问题的重要原因，引文统计平台需要解决作者重名问题，否则可能导致作者h指数虚增。笔者认为，作者h指数之所以被夸大，很重要的一个原因在于来自不同领域的同名者的被引信息混杂在一起，我们可以通过将被引文献限制在领域专业期刊等方法利用学者研究领域的差异来区分同名作者。基于这种思路，笔者提出了h指数批量统计法，但该方法对解决h指数精度问题也有一定的局限性：如果同名作者的研究领域相近或处于同一领域就很难区分了。很多研究者认为对作者进行唯一性标识是解决h指数精度问题的根本办法，这就需要引文数据库采取特殊的方法为每个作者赋予独特的标识。笔者认为，作者唯一标识问题看似简单，实则牵涉很多因素，对学术评价也会有很大影响，因此将是一项影响深远的系统工程。它不仅应引起CSSCI等国内引文数据库的重视，而且值得学术界展开深入的研究。（4）合作者成果分配问题合作学术成果的学术荣誉分配问题历来是学术界关注的话题，早在1973年，科尔兄弟就提出荣誉全归第一作者的建议。此后有学者建议将被引荣誉重复赋予每个作者，还有学者建议按不同的权重赋予不同的作者，使每个人或公平或有差别地分得某种分数形式的荣誉。h指数评价方式的兴起为这一传统话题的讨论增加了新的内容，为降低多作者因素对 h指数有效性的影响，学者们根据各种分配思路提出了不同的改进型h指数指标，如 Batista等 (2006) 提出了 h I 指数；Wan,JK、Hua PH和Rousseau R (2007)提出Hp指数；Schreiber(2008)提出hm指数；周春雷(2009)提出按合作者人数均分被引次数的h-a指数。 CSSCI的引文数据是按第一作者来分配的，但合作在科研论文生产中非常普遍的，如果合作文章的被引数据全归于第一作者，对其它作者是否公平呢？有的数据库，如CNKI，将引文数据重复分配给每个合作者，但这样是否又夸大了每个作者的贡献呢？面对不同引文数据库的不同处理方式和多种合作成果分配建议，我们该何去何从呢？（5）自引问题自引是非常普遍的引文现象，其中既有保障正常学术研究得以延续等客观需要，也有非学术性引用。自引可能会增大作者、期刊的h指数，引用有高度针对性的h指数精确注水式自引更是如此。方舟子(2006)认为大量自引可以显著改变h指数，他举了一个典型例子，如果排除自引，被新语丝多次曝光的国内某教授的h指数会由14变为6。Schreiber(2007) 也研究了h指数与自引之间的关系。 CSSCI具有排除自引功能，这在一定程度上方便了研究者。但由于CSSCI仅记录了第一作者的被引信息，如果我们想研究更严格的排除自引，如排除第二作者、第三作者甚至全部作者的引用，CSSCI就难以胜任了。（6）计量单位问题作者被引文献的数量制约着h指数的增长上限，同时单篇文献的被引次数又决定了h指数的下限，因此，作者所发表文献的计量单位就成为很重要的问题。这个涉及到成果通过多种途径重复发表和拆分发表问题。重复发表有两种情况，其一是文章在期刊上发表后被文摘刊物转载或在网络上出现，施引者可能通过原始期刊、文摘刊物、网站等不同途径接触被引文献，因此其著录的参考文献中尽管篇名相同但来源却有所不同；其二是作者主动或被动地导致了同一文献在不同期刊上重复发表。这些来源不同的文献是作为同一篇文献来累计被引还是作为不同文献分别计算被引呢？拆分发表是指源于同一著作的内容被分拆以连载或稍加变化的形式发表在期刊上的情况。这些被拆分发表的文献，在计算的时候是作为不同的文献呢还是作为相同的文献？远高于h指数的单篇文献的被引数据也只作为一个h指数计量单位是否会让作者有不公平的感觉？这些问题值得h指数研究者认真思考。对于某些著作很少，但总被引很高的作者来说，如果将超高被引的文献拆分为多个文献来计量，其h指数将有明显变化。以仅留下一部经典著作《道德经》的作者老子为例，笔者2008年3月11日检索时其总被引次数为1198次，如果将《道德经》整体作为一个计量单元的话，老子的h指数显然只能是1。但是，CSSCI中也有很多明确标注引用该书某一章节的引文，如果以章节为计量单位，老子的h指数显然可以有很大提升。换言之，文献如被拆分发表虽会导致单篇文献的被引数降低却能增加可计量数量，从而可能导致h指数的增长。反之，即使连载或拆分文献的单独被引数都远低于作者的h指数，但合并起来却可能对h指数的增长作出贡献。因此，作者h指数的这种变化完全取决于研究者对计量单位的界定。对于这种计量单位问题,h指数并没有给出明确规定。笔者认为，h指数计量单位问题也取决于作者自己的学术道路规划。合并发表虽然减少了总发文数，却凝聚了单篇被引数，从而为该作者h指数的上涨开辟了广阔的空间，使其不至于因缺少一两个被引卡在低层h指数上；相反，香肠论文式的拆分发表，虽能在短期内迅速拉长作者的被引文献列表，对低层h指数的增长有明显的作用，但由于分散了单篇文献的被引次数，使其难以随着作者学术影响力的提升进入高层h指数的h核内。h指数的这一特点也许可以引导广大有实力的作者树立远大学术抱负，努力增加单篇文献的价值含量，而不去走为追求发文数量而拆分发表的捷径。 4 结语综上所述，本文提出了一种利用CSSCI引文数据统计h指数的方法，并给出了关键代码，继而讨论了利用CSSCI数据研究h指数时应关注的一些问题，如时间、收录范围、作者唯一标识、合作者成果分配、自引、计量单位等问题。这些问题具有一定的普遍性，不仅与特定数据库有关，而且与h指数方法本身有关。希望本文的探讨能引起学界对相关问题的关注，为h指数的发展和完善做出积极贡献。参考文献： Hirsch J. An index to quantify an individual's scientific research output. Proceedings of the National Academy of Sciences of the United States of America,2005,102(46):16569-16572. 邱均平,周春雷.发文量和h指数结合的高影响力作者评选方法研究.图书馆论坛,2008(6):44-49. 周春雷.h指数批量统计法及其应用研究.情报学报,2010(1):100-107. Bar-Ilan J. Which h-indices? A comparison of WoS, Scopus and Google Scholar.Scientometrics,2008,74(2):257-271. Liang L. h-index sequence and h-index matrix:Constructions and applications.Scientometrics,2006,69(1):153159. Burrell Q.Hirsch index or Hirsch rate?Some thoughts arising from Liang's data.Scientometrics,2007,73(1):19-28. 金碧辉,Rousseau R. R指数、AR指数:h指数功能扩展的补充指标.科学观察,2007(3):1-8. 中文社会科学引文索引（CSSCI）简介. .http://202.119.47.137/introduce.htm. Rousseau R. Reflections on recent developments of the h-index and h-type indices.COLLNET Journal of Scientometrics and Information Management,2008,2(1):1-8. 周春雷.基于h指数的核心作者遴选方法的比较研究.中国科技资源导刊,2009(1):46-51. Batista PD, Campiteli MG, Kinouchi O, et al.. Is it possible to compare researchers with different scientific interests?.Scientometrics,2006,68(1):179-189. Wan JK, Hua PH, Rousseau R. The pure h-index : calculating an author s h-index by taking co-authors into account. COLLNET Journal of Scientometrics and Information Management, 2007,1(2):1-5. Schreiber M. To share the fame in a fair way, hm modifies h for multi-authored manuscripts.New Journal of Physics, 2008(10):040201. 周春雷.h指数合作式注水缺陷与对策.图书情报知识,2009(3):109-112. 周春雷.h指数的潜在缺陷h指数精确注水问题研究.图书情报工作,2008(8):112-114. 方舟子.h指数：一种新的学术评价方法.同舟共进,2006(5):9-10.; 个人分类: h指数|11391 次阅读|14 个评论

h指数批量统计法用于地理科学学科之尝试: 周春雷 2009-5-14 22:45; 国际地理科学学科高影响力作者名单（由周春雷赵星联合测试）研究目的：验证h指数批量统计法效果方法：h指数批量统计法，第一作者h指数样本：WOS地理科学学科31种期刊 ----------------------- 博主注：没想到竟被编辑老师推荐上了首页，谢谢！既然得到大家的认真对待，我就把这个事情当作一个严肃的研究认真进行了。为此，先做一点补充：h指数批量统计法是由本人提出的，它的思路是汇总某领域全部期刊的引文信息，通过自编程序一次性提取出全部作者的h指数。笔者此前已经用国内图情界数据与传统h指数统计方法进行了对比测试，感觉精度尚可接受。曾用该方法得到了国际图情界高影响力作者名单，如果笔者的理解无误的话，某国外专家对该名单是认可的。考虑到科学网上有众多基础学科的行家，笔者尝试用该方法测试一些基础学科，得出h指数视角下的高影响力国际专家名单，供大家赏析、评判，这一方面可以帮笔者检验该方法的实用性，另一方面也可以从计量角度为大家了解学科概貌提供一定的参考。该方法应用的核心在于领域专业期刊的选取，我们从JCR中取的GEOGRAPHY, PHYSICAL类目下的31种期刊，希望能用于测度地理科学学科，但从魏东平老师的反馈意见看，似乎ISI的学科分类并不精确，我们并没有使用到合适的期刊，因此统计的结果可能达不到预期的目的。不知各位老师在选取样本上有什么好的提议？（ps经贺天伟老师提醒，我发现我犯了个大错误！我选择的是邻近的地理科学学科！ISI的分类没有问题。：（所以赶紧纠正所统计学科的名称，希望没有人被误导。特此声明） ----------------------------- 1ANTARCT SCI 2ARCT ANTARCT ALP RES 3ARCTIC 4BOREAS 5EARTH SURF PROC LAND 6GEODIN ACTA 7GEOGR ANN A 8GEOINFORMATICA 9GEOMORPHOLOGY 10GLOBAL ECOL BIOGEOGR 11GLOBAL PLANET CHANGE 12HOLOCENE 13INT J GEOGR INF SCI 14ISPRS J PHOTOGRAMM 15J BIOGEOGR 16J COASTAL RES 17J GLACIOL 18LANDSCAPE ECOL 19LANDSCAPE URBAN PLAN 20MT RES DEV 21PALAEOGEOGR PALAEOCL 22PERMAFROST PERIGLAC 23PHOTOGRAMM ENG REM S 24PHOTOGRAMM REC 25PHYS GEOGR 26POLAR RES 27PROG PHYS GEOG 28QUATERN INT 29QUATERNARY RES 30QUATERNARY SCI REV 31Z GEOMORPHOL 敬请行家判断外行用纯计量手段得出的高影响力作者是否名副其实!欢迎拍砖!:-) －－－－－－－－－－－作者h指数 matthews, ja16 hall, k13 kullman, l13 mccarroll, d13 andrews, jt12 bjorck, s12 mangerud, j12 muhs, dr12 phillips, jd12 simon, a12 ballantyne, ck11 bennike, o11 lomolino, mv11 magny, m11 benn, di10 harris, c10 harvey, am10 lancaster, n10 lane, sn10 luoto, m10 nesje, a10 shaw, j10 siegert, mj10 vandenberghe, j10 abrahams, ad9 antrop, m9 behling, h9 carling, pa9 carrion, js9 forman, sl9 fraser, cs9 glasser, nf9 gomez, b9 innes, jl9 knighton, ad9 kruger, j9 murton, jb9 seppa, h9 stirling, i9 briggs, jc8 bryan, rb8 bush, mb8 dong, zb8 dyke, as8 evans, dja8 foody, gm8 goossens, d8 goudie, as8 hart, jk8 holmlund, p8 imeson, ac8 ingolfsson, o8 jim, cy8 lambeck, k8 lowe, jj8 ruddiman, wf8 tinner, w8 trenhaile, as8 twidale, cr8 tzedakis, pc8 wilson, p8 xu, jx8 allen, jrl7 anderson, rs7 andreev, aa7 araujo, mb7 bennett, mr7 benson, l7 boulton, gs7 brown, dg7 bullard, je7 charman, dj7 clarke, ml7 darmody, rg7 denton, gh7 dodson, jr7 ferguson, ri7 foster, dr7 foster, idl7 frechen, m7 french, hm7 gaston, kj7 haberle, sg7 haeberli, w7 hald, m7 harris, sa7 hassan, ma7 hooke, jm7 humlum, o7 karlen, w7 kleman, j7 larsen, e7 li, x7 luckman, bh7 lundqvist, j7 matsuoka, n7 mcglone, ms7 morner, na7 owen, la7 parsons, aj7 peltier, wr7 piotrowski, ja7 preusser, f7 pye, k7 renssen, h7 roberts, d7 rousseau, dd7 sejrup, hp7 seppala, m7 shulmeister, j7 smith, bj7 srivastava, p7 stokes, s7 syvitski, jpm7 tipping, r7 walling, de7 wastegard, s7 wohl, ee7 yair, a7; 个人分类: h指数|10793 次阅读|12 个评论

更多...

帐号		自动登录	找回密码
密码			注册

关闭 安全验证

标签: h指数批量统计法

相关帖子

相关日志

关闭安全验证