科学网

 找回密码
  注册

tag 标签: 实证研究

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

也谈图书情报学的实证研究
热度 1 histly 2012-10-15 04:21
前一段时间逆流而上,在书社会上转帖了一篇付雅慧老师的《图书馆学的实证与非实证:从对立走向互补》。转帖的本意,并不是想对现在图书馆学的实证大流进行批判,仅仅是想发出一种不同的声音,提醒大家实证不是唯一的研究范式。我想这也是付老师写作此文的初衷。 记得前一段时间看程星老师的《细读美国的大学》,书中说:即便是在 911 之后,美国许多大学的知识分子仍然敢冒天下之大不韪,不断反思、批判国家对穆斯林的政策失误是导致极端行为的一大原因。不同的声音,对一个民主社会保持健康开放的社会姿态是不可或缺的;同样,不同的声音和研究范式,对一个学科的发展和壮大同样也是不可或缺的。 和大家一样,鄙人对图书馆学的实证研究的最初了解也是来自于徐建华老师。记得我还在南京大学读硕的时候,徐老师到南大给大家做一个图书馆员工作幸福指数的报告。报告中,徐老师指出,图书馆人要想成为大家,有三条基本的路线可以选择:一是紧跟国外进展,做国外热门研究主题的译介和本土化;二是学科移植,从其他学科移植完整的理论体系来解释图书馆学的研究问题;三是技术应用,将 ICT 技术应用到图书馆业务中去。当时听到这番精辟的且具有远见卓识的论断,给我留下的思想冲击是终生难忘、受益无穷的。我之后的研究路线,也基本上是采用了徐老师提出的第二条路线的。 经过数十年的发展,图书馆学发展到现在已经形成自己的一定风格,以及相对稳定的研究领域和各自的方法路径。但是,如果说哪种范式还需要大力推崇、深入发展,无疑是实证研究,尤其是具有一定理论深度的实证研究。这一点,也是徐老师这近十年间来一直摇旗呐喊、竭力推行的。从目前的学界现状看,徐老师可以略感欣慰了。 有人会问,你小子不是一向喜欢唱反调嘛,自谓“非主流”,为什么这次却在这里鼓吹实证呢?我的答案是:只有实证研究,才是一种能够有效地和其他学科争取平等的学术地位、同时又不容易丧失学科自我特色的研究范式。 王子舟老师在《建国六十年来中国的图书馆学研究》一文中明确指出“图书馆学专业期刊中充斥着经验总结文章,这给其他学科研究者诟病图书馆学提供了口实”。虽然图书馆学作为一门应用性学科,具有很强的经验性质;但是,作为学术研究、作为一个独立的学科来说,我们学科的知识表达方式不能一直停留在经验总结层面上。人活一张脸、树活一张皮,当其他学科搞学术的人鄙视(或者轻视)我们学科只会写工作经验总结的时候,每一个图书馆人都应该为这个学科和行业做点什么吧。我们必须通过自己的行动,来改变别人对我们学科的看法。 从目前来看,图书馆学中已经形成了一个比较稳定的以文史研究范式的圈子,而且这个圈子在非技术流的图情学中比较具有影响力。这个圈子对图书馆学来说,极为重要,它关系到我们的“学科记忆”。但是,由于图书馆学的文史研究的对象比较脱离社会的经济、政治议题,同时也并非那种极易引起大众兴趣的生活议题,因此很难引起学科圈子以外人的兴趣和注意力,也就是说很难承担植根在中国人心灵深入的历史研究的社会功能——“以史为鉴”。 再来看看这些年来在图情圈子内风头强劲的情报学(技术与数据驱动的图书馆学——个人陋见)。由于本人并非情报学科班出身,所以不便于做太多的点评。但是,圈子内的人都经常听到有些人说“《情报学报》的文章越来越看不懂了、可读性比较差”之类的评论吧,而且此类评论也时常出自科班出身的情报学人之口。在技术驱动时,我们是否会容易丧失自我,是一个值得讨论、也非常难以把握的问题。 从目前的情形来看,实证是图情界争取学科地位、获得学术界普遍认可的一种最为有效的研究方式。尽管西方的社科界早在上世纪六七十年代就开展对实证研究的反思(参见《社会学的想象力》),但是,实证依旧是西方社科界主流的话语模式(尤其是美国)。通过在图情学推广实证研究,无疑是一种和西方接轨、从而间接获取其他学科对图情学学术承认的一种非常有效的方式。(至于为什会这样,你懂得。)实证绝对不仅仅是量化,而是建立在一定理论基础上的量化。因此,推广实证研究,可以避免传统的图书馆学研究被其他学科人指责“缺乏知识深度”,同时在一定程度上也可以发挥图书馆学研究依赖经验的传统,因为量化研究与经验之间有着天然的内在联系。 注:在本文中,图书情报学 = 图书馆学,两者是完全对等的感念。虽然我国情分家的比较明显,情报学具有技术优势和大数据处理优势,但是也请不要五十步笑百步了,大家属于“豆子”。 以上只是鄙人的陋见,极不成熟,可能过于极端、多有偏颇之处。欢迎各位图林学友的批评指正。
个人分类: Perspectives|2078 次阅读|4 个评论
图书馆学实证研究会议在南开召开
热度 2 wangfangnk 2011-11-20 19:25
由南开大学信息资源管理系徐建华教授发起组织的“图书馆学实证研究会议”圆满落下帷幕,整整2天的会议加上机操作实习,信息量极大,效果远远超出我的预料,此次会议也是“南开实证学派”为推动中国图书馆学实证研究的规范化而做的有意义的工作。 此次会议由徐建华教授带领其“图书馆员刻板印象”课题组组织召集,得到了南开大学研究生院的资助,课题组成员包括来自心理系的教授和博士。来自南开大学、北京大学、河北大学、天津工业大学、天津财经大学的博士、硕士研究生、教师及图书馆工作人员,以及中国图书馆学报、国家图书馆学刊、图书情报工作等刊物的编辑们会聚一堂,共同学习、研讨图书馆学的实证研究方法。南开大学商学院副院长刘志远教授出席开幕式并致辞,勉励研究生们认真学习主流研究方法,争取与国际培养目标接轨。徐建华教授、陈浩副教授、徐晟博士以及于碧飏同学分别就图书馆学实证研究推广、调查研究设计、问卷设计与统计数据分析、图书馆员刻板印象研究过程等内容作了详尽而深入的报告。徐晟博士边讲解边上机操作演示,将问卷设计、数据审核、项目分析、因素分析、回归分析等内容介绍给大家,偌大的机房座无虚席,与会同学与老师踊跃提问,徐晟博士则游刃有余,风趣幽默地一一作答,相信学生们一定收获良多。 作为开设“信息管理研究方法”课程的老师,我本人更是深感此次会议的重要意义,也感受到跨学科课题团队的巨大活力。非常感谢徐老师课题组无私分享他们的研究心得,也希望这只是一个开始,希望中国图书馆学情报学的实证研究能不断走向成熟。期待这个会议能够持续地进行下去。
个人分类: 图书情报|5062 次阅读|4 个评论
图书馆学实证研究知识简明问答
热度 1 libseeker 2010-7-30 08:55
图谋按 :图书馆学实证研究的回归,存在诸多问题。突出表现是对若干基础概念一知半解。笔者试图围绕正确认识实证研究,以便图书馆学领域更好利用实证研究方法,参考若干参考资料,结合个人认识,试着编撰图书馆学实证研究知识简明问答。实证研究是有门槛的,不仅需要有良好的学术精神且受过较为系统的研究方法训练,还需要具备良好的研究条件(比如经费保障、团队协作等)。这几年有许多冠以实证研究的成果,其实很多是名不副实的,主要原因为力不从心。这几年也有一定数量的高水平实证研究成果,但关注度远远不够,被淹没或被埋没了。对于高水平的图书馆学实证研究成果,需要加以关注和宣传,促进研究成果的利用,更好地为图书馆学及图书馆事业贡献力量。图书馆学研究该怎么做?这是一个很宏大的问题。个人感悟是,加强科学研究方法的训练,积极拓宽科学视野,不断丰富自己,立足实际,审视过去,放眼未来,有所创造。至于他人怎么做,八仙过海,各显神通,百花齐放,关键在于尽可能地适合自己、持续进步。我期待图书馆学研究多一些过得硬成果,不仅能够自成体系自圆其说,且能够被同行广泛认可,具备一定影响力。囿于学识,仅供参考。不当之处,恳请教正。 1 什么是科学研究?什么是实证研究? 科学研究指采用科学方法探索自然界和人类社会的规律的活动。实证研究是以定量方法开展研究的科学研究方法,社会科学领域,指采用统计分析来验证理论建设的方法。 2 什么是实证主义? 实证主义(positivism)是强调感觉经验、排斥形而上学传统的西方哲学派别。又称实证哲学。它产生时间于19世纪30~40年代的法国和英国,由法国哲学家、社会学始祖A.孔德等提出。1830年开始陆续出版的孔德的6卷本《实证哲学教程》是实证主义形成的标志。以孔德为代表的实证主义称为老实证主义,20世纪盛极一时的逻辑实证主义称为新实证主义。 3 什么是实证方法? 实证方法(即定量方法)的基本模式是根据已有的理论提出假设,确定变量,收集数据,证实或否定假设,肯定或发展已有理论,这是一种从自然科学移植过来的研究模式。(见:于良芝.图书馆学导论._北京:科学出版社,2003.8:135) 4 什么是方法?什么是定性分析方法?什么是定量分析方法? 方法是关于认识世界和改造世界的目的方向、途径、策略手段、工具以及操作程序的选择系统。定性分析方法是对科学现象进行质的理论思辩的科学方法。所谓质是一事务区别与其他事务的内部规定性,定性分析主要功能是解释。主要方法有:历史研究、文献研究、观察研究、逻辑分析、内容分析、实地考察、个案研究等方法。定量分析方法是在理论思辩的基础上,对科学现象内外部进行量的分析和考察,寻找有决策意义结论的方法。定量分析的主要功能是实证,主要方法有:统计方法、试验方法、系统科学等方法。 5 什么是实证研究法?有何特点?步骤是什么? 实证研究法(Empirical Research;empirical study)是认识客观现象,向人们提供实在、有用、确定、精确的知识研究方法,其重点是研究现象本身是什么的问题。实证研究法试图超越或排斥价值判断,只揭示客观现象的内在构成因素及因素的普遍联系,归纳概括现象的本质及其运行规律。 实证研究法的特点:1.实证研究法的目的在于认识客观事实,研究现象自身的运动规律级内在逻辑。 2.实证研究法对研究的现象所得出的结论具有客观性,并根据经验和事实进行检验。 实证研究法的步骤:1.确定所要研究的对象,分析研究对象的构成因素、相互关系以及影响因素,搜集并分类相关的事实资料。 2.设定假设条件。在研究的过程中,研究对象的行为是有其特征所决定,试图把所有复杂因素都包括进去,显然是不现实也不可能的。为此,必须对某一理论所使用的条件进行设定。当然,假设的条件有一些是不现实的,但没有假设条件则无法进行科学研究。运用实证研究法研究问题,必须正确设定假设条件。3.提出理论假说。假说是对于现象进行客观研究所得出的暂时性结论,也就是未经过证明的结论。假说对研究对象现象的经验性概括和总结,但还不能说明它是否能成为具有普遍意义的理论。4.验证。在不同条件和不同时间对假说进行检验,用事实检验其正确与否。检验包括应用假说对现象的运动发展进行预测。 6 实证主义的基本特征是什么?有何影响? 实证主义的基本特征:将哲学的任务归结为现象研究,以现象论观点为出发点,拒绝通过理性把握感觉材料,认为通过对现象的归纳就可以得到科学定律。它把处理哲学与科学的关系作为其理论的中心问题,并力图将哲学溶解于科学之中。    实证主义的影响:实证主义不仅对哲学而且对整个社会科学均发生了深刻影响,孔德所创立的实证主义社会学,在其后的一个半世纪是西方社会学的主流。    7 实证主义是一种怎样的哲学思想? 广义而言,任何种类的哲学体系,只要囿于经验材料、拒绝排斥先验或形而上学的思辨,都为实证主义。狭义而言,实证主义则指法国哲学家孔德(Auguste Comte)的哲学。这条目内主要介绍狭义的实证主义。孔德生长的时代,正是一个宣扬理性主义及科学思想发端的时代,在科学万能思想的冲击下,人们对形而上学产生怀疑,逐渐以注重经验的科学方法观察、研究事物,探求事实的本原和变化的现象。   实证主义又称实证论,其中心论点是:事实必须是透过观察或感觉经验,去认识每个人身处的客观环境和外在事物。实证论者认为,虽然每个人接受的教育不同,但他们用来验证感觉经验的原则,并无太大差异。实证主义的目的,在希望建立知识的客观性。孔德认为人类非生而知道万事万物,必须经由学习过程,从不同的情境中获得知识。透过直接或间接的感觉、推知或体认经验,并且在学习过程中进一步推论还没有经验过的知识。超越经验或不是经验可以观察到的知识,不是真的知识。 孔德在其所写的《实证哲学》一书里,认为人类进化分成三阶段:一是神学阶段,盖人类对于自然界的力量和某些现象感到惧怕,因此就以信仰和膜拜来解释面对自然界的变化;二是玄学阶段,以形而上或普遍的本质阶段,解释一切现象;三是实证阶段,也就是科学的阶段,运用观察、分类,以及分类性的资料,探求事物彼此的关系,此法获得的结果,才是正确可信的。    实证主义反对神秘玄想,主张以科学方法建立经验性的知识。这种思想恰巧与柏拉图的理型论相反,柏拉图认为只有观念才是真实的,感官都是虚幻的。 8 实证研究方法包括那些更为具体的研究方法?  实证研究方法包括观察法、谈话法、测验法、个案法、实验法    (1)观察法:研究者直接观察他人的行为,并把观察结果按时间顺序系统地记录下来,这种研究方法就叫观察法。 (自然观察与实验室观察;参与观察与非参与观察) (2)谈话法:是研究者通过与对象面对面的交谈,在口头信息沟通的过程中了解对象心理状态的方法。   (分为有组织与无组织谈话两种。须注意:一是目标明确。二是讲究方式。三是注意利用居家优势。四是尽量做到言简意赅。)    (3)测验法:是指通过各种标准化的心理测量量表对被试者进行测验,以评定和了解被试者心理特点的方法。   (问卷测试,操作测验和投射测验)    (4)个案法:对某一个体、群体或组织在较长时间里连续进行调查、了解、收集全面的资料,从而研究其心理发展变化的全过程,这种方法称为个案法(个案研究)。    (5)实验法:研究者在严密控制的环境条件下有目的地给被试者一定的刺激以引发其某种心理反应,并加以研究的方法称为实验法。(实验室实验和现场实验两种) 9 芝加哥大学图书馆学院倡导实证研究的缘由是什么? 最初芝加哥大学图书馆学院倡导研究主要目标是反对图书馆职业队伍中实用主义和主观主义的学术传统,希望树立起以科学方法为支柱的科学研究之风。之后反思的结果是,研究方法科学性是指研究设计、研究程序适用性、规范性;研究证据的经验性、充分性、真实性;结论的可靠性、真实性和客观性等。开创性领域偏重定性方法;比较成熟领域偏重定量方法。定性方法也可以是科学的方法,更可取的是定性与定量相辅相成,在分析决策中,逻辑方法、德尔菲法、层次分析法等定性、半定量的方法使用非常广范。 10 什么是威廉姆森报告? 《图书与情报》2007年第6期卷首语开篇如下:威廉姆森报告功德无量,图书馆教育由此荣擢大学的殿堂,图书馆事业因此插上腾飞的翅膀。它是智慧和思想的杰作,它是学术和眼界的标杆。它是求真务实的结果,它是实证方法的成全。图书馆学术需要实证研究,图书馆事业需要威廉姆森报告。 19世纪末期,图书馆教育已经在很多国家起步。在美国,由于杜威等人的竭力推动,图书馆教育迅速发展。但是,1915年以后,图书馆学校在人才培养上的不足渐渐暴露。图书馆界批评图书馆学校的课程缺少统一规范和标准,教师及毕业生质量太差。在这种背景下,1918年,卡耐基财团委托威廉姆森(Charles.C.Williamson,1877-1965)对美国图书馆学教育的现状进行调查。威廉森是美国著名图书馆学家。在担任纽约市立参考图书馆馆长职务期间,将该馆建设成了对该市行政人员进行情报外借和参考文献服务方面的典范。他着手撰写了《市立参考图书馆札记》一书,赠送给市行政人员和政策制定者,提醒他们注意最新的、最有用的情报。这一做法被《ALA图书馆学情报学世界百科全书》(1986年版)认为是定题服务(SDI)的先驱。有意思的是,威廉姆森这样一位具有很好的应用研究背景的图书馆专家,却直接导致了一场空前的批评应用图书馆学的运动。威廉姆森从1919年开始经过3年的调查,在1921年向卡内基财团提出了研究报告,并在1923年公布了这份经过修改以后的报告。这就是著名的威廉姆森报告。报告一出版就如同一声霹雳使人震惊。人们才知道原来图书馆学的专业教育有着如此重大意义。威廉姆森报告批评当时的图书馆学校的作为职业技能培训的通行做法,认为作为大学层次的图书馆学教育必须是作为一门学问的专业教育。报告提出了许多建议: (1)招生对象应限于已完成四年学士课程的大学毕业生;此外,还应进行某些甄别测验,以证明学员的个性是否与图书馆事业相适应。 (2)所在学院必须设置在大学之内,成为各大学下属的一个系或专业学院。 (3)应充分利用各大学的学术资源以丰富和扩大图书馆学院学生的知识面和经验。 (4)应设置各种课程,为一年级学生讲授普通图书馆学原理的实践基础课。 (5)应编写教科书和其他教材。 (6)应对在这个领域里服务的图书馆员颁发证书。 (7)应对在这个领域里服务的图书馆员提供连续教育。 (8)应建立鉴定各图书馆学院的制度。 卡耐基财团接受了威廉森报告的主要观点,在1926年制定的《图书馆服务10年计划》中具体规定了图书馆学教育的资助计划。1928年,根据《威廉姆森报告》的建议设置的第一所图书馆学学院在芝加哥大学成立,与以往的图书馆学校不同,芝加哥大学图书馆学院以研究为主,只招收研究生。(参见:范并思、邱五芳、潘卫、郑晓乐编著.20世纪西方与中国的图书馆学基于德尔斐法的理论史纲._北京:北京图书馆出版社,2004.6:31-32;于良芝.图书馆学导论._北京:科学出版社,2003.8:134) 11 图书馆界对实证主义的批评代表性观点是什么? 20世纪70年代开始,在西方社会科学研究方法大论战中,图书馆专业人员也开始了对实证主义认识论传统的反思。实证主义的批评者(如美国学者德尔文、兹维基格)认为,实证主义在图书馆界根深蒂固的影响,使现代图书馆职业对知识和信息的认识、对知识和信息组织方法的设计、对知识和信息用户的态度都存在着很多偏差。在德尔文和兹维基格等学者看来,这些偏差主要体现在以下方面:第一,以实证主义认识论为基础的图书馆职业把知识视作对客观世界的如实的反映,忽略了认识过程的动态建构性和不完整性;第二,图书馆职业把自身视作客观、中立的职业团体不符合科学交流系统固有的、内在的权势性和倾向性;第三,图书馆职业把作品当成作者思想的忠实的记载,把图书馆职业对作品的二次描述当成作品内容的有效揭示,忽略了语言作为反映物的局限性;第四,图书馆职业把用户划分为具有共性的群体,并按群体的共性设计服务,忽略了用户及其所处环境的特殊性;第五,图书馆学研究者把自己视作可以独立于研究对象之外的研究主题,背离了研究主体的特征。在德尔文等学者看来,上述实证主义的影响极大地限制了图书馆功能的发挥,使现代图书馆在很大程度上成为与用户的实际需求无关的机构。(参见:于良芝.图书馆学导论._北京:科学出版社,2003.8:203) 12 图书馆学实证研究的回归背景是什么?需要注意什么? 我国相当多的图书馆学理论研究者都比较热衷于进行宏观的、抽象的理论研究,但除了少数一些研究者能较好地掌控理论,进行图书馆学发展规律的理论抽象外,大多数研究者却并不具备这种宏观把握的能力,加上没有科学而准确的数据做理论的支撑,所撰写的论文显得十分空泛,大多为感悟性的,说服力不强。为此,一些与会者在这次研讨会上多次提到实证研究方法在图书馆学研究中的重要作用,呼吁通过实证研究来反映图书馆及图书馆学发展的现状,并提出符合图书馆实际的方向性、指导性建议。他们指出,实证研究早在我国图书馆学发展初期就已经被广泛采用,沈祖荣先生曾用实证方法获取中国早期图书馆事业发展的第一手资料;杜定友先生曾用实证方法向中国传递西方图书馆学思想;刘国钧先生也一直是实证研究的实践者。但当前中国图书馆学理论研究重视思辨,忽略实证,使得学科现实基础过于薄弱,抽象理论的目标指向不够具体明晰。他们认为无论怎样,图书馆学研究重点都应该是着眼于解决图书馆实践中出现的一个个问题,而从我国图书馆学当前的研究力量看,解决这些问题的最好办法就是采用实证研究,因为只有实证研究才是迅速提高我国图书馆学研究科学性和可靠性的基础。(参见:刘兹恒、高丹.构建面向职业的图书馆学理论体系第五次全国图书馆学基础理论研讨会综述.中国图书馆学报,2008(3):78-81) 实证研究的难度较大,对研究者的要求较高,不仅要找到一个合适的样本或者选题值得进行大样本调查,同时在问卷设计、样本选择、信/效度检验、分析工具、分析深度、专业水准、合作沟通、体力意志、经费保障等方面都有较高要求。(参见:徐建华.引言:从实证角度研究当代图书馆员工的工作满意度.图书情报知识,2007(5):5-7) 规范性的实证研究永远是当今图书馆领域学术研究所不可缺少的。在当今图书馆学研究的一线学者中,在当今图书馆学的主流话语中,长久以来,一直是感悟性、思辨性议题占据了主导地位,这对一个学科的健康发展来说是非常不利的。规范性的实证研究、切切实实的数据调查,科学、可靠的分析研究比不可少的。 (参见:徐建华.用数据说话,让空谈走开.图书情报工作,2008(4):5) 参考文献 : 1 实证研究专辑.http://libseeker.bokee.com/viewdiary.41217470.html 2 实证主义.http://baike.baidu.com/view/51528.htm 3 实证研究.http://baike.baidu.com/view/588069.htm 4 实证研究法.http://baike.baidu.com/view/1580225.htm 5 实证研究方法.http://baike.baidu.com/view/624981.htm?fr=ala0_1_1 补充 : 本博文发布之后,有老师对若干概念提出批评。图谋将根据批评进行进一步的学习,陆续加以修正。 13 实证研究的标准英译是什么? 实证的英文一般用作positive,形容词。但中国人对此的理解是多方面的,实证研究一词对应的英文可谓五花八门,如positive study,empirical study,verification study,experimental approach,evidence-based study,或substantial evidence study,等。其中,positive study和empirical study最常用。这在某种程度上表明,中国学术界对实证研究的运用是混乱而随意的。大多数非哲学的人文研究者不太熟悉或不甚在意实证研究的哲学背景,而是比较随意地理解和运用。在学术日益国际化和规范化的时候,是有必要认真审理我们的语言使用情况和基本的哲学知识背景的。 如何统一如此之多的称呼呢?positive study看似是实证研究最恰当的翻译,但一个明显的事实是:empirical的使用频率远远大于positive的使用频率。如果根据约定俗成(即使用率)的原则,实证研究的标准英译似乎应取empirical study。但是,我们一般是将positive翻译为实证,并将positivism译为实证主义,而把empiricism译为经验主义,这样就有些混乱了。其实,就positive study和empirical study而言,它们只是表达的不同,而不是实质的不同。英文positive的第一个义项就是无可怀疑的,明确的,确定的。这主要是从性质而言,而非从事实而言。empirical的意思是以观察或实验为根据的(非理论的)。中国学术界使用实证研究时并不在意究竟是否为无可怀疑的,明确的,确定的,而是集中于事实的分析(anilysis of facts)。positive的第一义项在哲学意义上主要是为了解决认识论的问题,即如何保证认识的正确无误。但大多数实证研究只是着眼于如何通过事实的分析来说明问题。所以,无论是positive study,还是empirical study,都是以事实为根据的。在此意义上,它们是相通的。倾向以positive study为实证研究的标准名,也不排斥其他名称。 (参见:浅谈文学理论中的实证性研究.http://www.happycampus.cn/docs/983171795801@hc07/126283/)
个人分类: 学海泛舟|9183 次阅读|3 个评论
发展公平:社会相对剥夺感理论、模型与实证研究
fuyuncas 2010-5-19 14:56
社会相对剥夺感理论、模型与实证研究 改革开放以来,人们的物质生活得到了极大丰富,但是人们的生活满意度并没有随物质条件的改善而提高。 这主要是由于 社会比较后感觉自己处于弱势地位的个体或群体产生的相对剥夺感所致。 目前,我国正处在经济转型和社会转轨的历史阶段,收入差距的扩大致使一部分社会成员产生相对剥夺感,这种迅速膨胀的相对剥夺感不利于社会的和谐稳定。因此,从理论层面开展社会剥夺感的研究,寻求社会剥夺的产生原因,模拟仿真社会剥夺产生的微观机理,评估社会剥夺的宏观态势,这对于实现我国的社会和谐稳定与健康发展具有重要的理论和实践意义。为此, 本文重点讨论社会相对剥夺感的建模,对相对剥夺感的宏观态势和微观机理进行定量刻画,论文主要工作和创新如下: ( 1 )在社会相对剥夺理论的数理证明方面,证明了相对剥夺感函数的单调递减特征和凹函数特征,利用拉格朗日中值定理证明了增量剥夺感的递减规律,最后分析论证了相对剥夺感临界阈值的数理函数形式。 ( 2 )在社会相对剥夺感的调查分析方面,通过问卷调查和统计分析表明, 相对剥夺感与收入满意度之间存在显著相关关系,并且两者间的相关系数高于相对剥夺感与收入间的相关系数;年龄、实际收入和婚姻等变量对个体相对剥夺感有显著影响,并且这种影响在群间具有显著差异,而性别和学历变量对个体相对剥夺感的影响并不显著。 ( 3 )在社会群体多维相对剥夺感建模方面,给出了横向剥夺感与纵向剥夺感的数学定义,构建了社会群体多维相对剥夺感模型,并将该模型用于由 31 个地缘社会群体组成的三大群体的实证研究。结果表明, 参照群体的不同只会影响个体剥夺的大小,并不会影响个体剥夺的位序;东部省份的横向剥夺感相对较小,中西部省份的横向剥夺感相对较大 , 相反中西部省份的纵向剥夺感相对较小,而东部省份的纵向剥夺感相对较大 ,并且 总剥夺感在空间上呈现出自东向西梯度递增的趋势 ; 根据设定的阈值区间,重点分析了三大群体不同年份以及不同个体所属的阈值区间,分析结果表明甘肃、西藏和贵州的警级已经非常高,需要引起重视 。 ( 4 )在社会相对剥夺感动态演化建模方面,利用元胞自动机的思想和建模方法,构建了社会相对剥夺感的动态演化模型。结果表明, 个体容忍度的提高可以有效降低被剥夺个体的比例 , 收入增速的变化能起到影响剥夺感的即时效果 , 低保政策在某种程度上降低了社会系统中的绝对剥夺感而对降低相对剥夺感所起作用甚微 , 心理疏导机制的建立和完善能够有效降低遭受相对剥夺感的个体比例和整个社会的平均剥夺感。另外,模拟结果也显示个税政策能够实现相对剥夺感的迅速降低,调高个税起征点能起到降低收入差距的作用 ,但是 现实中的个税政策没有发挥这么好的效果,其原因在于未将资产收益课以累进个税。
个人分类: 生活点滴|4993 次阅读|0 个评论
零碎的人生与非零碎的想法
yalongwelcome 2010-3-15 17:08
  这本《传播学》一直放在手边,零零碎碎看完的。主编鲁曙明、副主编洪俊浩,我都与其曾有过一面之缘。洪俊浩先生因为他来清华做讲座,因此还和他聊过。惭愧的是鲁曙明先生,当初认识他,是本科的时候参加世界华人传播学研讨会,远远看见他穿着随和,一双凉鞋,一件 T 恤,和一群西装革履的外国教授们站在一起嘻嘻哈哈。我还暗自揣度他是不是一众老外的导游,后来才发现他居然曾任 ACCS 的会长,现在更发现这套《西方人文社科前沿评述》的总主编也是他所谓真人不露相吧。 话说中国传播学相当边缘化,主流的学术杂志中传播学所占份额极低,而在思想界,传播学学者能产生影响力的更是寥若晨星,几乎可以忽略不计,以至于我一直在想着是不是该转换个专业。但是这本书倒改变了我的想法,因为鲁曙明同时还是美国华人人文社会科学教授协会会长。这至少反映了传播学学者在美国华人学术界的地位并不边缘,传播学还是有搞头的。 这本书的好处是新并且系统,是一本很好的了解世界传播学学术前沿状况的书,新闻传播学从平面媒直到广电媒体再到新媒体,广告学基本上都囊括了。而像政治传播学、媒介效果研究以及传播学方法研究这样的领域也都没有拉下,更妙的是其中一些文章的作者不乏这一领域的大牛,例如赵心树、赵月枝等等。对于没有太多时间去做英文文献工作的中国传播学学者来说,这无疑是一个福音。所谓开眼看世界,这还是很必要的。 其中郭中实老师的那篇《从概念阐释到数据解读:传播学实证研究方法科学性简介》让我受益很深。 郭老师特别谈到有一样东西我们可以不会,但不能不懂,那就是真正体现科学精神的科学假设、原则、和要义。 鲁曙明,洪俊浩 . 传播学( mass communication). 北京 . 中国人民大学出版社, 2007.7 : 401 也即社会科学研究目的必须共同遵守的从原则、策略、理论假设、研究思路到操作工具、手段、实施过程、步骤的集合。 鲁曙明,洪俊浩 . 传播学( mass communication). 北京 . 中国人民大学出版社, 2007.7 : 419 他谈到数字与文字无异,也是人造的非客观符号,其科学性更非与生俱来,关键是我们要遵循什么原则,按照什么方法将这种产生数字的主观性( intra-subjectivity )转化为互主体性( inter-subjectivity ) , 也就是科学性。接着郭老师马上提到了如何来解决这一问题,那就是他提出的三个代表: 1 )具体测量作为抽象概念的代表; 2 )样本作为整体的代表 3 )数据作为现实的代表。其中第一个代表相对来说比较重要,这也是我们初窥门径者必需注意的。前几天刚刚和某位朋友聊了一下他做的东东,感觉这方面做不好,似乎是初学者的通病了。 郭 老师提到,具体测量作为抽象概念的代表。就是说当进行概念定义的时候,一定要小心,这离不开其在理论架构和研究假设中的定位。字典之类的定义的参考价值是微乎其微的。他更提到当一个概念的概念化定义( conceptual definition )做得足够细致、与理论要求足够吻合时,它在现实世界中的操作化定义变呼之欲出。这就是所谓的" A well-defined concept contains its own measurement "。 鲁曙明,洪俊浩 . 传播学( mass communication). 北京 . 中国人民大学出版社, 2007.7 : 403 这里需要特别重视其建构效度 / 理论概念效度( cinstruct validity ),因为一个概念出现(如时事知识)或出生(如,知识沟)在某个理论中时,它的测量便会先天地受到内涵和外延的制约,也即是说概念的测量空间(由定义而来)和概念的关系正负强弱都是已经被限定了的。这一点也许就说明了理论的重要性吧。 郭 老师还谈到,如何理解数据作为现实的代表这一点。他讲到很可能从同一组数据中会得出截然相反的结论。所以需要判断数据是否代表现实。其标准有三:科学标准( scientific criteria )、社会知识标准( social knowledge criteria )以及学术立场标准( academic position criteria )。所谓 scientific criteria 是指信度问题可以用一些手段来判定,比如 1 )类似的调查的结果是否相近 2 )通过三角交叉检验法 (triangulation) 将抽样调查与其他形式的观察(如,中学入学率的变化)结果进行对比 ,建立趋同效度(概念效度的一种)。 鲁曙明,洪俊浩 . 传播学( mass communication). 北京 . 中国人民大学出版社, 2007.7 : 413 这种观察在信度、效度兼而有之的情况下,自相矛盾的解读只能说明其中一方有意或无意地忽视了科学的标准。 鲁曙明,洪俊浩 . 传播学( mass communication). 北京 . 中国人民大学出版社, 2007.7 : 413 社会知识标准则提到,以之来判断数据解读依赖的是不同的人对同一事件所共享的象征意义( shared symbolic meaning ), 鲁曙明,洪俊浩 . 传播学( mass communication). 北京 . 中国人民大学出版社, 2007.7 : 413 而这种象征意义是无法保证(也不需要)制造出共识。实际中的问题非常复杂,我们不能用仅仅数据将其简单化。我们要随时 keep an eye on it 。而所谓学术标准立场,则是指知识的生产不是中立的,社会科学里也不存在中立的理论,所以如何解读数据除了依靠科学标准和社会标准外,也取决于研究者的学术立场与学术理念。 鲁曙明,洪俊浩 . 传播学( mass communication). 北京 . 中国人民大学出版社, 2007.7 : 414 对同样的社会现象有不同的看法、提出不同的问题、采用不同的方法、收集不同的证据、做出不同的解读,这非但不违背科学精神,恰恰相反,这正是科学研究最重要的游戏规则,即不同的人各自站在自己的学术立场与理念上(内主观性),出于不同的文化背景与价值观从事研究、分析数据、解读数据、展开争论,最终从多个向度丰富我们对世界的看法。但是他也强调,多元性只能用来讨论真问题,一个科学家不可能与一个算命先生就何为证据的问题争论不休。 鲁曙明,洪俊浩 . 传播学( mass communication). 北京 . 中国人民大学出版社, 2007.7 : 414 因为因为大家没有共通的科学标准。 当然,最后,郭老师也提到统计和运算方法并不等于研究方法,所以并不需要追赶潮流,为新而新,而犯下方法与理论脱钩、牵强附会的错误。他强调,研究没有哪个环节最重要,任何环节的误差,都会影响理论和研究设计。这就像下棋,规则明了,着法多端,棋错一着,满盘皆输。甚矣,细节之难防也,甚矣,粗心之为害也。
个人分类: 读书|2892 次阅读|0 个评论
论基于h指数的领域核心作者遴选方法之改进
周春雷 2009-2-26 10:17
论基于h指数的领域核心作者遴选方法之改进 * 周春雷 ( 本文发表于 科技资源导刊 ,2009(1) ) 摘要 核心期刊高发文量和 h 指数相结合是一种具有优势的评选高影响力作者的有效方法,但传统的 h 指数手工统计方法制约了该方法的应用。为此,提出一种适合程序处理的、基于领域专业期刊被引信息的 h 指数统计新方法,并以图书情报领域为例采用该方法进行了实证研究。最后通过与手工统计结果的对比证明了该方法的优越性。 关键词 h 指数;图书情报领域;核心作者;实证研究 1 引言 核心作者虽然是文献计量学的专业术语,但其测量方法并没有统一的标准。我国图情界学者在核心作者评价方面进行过一系列研究,但对领域核心作者遴选方法并未达成共识。刘东维 (1986) 选择我国情报学界较有影响的 7 种学术期刊,根据各期刊自创刊至 1985 年底的发文篇数、被引证篇次数、平均被引率和基础文献发文数的综合评价指标 , 用定量化的方法确定了我国情报学研究领域的 33 位核心著者 。郦金花和苏新宁 (2004) 通过对中国社会科学引文索引 (CSSCI)1998 2002 年间的图书馆学情报学论文的统计分析 , 分别得出该领域发文最多以及被引最多的前 32 位作者 。方太强 , 周蓉 , 胡英 (2005) 根据发文篇数、被引证篇 ( 次 ) 数和重要文献发文数等因素为指标的综合评价体系,确定出我国图书情报学研究的 78 名核心作者 。马费成、宋恩梅 (2006) 综合此前其它学者的核心著者评价研究成果,确定了 37 位情报学核心作者 。李彩云 (2007) 统计了《情报科学》 1998 - 2005 年间的核心作者,采用普赖斯公式 N=0.749*sqrt( 最高产作者的发文量 ) 规定了核心作者候选人的最低发文数,并以第一作者发文量和被引量为指标进行加权计算,得出各候选人的综合指数,最后据此综合指数得出《情报科学》的核心作者 。 2 已有的核心作者遴选方法评价 从上述介绍不难看出,虽然这些学者所采用的基本思路都是试图通过综合利用发文和被引信息来确定图情领域的核心作者,但由于所取样本、时间段、评价指标等差异,所得到的核心作者名单各不相同。由于缺乏统一的遴选标准,领域核心作者遴选的可操作性及结果的客观性、可信性均难以保证。美国统计物理学家赫希( Jorge E .Hirsch )教授 2005 年提出了 h 指数,即 一个人的h指数是指他至多有h篇论文分别被引用至少h次 。由于 h 指数能够综合反映作者的发文和被引信息,一经提出即在国际上引起很大反响,被普遍认为能够较好地评价优秀学者的终身成就。邱均平,缪雯婷 (2007) 、张学梅 等人对国内部分图书情报学者 h 指数的统计表明,那些在图情界有较高影响力的作者的 h 指数要明显高于普通作者。因此,笔者认为,基于 h 指数的评价可以较好地解决核心作者遴选问题,我们可以将某个 h 指数值作为领域核心作者的标准,不同领域、不同时期的评选标准可以不同。 笔者曾提出核心期刊高发文量和 h 指数相结合是一种具有优势的评选高影响力作者的有效方法,进行了规模较大的实证研究,并建议用 h 5 来作为国内图情界高影响力作者的参考尺度。与传统的基于高发文量的核心作者评选方法相比,该方法能剔除那些虽发文多却不为同行所看重的作者;与传统的基于高被引的核心作者评选方法相比,该方法能剔除那些偶有被引很高佳作的低产作者;与单纯的 h 指数方法相比,该方法能筛选出主要研究领域非所研究者所关心领域的跨学科高影响力作者;与专家评审方法相比,本方法具有操作简单、客观、准确等优势,在评价效率和所花费的代价方面也具有较大的优势。 该方法作为一种能综合发文和被引信息的新的核心作者评选方法虽具有种种优势,却有依赖手工统计 h 指数这一劣势。在进行该项研究时,笔者虽耗时月余也不过精确统计了 1241 人的 h 指数。 用 h 指数来评选核心作者首先需要了解整个研究领域所有作者的 h 指数分布情况,然后才能根据分布情况确定合适的阈值,其中准确获取领域作者的 h 指数是其关键。但对传统 h 指数统计方法来说,快速、准确地测量大范围领域作者的 h 指数被普遍认为是枯燥、繁重且易错的工作,手工检索是其难以逾越的瓶颈。笔者曾指出核心期刊高发文量和 h 指数相结合的 方法虽保证了高 h 指数作者统计的准确性,但尚无法揭示大量低 h 指数作者的分布情况,对低 h 指数作者分布情况的准确调查有待其它研究方法的出现 。总之, 落后的研究手段已成为制约 h 指数研究发展的重大障碍。为此,本文提出一种新的 h 指数统计方法,然后采用该方法统计出国内图情领域各作者的 h 指数,最后根据 h 指数分布情况确定了该领域的核心作者。 3 一种新的基于领域期刊引文信息的 h 指数统计方法 3.1 传统 h 指数统计方法的不足 h 指数被普遍认为能较好地评价各领域优秀学者的学术成就, 赫希教授给它的定义是一个作者至多有h篇论文分别被引用了至少h次 。单个作者h指数的统计虽然简单, 但快速、准确地测量某个研究领域全部作者 h 指数的方法却未见报道。现有的 h 指数统计流程一般为首先选择某个引文数据库,如 Web of Science 、 Scopus 、 Google Scholar 以及国内的 CSSCI 等,按照某个名单,然后手工逐一检索作者被引信息并按被引次数降序排列,最后统计出各作者的 h 指数。这种方法的弊端如下: ( 1 )无法区分不同领域同名作者的引文信息。各引文数据库均包含了不同领域研究者的信息,采用标准 h 指数统计方法得到的 h 指数往往因混杂了同名作者的引文信息而被夸大。 ( 2 )抽样的代表性无法保证。传统的 h 指数统计一般依据某个名单由人工逐一进行,这个名单可能来自学者们统计出的领域核心作者,也可能来自期刊的编委列表等。这种统计方法仅是对整个研究领域的抽样,其代表性难以保证,普通研究者由于人数众多,更是难以出现在这些名单中。 ( 3 )不适合大范围的快速统计。传统方法仅适合小范围的手工统计,是枯燥、繁重、易错的工作,不适合涉及成千上万作者的整个研究领域层次的大范围、快速、精确统计。 3.2 基于领域期刊引文信息的 h 指数统计方法 为解决上述弊端,本文设想将统计范围限制在领域专业期刊。具体方法是首先选择某个引文数据库,接着用被引期刊名称进行检索并汇集全部领域期刊的引文信息,然后按照被引作者和被引次数排序,最后使用程序从中自动获得各作者的 h 指数。 表 1 示例了按作者姓名和被引次数降序排列的引文数据汇总表。通过使用自编程序分析被引作者和被引次数两列数据,自动得出各作者相应的 h 指数(如表 2 所示)。 表 1 将全部专业期刊引文信息汇总按作者和被引次数排序的引文数据示例 被引作者 被引文献篇名 被引次数 被引期刊 被引文献发表时间 艾静 关于公共图书馆跨世纪发展的思考 4 图书馆理论与实践 2000 ( 3 ) 艾露 超文本在情报检索中的应用 2 图书馆学刊 1998 ( 6 ) 艾露 梁启超目录学思想与实践研究综述 1 国家图书馆学刊 1999 ( 1 ) 艾冰 图书馆自动化建设中的机读目录 1 晋图学刊 1998 ( 3 ) 表 2 作者 h 指数计算表 被引作者 被引次数降序列表 h 指数 艾静 4 1 艾露 2 1 1 艾冰 1 1 这种方法的关键在于领域专业期刊的选取,由于各领域都有公认的专业期刊,而且这些期刊名单可以从重要学术数据库的分学科期刊列表获得,所以这个问题不是本方法应用的障碍。根据文献计量学常识可知,任何研究领域都有该领域公认的专业期刊,绝大多数与该领域有关的文献都发表在这些专业期刊上。因此,笔者认为,通过将某领域全部专业期刊的被引信息汇总,可以得到涵盖该领域绝大多数研究者成果的数据,通过对这些数据的分析可以得到比较准确的该领域全部作者的 h 指数。这一假设将在下文的实证研究中得到证实。此外,由于引文数据库主要是基于核心期刊所载论文所附的参考文献建立起来的,而发表于非核心期刊的论文也可能为核心期刊上的论文所引用,仅采用来自核心期刊的引文信息是否能较好地反映作者的 h 指数也是本文关心的问题。因篇幅所限,有关该方法的详细论述笔者将另文介绍。 3.3 本文所介绍 h 指数统计方法的优点 ( 1 )减少同名作者引文信息混杂现象。由于现有引文数据库均未妥善解决作者唯一标识问题,来自不同领域的同名者其被引信息往往混杂在一起,导致作者 h 指数被夸大。本文所提方法将被引文献限制在领域专业期刊,虽然依然无法区分同一研究领域中的同名者,但剔除其它领域的同名者能大大降低同名者出现的概率,这有利于提高作者 h 指数统计的准确性。 ( 2 )大大提高统计效率。与某领域的研究者数量相比,该领域的期刊数量相对要少得多。因此,与以作者为单位进行统计的方法相比,采用本文方法所需的查询次数将大大减少。以图情领域为例,根据笔者的统计,近 30 年来核心期刊 第一作者人数为 30274 ,仅 发文量在5及以上的第一作者即高达3911人;而图情领域共有期刊73种,南京大学版核心期刊20种。对这三万多作者逐一进行检索显然不如以期刊为单位进行检索经济。通过使用笔者自编程序对期刊被引信息进行分析,统计效率可以大大提高。 ( 3 )减少遗漏,提高统计准确性。本文所介绍方法不仅可以准确统计出大量在手工统计中被忽略的普通作者的 h 指数 ,而且能较好地涵盖本领域的重要研究者。 3.4 本文所介绍 h 指数统计方法的不足 本文所介绍方法的准确性在很大程度上依赖于领域数据的完备程度。由于统计范围限于领域专业期刊,这可能会遗漏那些发表在非本领域专业期刊上的成果和以专著等形式发表的成果,从而导致作者 h 指数的降低。 4 国内图情领域核心作者实证研究 4.1 研究方法 笔者拟采用本文所介绍方法对国内图情领域进行实证研究,研究思路是从 CSSCI 分别获取 73 种国内图情专业期刊的被引信息,汇总后按被引篇名和被引作者进行排序并将被引次数合并,从而得到该领域所有研究者所发表专业文章的被引信息,然后分别以被引作者和被引次数为第一、第二排序依据进行降序排列,最后采用笔者自编软件统计出该领域所有作者的 h 指数。为验证前文提及的核心期刊引文对作者 h 指数研究的代表性,笔者还抽取了南京大学版 20 种图情核心期刊的信息进行了对照研究。笔者曾通过多种途径广泛搜集了人数多达数千人的图情领域知名学者名单,利用 CSSCI 逐一统计了其 h 指数,其中精确统计了 1241 人 ,其结果被用于检验本文所提方法统计 h 指数的准确性。本文的检索时间是 2008 年 3 月,受 CSSCI 引文数据库的限制,检索时间跨度为 1998 - 2006 。 4.2 研究结果 经过实证研究,国内图情领域作者 h 指数与相应人数分布情况如图 1 所示,从图 1 可以看出,随着 h 指数的升高,相应的作者人数锐减。换言之,高 h 指数作者人数占总作者比例很小。 h 5 的作者共有 102 人,在全部作者 15790 中所占比例仅为 0.646 %。根据笔者的研究,图情领域绝大多数 h 5 的作者都具有高级职称,在业内的知名度较高。考虑到有的作者的虽然发表了论文,但并没有被引用的情况,全部作者实际人数应该大于 15790 ,按照笔者对图情领域 30 年来 20 种核心期刊所发文章第一作者的统计,本领域的作者至少有 30274 人 。则 h 5 的作者所占的比例将进一步降低到 0.337 %。因此, 笔者认为,根据 CSSCI 在 1998 - 2006 年间的引文数据,可以把图情领域核心作者的 h 指数门槛设为 5 。当然,这一门槛不是绝对的,研究者可以根据不同研究领域、不同时期的实际情况进行调整。 表 3 为部分图情领域高 h 指数作者名单,为节约篇幅,仅列出 h 7 的作者。其中对照数据的手工统计是指笔者在文献 中统计出的作者 h 指数;全部是指基于全部 73 种图情期刊统计出的作者 h 指数;核心是指基于 20 种南京大学版图情核心期刊统计出的作者 h 指数;手工-全部是指手工统计结果与基于全部期刊结果的差值,其它类推。从表 3 可以发现,基于核心期刊的 h 指数与基于全部期刊统计的相差不大,但与手工统计的数值有较大偏差。 图 1 图情领域作者 h 指数与作者人数分布图 表 3 部分高影响力图情领域专家的 h 指数及其不同统计方法的差异 作者 手工统计 全部 核心 手工-全部 手工-核心 全部-核心 邱均平 16 14 14 2 2 0 吴慰慈 14 12 12 2 2 0 张晓林 14 13 12 1 2 1 马费成 13 9 9 4 4 0 胡昌平 12 10 10 2 2 0 黄宗忠 12 11 9 1 3 2 蒋永福 12 12 12 0 0 0 张琪玉 11 7 7 4 4 0 吴建中 11 8 8 3 3 0 肖希明 11 9 9 2 2 0 黄俊贵 11 10 10 1 1 0 彭斐章 10 7 6 3 4 1 王知津 10 8 8 2 2 0 包昌火 10 8 7 2 3 1 王子舟 10 9 9 1 1 0 范并思 10 9 9 1 1 0 马海群 10 9 9 1 1 0 盛小平 10 10 10 0 0 0 来新夏 9 1 1 8 8 0 谢康 9 3 3 6 6 0 董小英 9 4 4 5 5 0 卢泰宏 9 5 5 4 4 0 乌家培 9 6 5 3 4 1 王崇德 9 6 6 3 3 0 陈光祚 9 7 7 2 2 0 程亚男 9 7 7 2 2 0 霍国庆 9 9 9 0 0 0 王世伟 9 9 9 0 0 0 王重民 8 1 1 7 7 0 苏新宁 8 5 5 3 3 0 柯平 8 5 4 3 4 1 叶继元 8 6 6 2 2 0 岳剑波 8 6 6 2 2 0 汪冰 8 6 6 2 2 0 谭祥金 8 6 6 2 2 0 黄晓斌 8 7 7 1 1 0 初景利 8 7 7 1 1 0 李国新 8 7 7 1 1 0 程焕文 8 8 8 0 0 0 邹志仁 7 3 3 4 4 0 周文骏 7 4 3 3 4 1 谢新洲 7 4 4 3 3 0 刘嘉 7 4 4 3 3 0 孟广均 7 5 5 2 2 0 靖继鹏 7 5 5 2 2 0 焦玉英 7 5 5 2 2 0 赖茂生 7 5 5 2 2 0 于良芝 7 5 4 2 3 1 陈传夫 7 6 6 1 1 0 严怡民 7 6 5 1 2 1 莫少强 7 6 6 1 1 0 朱强 7 6 4 1 3 2 王波 7 6 5 1 2 1 马恒通 7 7 6 0 1 1 叶鹰 7 7 7 0 0 0 查先进 7 7 7 0 0 0 刘兹恒 7 7 7 0 0 0 刘植惠 7 7 7 0 0 0 赵继海 7 7 7 0 0 0 杨宗英 7 7 7 0 0 0 肖珑 7 7 7 0 0 0 索传军 7 7 7 0 0 0 马文峰 7 7 7 0 0 0 杨文祥 7 7 7 0 0 0 4.3 研究结果分析 基于全部领域专业期刊的程序自动提取方法与手工统计两种方法所得的 h 指数与人数分布对比如表 4 所示。笔者使用自编程序对两种方法获得的名单进行了对比,其 h 指数差异情况如表 5 所示。 表 4 基于全部期刊与手工统计所得领域作者 h 指数分布情况对照表 h 指数 作者人数 全部期刊 手工统计 1 13438 151 2 1719 393 3 387 389 4 144 183 5 46 84 6 20 39 7 17 25 8 4 11 9 7 10 10 3 7 11 1 4 12 2 3 13 1 1 14 1 2 16 0 1 注释 H 5 人数为 102 h 5 人数为 187 h 6 人数为 103 表 5 基于全部期刊与手工统计所得 h 指数差异对照表 h 指数差异 人数 备注 0 46 相同 -1 29 基于全部期刊比手工统计少 1 -2 16 基于全部期刊比手工统计少 2 -3 7 基于全部期刊比手工统计少 3 -4 2 基于全部期刊比手工统计少 4 5 2 手工统计没有发现的 笔者通过仔细对比发现,绝大多数采用本文方法所得的 h 5 的核心作者均出现在手工统计的 h 5 作者名单中,但有 2 名 h=5 的作者没有出现在手工统计的名单中。这说明尽管笔者尽可能全地搜集了图情领域知名学者名单,依然难以避免有遗漏。这也证实了本文方法具有发现被忽视的核心作者的功能。 通过对比还发现,部分手工统计的 h 5 的作者并没有出现在采用本文方法统计的 h 5 作者名单中。其原因包括:( 1 )个别手工统计的作者的主要研究领域并非图情领域,这证明了本方法具有过滤非本领域研究者的优势。( 2 )手工统计得到的 h 指数不小于 5 ,但采用本文方法的 h 指数小于 5 ,其原因主要有:其它领域存在同名者;部分作者的专著或网络文献等非期刊被引数据进入了 h 核;个别 CSSCI 引文数据著录不一致导致程序无法象人工那样汇总被引次数,从而影响了作者的 h 指数。 如上文所述,基于核心期刊的 h 指数虽因引文类型、领域等外部因素而与手工统计的数值有较大偏差,但与基于全部期刊统计的相差不大。因此,基于核心期刊的分析可以较好地代表对全部领域期刊的分析。换言之,本文所介绍的基于领域核心期刊的 h 指数批量统计法可以取代笔者此前提出的核心期刊高发文量和 h 指数相结合的方法而应用于领域核心作者评选。 总之,对比实验很好地验证了本文的假设,证明在限制引文类型为期刊的前提下,通过对某领域全部专业期刊被引信息的汇总和分析,可以得到比较准确的该领域全部作者的 h 指数;仅用领域核心期刊来统计 h 指数即可保证较高的准确性,这可以进一步提升本文方法的研究效率。 5 结语 h 指数被普遍认为可以用于对优秀学者进行学术成就评价,但 h 指数手工统计方法制约了将 h 指数引入核心作者遴选的尝试。本文提出了一种适合程序处理的新的 h 指数统计方法,从而使快速、准确地统计某领域全部作者的 h 指数成为可能。本文对图书情报领域的实证研究表明,使用这种基于领域专业期刊引文数据的 h 指数统计法可以得到准确的全领域作者 h 指数分布数据,从而为确立核心作者标准提供了重要依据。与传统的基于单纯发文量、被引或专家评审的方法相比,该方法具有操作简单、客观、准确等优势,在评价效率和所花费代价方面也具有较大的优势。总之,本文所提出的 h 指数统计新方法是对笔者以前提出的核心期刊高发文量和 h 指数相结合的核心作者评选方法 的重大改进,对提高人物学术成就评价的效率以及核心作者、领域专家遴选等评价活动的科学性有一定的积极意义,对科研人才库建设也会有一定的启发。 参考文献 刘东维 . 我国情报学基础文献和核心著 . 情报科学 , 1986(4):9-16. 郦金花 , 苏新宁 . 近5 年我国图书馆学情报学研究之影响 . 情报学报 ,2004(5):515-523. 方太强 , 周蓉 , 胡英 . 我国图书馆学情报学核心作者分析 . 图书情报工作 ,2005(1):69-73. 马费成 , 宋恩梅 . 我国情报学研究分析 : 以 ACA 为方法 . 情报学报 ,2006(3):259-268. 李彩云 . 《情报科学》1998-2005 核心作者测评 . 情报科学 ,2007(2):236-239. J.E.Hirsch. 衡量科学家个人成就的一个量化指标 . 科学观察 ,2006(1):2-7. 邱均平 , 缪雯婷 .H 指数在人才评价中的应用 -- 以图书情报学领域中国学者为例 . 科学观察 , 2007(3):17-22. 张学梅 . 用 H 指数对我国图书情报学界作者进行评价 . 图书情报工作 ,2007(8):48-50. 邱均平 , 周春雷 . 发文量和 h 指数结合的高影响力作者评选方法研究 . 图书馆论坛 ,2008(6):44-49. * 作者简介:周春雷,男, 1977 年生,系统分析师,讲师,武汉大学科学评价研究中心博士研究生,研究方向为知识管理和文献计量。
个人分类: h指数|7271 次阅读|0 个评论
发文量和h指数结合的高影响力作者评选方法研究
周春雷 2009-2-26 10:13
发文量和 h 指数结合的高影响力作者评选方法研究 以图书情报学为例的实证分析 * 邱均平 周春雷 (本文发表于 图书馆论坛,2008(6) ) ?? 高影响力作者是学科创新和发展的骨干力量,其评选方法一直是学术界和管理部门关注的重点课题之一。 通过对图书情报学领域的实证研究提出核心期刊高发文量和 h 指数相结合是一种具有优势的评选高影响力作者的有效方法。 ?? h 指数;图书情报学领域;高产作者;高影响力作者;实证研究 1 引言 文献计量领域往往以发文量的多少来评价作者的学术成就,但单纯的发文量指标显然并不能完全反映文章的质量及其对学科领域的影响力。人们一般认为文献被引数量与作者的影响力呈正相关关系,被引量越大说明文章作者的影响力越大。 加利福尼亚大学圣地亚哥分校统计物理学家赫希( Jorge E .Hirsch )教授于2005年发明的h指数提供了使用论文被引信息的新方法。这是一种利用论文被引情况来进行学术成就评价的新方法,其核心思想是一个作者的h指数是指他至多有h篇论文分别被引用了至少h次 。该方法一提出即在国际上引起很大反响,被普遍认为可以在一定程度上弥补传统文献计量指标在作者成就评价上的缺陷。国内已有文献 利用h指数对国内图书情报学界进行了初步的评价研究,他们 采用统计知名作者 h 指数的办法来推测领域内作者 h 指数的实际分布情况,但这类根据小样本采用不完全归纳方法所得结果的代表性显然有待检验。 此外,也有其他学者采用ACA等传统文献计量方法对图情领域的核心作者进行了筛选 。据笔者对南京大学版20种图情领域核心期刊的统计,近三十年来图情领域第一作者人数为 30274 ,仅 发文量在5篇及以上的第一作者人数即达3911人。此前的各种研究方法未曾覆盖如此众多的候选人,因此,已有文献所统计出的图情领域有影响力作者的代表性有待检验。由于发文量和发文期刊级别代表了作者的学术产出水平,而被引数据可以在很大程度上反映同行对其成就的认可程度,故笔者认为基于某学科领域核心期刊的发文量和h指数相结合的方法也许能更好地筛选出高影响力的领域专家。本文试图以图情领域近三十年来在图情类核心刊物上发文5篇及以上的第一作者为样本,采用h指数研究方法对国内图书情报学界进行全面系统的实证研究 ,以筛选出该领域影响力较大的作者。 2 本文的研究方法 2.1 研究思路 本文根据核心期刊发文量统计出高产作者名单,结合其它文献或专业网站提及的业内高影响力作者名单作为统计图书情报领域高影响力作者的候选名单,利用 CSSCI ( Chinese Social Sciences Citation Index ,中文社会科学引文索引) 的引文数据库对该名单进行逐一统计,最终得到比较全面的图情领域高影响力学者 h 指数分布表。成为高 h 指数作者的基本前提是高发文量,而高被引作者必然是受到广泛关注的,那些在本领域核心期刊发文很多的作者无疑更有可能成为高 h 指数作者。笔者设想通过对图情领域核心期刊的高产作者的逐一统计可以很好地保证遴选出发文量高且高被引的作者。由于 CSSCI 计算的引文数是针对第一作者的,所以基于 CSSCI 统计出的高 h 指数作者必然是以第一作者身份发文数量多的高产作者,故本研究在使用通过 CNKI ( China National Knowledge Infrastructure ,中国知识基础设施工程)获取到的数据统计高产作者时限定于第一作者。 由于 近三十年来图情领域第一作者人数为 30274 ,仅 发文量在5篇及以上的第一作者即高达3911人。对这三万多作者逐一进行测量显然是不现实的,故 本文的研究思路是首先通过小范围测试获得图情领域高 h 指数作者的概貌信息,然后进行大范围测试,以达到求全的目的。首先以已有文献 提供的核心作者名单为初始样本进行统计,通过近两百人的小范围测试,发现 h 指数为 5 可能是一个门槛,高于此数的不多 , 所以在从期刊获取高产作者名单的时候限定以第一作者发文的数量至少为 5 。笔者还发现 CSSCI 检索结果总被引数在 30 篇次以下的,其 h 指数极少超过 3 。为保险起见,在实际操作中将基本忽略的阈值限制在 20 以下。通过这些办法大大提高了研究效率,使本研究在操作上的可行性得到了保证。换言之,本研究通过舍弃大量 h 指数为 1 和 2 的低 h 指数数据,把主要精力集中在对可能性更大的潜在高 h 指数作者的准确测量上,从而较好地保证了本研究的效率和结果的可靠性。 笔者在具体操作中是以期刊为单位逐一进行测量的。首先从 CNKI 抽取该期刊所有作者信息,从中提取出第一作者发文量不小于 5 的名单(对于权威期刊(如《中国图书馆学报》和《情报学报》)是按 3 来统计的,以统计更多的人数),然后用自编软件筛选出不在初始样本中的高产作者名单,接着对新获得的名单逐个进行统计并形成一份包含所有已统计作者的名单,这个名单将用于匹配从下一个期刊获得的高产作者名单。 通过这样滚雪球式操作,已统计过 h 指数的作者名单不断拉长。在统计完南京大学版图情领域二十种核心期刊后,得到了一份较全面的图情领域高 h 指数作者名单。 由于不在单一核心期刊上发文 5 篇及以上的作者也可能在全部核心期刊上累计发文达到 5 及以上,所以笔者又将全部第一作者的信息进行汇总,得到完整的高产作者名单和发文数量。然后笔者又将这份名单与已统计过 h 指数的作者名单进行匹配,筛选出总发文量不小于 5 的新的待统计名单并进行逐个统计。最后得到了较完整的基于图情领域核心期刊的高 h 指数作者名单。 整个操作流程如下: ( 1 )汇总其它文献和网站提供的名单利用 CSSCI 和自编软件重新统计得到名单 A ( 2 )利用自编软件 CnkiRef 从 CNKI 套取出高产作者名单 B :套取指定期刊的题录信息提取第一作者统计作者发文频率按设定的阈值截得高产作者名单 B ( 3 )使用自编软件比较 A 和 B ,得到需要统计的作者名单 B - A ( 4 )利用 CSSCI 和自编软件对名单 B - A 进行统计,整理得到目前已统计过的全部作者名单 B ( 5 )重复步骤( 2 )( 4 ),逐步完善目前最全面的名单 C 。 ( 6 )汇总全部第一作者频率数据,按设定的阈值截得高产作者名单 D ,与 C 比较并统计 D 中未被统计的,得到最终的名单 E 。 2.2 高产作者或高影响力作者名单来源 ( 1 )已有文献统计出的名单。首先借助已有文献总结的图情界有影响力的作者名单进行重新统计,这些文献既包括一些对图情界进行小规模 h 指数研究的文章 ,也包括使用传统文献计量手段研究核心作者的文章 。 ( 2 )业内网站提供的名单。笔者从中国图书馆学会网站上提供的机构人员设置情况 里获取了担任各级职务的学者名单,笔者认为这些学者在图情界应该是颇有影响力的,故全部纳入候选名单。此外还有重庆维普等网站 上刊登的图情领域专家名单。 此外,图情界的博客很活跃,很多学者经常利用博客这一途径讨论圈内事情,笔者通过这些博文了解了很多图情界的专家学者,这些学者也都进入了笔者的统计视野。这里仅举四家博客作为代表 。 ( 3 )笔者对图情领域核心期刊统计的结果。笔者对 20 种南京大学版图情类核心期刊进行了统计,内容涉及 CNKI 所收集的该刊创刊以来的全部数据。笔者利用 CNKI 进行检索的时间是 2008 年 2 月 23 日 ,由于数据库的滞后性等原因,部分期刊 2007 年的数据不全。本研究从近 9 万篇文章的题录信息中共抽取出 30274 名第一作者( 5632 篇未署名文章的作者被合并为一个发文 5632 次的 无名作者 ),其中发文量在 5 及以上的作者 3911 人。换言之,根据笔者的统计,图情界累计发文量 5 以上的核心作者数量约为 3911 人(其中少量作者名似为笔名,这可能与学者们早年署名习惯有关)。这 3911 名核心作者是笔者根据 h 指数大小统计图情界有影响力作者的主要依据。之所以选择发文量 5 作为阈值是因为发文量在 5 以下的显然其 h 指数不可能大于 5 。笔者首先统计了《中国图书馆学报》、《情报学报》、《大学图书馆学报》、《图书情报工作》,然后用《图书情报知识》来验证,发现新增的 h 大于 5 的人数为个位数,继续用《现代图书情报技术》、《情报理论与实践》、《图书馆》、《图书馆论坛》、《图书馆杂志》等来验证,均未新发现 h 指数高于 6 的,共统计了 2000 多人。然后将 20 种图情核心期刊的第一作者信息进行汇总并对累计发文量 5 以上的其它近 2000 名作者进行验证性统计,发现了少量 h 指数高于 5 的作者。 2.3 引文数据处理 2.3.1 CSSCI 数据处理的必要性 笔者采用的引文数据库是 南京大学的CSSCI, 时间跨度为 1998 - 2006 年,数据获取时间为 2008 年 1 月- 2008 年 3 月 。它能分年度提供了 某一作者名义下自 1998 年起的被引信息,还可以提供排除自引后的数据。众所周知, 计算h指数 的关键在于同一作者的同一篇文献在全部统计年度内被引次数的合并问题,但 CSSCI 并未很好地解决作者唯一性问题和引文数据合并问题。 这些问题的存在,对统计作者真实h指数影响较大。 ( 1 )作者同名问题 CSSCI 并不能区分同名作者,名字相同而研究领域不同的作者的文章被引数据混杂在一起,这个问题的存在 可能会夸大作者的h指数。 ( 2 )引文数据合并问题 ●跨年度合并问题。 CSSCI 提供的被引数据是分年度的,而且每屏所能展示的最大记录数量是 50 条,对于被引记录大于 50 条的需要把分屏显示的数据合并,因此无法直接获得某一文献的累计被引数据。它提供的结果形如 命中结果x篇,总计被引Y篇次,但是其计算篇数并不准确, 同一篇文献在不同年度被当作不同的文献计算。 如果在来源文献中表述稍有差异,同一篇文献也可能被误认为是不同文献。所以一般而言,CSSCI命中的文献数量要大于等于作者实际发文数量。 ● 引文数据不规范问题。 由于施引者过错,如引用不规范、张冠李戴等,或者数据库整理方过错,如同一篇文献名称入库时略有差异特别是引号、破折号等差异均可导致 引文数据不规范。 ● 同一文献出现在不同 载体的问题。文献发表后可能被文摘刊物收录,或者先后在期刊和网络上发表甚至一稿多投等原因均可能导致同一文献出现在不同载体情况的发生,这些文献的被引数据在引文数据库中会被处理成不同的记录。对于这种情况,应该按照被引文献篇名聚类,将同一文献在不同载体的引文数合并,以还原该文献的真实被引情况,这可以产生高频文章,提升作者的h指数。 2.3.2 引文数据处理措施 针对上文提出的CSSCI存在的问题,笔者采用自编软件将同一作者各年度的引文数据 按照被引文献篇名进行聚类并对引文数据进行了合并,进而统计出该作者的 h 指数,对部分怀疑因重名而造成的高 h 指数者进行了处理。 ( 1 )同名者处理 由于引文数据库未对 作者唯一标识问题 进行处理,这导致研究中很难区分同名者。如果不对重名的作者加以区分,很可能导致作者 h 指数虚高。 一般情况下,可以通过研究领域差异来区分同名作者。但如果同名者的研究领域相近这种办法就无能为力了。 以张平为例,如果不加区分,其 h 指数可以达到 7 。从被引文献篇名看,内容涉及知识产权和数字图书馆中的著作权等问题,属于图情领域研究范围,且很难断定不是同一个作者。经查询 CNKI 可知,作者的单位很多:有北京大学法学院、中国科学技术大学图书馆、国家图书馆等,这属于多个重名者研究领域相近的情况。对于这种情况,笔者采取的办法是根据高被引文献篇名逐个查找其作者信息,然后根据作者的单位、年龄、职称等信息来核实是否为同一作者。最终确认研究法学的张平的 h 指数是 7 ,但他不属于图情领域,所以不将该记录列入本领域高 h 指数作者名单。 从上述例子不难看出引文数据库缺少作者唯一标识给 h 指数统计工作带来的困难和误差。笔者认为可以把作者单位、出生年月、性别、研究领域等信息用于作者唯一标识工作。作者唯一标识问题应该引起引文数据库的重视, 否则其以后推出h指数统计功能时的准确性是难以保障的。 ( 2 )引文数据合并 为了减少引文数据误差,笔者先按文献篇名排序聚类,然后用程序汇总引文数据,在各文献总被引降序列表得出后确定h指数时,对可能影响h指数的文献给予重点核查(即EXCEL文件中h指数行记录附近的文献),并合并确因微小差异被程序误判为不同文献的引文数据。笔者采取的这种办法也仅能在一定程度上减少因数据库本身导致的误差,本研究得出的h指数与其它研究者的结果可能存在微小差异的原因也正在于此。 3 统计结果及分析 本研究从近 9 万篇文章的题录信息中抽取出 30274 名第一作者的名单( 5632 篇未署名文章的作者被合并为一个发文 5632 次的 无名作者 ),进而提取出发文量在 5 及以上的作者 3911 人。其中发文量在 50 以上的有 36 人, 30 到 49 的有 99 人, 20 到 29 的有 220 人。加上已有文献统计的以及业内网站提供的名单,笔者共调查了 4190 人,准确统计了总被引次数较高(总被引次数大于 20 )的 1241 人的 h 指数,对于其它 总被引次数远小于 20 的一般未进行精确统计 。 表 1 给出了图情领域各 h 指数数值与相应的人数分布。由于本研究所采取研究方法的原因,表 1 所测得的 h=1 和 2 的作者人数要远小于实际值。本文所用方法虽保证了高 h 指数作者统计的准确性,但尚无法揭示大量低 h 指数作者的分布情况。对低 h 指数作者分布情况的准确调查有待其它研究方法的出现。统计结果显示, h 指数在 5 及以上的共有 187 人,占全部图情领域第一作者总数的 0.62% ,占发文量 5 以上作者总数的 4.78% 。 h 指数最大的达 16 , 10 及以上的有 18 人。本研究 统计出的 h 指数在 5 及以上的 187 名图情领域高影响力作者如表 2 所示。 表 1 图情领域各 h 指数数值与相应人数汇总表 h 指数 人数 h 指数 人数 h 指数 人数 h 指数 人数 1 103 5 84 9 10 13 1 2 379 6 39 10 7 14 2 3 389 7 25 11 4 16 1 4 183 8 11 12 3 表 2 部分图情领域高影响力作者的 h 指数 序号 专家姓名 h 指数 专家姓名 h 指数 专家姓名 h 指数 专家姓名 h 指数 1 邱均平 16 刘兹恒 7 孙建军 6 乔好勤 5 2 张晓林 14 刘植惠 7 李致忠 6 杜定友 5 3 吴慰慈 14 邹志仁 7 强自力 6 张安珍 5 4 马费成 13 赵继海 7 周和平 6 徐文伯 5 5 蒋永福 12 杨宗英 7 霍忠文 6 司莉 5 6 胡昌平 12 严怡民 7 曾蕾 6 蒋颖 5 7 黄宗忠 12 谢新洲 7 冯志伟 6 赵阳 5 8 肖希明 11 肖珑 7 何小清 6 郑全太 5 9 吴建中 11 索传军 7 潘卫 6 白崇远 5 10 黄俊贵 11 刘嘉 7 毕强 5 甘利人 5 11 张琪玉 11 赖茂生 7 付立宏 5 卢共平 5 12 王知津 10 马文峰 7 赵美娣 5 粟慧 5 13 盛小平 10 莫少强 7 梁战平 5 张福学 5 14 王子舟 10 杨文祥 7 娄策群 5 史田华 5 15 范并思 10 于良芝 7 周宁 5 罗式胜 5 16 彭斐章 10 朱强 7 何绍华 5 匡文波 5 17 马海群 10 王波 7 张玉峰 5 高曼 5 18 包昌火 10 沙勇忠 6 李纲 5 董焱 5 19 乌家培 9 徐引篪 6 丁蔚 5 郭家义 5 20 陈光祚 9 侯汉清 6 白国应 5 郑宏 5 21 程亚男 9 黄如花 6 文榕生 5 富平 5 22 董小英 9 于鸣镝 6 马张华 5 李晓明 5 23 霍国庆 9 包和平 6 华薇娜 5 刘荣 5 24 卢泰宏 9 秦铁辉 6 朱庆华 5 肖燕 5 25 王崇德 9 刘国钧 6 俞培果 5 谢琴芳 5 26 王世伟 9 倪波 6 刘磊 5 刘延章 5 27 来新夏 9 罗曼 6 李广建 5 陈耀盛 5 28 谢康 9 刘家真 6 孟连生 5 黄奇 5 29 叶继元 8 吴志荣 6 肖自力 5 雷燕 5 30 黄晓斌 8 李家清 6 周庆山 5 徐苇 5 31 岳剑波 8 缪其浩 6 党跃武 5 陈能华 5 32 汪冰 8 陈树年 6 黄纯元 5 夏火松 5 33 谭祥金 8 秦珂 6 谢阳群 5 朱建亮 5 34 苏新宁 8 沈固朝 6 陈源蒸 5 杨元生 5 35 柯平 8 刘 君 6 刘洪波 5 马远良 5 36 程焕文 8 周毅 6 李明华 5 韩继章 5 37 初景利 8 林曦 6 顾敏 5 冯惠玲 5 38 李国新 8 詹德优 6 郑建明 5 何嘉荪 5 39 王重民 8 姜爱蓉 6 温有奎 5 李培 5 40 马恒通 7 张四新 6 王纯 5 徐云 5 41 孟广均 7 肖东发 6 刘春茂 5 刘迅 5 42 叶鹰 7 张欣毅 6 韩毅 5 张晓娟 5 43 陈传夫 7 张树华 6 邓小昭 5 于湖滨 5 44 查先进 7 刘炜 6 黄敏 5 王万宗 5 45 靖继鹏 7 邹荫生 6 杜也力 5 李玉安 5 46 焦玉英 7 徐建华 6 李武 5 郑巧英 5 47 周文骏 7 高波 6 王余光 5 根据本文的研究,笔者认为可以把 h 指数为 5 及以上的图情学者视为本领域有高影响力的专家,其因有三:笔者采取的评价标准很严格,入选作者至少需要在南大版 20 种图情核心期刊上以第一作者身份发文 5 篇,而且其 h 指数不少于 5 ;从职称上看,这些学者绝大多数具有高级职称;从数量关系上看,这部分人占图情领域高产作者的比例是很小的。根据统计结果,笔者认为图情领域作者的 h 指数具有如下特点: ● 随着 h 指数的上升,拥有相应指数作者的数量锐减。 图 1 图情领域核心作者 h 指数与作者人数分布图 图 1 中 h 指数的分布区间为 1 - 16 。由于相当多的低被引作者被忽略(为提高研究效率,总被引 20 以下的基本被舍弃),很多未被统计作者的 h 指数多为 0 , 1 , 2 ,所以导致 h = 1 的人数仅为 103 , h = 2 的人数为 379 ,均小于 h = 3 的人数 389 。但根据实际情况推断, h 为 2 的人数要远大于 h 为 3 的人数。 ● 作者 h 指数与具有相同 h 指数作者数量在局部呈倍增关系。 从图 1 可以看出,随着 h 指数的降低,对应的作者人数要么与前一级别的持平,要么倍增。 h = 6 的人数为 38 ; h = 5 的人数为 81 ; h = 4 的人数为 183 ; h = 3 的人数为 389 ,均呈倍增关系。 ● 具有相同 h 指数的作者人数与对应的 h 指数曲线呈抛物线状 。 图 2 图情领域核心作者 h 指数与作者数关系 图 图 2 中水平轴为 h 指数,纵轴为拥有该 h 指数的作者数量。从图中可以直观的看出国内图书情报领域作者 h 指数与具有相同 h 指数作者数量的对应关系是一条近似抛物线的曲线。随着 h 指数的提升,相应的作者人数锐减,曲线走势趋于平缓;相反,随着 h 指数的降低,对应的作者人数增加很快,曲线走势趋于陡峭。其中 h = 1 和 h = 2 的数据是笔者根据发现的 h = 3 到 h = 6 的数据倍增现象推测的。这说明 h 指数对高 h 指数作者具有较好的区分度,但对于中低 h 指数作者的区分度很差甚至难以区分。 ● h 指数的分布并不一定是连续的。 在本研究中 h 指数的分布区间是 0 - 16 ,但中间缺少 h=15 的作者,这说明同一领域作者 h 指数的分布并不是完全连续的。 ● 作者的第一作者发文量一般高于 h 指数,且随着发文量波浪式增长, h 指数也缓慢增长。 图 3 是 187 个高 h 指数作者( h 5 )的发文量与 h 指数关系图。横轴表示 187 名作者,纵轴为其发文量和 h 指数。从图 3 可以看出,第一作者发文量与被引量并不呈简单的线性关系,而是一种非常复杂的波浪状关系。具有相同 h 指数的作者之间发文量相差很大,表现在图 3 中就是处于同一 h 指数平台上方的发文量曲线波动很大。换言之,虽然达到高 h 指数必然需要具有相应数量的高质量论文,但高发文量并不一定与高 h 指数对应。 图 3 图情领域高 h 指数作者发文量与 h 指数关系图 ● 第一作者发文量低于 h 指数的作者其主要研究领域可能并非本领域。 根据笔者对图 3 中左侧 h 指数为 9 处两个 h 指数高于发文量的点的深入调查发现, 卢泰宏和谢康的 h 指数虽然都高达 9 ,但是其在图情领域核心期刊的累计发文量却分别为 5 和 6 ,其主要研究领域分别为营销和管理。对其它几个 h 指数高于核心期刊发文量的点所对应作者的调查也证实了这一推论。 ● 非核心期刊高产作者成为高 h 指数作者的概率极低。 为验证本文所提基于核心期刊第一作者发文量与 h 指数相结合遴选图情领域高影响力学者方法的有效性,笔者利用前文所述方法对非核心期刊的《四川图书馆学报》和《中国信息导报》的高产作者进行检验,结果没有发现 h 指数高于 5 的新作者出现,仅获得了数个 h=4 新作者,本文所用方法的有效性得到证实。 h 指数的这一特点也在一定程度上反映了图情领域核心期刊划分的合理性。 ● 绝大多数高 h 指数作者是至少一种本专业核心期刊的核心作者。 表 3 图情领域高 h 指数作者跨核心期刊情况 跨核心期刊数量 人数 跨核心期刊数量 人数 0 37 6 8 1 53 7 4 2 36 8 1 3 21 9 3 4 9 12 1 5 14 在 h 指数不小于 5 的 187 位学者中,有 150 位是至少一种专业核心期刊的核心作者,占总比例的 80.21% 。 ● 作者 h 指数与所跨专业核心期刊数量呈正相关关系。 图 4 高 h 指数作者与所跨核心期刊数量关系图 作者所跨专业核心期刊数量是指作者成为专业核心期刊核心作者的数量,从图 4 可以看出,作者 h 指数与所跨专业核心期刊数量呈正相关关系,越是 h 指数高的作者,越容易成为多家核心期刊的核心作者。这一现象反映了论文发表中的马太效应,越是出名的专家越容易获得在众多核心期刊发文的机会。 ● 非单一核心期刊核心作者的高 h 指数作者可能是来自其它领域的跨学科研究者、本领域的后起新秀或 已故专家。 经笔者对那些 h 指数很高但所跨核心期刊数量为 0 者的深入分析,发现他们可能是跨学科研究者,其主要研究领域非本领域,也可能是本领域的青年专家或已故专家,而且 h 指数越低其是本领域后起新秀的可能性越大。如 卢泰宏和谢康的主要研究领域非图情领域, 曾蕾、丁蔚、李武等为本领域的后起新秀,刘国钧为本领域德高望重的已故专家。这也在一定程度上反映了很多本领域新秀尚无固定成果发表阵地的现象。 4 结论 笔者用核心期刊高发文量和 h 指数相结合 的方法对图情领域近三十年来的核心作者进行了一次大范围的统计研究,结果表明图情领域第一作者发文量 5 的核心作者共有 3911 人,其中 h 指数 5 的有 187 人。这 187 人绝大多数具有高级职称,可以看作是在图情领域有影响力的专家。值得指出的是,本文有可能低估了所统计作者的 h 指数。由于 CSSCI 的引文数据是针对第一作者的,所以笔者在进行 h 指数统计时的默认限制条件要比 Hirsch 原始定义 中的规定严格得多。如果不限制第一作者,一些作者的 h 指数可能会有很大增长。由于 截止笔者统计时 CSSCI 引文数据窗口仅为 1998 - 2006 年,且 CSSCI 收录期刊数量有限,加之部分数据库记录著录不规范等因素都可能导致作者的 h 指数被低估。因此,图情领域有影响力学者 h 指数的实际门槛应高于本文统计的 5 。与传统的基于高发文量的核心作者评选方法相比,本方法能剔除那些虽发文多却不为同行所看重的作者;与传统的基于高被引的核心作者评选方法相比,本方法能剔除那些偶有被引很高佳作的低产作者;与单纯的 h 指数方法相比,本方法能筛选出主要研究领域非本领域的跨学科高影响力作者;与专家评审方法相比,本方法具有操作简单、客观、准确等优势,在评价效率和所花费的代价方面也具有较大的优势。随着引文数据库向直接提供排除同名者后作者 h 指数方向发展,采用本文所介绍方法的优势会更加明显。因此,本文所提出核心期刊高发文量和 h 指数相结合 的高影响力作者评选方法对于提高作者学术成就评价、领域专家遴选等评价活动的科学性有一定的积极意义。值得注意的是,本文是基于正常引文环境得出上述结论的。由于 h 指数方法本身存在被精确注水的隐蔽缺陷 ,引文行为的异化可能对本文的结论有一定影响。 参考文献 : J.E.Hirsch. 衡量科学家个人成就的一个量化指标 . 科学观察 ,2006(1):2-7. 邱均平 , 缪雯婷 .H 指数在人才评价中的应用 -- 以图书情报学领域中国学者为例 . 科学观察 , 2007(3):17-22. 张学梅 . 用 H 指数对我国图书情报学界作者进行评价 . 图书情报工作 ,2007(8):48-50. 廉清 . 《图书情报工作》核心作者群分析研究 . 现代情报 ,2004(11):55-59. 方太强 , 周蓉 , 胡英 . 我国图书馆学情报学核心作者分析 . 图书情报工作 ,2005(1):69-73. 马费成 , 宋恩梅 . 我国情报学研究分析 : 以 ACA 为方法 . 情报学报 ,2006(3):259-268. 周春雷 , 王伟军 , 成江东 .CNKI 输出文件在文献计量中的应用 , 图书情报工作 ,2007(7):124-126. 中国图书馆学会 . 组织机构成员名单 . .ht tp://gthy.com/CN/News/2006-05/EnableSite_ReadNews10285841147276800.html 中国科学家门户 - 图书情报 . .http://www.cqvip.com/zuozhekj/tushuqb/ 苏州大学社会学院档案学图书馆学系 . 人物目录 . .http://www.liminghua.cn/renwujinian/renwujinian/renwumulu.htm 程焕文 @ 竹帛斋博客 . .http://blog.sina.com.cn/m/huanwen 叶鹰 . .http://hi.baidu.com/blueyye 吴钢 . 《图书馆》封面,下一期会是谁? . .http://7blog.sina.com.cn/s/blog_4b 19f 86010009pu.html 书间道王波的博客 . .http://blog.sina.com.cn/u/1412276081 周春雷 .h 指数的潜在缺陷 h 指数精确注水问题研究 . 图书情报工作 ,2008(8):112-114.
个人分类: h指数|7974 次阅读|3 个评论
长城证卷: 市盈率水平高低与A股指数和S&P500 指数实证研究
fuqisi 2008-12-23 17:05
  市盈率(PE ratio)作为常用估值指标之一,最近成为市场争论的热点。面对国际股市的不断下滑,我们不禁要问,股市市盈率要低到哪里才算合理?市盈率是否会跌破历史低点?为解决这个问题,我们从影响市盈率水平因素出发,分别对美国SP500指数和中国全部A股的市盈率进行分析。我们的研究结论是:   1. 当实际GDP呈现负增长时,指数市盈率会出现阶段性低点,但GDP正增速高低与指数市盈率的相关性很小;   2. 指数市盈率与CPI增速和利率呈反相关关系;   3. 当宏观经济面同时具备以下三个条件时,即滞胀时,指数市盈率才有可能接近历史低点或创出新低:实际GDP出现负增长、通货膨胀率达到历史高点、利率水平达到历史高点。 当前美国GDP增速、通货膨胀水平和利率水平三个因素都不具备使指数市盈率再创新低或接近历史低点的条件;   4. 未来27个月的5年期存款利率对A股市盈率影响最大,它能够解释76.51%的A股市盈率,其次对A股市盈率影响较大的指标是未来11个月的通货膨胀率。
个人分类: 投资:笔记与实证|2405 次阅读|0 个评论
循证医学综述中证据等级描述偏倚的实证分析(重载)
fuqisi 2008-11-30 08:55
摘要 目的:了解中文的循证医学综述中证据等级的说明和描述的合适性。方法: 通过 《 中国医院知识仓库》检索有关综述,以前提性说明、源文献标注情况等为指标进行分析。结果:在达标的 29 篇综述中: 约一半没有前提性介绍( 15/29 )、在正文中说明出处( 16/29 )或引用参考文献( 14/29 ); 5/15 篇给予了错误的前提性介绍; 24/29 篇仅介绍一种等级标准。结论:中文循证医学综述对证据等级的介绍不够全面和准确,存在描述偏倚。应大力推广系统性综述。 关键词 偏倚 描述偏倚 引文偏倚 参考文献 证据等级 证据类型 综述质量 实证研究 循证医学 由于证据类型、质量程度和结论性质的差异,对同一专题的一系列证据进行评等分级,具有一定的必要性和复杂性。 一些循证文献,主要是循证临床指南,采用标示证据等级的方式,清晰地展现结论的可靠程度和建议的推荐力度。 然而,对复杂的证据等级进行概括或叙述具有相当的难度。 在介绍循证医学的综述中,对有关证据等级描述的合适性和引用源文献的情况进行分析,可从一个方面评价该类综述的质量,了解潜在偏倚的某些因素,为提出针对性改进措施,提高综述的质量和规范化程度提供依据。 1 资料与方法 1.1 目标文献 入选标准:介绍、说明或概括性描述证 据等级的文献;综述或评论类文献(三次文献);中国大陆的中文文献; 1996-2005 年的文献。剔除标准:应用证据等级标准的文献;译文。 1.2 检索方法 数据库:《中国医院知识仓库》 (192.168.200.235 , CHKD) 中 CNKI 期刊全文库的医药卫生子库。检索式:循证医学(关键词) AND 证据等级(全文) OR 证据类型(全文) OR 证据级别(全文) OR 证据分类(全文)。 2006 年 5 月实施检索。 1.3 分析方法 标准或指标:前提性说明;在正文中说明来源或出处;以引文的方式标注源文献;介绍的证据等级标准的数量。 前提性说明分为:直接说明,如有多种证据等级 等;隐含说明,如公认的标准是 等;不说明;错误说明,如循证医学将证据分为 等。另外,在引文中标注源文献,视为在正文中说明来源或出处,但在正文中说明来源或出处,不计为在引文中标注源文献。 2 结果 2.1 检索和筛选结果 检索到文献 81 篇,经筛选, 29 篇文献(综述)符合要求。在 52 篇剔除的文献中, 34 篇无有关内容(其中 3 篇为重复文献), 12 篇为直接应用, 5 篇译文, 1 篇没有读取全文。 2.2 描述和分析的结果 在 29 篇综述中,绝大多数为比较全面的循证医学的概述,最早论及证据等级的出现在 1998 年。这些文献描述证据等级的繁简程度不一。大多数采用一个段落或几个句子和附表的方式,简介一种证据等级标准。 5 篇综述介绍了 2-4 个标准。最为全面的一篇系统性综述介绍了 4 种代表性等级标准,还归纳了制定标准所依据的因素 。 有约一半的综述没有进行前提性介绍、在正文中说明出处或引用参考文献(表 1 )。在 15 篇有前提性说明的综述中, 1/3 为错误的介绍(表 1 )。 表 1 29 篇综述中介绍证据等级的情况 前提性介绍 正文 引文 直接 隐含 缺乏 错误 出处 3 6 15 5 16 14 在比较恰当地介绍(直接和隐含)中,有 3 种表达方式:普遍采纳或认可的为如下等级,或大致或一般分为如下等级;某机构公布的或不同机构时常采用的等级标准如下;直接列出 2 种以上的标准。 错误的说明方式表现为,(按照)循证医学理论、原理或原则,提出、形成或有一套或一个等级标准或分类方法。 3 讨论 对于复杂的问题,化繁为简是一种积极的可行的处理方式。由于医学证据的复杂性,证据的等级标准必然具有多样性和适用性等特性,且不易进行概括性说明。 虽然,在输入关键词偏倚检索《中国医院知识仓库》( 2006 年 4 月)获得的 85 篇文献中,没有同样和类似的研究文献,但根据上述结果基本可以确认,中文的循证医学文献对证据等级标准的简介或说明,不够全面和准确,存在描述偏倚。 循证方法包括,比较全面地收集文献、比较客观地选评文献和比较科学的综合文献。造成描述偏倚的原因可能包括: ① 部分作者没有充分认识医学证据的复杂性; ② 绝大部分采用典型的叙述性综述,没有比较系统地检索文献; ③ 部分作者没有重视事实等依据的说明或标注; ④ 少数作者没有灵活地应用循证医学,盲目崇拜循证原理。 我们应该大力倡导,采用系统性综述 或循证方式,检索文献、评选文献和综合文献,从而全面地整体地提高综述的质量和规范化程度。 参考文献 1 管红珍 , 彭智聪 , 傅 鹰 . 循证医学中文献证据等级标准的系统性综述 . 药物流行病 学杂志 , 2002,11(3):145-148 2 廖静秋 , 赵亚群 , 傅 鹰 . 系统性综述简介 . 药物流行病学杂志 , 1999,8(1):40-45
个人分类: 学术偏倚|3184 次阅读|0 个评论
中医疗法Meta分析结果解读偏倚的实证分析(摘要)
fuqisi 2008-11-30 08:48
目的 :了解中药等中医疗法 Meta 分析中,结果解释的难度和存在的问题。 方法 : 通过《中国医院知识仓库》收集有关 Meta 分析,对结果与结论的异同、结论和建议对结果的修正等情况进行分析和比较。 结果 :在达标的 54 篇 Meta 分析中,仅一篇的综合结果为无效。在 Cochrane 组和其他方法组中,结论对结果不肯定的分别为 16/37 和 1/16 ; Ridit 分析显示,两组间存在显著性差异( P 0.01 )。两组建议进一步研究的比例分别为 31/37 和 1/16 , 2 检验显示,存在显著性差异 0.01 )。 结论 :不同学者对中医疗法 Meta 分析结果的解释存在明显地差别;需要开展更为严格的临床试验,进一步验证一些疗法的效果。
个人分类: 学术偏倚|2074 次阅读|1 个评论
镁剂治疗心肌梗死综述引文偏倚的实证研究(重载)
fuqisi 2008-11-30 08:46
关键词 偏倚 引文偏倚 参考文献 镁剂 心肌梗死 综述 系统性综述 实证研究 循证医学 在汇总有关原始研究而形成综述的过程中,不规范的操作可能引起偏倚。 镁剂治疗急性心肌梗死的试验结果存在着明显的分歧和争议多数小型或较大型随机对照临床试验的结果或 Meta 分析的结果为有效,而两项大型多中心临床试验的结果都为无效 。在综合这类研究文献时,应比较系统地收集有关原始研究,对等地引用有关支持和反对类两方面的证据。 在国内已发表的镁剂治疗心肌梗死的文献中,对有关综述中文献收集和引用的情况进行分析,可从一个方面评价该类综述的质量,了解潜在偏倚的某些因素,为提出针对性改进措施,提高综述的质量和规范化程度提供依据。 1 资料与方法 1.1 目标文献 入选标准:介绍或说明镁剂(硫酸镁、门冬氨酸钾镁、牛磺酸镁和 1,6- 二磷酸果糖镁等)对急性心肌梗死治疗作用的文献;综述类文献,包括叙述性和系统性综述(定性或定量的,或系统评价或 Meta 分析)。剔除标准: 1996 年以前的文献;译文。 1.2 检索方法 数据库:《中国医院知识仓库》 (192.168.200.235 , CHKD) 中 CNKI 期刊全文库的医药卫生子库。检索式: ① 镁(关键词) AND 心肌梗(关键词) OR 心肌梗(全文), 1996-2002 年; ② 镁(全文) AN D 心肌梗(全文), 2003-2005 年。 2006 年 4 月实施检索。 主要指标:文献检索方法;支持类证据的引用(提及、简介)和标引;重点不支持类证据的引用;有关指南的引用;有关不支持证据或指南的标引。次要指标:引文中有无英文文献。主要的不支持类证据及其中文摘要和有关指南包括: 1995 年发表的 ISIS-4 试验 、 2002 年发表的 MAGIC 试验 、 ACC/AHA 指南 和中华医学会心血管病学分会的指南 。比较两类证据被引用或标引的差异。 2 结果 检索到 1996-2002 年的文献 147 篇,经筛选, 23 篇文献符合要求(表 1 左栏);检索到 2003-2005 年的文献 970 篇(不包含尚未被数据库录入的 2005 年的文献), 18 篇达标(表 1 右栏)。在可能符合要求的文献中分别有 1 和 2 篇因没有读取全文,而不知是否达标。 表 1 检索提及引用的情况 检索号 作者 年份 检索 ISIS-4 MAGIC 指南 标引 检索号 作者 年份 检索 ISIS-4 MAGIC 指南 标引 4 花 1996 未 未 未 未 5 王 1996 未 未 未 未 9 周 1996 未 未 未 未 14 邹 1997 未 未 未 未 15 李 1997 未 未 未 未 18 孙 1997 未 未 未 未 40 刘 1999 未 未 未 未 62 陈 2000 未 未 未 未 65 翟 2000 未 未 未 未 66 王 2000 未 未 未 未 70 马 2000 未 提 未 未 74 李 2000 未 未 未 未 83 舒 2001 未 未 未 未 91 凌 2001 未 未 未 未 97 周 2001 未 未 未 未 99 周 2001 未 未 未 未 103 马 2001 未 未 未 未 114 徐 2001 未 未 未 未 115 魏 2001 未 未 未 未 119 邵 2002 未 提 未 未 有 120 周 2002 未 未 未 未 未 132 周 2002 未 未 未 未 未 135 黎 2002 未 提 未 未 有 51 王 2003 未 未 未 未 未 69 李 2003 未 未 未 未 未 159 张 2003 未 未 未 未 未 173 杨 2003 未 未 未 未 未 191 朱 2003 未 未 未 未 未 214 张 2003 未 提 提 未 有 331 张 2004 未 未 未 未 未 344 于 2004 未 未 未 未 未 364 倪 2004 未 提 提 未 有 369 任 2004 未 提 提 未 未 421 张 2004 未 提 提 提 有 427 曹 2004 未 未 未 未 未 533 张 2004 未 未 未 未 未 586 赵 2004 未 未 未 未 未 649 傅 2005 未 提 未 提 有 664 郑 2005 未 提 未 未 未 823 徐 2005 未 提 未 未 未 870 吴 2005 未 未 未 未 未 合计 0 3 0 0 2 合计 0 8 4 2 4 未读取全文: 79,772 和 804 。 标引:标引不支持类证据;无参考文献: 91,364 和 533. 在达标的 41 篇综述中, 3 篇未标引任何参考文献, 11 篇( 27% )的参考文献全为中文, 所有综述均没有明示进行了比较系统的文献检索(表 1 )。 在 41 篇综述中, 36 篇( 88% )提及、简介或标引了支持类研究文献,但只有 10 篇( 24% )引用或标引了不支持类证据和指南。 11 篇( 28% )提及或简介了 ISIS-4 试验, 2 篇( 5% )文献均提及或简介了有关指南。在 2003-2005 年的 18 篇文献中, 4 篇( 22% )文献提及或简介了 MAGIC 试验。 6/41 ( 15% )的文献将 ISIS-4 试验、 MAGIC 试验或有关指南作为参考文献标引。 2003-2005 年提及、简介或标引的情况比 1996-2002 年出现明显改善。 对两类证据被引用或标引比例( 36/41 和 10/41 )进行 2 检验有: 2 =33.47 ,大于 2 ( 0.001, 1 ) =10.83 , P 0.001 ,即不支持类证据和指南被综述引用或标引的情况非常显著性的少于支持类证据,或通俗而粗略地表达为:支持类证据是不支持类的 3 倍多。 3 讨论 输入关键词偏倚检索《中国医院知识仓库》( 2006 年 4 月),获得 85 篇文献,没有同样和类似的文献。应用检索式 (citation bias OR reference bias OR quotation bias) AND review 检索 Medline ( 2006 年 4 月),获得 590 篇文献,有 2 篇同样研究的文献。 Hutchison 等研究 的摘要显示,在肺炎球菌疫苗效果的综述中,不支持类与支持类证据被引用的情况相差 2 倍。 Schmidt 等的研究显示 ,在理疗等干预措施能否减轻粉尘对哮喘患者影响的综述中,引文中结果阳性试验文献的比例高于有关研究中阳性试验的比例,存在着引文偏倚( P =2 10 -8 )。尽管本文方法中的检索方法可能遗漏一些有关综述,但基本上可以肯定,在镁剂治疗心肌梗死的中文综述文献中,不支持类证据被引用或标引的比例明显少于支持类证据,存在引用偏倚。 造成引用偏倚的原因可能包括四个没有: ① 所有作者均采用典型的叙述性综述,没有比较系统地检索文献; ② 部分作者习惯于选用中文文献,没有利用外文文献; ③ 大部分作者没有重视指南等专业组织的意见在争议性或复杂性问题中的解读作用 ; ④ 许多作者没有对等关注不支持类证据。 参考文献 1 急性心肌梗死门冬氨酸钾镁治疗协作组 . 急性心肌梗死早期门冬氨酸钾镁治疗多中心随机对照试验 . 中华心血管病杂志 , 2002, 30 ( 2 ) :82-85 2 ISIS-4 Collaborarive Group. ISIS-4: a randomized factorial trial assessing early oral captopril, oral mononitrate, and intravenous magnesium sulphate in 58050 patients with suspected acute myocardial infarction. Lancet , 1995,345:669-685 3 程 违 ( 节译 ). ISIS-4: 在 58 050 名心肌梗塞病人中评价卡托普利或单硝酸脂和静滴硫酸镁的试验 . 国外医学药学分册 , 1995, 22: 222-225 4 MAGIC Trial Investigators. Early administration of intravenous magnesium to high-patients with acute myocardial infarction in the Magesium in Coronaries(MAGIC) Trial: a randomized controlled trial. Lancet, 2002,360:1189-1196 5 Ryan TJ, Anderson JT, Antman EM, et al. ACC/AHA guidelines for the mangement of patients with acute myocardial infarction. J Am Coll Cardiol, 1996,28:1328-1348 或 Circulation , 1996,94,2341-2350 6 胡大一 . 急性心肌梗死治疗指南要点 (1996 年 ACC/AHA 要点 ). 中国医药导报 , 1999,1 :25-27 7 中华医学会心血管病学分会 , 中华心血管病杂志编委会 , 中国循环杂志编委会 . 急性心肌梗死诊断与治疗指南 . 中华心血管病杂志 , 2001,29:710-725 8 Hutchison BG, Oxman AD, Lloyd S. Comprehensiveness and bias in reporting clinical trial. Study of reviews of pneumococcal vaccine effectiveness. Can Fam Physician, 1995,41:1356-1360( 摘要 ) 9 Schmidt LM, Gotzsche PC. Of mites and men: reference bias in narrative review articles: a systematic review. J Fam Pract, 2005,54:334-338 10 丁立忠 , 傅 鹰 . 性激素补充疗法指南类文献的系统性综述 . 药物流行病学杂志 , 2003,12:264-271 11 廖静秋 , 赵亚群 , 傅 鹰 . 系统性综述简介 . 药物流行病学杂志 , 1999,8:40-45
个人分类: 学术偏倚|1870 次阅读|0 个评论
药物心肌梗死随机临床试验基线偏倚的实证研究(重载)
fuqisi 2008-11-30 08:45
摘 要 目的 :了解药物治疗心肌梗死随机对照临床试验中两组病例数等基线指标分布的均衡性。 资料与方法 :通过《中国医院数字图书馆》中的 CNKI 期刊全文库检索文献。描述两组群基线指标差别分布的情况,行符号检验等确定差异的统计学意义。 结果 :在入选的 171 项试验中,完整地介绍两组基线情况的研究不足 1/4 。在各项基线指标中,两组年龄、治疗时机、广泛梗死比、休克比和非 Q 波梗死比的差别分布比较均衡,而病例数、女性比、心衰比、心肌酶峰值和陈旧性梗死比的分布似不均衡。符号检验和 Ridit 检验显示,试验组群与对照组群在病例数目、女性构成比和心衰患者构成比的差别分布的差异具有统计学意义。两组群分别合计数据的 2 检验显示:两组群女性比的差异没有统计学意义,但临界,且大型研究的情况左右着统计分析的结果;心衰病例构成比的差异没有统计学意义。 结论 :基线情况的介绍欠完整,试验组群与对照组群的基线指标存在着不均衡的现象和倾向。 关键词 偏倚 基线 基线资料 实证研究 心肌梗死 随机对照临床试验 随机对照临床试验是比较可靠的试验方式,但设计和操作的随意性或主观性可能影响研究的质量,甚至造成偏倚。镁剂(硫酸镁、门冬氨酸钾镁等)治疗急性心肌梗死的效果存在着明显的分歧和争议。多数小型或较大型随机对照临床试验的结果或 Meta 分析的结果为有效,而两项大型多中心临床试验的结果为无效 。造成这种分歧的原因可能包括,两类试验应用镁剂的剂量、时间,或发表偏倚、研究质量的不同等。通过对国内已发表的药物治疗心肌梗死的随机对照临床试验中试验组与对照组病例数、年龄、性别比等基线情况的比较和分析,可从一个方面评价试验群的质量,并探索引起偏倚的某些因素。 1 资料与方法 1.1 文献入选和排除标准 入选标准:中文的药物治疗急性心肌梗死的随机对照临床试验;两种方案比较的试验;以临床指标为主的试验; 1994-2004 年的文献。排除标准:未明示随机分配病例的文献;除 1 : 1 配比外,未明示配置比例的文献; 3 组或 3 组以上的研究,但其他组为开放性研究时除外;自身对照研究;没有分别介绍两组的年龄均值和性别比的文献;以心绞痛或陈旧性心肌梗死患者为主要对象的文献;没有临床指标的文献;以安全性指标为主的文献;回顾性或亚组或再随访类文献;没有摘要的文献;国外的文献。 1.2 收集文献的方法 数据库:《中国医院数字图书馆》 (192.168.200.235) 中 CNKI 期刊全文库。检索式: 心肌梗死(关键词) OR 心肌梗塞(关键词) AND 随机(摘要)。 2005 年 9 月实施检索。 1.3 分析的内容和方法 分析的内容和方法选择两组的病例数目、年龄均值、女性构成比、治疗时机(入院或分组或开始治疗时间)均值、广泛前壁梗死构成比、心肌酶高峰均值、干预前心衰构成比、休克或低血压构成比为进行分析的基线指标。 按年份记录试验组各个基线指标大于、等于和小于对照组的试验数目,描述两组基线均值或构成比差别分布的情况。采用符号检验( sign test )分析各种基线在两组中分布差别的统计学意义。对符号检验显示具有统计学意义的指标分别进行两组构成比直接加权合计值的 2 检验和差别分布的 Ridit 分析。 按年份记录试验组各个基线指标大于、等于和小于对照组的试验数目,描述两组基线均值或构成比差别分布的情况。采用符号检验()分析各种基线在两组中分布差别的统计学意义。对符号检验显示具有统计学意义的指标分别进行两组构成比直接加权合计值的检验和差别分布的分析。 2 结果 2. 1 检索和收集结果 检索到 878 篇文献,其中达标文献 171 篇。 2.2 两组基线均值或构成比差别分布的分析 2.1.1 直观印象 两组基线均值或构成比差别分布的分析直观印象 在 171 篇或项随机对照临床试验中,分别介绍了试验组与对照组的治疗时机均值,广泛或复合梗死、心衰、休克或低血压构成比,心肌酶均值,陈旧性心梗、非 Q 波梗死构成比的研究不足 1/4 (见表 1 )。对于年龄、入院时间、广泛梗死比、休克比和非 Q 波梗死比基线指标,试验组有关值大于对照组的研究数目( n + )与试验组小于对照组的研究数目( n - )(或差别分布)比较均衡,而两组的病例数、女性比、心衰比、心肌酶峰值和陈旧性梗死比的差别分布似不均衡(见表 1 )。在 45 项两组病例数相等的研究中,均介绍了女性构成比,但仅有 1 项的女性构成比相等。 表 1 1994-2004 年心肌梗死随机试验中两组基线指标差别分布的情况 (试验数目) 年份 病例数目 年 龄 女性比 治疗时机 广泛心梗比 心衰比 休克比 肌酶峰值 陈旧心梗比 非 Q 波比 n + n = n - n + n = n - n + n = n - n + n = n - n + n = n - n + n = n - n + n = n - n + n = n - n + n = n - n + n = n - 1994 2 0 2 0 0 4 2 0 2 0 0 1 0 0 2 1 0 0 1 0 0 1995 3 0 0 1 0 1 0 0 3 1 0 0 1 0 0 0 0 0 1 0 0 1996 2 1 5 3 1 3 3 0 5 1 0 2 1 0 1 1 0 0 0 0 1 1 0 0 1997 4 3 1 4 0 3 3 0 5 3 0 0 1 0 1 1 0 0 0 0 1 2 0 0 1998 6 1 2 3 0 6 4 0 5 1 0 2 2 0 0 1 0 0 1 0 0 1999 6 2 6 4 1 7 3 0 11 0 0 2 3 0 0 0 0 1 2000 14 3 2 11 0 6 5 0 14 1 0 3 3 0 2 1 0 0 1 0 0 1 0 1 2001 11 6 2 8 0 8 6 0 12 2 0 2 2 0 2 1 0 0 0 0 1 2 0 0 2002 14 12 8 12 0 20 13 0 21 3 1 0 5 0 4 1 1 2 1 0 2 1 0 0 1 0 0 1 0 1 2003 12 11 9 13 4 11 14 1 17 2 0 2 0 0 4 4 1 0 2 1 1 2 0 0 3 1 0 2 1 2 2004 12 6 3 15 0 7 12 0 9 1 0 1 3 0 1 1 0 1 2 0 1 合计 86 45 40 74 6 76 65 1 104 15 1 15 21 0 17 10 2 2 4 1 4 7 0 2 11 1 4 5 1 3 注:休克比:休克或低血压的构成比; n + :试验组均值或构成比大于对照组的试验数; n = :两组相等的试验数; n - :对照组大于试验组的试验数. 2.2.2 符号检验 将表 1 中 1994-1999 、 1994-2000 1994-2004 年病例数目的差别分布( n + 和 n 分别累计)的数据代入配对资料符号检验的简便公式 2 = 2 / ( n + + n - ) 计算得到相应年段的 2 值分别为 0.92 、 5.89 、 10.72 、 12.10 、 11.67 和 16.07 。从 1994-2000 年段开始, 2 值就大于 2 (1 , 0.05) =3.841 ( P 0.05 ),即对 7 年或 7 年以上累计的数据进行检验显示,试验组病例数大于对照组的研究数目( n + )多于对照组大于试验组的研究数目( n - ),差异具有统计学意义。按照上述方式计算得到的 1994-1998 等年段女性构成比的 2 值分别为 2.06 、 5.69 、 8.86 、 10.84 、 12.34 、 11.35 和 8.54 。对 6 年或 6 年以上累计数的检验显示,试验组女性比大于对照组的研究数目( n + )少于对照组大于试验组的研究数目( n - ),差异具有统计学意义。 将两组心衰构成比分别合计的差别分布值( 10 , 2 )代入有: 2 =4.08 ,大于 2 (1 , 0.05) =3.841 ( P 0.05 ),即在介绍了两组心衰构成比的 14 项研究中,试验组心衰构成比大于对照组的研究数目( n + )多于对照组大于试验组的研究数目( n - ),差异具有统计学意义。但两组的心肌酶峰值和陈旧性梗死比的差别分布均没有统计学意义。 2.2.3 Ridit 检验 检验 以年龄的差别分布值( 74 , 7 , 76 )计算标准 R 值有: 0.2372 、 0.4936 和 0.7564 。计算两组群病例数目差别分布的 R 值, R 例数 为 0.5425 , 95% 可信区间为 0.5009 ~ 0.5841 ,两者差别分布的差异具有统计学意义(不包含 0.5 )。两组群女性构成比差别分布的 R 女 为 0.5563 , 95% 可信区间为 0.5146 ~ 0.5980 ,差别分布的差异具有统计学意义。同样,两组群心衰构成比差别分布的 R 心 为 0.3480 , 95% 可信区间为 0.2025 ~ 0.4935 ,差异具有统计学意义。 2.3 两组合计数据的 2 检验 2.3.1 女性构成比合计值的比较 在 170 项介绍了有关数据的研究中,两组分别合计的女性例数和(男女)病例数的情况见表 2 。对所有入选研究合计的两组女性比行 2 检验有, 2 =2.087 ,小于 2 (1 , 0.05) =3.841 ( P ﹥ 0.05 )。剔除一项最大样本研究后,对两组女性比行 2 检验有, 2 =8.317 ,大于 2 (1 , 0.01) =6.635 ( P 0.01 )。剔除二项最大样本研究后,对两组女性比行 2 检验有, 2 =3.345 ,大于 2 (1 , 0.10) = 2.706 ,小于 2 (1 , 0.05) =3.841 ,即 0.10 ﹥ P ﹥ 0.05 ,临界。实际上,对样本第 2 大的研究 单独行 2 检验有, 2 =3.614 ,更为临界。 表 2 两组心衰例数和病例数的情况 所有入选研究 剔除一项最大样本研究后 剔除二项最大样本研究后 组别 女性数 病例数 构成比 女性数 病例数 构成比 女性数 病例数 构成比 试验组 4240 15437 0.2747 2756 9771 0.2821 2316 8080 0.2866 对照组 4175 14799 0.2821 2721 9120 0.2984 2289 7632 0.2999 2.3.2 心衰构成比合计值的比较 心衰构成比合计值的比较在 14 项介绍了有关数据的研究中,两组分别合计的心衰例数和(心衰和非心衰)病例数的情况见表 3 。行 2 检验有, 2 =1.096 ,小于 2 (1 , 0.05) =3.841 ( P ﹥ 0.05 )。 表 3 两组心衰例数和病例数的情况 组别 心衰例数 病例数 心衰构成比 试验组 1627 7874 0.2066 对照组 1533 7670 0.1999 3 讨论 在入选的 171 篇或项随机对照临床试验中,详细或完整地介绍两组基线情况的研究不足 1/4 。在各项基线指标中,直观的两组年龄、治疗时机、广泛梗死比、休克比和非 Q 波梗死比的差别分布比较均衡,而病例数、女性比、心衰比、心肌酶峰值和陈旧性梗死比的分布似不均衡。符号检验和 Ridit 检验显示,试验组群与对照组群在病例数目、女性构成比和心衰患者构成比方面的差别分布差异具有统计学意义。然而,对两组群分别合计的数据行 2 检验显示:两组群女性比的差异没有统计学意义,但临界,且大型研究的情况左右着统计分析的结果;心衰病例构成比的差异没有统计学意义。根据这些结果,基本上可以推断,在药物治疗心肌梗死的随机对照临床试验中,存在着基线不匀的现象和倾向。 在入选的篇或项随机对照临床试验中,详细或完整地介绍两组基线情况的研究不足。在各项基线指标中,直观的两组年龄、治疗时机、广泛梗死比、休克比和非波梗死比的差别分布比较均衡,而病例数、女性比、心衰比、心肌酶峰值和陈旧性梗死比的分布似不均衡。符号检验和检验显示,试验组群与对照组群在病例数目、女性构成比和心衰患者构成比方面的差别分布差异具有统计学意义。然而,对两组群分别合计的数据行检验显示:两组群女性比的差异没有统计学意义,但临界,且大型研究的情况左右着统计分析的结果;心衰病例构成比的差异没有统计学意义。根据这些结果,基本上可以推断,在药物治疗心肌梗死的随机对照临床试验中,存在着基线不匀的现象和倾向。 键入偏倚检索《中国医院数字图书馆》中 CNKI 期刊全文库的临床医学部分,获得 72 篇文献( 2005-9 检索),未见相同内容的文献,但有 2 篇的部分内容文献相同 。采用 bias AND randomized controlled trials AND (baseline OR clinical characteristics) 检索 Medline ,获得 341 篇文献( 2005-9 检索),没有相同内容的文献,但有 3 篇的部分内容相同 。 键入偏倚检索《中国医院数字图书馆》中期刊全文库的临床医学部分,获得篇文献(检索),未见相同内容的文献,但有篇的部分内容文献相同。采用检索,获得篇文献(检索),没有相同内容的文献,但有篇的部分内容相同。 金晓东等 和赵国玺等 对国内的随机对照双盲临床试验中两组例数和剔除例数的实证分析显示:试验组的病例数多于对照组,而对照组剔除的例数多于试验组;剔除例数不匀是例数差别的重要原因。然而, Tierney 等对国外的药物治疗肿瘤方面的 14 个 Meta 分析中 133 项随机对照试验的剔除偏倚( exclusion bias )的实证研究显示,试验组群剔除的病例偏多(未进行统计学处理) 。根据论文中的方框图 ,我们对数据进行定性转换有:在 14 对组群(试验与对照)中, 12 个试验组群剔除的例数多于其对照组群, 1 个的两组群似相等, 1 个试验组群剔除的例数少于其对照组群(符号检验显示具有统计学意义)。 Berger 等通过自己积累的资料发现, 14 项随机试验可能( suspicious )存在选择偏倚或基线不匀,并认为这只是冰山一角 。在 Martinsson 等进行的一项 Meta 分析中,两项随机对照试验的基线不匀,试验组病情严重者较多 。 金晓东等和赵国玺等对国内的随机对照双盲临床试验中两组例数和剔除例数的实证分析显示:试验组的病例数多于对照组,而对照组剔除的例数多于试验组;剔除例数不匀是例数差别的重要原因。然而,等对国外的药物治疗肿瘤方面的个分析中项随机对照试验的剔除偏倚()的实证研究显示,试验组群剔除的病例偏多(未进行统计学处理)。根据论文中的方框图,我们对数据进行定性转换有:在对组群(试验与对照)中,个试验组群剔除的例数多于其对照组群,个的两组群似相等,个试验组群剔除的例数少于其对照组群(符号检验显示具有统计学意义)。等通过自己积累的资料发现,项随机试验可能()存在选择偏倚或基线不匀,并认为这只是冰山一角。在等进行的一项分析中,两项随机对照试验的基线不匀,试验组病情严重者较多。 在资料与方法中采用的检索方法,必定遗漏一些有关的随机试验,故而这项研究是一种抽样研究。尽管注意对亚组或重复利用病例的研究进行剔除,但因此只剔除了 3 项研究,其中两项是数千病例的大型研究。虽然有些研究的两组例数差别很大(如 88 与 52 , 50 与 30 , 89 与 62 等),但因作者明示为随机分组,故没有剔除这些研究。在基线指标的中,没有设置梗死部位和心功能等级的分布情况作为指标,因为分类不统一或太复杂。介绍了两组心衰比的研究较少,有关数据些许不同就可能影响差异显著性检验结果的性质。 在资料与方法中采用的检索方法,必定遗漏一些有关的随机试验,故而这项研究是一种抽样研究。尽管注意对亚组或重复利用病例的研究进行剔除,但因此只剔除了项研究,其中两项是数千病例的大型研究。虽然有些研究的两组例数差别很大(如与,与,与等),但因作者明示为随机分组,故没有剔除这些研究。在基线指标的中,没有设置梗死部位和心功能等级的分布情况作为指标,因为分类不统一或太复杂。介绍了两组心衰比的研究较少,有关数据些许不同就可能影响差异显著性检验结果的性质。 一般来说,两组基线不均衡的主要原因包括,随机分组不规范和剔除病例不规范。这种不规范的操作现象,反映出自觉或不自觉的引起主观偏倚的倾向,而主观偏倚,包括组别偏倚和剔除偏倚方向大多是偏袒试验组一定程度夸大了试验组的疗效 。所以,我们定性地推测,在药物治疗心肌梗死的随机对照临床研究中,由于部分试验的基线不匀,总体治疗效果被夸大。 一般来说,两组基线不均衡的主要原因包括,随机分组不规范和剔除病例不规范。这种不规范的操作现象,反映出自觉或不自觉的引起主观偏倚的倾向,而主观偏倚,包括组别偏倚和剔除偏倚方向大多是偏袒试验组一定程度夸大了试验组的疗效。所以,我们定性地推测,在药物治疗心肌梗死的随机对照临床研究中,由于部分试验的基线不匀,总体治疗效果被夸大。 然而,很难解释两组群分别合计数据的 2 检验的结果(差异没有统计学意义),也不清楚部分基线指标不均衡的明确原因、对总体疗效结果的确切影响和作用机制。这或许是值得注意和研究的问题。应积极推广 CONSORT 标准(《随机试验报道的统一标准》, Consolidated Standards of Reproting Trials ) ,清晰地完整地介绍随机试验的情况,以便全面显现宝贵的试验成果,更好地分析试验的质量,解读试验的结果。 然而,很难解释两组群分别合计数据的检验的结果(差异没有统计学意义),也不清楚部分基线指标不均衡的明确原因、对总体疗效结果的确切影响和作用机制。这或许是值得注意和研究的问题。应积极推广标准(《随机试验报道的统一标准》,),清晰地完整地介绍随机试验的情况,以便全面显现宝贵的试验成果,更好地分析试验的质量,解读试验的结果。 参考文献 1 急性心肌梗死门冬氨酸钾镁治疗协作组 . 急性心肌梗死早期门冬氨酸钾镁治疗多中心随机对照试验 . 中华心血管病杂志 , 2002, 30 ( 2 ) :82-85 2 MAGIC Trial Investigators. Early administration of intravenous magnesium to high-patients with acute myocardial infarction in the Magesium inCoronaries(MAGIC) Trial: a randomized controlled trial. Lancet, 2002,360:1189-1196 3 金晓东 , 李进 , 傅鹰 . 随机对照双盲临床试验中两组例数差别的实证分析 . 药物流行病学杂志 , 2004,11:271-273 4 赵国玺 , 傅鹰 . 随机对照双盲临床试验中病例剔除情况的分析 . 药学实践杂志 , 2005,23:93-95 5 Tierney JF, Stewart LA. Investigating patient exclusion bias in meta-analysis. Int J Epidemiol, 2005,34:87-88 6 Berger VW, Weinstein S. Ensuring the comparability of comparison groups: is randomization enough? Control Clin Trials, 2004,25:515-524 7 Martinsson L, Wahlgren NG, Hardemark HG. Amphetamines for improving recovery after stroke. Cochrane Database Syst Rev, 2003,(3):CD002090( 摘要 ) 8 傅鹰 . 组别偏倚实证研究案例?西沙比利治疗功能性消化不良结果的差别 . 药物流行病学杂志 , 2005,14:102-104 9 Altman DG, Schulz KF, Egger M, et al . The revised CONSORT statement for reporting randomized trials: Explanation and elaboration . Ann Intern Med , 2001,134(8):663-694
个人分类: 学术偏倚|2120 次阅读|0 个评论
药物治疗抑郁症随机双盲试验基线偏倚的实证研究(重载)
fuqisi 2008-11-30 08:42
摘 要 目的 :了解药物治疗抑郁症随机对照双盲临床试验中两组群基线指标的均衡情况 方法 :通过《中国医院数字图书馆》中的 CNKI 期刊全文库检索文献。描述两组群基线指标差别分布的情况,行符号检验和 Meta 分析等确定差异的统计学意义。 结果 :在入选的 82 项试验中,两组群的病例数、年龄、性别比和病程病期的差别分布比较均衡,而 NAMD 值的分布似不均衡。符号检验和 Ridit 检验定性分析显示,试验组 HAMD 基值大于对照组的研究数目多于对照组大于试验组的研究数目,两组群的差别分布的差异具有统计学意义。 Meta 分析定量分析显示,试验组群 HAMD 基值比对照组群大 0 . 10 , 95 %可信区间 0 . 047 - 0 . 153 。 结论 :试验组群与对照组群的 HAMD 基值存在不均衡现象;随机双盲临床试验也可能存在基线不匀的情况 。 关键词 偏倚 基线 基线资料 抑郁症 随机对照试验 双盲试验 实证研究 Meta 分析 循证医学 1 资料与方法 1.1 文献入选和排除标准 入选标准:中文的药物治疗抑郁症或抑郁障碍的随机对照双盲临床试验;两种方案比较的试验;以 HAMD 量表测评为主要观察指标的试验; 1994-2005 年的文献。 排除标准:未明示随机分配病例的文献;未明示为双盲操作的试验;除 1 : 1 配比外,未明示配置比例的文献; 3 组或 3 组以上的研究,但其他组为开放性研究时除外;自身对照研究;没有分别介绍两组的 HAMD 基线均值的文献;分别介绍病例剔除前后两组的 HAMD 基线均值( 4 组均值)的文献;以安全性评价为主要指标的文献;亚组分析或再随访类文献;已纳入的多中心试验的分点试验;国外的文献;明显的摘要类文献;试验组的干预为非药物措施的文献。 1.2 收集文献的方法 数据库:《中国医院数字图书馆》 (192.168.200.235) 中 CNKI 期刊全文库。检索式: 抑郁(关键词) AND 双盲(关键词) OR 双盲(摘要)。 2006 年 3 月实施检索。 1.3 分析的内容和方法 选择两组的病例数目、年龄均值、男女性别比、病程病期和 HAMD 值(不对 HAMA 值)作为分析的基线指标。 记录试验组各个基线指标大于、等于和小于对照组的试验数目,描述两组基线均值或比值差别分布的情况,并进行直观分析。对直观印象可疑的基线指标,采用符号检验( sign test )分析两组差别的统计学意义。对符号检验显示具有统计学意义的指标,进行差别分布的 Ridit 分析。 对试验组与对照组的 HAMD 基线均值,采用定量资料的 Cochran 法进行 Meta 分析(经异质性检验齐性一致,故采用固定效应模型)。 2 结果 检索到 128 篇文献( 6 篇无法读取全文),其中达标文献 82 篇, 但有 2 篇没有介绍 HAMD 基值的标准差。剔除了分点试验 5 篇, 4 组均值的 1 篇。 2.2 两组基线均值或比值差别分布的分析 2.2.1 直观印象 在 82 篇或项随机对照双盲临床试验中,分别介绍了试验组与对照组的年龄、男性或女性人数、病程或病期的有 70 , 65 和 48 篇(表 1 )。对于病例数、年龄、性别比和病程病期基线指标,试验组有关值大于对照组的研究数目( n + )与试验组小于对照组的研究数目( n - )(差别分布)比较均衡,但两组的 HAMD 值的差别分布似不均衡(表 1 )。 表 1 两组群基值差别分布的情况(试验数目) 指标 试验数目 n + n = n - 试验特点 HAMD 值试验数目 n + n = n - 病例数目 20 44 18 年龄 28 03 39 性别比 33 00 32 病程病期 21 04 23 HAMD 值 52 02 28 多中心 8 0 3 进口药 3 0 3 国产药 18 0 6 老卒癌它 5 1 8 注:性别比:男女病例数之比; n + :试验组均值或比值大于对照组的试验数; n = :两组相 等的试验数; n - :对照组大于试验组的试验数。老卒癌它:老年、卒中、癌症和其它 疾病患者伴发的抑郁。 在明示了试验特点的文献中,多中心、国产药(试验组)类研究的差别分布似不均衡,而老年、卒中、癌症和其它疾病伴发抑郁类研究的分布出现反向,但数据均较少。另外, 16 , 30 和 108 号试验两组数据的差别偏大(表 2 )。 2.2.2 符号检验 将表 1 中 HAMD 基值( n + 和 n )的数据代入配对资料符号检验的简便公式: 2 = 2 / ( n + + n - ) = ( 52-28-1 ) 2 / ( 52+28 ) = 6.6125 大于 2 (1 , 0.02) = 5.412 ( P 0.05 ),即试验组 HAMD 基值大于对照组的研究数目( n + )多于对照组大于试验组的研究数目( n - ),差异具有统计学意义。按照上述方式计算得到两组年龄的 2 值为 1.4925 ,小于 2 (1 , 0.05) =3.841 ,没有统计学意义。 2.2.3 Ridit 检验 以性别比与病程病期合计的差别分布值( 54 , 4 , 55 )计算相应的标准 R 值有: 0.2389 、 0.4956 和 0.7566 。计算两组群 HAMD 基值差别分布的 R 值, R NAMD 为 0.4219 ,进行显著性检验有: u = |0.5 - R NAMD | / 1/2 = |0.5 0.4219| / 1/2 = 3.47581 大于 2.56, 两组群差别分布的差异具有统计学意义( P 0.01 )。 2.3 HAMD 基值 Meta 分析 以 w , d , s 分别表示权重、效应大小(均值差)和标准差(两组合并的标准差 s i ),且将表 2 数据代入公式 w i = ( n 1i * n 2i ) / ( n 1i + n 2i ), s i = 1/2 , d i = ( x 1i - x 2i ) / s i 计算各项研究相应值后,进行 Meta 分析的合并有: 除 2 项没有标准差数据( 0 )的研究以外,共有 80 项研究, HAMD 基线的加权均数差和方差分别为: 由于有 80 项研究,所以, 一致性检验(齐性检验)的结果为: 故采用固定效应模型, 0.1 1.96 0.027=0.047~ 0.153 :了解药物治疗抑郁症随机对照双盲临床试验中两组群基线指标的均衡情况:通过《中国医院数字图书馆》中的期刊全文库检索文献。描述两组群基线指标差别分布的情况,行符号检验和分析等确定差异的统计学意义。:在入选的项试验中,两组群的病例数、年龄、性别比和病程病期的差别分布比较均衡,而值的分布似不均衡。符号检验和检验定性分析显示,试验组基值大于对照组的研究数目多于对照组大于试验组的研究数目,两组群的差别分布的差异具有统计学意义。分析定量分析显示,试验组群基值比对照组群大,%可信区间-。:试验组群与对照组群的基值存在不均衡现象;随机双盲临床试验也可能存在基线不匀的情况偏倚基线基线资料抑郁症随机对照试验双盲试验实证研究分析循证医学 由于 95% 的可信区间不包含 0 ,所以拒绝检验假设,即认为试验组的 NAMD 基线值与对照组的基线值不同,或试验组群 HAMD 基值比对照组群大 0.10 , 95 %可信区间 0.047 - 0.153 。 表 2 药物治疗抑郁症双盲试验两组的例数和 HAMD 基值 检索 试对 号 例数 试对均值和标准差 检索 试对 号 例数 试对均值和标准差 检索 试对 号 例数 试对均值和标准差 3 17: 15 33.5709.53:32.6609.83 4 26: 26 32.5406.44:33.0807.13 5 25: 25 33.9508.45:33.0510.44 8 78:74 27.3006.88:27.5506.65 9 21:18 36.2827.55:38.7530.92 11 28:28 28.3807.65:28.7208.36 12 68:68 26.9004.70:26.8005.20 13 19:19 28.6006.80:27.8007.40 15 40:40 27.7001.91:27.1001.93 16 09:16 39.2202.86:38.8104.29 17 25:31 31.4608.35:32.7100.14 18 16:16 29.1003.72:30.1804.97 19 40:40 28.9807.12:26.3406.31 20 30:30 27.4305.32:28.2305.49 22 57:57 36.0009.00:35.0008.00 28 12:12 23.8003.10:23.7004.60 29 21:20 21.5006.40:19.2003.20 30 15:15 30.4004.80:37.7004.20 31 102:96 33.5006.90:31.1006.60 34 98:97 27.2205.18:27.1107.08 35 35:35 28.1005.80:26.7004.80 36 16:17 25.3806.30:23.0004.30 37 15:15 24.1004.39:21.7005.41 38 30:30 29.4706.74:30.3306.28 40 34:29 26.4005.30:25.2005.10 42 25:24 35.0006.72:33.2506.56 43 16:14 33.4006.90:31.1006.70 44 20:20 32.0506.94:30.8504.22 45 34:35 26.7106.82:25.8805.54 46 30:30 33.3005.20:34.6005.70 48 18:20 28.4205.45:28.7107.68 49 44:45 27.0005.24:26.9605.16 51 10:10 40.8006.49:38.7007.93 52 20:20 30.6004.20:31.3003.70 54 15:15 26.10 . :28.80 . 55 30:30 35.4309.50:32.7008.65 56 30:30 28.8207.01:27.9606.64 58 20:20 27.1005.00:30.3006.60 60 36:36 25.5007.40:24.2002.30 61 29:27 29.9004.70:26.7005.10. 62 25:26 31.1205.27:28.3105.35 63 19:19 32.2110.34:31.2809.84 65 30:30 33.3005.20:34.6005.70 66 30:30 35.4309.50:32.7080.65 67 10:14 30.0305.38:31.2004.49 68 28:28 27.6005.30:28.4006.00 69 15:15 28.9005.50:28.4004.60 70 25:25 28.1005.60:27.9003.01 71 48:50 25.3911.07:24.5810.64 73 26:26 18.6003.20:17.8004.00 74 26:25 31. 06. :28. 05. 75 17:21 31.9005.60:32.3008.70 76 68:67 21.9002.00:21.5001.90 77 25:25 34.8007.48:33.9107.15 82 100:100 27.8006.24:28.1005.85 85 64:63 21. 06. :20. 06 86 20:20 33.1504.06:33.5504.14 87 53:54 31.5005.90:33.8006.20 88 18:19 26.8004.80:26.8005.00 89 18:17 25.9003.10:24.9002.80 90 26:25 28.3005.20:27.9003.10 91 22:21 28.2305.32:29.2307.96 92 32:34 30.5004.30:31.4003.60 94 86:84 28.1107.16:27.1907.16 96 28:30 21.6502.15:21.4801.98 97 30:30 28.2807.01:27.9606.64 98 24:24 29.6007.50:28.9007.80 100 19:19 31.3004.30:30.7003.90 101 36:36 26.8304.80:26.7405.30 102 49:47 35. 12. :35. 13. 103 30:28 21.6602.15:21.4901.98 104 20:20 32.3005.79:31.2205.81 108 200:200 29.2003.23:28.7002.64 109 25:26 30.5002.10:31.2002.30 111 67:52 27.5009.30:28.4008.50 112 50:50 20.8006.08:19.0805.08 113 24:24 23.7003.10:22.3002.20 117 30:30 27.6001.90:26.7001.70 118 37:39 24.8406.39:26.8206.50 119 31:31 27.6703.53:28.3803.17 121 61:64 22. 03. :22. 03 124 33:35 29.3906.17:28.9406.14 3 讨论 对入选的 82 篇或项随机对照双盲临床试验定性和定量的分析显示,试验组群的 NAMD 基值与对照组群的存在差异,试验组群比对照组群大约 0.10 ,但对于其他基线指标,两组群似比较均衡。键入偏倚检索《中国医院数字图书馆》中 CNKI 期刊全文库的临床医学部分,获得 76 篇文献( 2006-01 检索),未见相同内容的文献,但有 2 篇的部分内容文献相同 。采用 bias AND randomized controlled trials AND (baseline OR clinical characteristics) 检索 Medline ,获得 398 篇文献( 2006-01 检索),没有相同内容的文献,但有 3 篇的部分内容相同 。 不同于上述结果(未显示两组病例数的差别分布存在差别),金晓东等 和赵国玺等 对国内的随机对照双盲临床试验中两组例数和剔除例数的实证分析显示:试验组的病例数多于对照组,而对照组剔除的例数多于试验组;剔除例数不匀是例数差别的重要原因。这种不一致可能是上述 82 项的样本仍然较少所致。 然而, Tierney 等对国外的药物治疗肿瘤方面的 14 个 Meta 分析中 133 项随机对照试验的剔除偏倚( exclusion bias )的实证研究显示,试验组群剔除的病例偏多(未进行统计学处理) 。根据论文中的方框图 ,我们对数据进行定性转换有:在 14 对组群(试验与对照)中, 12 个试验组群剔除的例数多于其对照组群, 1 个的两组群似相等, 1 个试验组群剔除的例数少于其对照组群(符号检验显示具有统计学意义)。 Berger 等通过自己积累的资料发现, 14 项随机试验可能( suspicious )存在选择偏倚或基线不匀,并认为这只是冰山一角 。在 Martinsson 等进行的一项 Meta 分析中,两项随机对照试验的基线不匀,试验组病情严重者较多 。这些结果通过个案或系列个案的方式,印证了上述结果。 上述的检索方法,必定遗漏一些有关的随机双盲试验,故而这项研究是一种抽样研究。虽然有些研究的两组例数或 NAMD 基值的差别偏大(表 2 中 16 , 30 和 108 号试验),但因作者明示为随机分组,故没有剔除这些研究。然而,这些数据如同个案一样,具有一定的印证作用。 一般来说,两组基线不均衡的主要原因包括,随机分组不规范和剔除病例不规范。这种不规范的操作现象,反映出自觉或不自觉的引起主观偏倚的倾向,而主观偏倚,包括组别偏倚和剔除偏倚的方向大多是偏袒试验组一定程度夸大了试验组的疗效 。所以,我们定性地推测,在药物治疗抑郁症的随机对照双盲临床研究中,由于部分试验的基线不匀,总体治疗效果可能被夸大。 然而,这只是一个双盲试验基线偏倚的实证研究案例,有必要开展更多的研究其他药物的研究或其他数据处理方法的研究。另外,我们很难解释 NAMD 基线指标不均衡的明确原因、对总体疗效结果的确切影响和作用机制。这或许是值得注意和研究的问题。应积极推广 CONSORT 标准(《随机试验报道的统一标准》, Consolidated Standards of Reproting Trials ) ,清晰地完整地介绍随机试验的情况,以便全面显现宝贵的试验成果,更好地分析试验的质量,解读试验的结果。 参考文献 1 急性心肌梗死门冬氨酸钾镁治疗协作组 . 急性心肌梗死早期门冬氨酸钾镁治疗多中心随机对照试验 . 中华心血管病杂志 , 2002, 30 ( 2 ) :82-85 2 MAGIC Trial Investigators. Early administration of intravenous magnesium to high-patients with acute myocardial infarction in the Magesium inCoronaries(MAGIC) Trial: a randomized controlled trial. Lancet, 2002,360:1189-1196 3 金晓东 , 李进 , 傅鹰 . 随机对照双盲临床试验中两组例数差别的实证分析 . 药物流行病学杂志 , 2004,11:271-273 4 赵国玺 , 傅鹰 . 随机对照双盲临床试验中病例剔除情况的分析 . 药学实践杂志 , 2005,23:93-95 5 Tierney JF, Stewart LA. Investigating patient exclusion bias in meta-analysis. Int J Epidemiol, 2005,34:87-88 6 Berger VW, Weinstein S. Ensuring the comparability of comparison groups: is randomization enough? Control Clin Trials, 2004,25:515-524 7 Martinsson L, Wahlgren NG, Hardemark HG. Amphetamines for improving recovery after stroke. Cochrane Database Syst Rev, 2003,(3):CD002090( 摘要 ) 8 傅鹰 . 组别偏倚实证研究案例?西沙比利治疗功能性消化不良结果的差别 . 药物流行病学杂志 , 2005,14:102-104 9 傅鹰,齐俊英 . 试验租对照组的氨氯地平降压效果组别偏倚的实证研究 . 中国临床药理学与治疗学 , 2006,11:237-240 10 Altman DG, Schulz KF, Egger M, et al . The revised CONSORT statement for reporting randomized trials: Explanation and elaboration . Ann Intern Med , 2001,134(8):663-694 2.1 检索和收集结果 在随机对照双盲临床试验中,基线不匀可能是造成试验结果偏倚的原因之一。 对一项随机双盲临床试验中的试验组与对照组的基线指标值(干预临界前的病情严重度、人口统计学等可能影响预后的指标的值)进行比较和统计学分析极少显示两组间存在显著性差异。 然而,对一类随机双盲试验的试验组群与对照组群的基线指标值进行描述、比较和统计学分析,或许可以发现一些问题。 通过对国内已发表的药物治疗抑郁症的随机对照双盲临床试验中试验组群与对照组群的基线情况,包括病例数、年龄、性别比和汉密尔顿抑郁量表( HAMD )基值等基线情况的比较和分析,可从一个方面评价双盲试验群的质量,并探索可能引起结果偏倚的某些因素。
个人分类: 学术偏倚|1631 次阅读|0 个评论
随机对照双盲试验中两组例数偏倚的实证分析(摘要)
fuqisi 2008-11-30 08:37
摘要 目的:了解随机对照双盲临床试验中,试验组与对照组病例数差别的情况。方法:通过《中国医院数字图书馆》中的 CNKI 期刊全文库检索文献。描述例数差别分布的情况,检验两组例数差别的统计学意义。结果:检索和获得达标文献 364 篇。对所有入选研究的 Ridit 检验显示,剔除前后平均 R 值的差异没有统计学意义。剔除后的例数差别分布与清楚介绍剔除情况研究剔除前的标准分布的差异具有统计学意义( P 0.05 )。多中心研究的 Ridit 检验未显现统计学意义。清楚介绍剔除情况研究剔除前与剔除后两组例数差别分布的差异具有统计学意义( P 0.05 )。结论:随机对照双盲临床试验中,对照组被剔除的病例数很可能多于试验组,成为潜在的偏倚因素。应提倡清晰地介绍分组和剔除的情况,采用既定治疗分析和完成治疗分析两种方式介绍试验结果。 关键词 例数偏倚 样本数量 既定治疗分析 随机对照双盲试验 文献分析 实证研究
个人分类: 学术偏倚|1740 次阅读|0 个评论
随机对照双盲试验中两组病例剔除偏倚的实证分析(摘要)
fuqisi 2008-11-30 08:36
摘要 目的:了解随机对照双盲临床试验中,试验组与对照组病例剔除差别的情况。方法:通过《中国医院数字图书馆》中的 CNKI 期刊全文库检索文献。描述剔除例数差别分布的情况和原因构成,检验两组剔除例数和原因构成差别的统计学意义。结果:检索和获得达标文献 77 篇。对所有入选研究的符号检验显示,试验组剔除剔除例数大于对照组的研究数目少于对照组剔除例数大于试验组的研究数目( P 0.001 )。在比较清楚介绍剔除情况研究的研究中,两组合计的因为不依从 - 无法依从、失访、意外和失误被剔除例数的构成比分别为 71.2% 、 21.0% 、 4.7% 和 4.1% ;在因为不依从 - 无法依从被剔除的病例中,对照组的构成比大于试验组,但没有统计学意义( 73.0% , 66.5% )。结论:对照组被剔除的病例数多于试验组,很可能是潜在的偏倚因素;应进行更大样本的研究。应提倡清晰地介绍分组和剔除的情况,采用既定治疗分析和完成治疗分析两种方式介绍试验结果。 关键词 例数偏倚剔除偏倚 样本数量 随机对照双盲试验 文献分析 实证研究
个人分类: 学术偏倚|1789 次阅读|0 个评论
氨氯地平降压效果试-对组别偏倚的实证研究(重载)
fuqisi 2008-11-30 08:34
摘 要 目的 :了解临床试验中同一药物作为试验药和对照药时,被观察的疗效结果是否存在差别。 资料与方法 :按照一定的标准,通过《中国医院数字图书馆》收集氨氯地平的临床对照试验,比较试验组与对照组氨氯地平的降压结果。 结果 :收集到 19 篇文献。氨氯地平试验组群的加权平均总有效率为 88.58% ,对照组群为 79.34% ;两组群的 Ridit 值分别为 0.5411 和 0.4370; 试验组群的降压结果比对照组群高 11.6% 或 12.4% ;两组群总有效率和 Ridit 值存在显著性差异( P 0.001 或 0.01 );两组群中一些研究的降压结果存在差异( P 0.01 ),但各组群内的结果一致。 结论 :在非双盲随机对照试验中,试验组药物的疗效可能被夸大,对照组被贬低。应重视这种偏倚在新药临床试验和 Meta 分析中的影响。 关键词 偏倚 误差 随机对照试验 临床试验 氨氯地平 降压药 试验设计 Meta 分析 从理论上讲,通过药物的非双盲随机对照临床试验得到的结果可能存在着干预、观察等偏倚。这种偏倚的倾向是夸大试验药(多为新药)和(或)贬低对照药(多为老药)的效应。为了验证这种偏倚存在于现实中文医学文献和了解其偏差的情况,通过收集氨氯地平作为试验药和对照药的临床对照试验,借鉴单项研究的统计学方法检验两组群降压结果的差异 。 1 资料与方法 1.1 文献入选和剔除标准 入选标准:① 1994-2003 年氨氯地平治疗轻重度或Ⅰ - Ⅱ期高血压的中文文献;②两种药物随机对照试验类文献;③以成人为对象、日剂量 5-10mg 、疗程 4-8 周和采用常规的有效、显效标准的文献;④原始研究文献。 剔除标准:①降压有效和显效为次要指标的文献;②研究对象主要为肾性高血压或老年人的文献;③双盲设计类或自身对照的文献;④对 3 种药物进行比较的文献;⑤左旋氨氯地平或两种氨氯地平比较的研究;⑥明显的摘要类文献;⑦译自国外的文献。 1.2 搜集方法 数据库:《中国医院数字图书馆》( CHDL )。检索词:氨氯地平。检索方法:在关键词项中直接键入检索词进行检索。实施时间: 2004-03 。 1.3 分析方法 以例数为权数,分别计算两组的加权总有效率;以加权总有效率和合计的例数为数据,进行两组差异的 2 检验;以每项研究的总有效率为数据,应用 Wilcoxon-Mann-Whitney 法进行两样本等级和检验;应用 Ridit 分析进行降压效果的一致性检验;以 Ridit 值为数据,应用 Wilcoxon-Mann-Whitney 法进行两组群间的差异检验。 2 结果 根据入选和剔除标准,在检索到的 400 篇文献中, 19 篇符合要求。它们的基本情况见表 1 。 2.1 两组群的加权总有效率 加权总有效率 试验组 = (有效率 1 * 例数 1 + + 有效率 10 * 例数 10 ) / (例数 1 + + 例数 10 ) = ( 88.8*152+ +93*30 ) / ( 152+ +30 ) =52779.8/596=88.57 ( % ) 加权总有效率 对照组 =29325.6/370=79.26 ( % ) 试验组群比对照组群高 11.6% 。 表 1 氨氯地平的显效、有效例数和入选文献的一般情况 例数 显效 有效 总有 R 合 R 单 试验类型 剂量 疗程 文献来源 例数 例数 效率 152 107 25 86.8 0.5491 0.5102 随机单盲 5-10 4 新药与临床 95,14:214 46 31 11 91 0.5451 0.5041 随机 5-10 4 新药与临床 95,14:217 60 83.3 随机 5 4 滨州医学院学报 97,20:396 34 16 15 91 0.4598 0.4122 随机 5 4 新药与临床 97,16:181 152 107 25 86.8 随机单盲 5-10 4 山西临床医学杂志 98,7:32 32 20 10 93.8 0.5298 0.4861 随机 5-10 4 岭南心血管病杂志 98,4:193 40 22 14 90.0 0.4908 0.4461 随机 5-10 4 衡阳医学院学报 00,28:598 30 20 8 93.3 0.5464 0.5042 随机 5 4 广东药学 00,10:42 20 17 2 95 0.6267 0.5895 随机单盲 5-10 4 宁夏医学杂志 01,23:223 30 24 4 93 0.6024 0.5642 随机 5 6 中国新药与临床 01,20:293 15 5 7 80 0.3799 0.4523 随机单盲 5 4 中华心血管病杂志 96,24:93 44 27 12 88.6 0.5148 0.5796 随机 5 8 铁道医学 00,28:373 30 16 6 73.3 0.4506 0.5091 随机单盲 5 4 辽宁药物与临床 00,3:67 45 22 8 66.6 0.4186 0.4622 随机 5-10 8 中国临床药学杂志 01,10:144 36 16 12 77.7 0.4221 0.4876 随机单盲 5-10 8 中国新药杂志 01,10:455 40 19 9 70.3 0.4347 0.4811 随机 5-10 8 中国医院药学杂志 01,21:298 60 89.3 随机单盲 5-10 4 临床医学 02,22:12 40 19 8 67.5 0.4144 0.4748 随机 5-10 8 中国医药导刊 02,4:439 60 89.4 随机 10 4 浙江中西医结合杂志 03,13:476 注:上半部分为氨氯地平作为试验组的各项研究的数据,下半部分是作为对照组的数据;剂量的单位: mg/d ; 疗程:周。 2.2 两组群总有效率差别的分析 2.2.1 加权总有效率 2 检验 2 = = ( 530-508 ) 2 /508+ + ( 77-55 ) 2 /55=15.7832 大于 2 0.001(1) =10.828 , P 0.001 ,两组群总有效率的差异具有非常显著的统计学意义。 2.2.2 加权总有效率 Wilcoxon-Mann-Whitney 检验 将两组群各项研究的总有效率从小到大混合排序,计算样本量较小组(对照组)各研 究的序数之和: T 小 =1+2+3+4+5+6+10+11+12=54 小于 T 0.01(9,10) =58 , P 0.01 ,两组群总有效率的差异具有统计学意义 2.3 降压效果的一致性检验的 Ridit 值分析 剔除没有显效例数和样本为 152 例的一项研究(两项的数据太相似)后,两组群共有 15 项研究,其中试验组群 8 项,对照组群 7 项,见表 1 。 2.3.1 两组群中各研究降压效果的一致性检验 按 15 项研究合计的无效、有效、显效和总例数计算的两组群合计的标准 R 值为 0.0804 、 0.28 和 0.6996 。 根据标准 R 值算得的各项研究的平均 R 合 值见表 1 。依近似公式有: 2 =12 =30.408 大于 2 0.01(14) =29.141 , P 0.01 ,两组群中某些研究的降压效果存在差异。 2.3.2 试验组群的一致性检验 按 8 项研究合计的无效、有效、显效和总例数计算的试验组标准 R 值为 0.0495 、 0.2148 和 0.6654 。根据标准 R 值算得的各项研究的平均 R 单 值见表 1 。依近似公式有: 2 =12 =8.2176 大于 2 0.50(7) =6.346 ,小于 2 0.30(7) =8.383 , 0.30 P 0.50 ,试验组各项研究降压效果是一致的。 2.3.3 对照组群的一致性检验 按 7 项研究合计的无效、有效、显效和总例数计算的对照组标准 R 值为 0.128 、 0.38 和 0.752 。根据标准 R 值算得的各项研究的平均 R 单 值见表 1 。依近似公式有: 2 =12 =5.0904 大于 2 (0.70,6) =3.828 ,小于 2 (0.50,6) =5.348 , 0.50 P 0.70 ,对照组各项研究降压效果是一致的。 2.4 两组群 Ridit 值分析和检验 按两组群合计的标准 R 值 0.0804 、 0.2800 和 0.6996 ,算得试验组群和对照组群合计或 平均 Ridit 值分别为 0.5411 和 0.4370 。试验组比对照组高 11.6% 。应用近似公式对两组群的平均 R 值进行差异显著性检验有: u =(0.5411-0.4370)/ 1/2 = 4.4298 大大于 2.58 , P 0.01 ,两组群平均 R 值的差异具有非常显著的统计学意义。 根据标准 R 值算得的各项研究的平均 R 合 值见表 1 。将 R 双 值从小到大混合排序,计算样本量较小组(对照组群)各研究的序数之和: T 小 =1+2+3+4+5+6+9=30 小于 T 0.01(7,8) =34 , P 0.01 ,两组群 R 双 值的差异具有统计学意义。 3 讨论 通过氨氯地平作为试验组与作为对照组的 19 或 15 项非双盲随机对照试验的降压结果的比较显示:两组群间存在显著性差异( P 0.01 或 P 0.01 ),但各组群内的结果一致;氨氯地平作为试验组的降压结果高于作为对照组,加权总有效率分别为 88.6% 和 79.3 , Ridit 值为 0.5411 和 0.4370 。这些结果提示,在非双盲随机对照试验中,试验组药物的疗效被夸大,对照组被贬低。由于新药绝大多数作为试验组,应重视这种偏倚在新药临床试验和 Meta 分析中的影响,采用双盲的设计或许可以减轻这种干扰。 虽然干预偏倚和观察偏倚是药物临床试验中的常见偏倚,但通过现实中已经发表的文献来验证其存在和揭示其情况的研究似不多。键入偏倚检索《中国医院数字图书馆》获得的 23 篇文献中没有同样的和类似的原始研究。通过 PubMed 键入 bias AND RCT NOT review 检索 Medline 获得 55 篇文献,但效果不佳:通过文题的筛选和摘要的核实未见同样的研究,甚至未包含我们已知的研究。 Schultz 等 将 33 个 Meta 分析中的 250 项随机对照试验按照随机方案的设计、实施、入组后病例的剔除和是否双盲等质量标准分为不同的组群,以各项试验结果的比值比( odds ratios,OR )为指标,以高质量组群为基准,通过多因素 logistic 回归分析显示: 随机分配不力、随机分配不详和非双盲组群比高质量组群的疗效分别高出 41% 、 30% 和 17% ( P 0.001 或 0.01 )。 另外, Ernst 等对针灸减轻腰背疼痛类试验的 Meta 分析中的亚组分析的结果提示,非随机组群的疗效有高于随机组群的趋向 。 影响氨氯地平降压效应临床试验结果的主要因素有:药物剂量 、疗程 和合用药物的情况 ,患者的年龄 、高血压的程度或期型,及疗效标准的差别。虽然通过入选和剔除标准限制了有些因素的干扰,但考虑到样本的数量和原始研究描述的详细程度,没有制定更为严格的标准,如单一的药物剂量和疗程,剔除合用其他降压药物的研究,及选用疗效标准介绍清晰的研究等来排除干扰或进行亚组分析。 然而,直观的分析提示这些干扰因素没有明显地偏袒试验组,而有些甚至优待了对照组。例如:两组群日剂量为 5 mg 的研究分别有 4/10 和 3/9 项,而疗程 8 周的有 0/10 和 5/9 项。 如果扩大检索的范围,例如键入关键词氨氯地平检索《中国期刊全文网》( CNKI )可得到 596 篇文献,新增 4 篇符合标准的研究(试验组:药物流行病学杂志 94,3:62 和中国基层医药 02,9:515 ;对照组:航空航天医学 98,9:7 和中国心血管杂志 01,6:103 )。它们的有关数据分别为: 80 、 48 、 24 、 90% , 86 、 58 、 24 、 95.35% , 20 、 16 、 2 、 90% , 43 、 19 、 9 、 65% ,但补充这些数据不仅没有改变上述结果的性质,而且对总有效率和 Ridit 值影响也极其微弱。另外,不清楚应用单项研究数据处理的统计学方法会否夸大两组差别的程度,而采用多因素分析的结果可能是产生的疑问比解答的问题还要多。 参考文献 1 Schultz KF, Chalmers I, Hayes RJ, et al. Empirical evidence of bias: Dimensions of methodological quality associated with estimates of treatment effects in controlled trials. JAMA ,1995,273:408-412 2 Ernst E, White AR. Acupuncture for back pain: A meta-analysis of randomized controlled trials. Arch Intern Med, 1998,158:2235-2241 3 杨 昆,郭庆会 . 颉沙坦与氨氯地平治疗轻中度原发性高血压的疗效比较 . 中国心血管杂志, 2001 , 6 ( 2 ): 103 4 殷屹岗 . 西拉普利和氨氯低平治疗原发性高血压的临床对照研究 . 铁道医学 , 2000, 28 ( 6 ): 373-375 5 周劲东,罗 义,邢植斐。 氨氯低平对原发性高血压病的疗效 . 中国临床药学杂志 , 1998 , 7 ( 3 ): 119-121 6 周向东 . 氨氯低平的降压作用与性别、年龄的相关性 . 国外医学内科学分册 , 1997, 24 ( 8 ): 352-353
个人分类: 学术偏倚|1434 次阅读|0 个评论
氟西汀抑郁症双盲或多中心试验试-对组别偏倚的实证研究 (摘要)
fuqisi 2008-11-30 08:32
摘 要 目的 :了解剂量、疗程、病例数和组别(试验组与对照组)对双盲或多中心随机对照试验疗效的影响。 资料与方法 :通过《中国医院数字图书馆》中的 CNKI 期刊全文库检索氟西汀治疗抑郁症文献。采用二项 Logistic 回归进行多因素分析。 结果 :获得基本达标文献 23 篇,其中两篇文献很可能重复。对入选的所有试验的有关数据的分析显示:疗程和组别是影响因素;疗程增加一个等级,疗效增 59% ;氟西汀作为试验药的疗效是作为对照药的 2.242 倍。对日剂量 20mg 的疗程 6 周的数据不可疑的 8 项双盲试验的有关数据分析显示:组别是影响因素;试验药的疗效是对照药的 1.972 倍。 结论 :在双盲和多中心随机对照临床试验中,试验组的疗效可能被夸大和(或)对照组被贬低。在 Meta 分析和循证医学研究中,应注意组别偏倚的影响。 关键词 偏倚 组别偏倚 氟西汀 抑郁症 随机对照临床试验 双盲 多中心试验 循证医学 实证研究
个人分类: 学术偏倚|1360 次阅读|0 个评论
氨氯地平Meta分析数据组别偏倚的实证研究(摘要)
fuqisi 2008-11-30 08:31
摘 要 目的 :了解剂量、疗程、病例数、组别(试验组与对照组)以及出版年份对随机对照试验疗效的影响。 资料与方法 :通过《中国医院数字图书馆》中的 CNKI 期刊全文库检索 meta 分析文献。采用二项 Logistic 回归进行多因素分析。 结果 :获得达标文献 1 篇,含有 26 项氨氯地平治疗高血压的临床对照试验,其中 23 项随机分组, 9 项氨氯地平作为对照药。疗程和组别均是疗效的影响因素;试验组的疗效优势是对照组疗效优势的 2.445 ~ 3.690 倍。 结论 :在随机对照试验中,试验组的疗效可能被夸大和(或)对照组被贬低。在 Meta 分析和循证医学研究中,应注意组别偏倚的影响。 关键词 偏倚 组别偏倚 氨氯地平 高血压 随机对照临床试验 Meta 分析 循证医学 实证研究 偏倚组别偏倚氨氯地平高血压随机对照临床试验分析循证医学实证研究 :了解剂量、疗程、病例数、组别(试验组与对照组)以及出版年份对随机对照试验疗效的影响。:通过《中国医院数字图书馆》中的期刊全文库检索分析文献。采用二项回归进行多因素分析。:获得达标文献篇,含有项氨氯地平治疗高血压的临床对照试验,其中项随机分组,项氨氯地平作为对照药。疗程和组别均是疗效的影响因素;试验组的疗效优势是对照组疗效优势的~倍。:在随机对照试验中,试验组的疗效可能被夸大和(或)对照组被贬低。在分析和循证医学研究中,应注意组别偏倚的影响。偏倚组别偏倚氨氯地平高血压随机对照临床试验分析循证医学实证研究 :了解剂量、疗程、病例数、组别(试验组与对照组)以及出版年份对随机对照试验疗效的影响。:通过《中国医院数字图书馆》中的期刊全文库检索分析文献。采用二项回归进行多因素分析。:获得达标文献篇,含有项氨氯地平治疗高血压的临床对照试验,其中项随机分组,项氨氯地平作为对照药。疗程和组别均是疗效的影响因素;试验组的疗效优势是对照组疗效优势的~倍。:在随机对照试验中,试验组的疗效可能被夸大和(或)对照组被贬低。在分析和循证医学研究中,应注意组别偏倚的影响。偏倚组别偏倚氨氯地平高血压随机对照临床试验分析循证医学实证研究 :了解剂量、疗程、病例数、组别(试验组与对照组)以及出版年份对随机对照试验疗效的影响。:通过《中国医院数字图书馆》中的期刊全文库检索分析文献。采用二项回归进行多因素分析。:获得达标文献篇,含有项氨氯地平治疗高血压的临床对照试验,其中项随机分组,项氨氯地平作为对照药。疗程和组别均是疗效的影响因素;试验组的疗效优势是对照组疗效优势的~倍。:在随机对照试验中,试验组的疗效可能被夸大和(或)对照组被贬低。在分析和循证医学研究中,应注意组别偏倚的影响。偏倚组别偏倚氨氯地平高血压随机对照临床试验分析循证医学实证研究 :了解剂量、疗程、病例数、组别(试验组与对照组)以及出版年份对随机对照试验疗效的影响。:通过《中国医院数字图书馆》中的期刊全文库检索分析文献。采用二项回归进行多因素分析。:获得达标文献篇,含有项氨氯地平治疗高血压的临床对照试验,其中项随机分组,项氨氯地平作为对照药。疗程和组别均是疗效的影响因素;试验组的疗效优势是对照组疗效优势的~倍。:在随机对照试验中,试验组的疗效可能被夸大和(或)对照组被贬低。在分析和循证医学研究中,应注意组别偏倚的影响。偏倚组别偏倚氨氯地平高血压随机对照临床试验分析循证医学实证研究 :了解剂量、疗程、病例数、组别(试验组与对照组)以及出版年份对随机对照试验疗效的影响。:通过《中国医院数字图书馆》中的期刊全文库检索分析文献。采用二项回归进行多因素分析。:获得达标文献篇,含有项氨氯地平治疗高血压的临床对照试验,其中项随机分组,项氨氯地平作为对照药。疗程和组别均是疗效的影响因素;试验组的疗效优势是对照组疗效优势的~倍。:在随机对照试验中,试验组的疗效可能被夸大和(或)对照组被贬低。在分析和循证医学研究中,应注意组别偏倚的影响。偏倚组别偏倚氨氯地平高血压随机对照临床试验分析循证医学实证研究
个人分类: 学术偏倚|1459 次阅读|0 个评论
西沙必利疗效研究类型偏倚实证分析(摘要)
fuqisi 2008-11-30 08:28
摘要 目的:了解临床试验中自身对照研究与随机对照研究同一药物的疗效的差别和程度。方法:通过《中国医院数字图书馆》中的 CNKI 期刊全文库检索文献。在自身与随机试验的试验组之间,比较西沙必利治疗功能性消化不良的疗效差别,行 2 、 Ridit 检验三种方法进行差异显著性检验。结果:检索和获得达标文献 15 篇。自身对照研究组群的各个研究的结果一致,随机对照研究组群的结果不一致,但剔除一项 Ridit 值特小的研究后结果一致。以有效率为指标:自身对照比随机对照组群高 5.4% ( 94.9% 和 90.0% );两种检验方法显示,两组群之间的疗效差异具有显著性( P 0.001 或 P= 0.001 )。以 Ridit 值(含有效和显效两个成分)为指标,两种检验方法显示,两组群之间的疗效差异没有具有显著性。结论:自身对照研究有可能夸大药物的疗效结果;指标的复杂和隐蔽性可能是影响疗效结果的因素之一。 关键词 研究类型 偏倚 自身对照研究 随机对照试验 西沙必利 文献分析 实证研究
个人分类: 学术偏倚|1477 次阅读|0 个评论
实证研究与规范研究的区别 医改思考系列之一
windlight 2008-10-20 22:01
赵凤光 旧文重贴 zt 实证研究与规范研究的区别 我的导师在治学的道路上选择的时候,曾经弃管理而选经济,管理很多都是两难问题,或者是规范研究,而经济学实证研究更多一些,科学性多一些,政 治性或文化性弱一些,逻辑自洽,不用做墙头草或妥协者,或调和者,妥协和调和是政 治家,领导者的主要工作,他还是希望自己成为一个科学家。及称为经济学三种人中的第一种人。但实际生活中,绝大多数人只能是第二种人(利益代言人)或第三种人(经济学教师)。 丁香园整个发展战略选择专业研究,不许求医问药,搞阳光检索都是尽量避免规范研究所带来的利益代言与利益冲突的问题,尽量在追求其自身的可持续发展。这个意义上讲,堕胎与动物保护与环保等一些规范性研究或信仰一类的讨论和研究应该不在丁香园所倡导的主业之中。 给大家一个开拓视野的机会,来了解堕胎与反堕胎的双方意见,我是赞同的,但如果只是一个方面的声音,我个人认为有些不妥,这是一种明显的利益诉求,和政 治主张。有违科学工作者的客观中立身份。希望有不同的声音,或管理层的声音来明确这个问题可以讨论的底线在那。 zt 1 实证性研究作为一种研究范式,产生于培根的经验哲学和牛顿伽利略的自然科学研究。法国哲学家孔多塞(1743-1794)、圣西门(1760-1825)、孔德(1798-1857)倡导将自然科学实证的精神贯彻于社会现象研究之中,他们主张从经验入手,采用程序化、操作化和定量分析的手段,使社会现象的研究达到精细化和准确化的水平。孔德1830到1842年《实证哲学教程》六卷本的出版,揭开了实证主义运动的序幕,在西方哲学史上形成实证主义思潮。实证主义所推崇的基本原则是科学结论的客观性和普遍性,强调知识必须建立在观察和实验的经验事实上,通过经验观察的数据和实验研究的手段来揭示一般结论,并且要求这种结论在同一条件下具有可证性。 根据以上原则,实证性研究方法可以概括为通过对研究对象大量的观察、实验和调查,获取客观材料,从个别到一般,归纳出事物的本质属性和发展规律的一种研究方法。 一是对价值判断的态度不同。实证方法为了使经济学具有客观性而强调排斥价值判断;规范方法要评价或规范经济行为则以一定的价值判断为基础。 二是解决的问题不同。实证分析要解决是什么的问题,即确认事实本身,研究经济现象即某一选择的客观规律与内在逻辑。规范分析要解决应该是什么的问题,即说明经济现象的社会意义。 三是实证分析得出的结论是客观的,可以用事实进行检验;规范分析得出的结论是主观的,无法进行检验。 实证分析与规范分析(Positive versus Normative analysis) 这两个概念有些像实然与应然,前者描述世界是什么样子(描述性的),后者描述世界应该是什么样子(说明性的)。 --实证表述:企图描述世界是什么的观点(Positive statements: claims that attempt todescribe the world as it is) --规范表述:企图描述世界应该是什么的观点(Normative statements: claims that attempt to prescribe how the world should be) 这两种表述的关键区别在于我们如何来判断其有效性(validity)。原则上,实证表述是可以通过对证据的检验来肯定或是否定的;而规范表述除了事实,还包括价值,判断一项政策是好是坏不仅仅看科学事实,还包含我们对伦理道德,宗教信仰,以及***哲学的看法。当然这两者也是互相关联的,实证分析会对规范分析产生影响,但规范分析结论不仅需要实证分析,还需要价值判断(Value judgement)。 研究经济学需要记住这两种分析的不同,这是两种不同语言,当经济学家解释经济运行情况时,他使用前者;当提供帮助来改善经济后果时,他使用后者,此时他就是政策顾问。 zt 2 人民日报:经济学,经世致用之学 中国社会科学院 邹东涛   大多数经济学家认为,经济学是一门解释性科学。但对于经济学是否应该在此基础上进行评价和政策设计,也就是说,除了回答是什么和为什么,是否也应回答应该是什么和怎么办的问题,人们是有分歧的。有的学者认为,在科学的范畴内,问题只有一个,即为什么,而怎么办则是工程学的问题,好不好是伦理学的问题。科学不问怎么办,也不问好不好。这种思想可以追溯到20世纪30年代。莱昂内尔罗宾斯就主张经济学仅限于科学解释,这一功能既不能回答价值判断,也无法演绎出对策措施。但也有学者主张,现代经济理论的成长有三个阶段:开始是产生思想的原创阶段;继而后人在此前期产品基础上,通过建立模型进行形式化和一般化;最后人们再用非数学语言,进行思想综合和政策开发,形成后期产品。萨缪尔森更明确指出:经济学本质上就是一门以经验为依据的科学。它以解释我们身边的世界为首要目标,然后帮助我们基于正确合理的经济原则来设计经济政策,以提高国内外人民的生活水平。这就是说,价值判断和对策措施是经济学不可分割的部分。   实际上,英文economics的中文译法在20世纪初被确定为经济学,就与中国古代经世济民、学以致用的思想传统有关。在过去的一个世纪里,我国几代经济学者秉承传统知识分子的社会使命感,在把经济学介绍到我国并为现代化建设服务方面作出了不懈努力。今天,不少经济学家仍然认为,经济学除了遵循科学原则对现实世界进行系统解释,其最终着眼点在于对经济社会有所助益:它是一门经世致用之学。   这个问题牵涉到经济学的规范研究和实证研究问题。所谓规范研究,是解决好与坏的价值判断问题,即回答应该是什么的问题;而实证研究则解决实际是什么和为什么的问题。主张经济学应严格限于实证研究的学者,认为从作为科学的经济学关于现象的解释,即对是什么和为什么这些实然问题的回答中,并不能推导出对应该怎样这个应然问题的解释。正如物理学和化学一样,只能求真与假,而不能求好与坏。但主张经济学应该超越现象解释,为人们提供决策选择标准和决策手段的学者认为,不同于一般自然科学,作为社会科学的经济学研究的是现实社会中的人的行为,其研究目的在于对互动中的人的行为进行解释、比较和判别,进而解决人们为改善自身命运而不得不进行的方向选择问题。有关经济增长的代价、社会评价标准、社会目标的讨论等,都属于规范研究的范围。   事实上,规范研究和实证研究在经济学研究中从未截然分开过。经济学家严肃的实证研究本身就包含着对其所关注的人群命运的关怀;反过来,越是关怀社会中人的命运,经济学家在研究中越要踏踏实实地进行实证分析,把科学道理告诉公众和政策制定者。另一方面,无论理论上经济学家怎样争论,现实生活中的政策制定者总是从经济学的进步中汲取着思想资源却是不争之事。   从规范研究的角度看,经济学有两大现实应用价值:一是社会启蒙,二是体制设计与政策评价。就社会启蒙而言,考察经济学说史可以看到,从重商主义、重农主义、古典经济学到现代经济学,以及马克思主义经济学,都曾以规范研究作为自己的理论特色,都或隐或现地提出了应该实现什么和反对什么的道德判断问题,并对当时的社会意识形态产生了重要影响。就体制设计与政策评价而言,从经济学说史考察,无论私有财产制度、市场经济还是混合所有制以及公有制,无论自由贸易、自由放任还是国家宏观干预,经济学既从一个角度记录了各个时代不同国度的人们组织自身经济活动的方式,又为他们实现当时的目标和改进制度模式与政策手段提供了帮助。我国改革开放20多年来的历史就证明了这一点。从放权让利到提出计划经济为主、市场调节为辅,从有计划的商品经济到发展社会主义市场经济,每一步既是实践创新的过程,也是理论创新的过程。   《人民日报》 (2004年12月14日 第九版) 322456 到底以什么为中心,医改思考之八 43657 走向有管理的市场化 医改思考系列文章之七 43656 市场化的含义是什么 医改思考文章系列之六 43428 公平与效率 医改思考系列文章之五 43426 公布大处方医生有用吗 医改思考系列文章之四 43425 医院流程问题 医改思考系列文章之三 43424 药价虚高的问题-药品价值链 医改思考系列文章之二 43423 实证研究与规范研究的区别 医改思考系列之一
个人分类: 思辨|15145 次阅读|1 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-28 04:42

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部