科学网

 找回密码
  注册

tag 标签: 评价方法

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

十三要素评价方法论
lxj6309 2020-6-12 21:34
齐经民,刘新建,等.职业经济分析——国计民生基本问题研究.经济科学出版社,2018:155-185 这一节内容是我在评价理论与方法方面的新认识和扩展认识。任何一个正式的、完整的评价实践方案,都应当在这十三个方面做出清晰的描述。若不能描述清楚,则很难保证评价结果的科学性和有效性。我创建评价学基础理论体系的一个本意就是为科学的评价实践立一个规则或判则。 十三要素理论观点在作者的《系统评价学》著作和《评价理论与方法》课程教学中都初步论述过,但全面系统阐述在这里是第一次。 二、职业效益评价方法论 作为一种管理或评价专业活动,职业效益评价就是对职业效益进行测度和评定,具体说,职业效益评价是根据一定的价值主体的价值标准,对职业人的活动效果作出优劣判断的过程和结论。在文献叙述中,评价有多重含义,如评价结论、评价活动、评价行为等,可根据上下文判断。下面根据评价理论关于评价方案的十三要素理论,分十二小节简要阐述职业效益评价方法论(价值主体与价值客体同置于价值关系小节中)。 (一) 评价项目 评价有正式评价和非正式评价,正式评价又分规范评价和非规范评价。非正式评价是以人们的日常语言表达的评价观点。正式评价是由特定人或组织根据岗位职责或委托关系对评价对象做出评价结论。非规范正式评价是由一定组织对评价对象做出正式的评价结论,但一般不需要专业评价专家或专门评价机构参与,评价结论通常采用自然书面语言表达,如行政管理机构对员工给出的评语、学生毕业评语、干部任免时对任免对象的评论,等等。规范的正式评价是由专业评价人员开展的评价专业活动,其根据设计好的专门评价方案,将通过分析和计算获得的事实数据代入评价模型或程序,计算或推断出评价结果,再根据结果做出评价结论。评价结果有时和评价结论是同构的,有时是在评价结果基础上进行的再评价(如根据考试分数划出五级分)。非正式评价和非规范评价的活动形式和程序比较简单,但内涵会很丰富。非正式评价可以作为正式评价的参考依据,一般需要经过规范化步骤;规范评价结论经常是非规范评价如领导或组织决策的依据。 对职业效益的评价也有非正式评价和正式评价、规范评价和非规范评价等多种形式。正式规范评价一般需要立为专门项目,耗费相当的资源。干部绩效评价是一种形式的职业效益评价,上级部门一般会制定专门的评价方案,委派专业的人员进行。正式规范评价在立项时要注意名称规范准确,体现明确的评价内容和评价对象,具体评价还要明确考察的时期。 评价项目的立名要十分讲究,名正才能言顺。在职业效益评价问题中,不存在适合所有职业的一般评价方案,在评价项目名称中应明确职业的范围,如 “××× 工人职业效益评价 ” 、 “××× 经理岗位职业效益评价 ” 、 “××× 村长职业效益评价 ” 、 “××× 驾驶员职业效益评价 ” ,等等。 如前指出,职业效益分 “ 私人效益 ” 和 “ 社会效益 ” ,在一项评价中,可以只涉及二者之一。再者,面对一种职业活动涉及的多元利益相关者,可以有各自立场的评价项目。在评价名称中,不一定直接用 “ 职业效益 ” ,可以用 “ 绩效 ” 、 “ 业绩 ” 、 “ 效果 ” 等类词语,可以只包括职业效益的一个方面,具体视各自的评价目的或习惯用语而定。 (二)评价目的 评价目的是评价活动的发起原因,通常表现为组织管理者的管理愿景和决策信息需求,所以也可称为管理目的。这时,评价是实现管理目的的一种手段,如企业岗位绩效评价、产品质量评价、大学招生入学考试与考查。当评价对象是纯粹的客观存在、非组织构成要素时,评价目的表现为评价者的意志,实现评价者的一种专业研究目的,如生态评价、地质评价。当评价者是社会专业组织、评价项目没有特定的委托者时,评价目的表现为公共利益的需求,如幸福指数评价、人类发展指数评价;通用商业评价的评价目的是满足大众或特殊群体的信息需求,如 500 强企业评价、大学排名评价、国家主权信用评级。 无论何种评价目的,评价总是以一定的价值观为基础,其中体现或隐含着管理者、利益相关者以及评价主持者的价值需求。 职业效益评价的评价目的不是固定的,不是唯一的,与每一次评价的具体评价者和特定评价背景相关。如一个具体职业人要评估正在谋求的某一个职位时,其评价目的是确定该职位是否值得追求,是否是最适合自己的;如果是评估一个正在服务的职位,其评价目的可能是确定自己对该职位的满意度、分析自己的付出是否获得了充分的价值回报、为决定是否换工作提供具体详细的职业效益信息。如果是上级对下级的职业效益评价,则评价目的可能是为了确定一个具体职业人是否确实胜任该岗位、是否真正尽职,干部年度考核和离任审计可以算这类评价。 (三)总指标 总指标是对评价内容的最高概括,是正式规范评价的必备要素。总指标的名称不能直接以 “××× 评价 ” 代替。在评价方案中应对总指标的内涵予以恰当表述或定义。比如,大学校长绩效评价的总指标不能以 “ 大学校长评价指标体系 ” 作为总指标,比较恰当的总指标是: “××× 高校校长年度绩效 ” 或 “××× 高校校长任期绩效 ” ,可以简称 “ 年度绩效 ” 或 “ 任期绩效 ” 。在这个总指标名称中, “×××” 可以是地域范围或领域范围,是外延限制, “ 年度 ” 或 “ 任期 ” 是时间限制, “ 绩效 ” 是评价内容规定,高校校长是评价对象规定。至于用 “ 大学 ” 还是 “ 高校 ” 则是一种习惯。总指标经常与评价项目名称重合。 “ 大学校长评价 ” 作为评价项目名称也是不确切的,称为 “××× 高校校长年度绩效评价 ” 或 “××× 高校校长任期绩效评价 ” 更恰当。 “ 大学校长评价 ” 可以作为一个研究领域,包括 “ 绩效评价 ” 在内的多种评价,如 “ 大学校长领导水平评价 ”“ 大学校长素质评价 ” 等。 (四)评价目标 评价目标与评价目的不是同一个概念。评价目标规定具体一项评价工作结束时对评价对象做出的评价结果的表现形式,如评价分数、排名、分级、分类等。评价目标的实现一般依据评价总指标进行,有时也依据一级评价指标集实现。 目的是比目标是更抽象的概念。一个具体评价项目的评价目的体现了评价者的价值观。但是在实际工作中,人们经常混淆工作目的与工作目标,有时忘记了工作目的,或者说忘记了初心。比如,执法工作的目的是为了实现社会公平和维护社会秩序,而具体一项刑事审判工作的工作目标是对嫌疑人做出刑罚判决。只要刑罚判决做出就是完成了审判工作,实现了法庭目标,但是,审判是否实现了执法工作目的则是需要进一步做出评价的;即使量刑准确,由于审判方式和舆论掌握不当,也会出现背离执法目的的情况。所以,可以说,评价目标是用来判断评价工作是否完成的,但是完成后是否达到了评价目的则需要对评价工作本身进行评价。评价目标不是自动实现评价目的的。在整个评价工作中,要时时处处用评价目的衡量指导每一项评价环节和活动项目,最后还要对照评价目的,对整个评价项目进行验收。 一项正式的职业效益评价活动的评价目标可以是用总指标的连续数值标定评价结果(如连续的分值),以便比较排序,但是,真正有意义的职业效益评价一般还是给出定性结果,如满意或不满意、合格或不合格,或者是高、中、低等类的分级标定的结果。 (五)价值关系 —— 价值主体与价值客体 评价作为一种人类活动,是对事物相对于人或人的集合体的价值进行判定的过程。这里的人或人的集合体指单个的人、人群、机构单位或区域社会。区域社会小到家庭、社区、村庄,大到国家、全人类。一种事物对人或人的集合体有价值就说在该事物与人或人的集合体之间存在价值关系。所谓有价值就是事物能够以其某种或某些属性满足人或人的集合体的一种或多种需要。评价就是对这种价值大小的确定。 在价值关系中,价值的需要者称为价值主体,价值的提供者称为价值客体。价值主体是人或人的集合体,价值客体则既可以是人或人的集合体,也可以是其他任何客观存在,包括知识和精神以及情感存在。 从语言意义的严谨性考虑,一项评价的评价对象应该是一个完整的价值关系,但是,在语言的习惯使用语境中,评价对象以价值客体来代表,变成评价客体。但是,对特定具体评价问题的研究和评价实践,都必须以全面分析价值关系为前提。完整的价值关系搞不清楚,不可能提出科学的评价方案,也不能有完备的评价实践。 价值关系背后反映的是价值主体的价值观。严格来说,评价方案的设计和评价活动中的价值测度都只应反映价值主体的价值观,但是,由于评价活动固有的主观性特征,方案设计者和实施者经常在其中掺入自己的价值立场,使得评价结果的准确性受到影响,形成了评价中的不确定性来源之一。 在职业效益评价中,评价中的价值客体包括五类,具体见下面关于评价对象的论述;价值主体有职业人自己、职业人所在机构和机构的管理者及其他利益相关者四类。在一次职业效益评价活动中,具体的价值主体通常是多元的,比如:由教育行政机构对小学校长的职责绩效进行评价,价值主体首先是政府(政府应代表和反映当地人民和国家的利益需求),其次是行政机构的领导,再次是小学所在社区构成的社会和学生家庭,而校长本人的个人效益退居次要位置,不一定在考虑之列。不同的价值主体的需求不同,从而对职业人的工作会给予不同的价值评价。 (六)评价对象 评价对象也称为评价客体,与评价主体相对,是被评价者,一般仅指价值客体。在职业效益评价中,评价对象有五类:职业人个体、职业人集体、职业人群体、职业和岗位。 职业人个体是一个具体从业者,其职业效益评价可以是对其在一个具体岗位上的效益评价,也可以是其在一段或一生职业生涯中的效益评价。 职业人集体是在一个组织中工作的一个团队,对其进行职业效益评价一般是上级管理者或其他社会机构提出,也可以是集团中的某个人或集体提出。 职业人群体是在某一时空范围内从事某一种职业的从业者的集合。对其进行职业效益评价可以是一级政府或其职能部门提出,也可能是专业研究者的研究工作需要,评价目的可能是了解该类职业人的社会生存状况,为解决一些社会问题服务,如农民工、金融业职员和经理、垄断行业从业者。 对一种职业的职业效益进行评价,与对职业人群体的职业效益评价有接近之处,通常都要对一个较大的同类从业者群体样本进行调查取证。二者的不同之处是:对职业的职业效益进行评价,职业的外延范围相对更窄,职业的内涵相对更单一,评价的内容是职业的社会属性,评价目的是为了更好地认识该职业,作为管理者可以利用评价信息制定更科学合理的管理制度和政策。比如,对农民工作为一种职业的职业效益进行评价通常不合理,因为,首先,农民工不是一种职业,而是一类职业人,其次,不同职业的农民工的职业效益差异可能非常大,不能一概而论。即使在职业人群体评价中,也不宜用一个总指标来概括所有农民工,而需要分门别类进行,然后可以总结出共性问题和特殊问题。对一种职业的职业效益进行评价可以说是对事不对人,强调一般性,其时间范围会具有模糊性。 岗位是更具体的工作地点,对岗位进行职业效益评价有两种,一个是给定机构单位的具体岗位或同种岗位,二是同类机构单位的同种岗位。在一个机构单位内部进行岗位职业效益评价,可以比较不同岗位的职业收入和效益产出,更好地进行人力资源配置;对不同机构的同种岗位进行职业效益评价能够对不同机构的生产效率进行比较,发现管理存在的问题,更好地了解竞争对手和吸引优秀人才。 (七)评价主体 评价主体是评价活动的主持者,一般与价值主体不一致。价值主体可以是多元的,而评价主体是一元的,只能有一个,是评价活动的决策者。虽然具体评价活动的参与者包括工作人员可能很多,但是,确定评价结果的决策者只能是一个人或一个团体。当然,在复杂的评价活动中,不同的评价环节或子系统,评价主体可以不同,从而形成一个评价主体序列。 评价活动的顶层评价主体可以直接是评价任务的提出者,也可以是任务提出者委托的第三方评价机构。通常来说,最终评价结果的确定和发布是评价任务提出者的责权。 作为管理活动的职业效益评价,其评价主体是从业者、服务单位或其他利益相关方;作为评价专业活动的职业效益评价,其评价主体是社会专门咨询与评价机构或学术研究者。 (八)评价指标体系 评价指标体系是一个评价方案的主要部分。在价值关系中,价值客体是以自己的客观属性提供给价值主体,满足价值主体的需要,价值效果是价值供给和价值需要的融合反应。设价值客体满足价值主体的属性集合是:{x 1 ,x 2 ,…x n },价值效果是z,则从价值关系的客观存在性角度看,有关系式: z=f( x 1 ,x 2 ,…x n ) 其中的 f代表价值主体的价值需要,它与价值供给 {x 1 ,x 2 ,…x n } 发生作用,产生价值反映 z。属性指标集中的指标一般具有物理量纲,而价值效果则是一个相对价值指标,一般是无量纲的,或者用人们熟悉的分数表示。 价值关系通常是隐性的,需要一定的开发过程将其揭示出来,这不是容易的。评价学存在的理由之一即在此。因为在正式的评价中,评价对象一般比较复杂,直接揭示上述关系式比较困难,所以,一般是根据系统的物理结构和属性的意义结构,形成如图 6 - 1 形式的层次评价指标体系。 资料来源:刘新建 . 系统评价学 . 中国科学技术出版社, 2007:57 在图 6 - 1 中, G 是总指标,是对总价值效果的测度;最底层的指标集合 {X 1 ,X 2 ,…X n } 相当于价值客体的属性指标集 {x 1 ,x 2 ,…x n } ,在纯粹理论上应该是绝对客观的事实,可以用一定的物理仪器或其他技术测量出来,或者用专业学科公式计算出来。在 {X 1 ,X 2 ,…X n } 与 G 之间的各层次指标一般都是价值指标,没有通常的物理量纲。从 {X 1 ,X 2 ,…X n } 到 G ,概念的抽象层次越来越高,其间层次的多少决定于评价对象系统的复杂程度,一般在三级以内。 在实际评价问题中,很难做到用物理方法测量 {X 1 ,X 2 ,…X n } 中的每一个指标,特别是一些心理行为指标,只有采用定性的方式测度,其中已经包含了专家的主观判断或价值主体的价值赋值。 职业效益评价的指标体系随评价目的和价值主体的不同而不同。以从业者为价值主体和评价主体,职业岗位为价值客体和评价对象,从业者从其职业生活中获得的效益首先可以区分为物质效益和精神效益两方面。物质效益的计算比较简单,但是,必须注意考察的时间长度。一个职位的短期效益和长期效益是不同的。比如,一般人会认同,如果所在单位是一个比较大比较高水平的平台,那么,个人成长的空间就比较大。省级机关公务员就比县级机关公务员的平均成长空间要大。成长空间大的职位,其长期物质效益也就大。物质效益适用于线性叠加的计算方式,其比较困难的是一些实物收益的折价标准的确定。 职业生活的精神效益评价是一件困难的工作。应当明白,精神效益是不能折算为物质效益用货币单位来衡量。人们的精神需求包括两个方面:情感需求和事业成长需求。情感需求通常包括交友需求、亲情需求、环境审美需求、压力释放需求。 交友需求突出体现了人的社会属性在情感方面的要求。职业生活中的交友一是可以有情绪宣泄的渠道,二是可以通过工作生活经验交流提高人们的社会认知水平和职业的能力水平。 亲情需求是人类家庭生活的结果,也是家庭维系的必要条件。由于谋生的压力,职业生活经常会侵害人们的亲情需求,而良好的亲情关系对于职业生活有促进作用,所以,作为有效运行的机构单位,应该为员工提供增加亲情的条件(现实中,有不少机构单位反其道而行之,拼命限制亲情需要的满足)。 环境审美需求是从业者对工作环境的要求。现代科学证明,环境会影响人的心情,从而影响工作效率。虽然很难做到不被干扰,但是,追求心理愉悦是人类的基本需求。如果工作环境总是给人压抑的感觉,那么,不仅影响工作效率,时间久了还会影响人们的身心健康。广义的环境可以包括自然环境、人工环境和人际环境。人际环境需求与交友需求和亲情需求对机构单位的要求有交集,有相互影响,在评价中,可以对他们进行分离,以人际环境专门表示人文氛围。 现代经济社会生活对人们的精神压抑是很严重的,如果不能得到有效缓解,会有严重的疾患后果,从而影响机构单位的正常工作。有企业在内部设立专门让员工发泄情绪的设施就是对这一要求的反应。友情、亲情和环境对人们缓解压力也是有积极作用的,在职业效益评价中专门设立 “ 压力释放需求 ” 指标可以考察这方面的一些特殊要求或解决方案。 在现代管理心理学或组织行为学中有 “ 自我实现需求 ” 概念,属于西方心理学的用语,在我国当代语言中,用 “ 事业需求 ” 或 “ 事业成长需求 ” 更恰当,更能体现中国文化特色。追求事业成功是中国职业人的精神特征。不同的机构单位对一个具体人的事业成长所能提供的可能性是不同的,所以,从职业人立场出发,事业成长需求是职业生活的最核心需求。 对于职业的精神效益评价没有纯客观的测度办法,所以,测度一般是用打分或心理行为量表的方式。各分项指标相对于总指标是一种线性合成关系,且没有明显的客观权重。可以测度具体职业人的主观权重以获得评价模型;也可以,不对各项指标进行综合,而是分别评价单项,再采用层位评价模式以确定职业人对其职业的满意情况(参考本章第四节和第五节)。 从评价概念的内涵来看,对于物质效益的评价不能以给出货币值来结束,那样就不是评价而是估计,评价就要确定得到的货币数是否令职业人满意以及满意的程度。所以,职业效益评价就是要评测职业人对其职业或岗位的满意度。 在分别获得物质效益和精神效益的满意度以后,职业人可以根据自己对各项指标的综合判断来得到其职业效益评价值 —— 综合满意度。 如果是管理者对员工或下级人员进行职业效益评价,一般相当于绩效评价,不过,管理者也可以站在职业人的角度对员工或下级的职业效益进行评价,以便于采取合适的人力资源管理措施,提高员工或下级的工作积极性。 (九)评价模型 评价模型是把指标集 {X 1 ,X 2 ,…X n } 的值映射到总指标 G 的操作模式,可以是数学公式,也可以是一种对应表。当 {X 1 ,X 2 ,…X n } 各分量的值取连续实数或整数时,通常需要数学公式,当 {X 1 ,X 2 ,…X n } 的取值是分类或等级值时,则可以使用对应表的形式,即列出每一组评价指标值对应的总指标评价值。 评价模型不是越复杂越好,最简单的线性加权评价模型在许多情况下已经足够。在这里需要提醒的是,制定权重有各种方法,但不同方法确定的权重意义不同,不能滥用。比如人们喜欢的熵权法,其制定出的权重的意义不过是代表了样本指标值差异性或名义区分度的大小,与权重的 “ 初心 ”—— 对价值效果的重要性不是一个概念。通常的专家咨询赋权法(如层次分析法)只有在专家充分了解所要评估的价值关系内涵的情况时才有可能正确赋值,所以,咨询专家时不能只给一个表格和几句简单的说明,而必须详述评价方案。 评价模型的选择和评价指标体系的设计不是相互独立的,而是相互影响的。一定形式的评价模型需要一定内容的评价指标体系,指标值的可得性限制评价模型的选择。如广泛使用的数据包络分析模型需要一套投入-产出指标体系,而通常的线性加权评价模型需要的是同类评价指标集,不能把投入和产出混合加权。 虽然前面指出,适合不同的评价目的的评价指标体系和评价模型是不同的,但是,职业、工种和岗位作为价值客体,其产生的效果应该是一种客观存在属性,可以作为职业统计的内容,建立指标体系。如果有了正规的职业效果统计,则可以在需要时,根据评价目的建立评价指标体系,根据指标体系从职业效果统计中获取统计数据,从而提高职业效益评价活动的效率。 (十)评价标准 评价标准在评价理论和实践中有两种。第一种是测量标准或测量尺度,用来标度各项指标的测量值。对应纯粹统计性指标,其标准具有物理量纲。第二种是价值标准,用于确定价值客体的属性值对于价值主体的价值值,其一是从统计性指标值映射到价值性指标值,如一定量货币收入对于职业人的满足度,其二是从连续实数或整数价值指标值映射到层级性价值指标值,如百分制或十分制与优、良、中、合格、差五级制的对应关系。 对于第二种标准要避免简单的等距分级法则,可以考虑应用边际递增或边际递减或其他非等距分级法则,如采用 90 分以上对应优、 85-90 分对应良、 70-85 对应中, 60-70 对应合格、 60 分以下对应差。有时需要首先给出分级的定性定义,根据定性定义制定数量界限。根据聚类特征进行分级也是一种方法。标准的制定要重视内涵即质的规定性。 在职业效益评价中,个体职业效益标准要把职业人的切身感受放在第一位,管理者评价要把职责标准作为主要参照。 (十一)评价实施 所谓评价实施就是落实评价方案、获取评价指标数据、得出评价结果的过程。正式的评价实施要有详细的实施方案,准备充分的物力、人力和财力,有科学的组织计划。把一次系统评价工作作为一项系统工程,其运作过程如图 6.2 所示。 资料来源:刘新建 . 系统评价领域硕士学位论文的规范要求探讨 . 学位与研究生教育 ,2011 (6) 图 6 - 2 展示了从系统评价方案研制到方案实施的一个逻辑步骤系统,其中创建评价支持系统阶段就是评价方案研制阶段,在此之前的属于项目立项阶段,在此之后的属于评价实施阶段。把评价实施作为一项系统工程,其过程分为三个基本阶段和一个收尾阶段。三个基本阶段即制定评价实施方案、实施评价方案和评价实施结果分析。收尾阶段的工作即是进行评价活动总结及资料存档。在中华武术中有一句格言:练功不收功等于白练功。系统工程项目的收功即收尾阶段是非常重要的,能够将实践中的感性和理性认识进行系统总结,产生认识升华,也能够为未来的相关工作提供经验和资料上的便利。 由社会职能机构或中介机构进行的比较复杂的职业效益评价应当遵循图 6.2 的方法论。如果评价是每年定期进行的,那么,在每年开始之前应首先学习上一年的研究报告和总结资料,对上一年的评价进行再分析,在此基础上,完善评价方案,然后再开始新一轮评价实施活动。 (十二)评价结果使用 在正式规范评价中,评价结果的发布和使用方式是一个非常重要的问题。同一个评价结果,由于发布和使用的方式不同,其管理和社会效果会差别很大。职业效益评价是机构人力资源管理特别是薪酬管理的基础。大家都熟悉的一个惯例是,许多企业的薪酬是不公开的,只有老板和主管知道,这就是为了避免薪酬差异造成员工心理的失衡,从而影响工作。但是,这种做法不是在所有的单位都适用。在公共部门,薪酬公开是大众对管理者和管理机构的公平公正性的监督渠道,如果允许暗箱操作,将引起群众猜忌和寻租腐败。可以看出,这里存在多个管理目标的冲突,有效的管理就是在这些冲突目标间做出折衷取舍。 评价结果的使用方式应在评价方案制定中予以考虑,它依赖于评价目的、评价主体和评价客体的特性,还可能与社会环境有关。如前指出,作为正式组织实施的评价,评价结束还应做好文件和资料的存档工作,这既是现代档案管理的要求,也为以后的评价和管理工作提供了借鉴和基础材料。
个人分类: 评价|4164 次阅读|0 个评论
味道
热度 34 weijia2009 2013-11-11 08:46
味道 贾伟 我们的高校和科研单位一直在设法用各种指标准确地评价一个人的科研能力和水平。其实放眼看出去,各行各业都在做着同一件事,都想要用靠谱的指标体系来评价业绩、控制质量。 上世纪八十年代,美国可口可乐公司曾受到过一次“强烈的刺激”,管理层对企业前景一度产生恐慌,因为当时竞争对手– 百事可乐咄咄逼人,其市场占有率从七十年代的4%逐步攀升到11%,而相比之下营销投入大得多的可口可乐同期从14%的占有率跌到12%。 让可口可乐公司管理层大伤脑筋的是,百事可乐并不打算就此收手,而要跟它刺刀见红。百事在电视节目上公开地请爱喝软饮料的顾客品尝标了Q和M的两杯可乐,请他们打分,结果每次测试都是一个结果:多数人爱喝M饮料,而这个M就是百事可乐!这种评价非常严谨,相当于我们今天的新药临床试验,采用的随机、对照、盲法进行比较,令人无可挑剔。可口可乐公司看在眼里急在心头。他们嘴上表示不屑这种玩法,私底下悄悄地请来顾客也搞了个(两种可乐的)盲法评价,结果发现,爱喝自家牌子的人有43%,而爱喝百事的却占57%。面对这样的结果他们不甘心,又着手搞了一系列的市场调研,但得到的结果都很不乐观!这下他们头发竖起来了,知道大事不妙了! 长话短说,可口可乐管理层经过反复讨论和酝酿,最终一咬牙一跺脚,决定改造自己沿用了99年的老产品。技术人员将口味变淡、变得更甜,然后拿出去试验,评价结果跟百事可乐持平!在此基础上他们不断改造,产生出了终极版的改良配方。这个新配方被拿出去广为测试,公司花了数百万美元,开展了十几万人次的品尝实验,参加者是来自全国各地区各年龄组的消费者。所有的盲法显示,新配方比百事平均胜出6到8个百分点,味道好极了! 这下公司领导们一扫数年来心头的郁闷,在新闻发布会上 隆重 宣布新品上市!他们认为这是(公司有史以来)最靠谱的一个举措 - “the surest move the company’s ever made”! 正当公司上下踌躇满志,期待着一举击败竞争对手时,市场传来噩耗,人们对这种新口味根本不买账,新可口可乐没人买!与此同时,全国各地的消费者每天往公司打超过5000个投诉电话,抗议改换口味这种“脑子进水”的决定!公司情急之下把老(配方的)可乐重新推向市场,而把几乎无人问津的新产品撤出货架,经过这么“过山车”般的一番折腾,才算稳住局面。但另一个让可口可乐销售人员跌破眼镜的发现是,他们的老对手百事可乐并没有像(无数市场调研和评价报告中)预期的那样胜出 - 不论多努力,销售业绩就是上不来。而可口可乐这一个在无数的人群试验和严格的评价指标下败得一塌糊涂的老配方,这么多年来“一哥”的位子始终坐得稳稳当当的! 这个故事告诉我们,评价饮料的味道这么一件再简单不过的事其实很不简单,即便是业内顶级企业和顶级专家都没能找出合理的方法和指标。其实,百事可乐推出的“口味测试”方法设计是严谨的,但结果是不靠谱的。一个人当着众人的面喝上一小口饮料,给出的感受与坐在家里的沙发上悠闲地喝上一罐饮料的感受是非常不同的,前者给出的是“瞬间”感受,甜度高的饮料(像百事可乐)多半会胜出。瞬间尝试的话,百事可乐的柠檬味的口感也略微胜过可口可乐的香草-葡萄味的口感。但 越往下喝, 这种瞬间口感上的优势就越少,也就是说可口可乐的口感是后发制人的,它的胜出机制走的是“长线”。事实上很多老品牌的酒、烟、甚至饭店里的菜肴之所以深受人们喜爱,道理是一样的,不是“一见钟情”式地赢在第一口感,而是“日久生情”、历久弥香。 教育和科研的评价之不容易,跟品尝饮料的味道是一个道理,用各种指标算出来的排名和水平,跟实际一定是有距离的,社会也不一定买账。你说中国的高校已经接近世界一流了,为什么老百姓还要把自己的孩子送国外去读书呢?反过来,我们一些科研人员也不必惊艳于那些所谓的名校来的、能发高档期刊论文的大牛同行,在他们面前无地自容。科研上的东西真不好说,幸福也许离我们并不那么遥远,某一天你会发现,自己手里那一杯淡淡的菊花茶在味道上比星巴克的一杯香甜的热巧克力更好! 味道
11415 次阅读|100 个评论
何为衡量研究人员科学影响力的最好方法?
热度 5 zhpd55 2013-6-15 10:52
何为衡量研究人员科学影响力的最好方法? 诸平 据《美国国家科学院院刊》( PNAS ) 2013 年 6 月 11 日 出版的最新一期杂志刊登的论文 ( Determining scientific impact using a collaboration index ) 报道——对于如何来评价科研人员的研究成果的影响力,美国伦斯勒理工学院( Rensselaer Polytechnic Institute )的研究人员提出了用合作指数来确定科学影响一种新方法,详见 Jonathan Stallings, et al. Determining scientific impact using a collaboration index. PNAS Early Edition . DOI: 10.1073/pnas.1220184110 。在该文中作者根据合作者的贡献提出了 A 指数(见表 1,其中红字部分是利用现有数据的预测结果,其相关性系数 R 2 0.99 )。合作者的贡献可以分均等贡献和非均等贡献 2 种情况,均等贡献相对比较容易得到其贡献大小,即合作者总人数的倒数;而非均等贡献的计算是以表 1 作为参考标准,给出了其贡献大小的分配指数。 Table 1 A-index for equal/ unequal contributions No. Coauthors Equal Unequal Contributions A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 1 1.000 1.000 2 0.500 0.750 0.250 3 0.333 0.611 0.278 0.111 4 0.250 0.521 0.271 0.146 0.063 5 0.200 0.457 0.257 0.157 0.090 0.040 6 0.167 0.408 0.242 0.158 0.103 0.061 0.028 0.0196 0.0104 0.00464 0.00103 7 0.39106 0.2315 0.15977 8 0.37566 0.2193 0.15994 9 0.3659 0.2071 0.15998 10 0.35971 0.1949 11 0.35579 0.1827 12 0.35331 0.1705 13 0.35173 0.1583 14 0.35073 0.1461 15 0.3501 0.1339 16 0.3497 0.1217 17 0.34944 0.1095 18 0.34928 0.0973 19 0.34918 0.0851 20 0.34911 0.0729 从定性的角度来看 , 要确定一位优秀的研究人员并不是什么难事,依据他发表的优秀论文多少即可给出结果。但定量测量这些论文是更复杂的 , 不是 IF 或者“核心期刊 ” 就可以确定的,因为它们可以几种不同的方式来进行评价。在过去的多年间 , 已经提出了几种不同的评价指标 , 以某个人在同行评议的出版物上发表论文的数量和质量来决定其科研水准的高低。然而 , 当一篇论文有多个作者时,这些指标大多数假设所有作者的贡献均等。一项最新的研究显示 , 研究者认为 , 这一假设使这些指标带有一定的偏见,而且研究者提出了一种新的度量指数 , 是根据所有合作者的相对贡献大小来论功行赏 , 产生了一种获得某研究人员科学影响力的合理方法。该研究成果 2013 年 6 月 11 日 已经在最近一期 PNAS 发表。 美国伦斯勒理工学院( Rensselaer Polytechnic Institute ) 生物医学工程系教授,通讯作者王革( Ge Wang 音译 )在对物理学家组织网( Phys.org )谈到,“因为我们都有信用卡 , 不用说 , 在日常生活中衡量信用是非常重要的 , 如何衡量智力声誉是一个热门话题 , 但一直没有一种严格地方式来衡量团队中个体成员的科学影响,比如合作在同行评议出版物上发表的论文等。 王革 等人的论文为回答这个基本问题提供了一种解决方案。 目前 , 评议个人科学影响最常见的一种就是 H 指数 , 它反映了一个研究人员发表论文的数量和被引用次数的多少。具体地说 , 某科学家有一个 H 值,是指其发表的论文中有 H 篇论文至少被引用 H 次 , 其他论文的被引次数均在 H 次以下。但是 H 指数并不考虑合作者对于论文贡献大小的可能性,也有很多情况其 H 指数并不一定适合。例如 , 当一个研究者只有少数几篇出版物,但它们的被引频次很高,此研究者的 H 值会因为发表论文的数量而受到限制。 要评价一个科研人员的学术成就,仅考虑其发表的论文总数并不妥,还要看这些论文的质量,但是将期刊的影响力(如影响因子 IF )视为论文的质量指标也是同样不妥,必须具体地看其论文的被引用情况。一种常用的简单方法是统计一个人发表的所有论文的被引用总次数。总被引频次的缺陷就是极个别的几篇高引论文可能会掩盖其他被引频次很低甚至无人问津的一些论文,使其总体成就因此而被夸大,特别是如果被引次数高的论文是多名作者的合作成果,则其水分更多。而且,有的综述性文章的被引次数往往会比原创论文更高,但是它并不代表作者的学术成果,仅仅为研究者提供了动态性的研究概论。 另一种方法是把被引用总次数除以总论文数,得到平均被引次数。但是这种做法对论文少的人有利,而对论文多的人不利。如果只统计某个人 “ 重要论文 ” (被引次数较多)的数量,或这些论文的被引总数。“重要论文”的界定缺乏可供参考的标准,选择过程难免带有人为的随意性。 2005 年底,为了解决这些问题,美国加州大学圣地亚哥分校物理学家乔治 · 赫希 (Jorge E. Hirsch) 提出了一种新的、已开始在美国应用的定量评价科研人员的学术成就的新方法 ——“H 指数 ” 。赫希将自己提出的新方法首先写成一篇论文,于 2005 年 8 月份率先在网上公布,当时就引起了广泛关注。英国《自然》( NATURE )、美国《科学》 (SCIENCE) 都立即进行了报道。 2005 年 11 月份赫希的论文正式在 PNAS 上发表。 乔治·赫希提出的 H 指数是最好用于比较类似的科学时代的研究人员 , 高度合作的研究人员可能会出现 H 指数值膨胀现象,因此他建议基于合著者的平均数来规范 H 指数,但对于在合作过程中的贡献大小以均等论处。可见 H 指数依然存在一定的局限性。 H 指数的局限性 1 —— 不适合用于评价年轻科学家 H 指数的高低与从事科研的时间长短有关。对于年轻科学家来说,由于发表论文数量太少,论文的数量成了其 H 指数的上限,计算其 H 指数没有多大的意义。 H 指数比较适合用于衡量已从事科研多年的资深科学家的总体成就。一个人的 H 指数不会随着时间的推移而减少,只会增加或保持不变。 H 指数的局限性 2 —— 不适宜于评价历史上的科学大师 因为 H 指数涉及到被引频次,但是不同数据库的建库时间不同,包容的文献时段存在差异,有些早期的文献尚未收录,难以确定被引情况,因此用 H 指数来评价历史上科学大师的成就,明显存在很大的局限性。例如,如果根据 SCI 的收录计算大物理学家费曼的 H 指数,仅为 21 ,按赫希提出的标准只能算是一名 “ 成功科学家 ” 。 SCI 未收录 1955 年之前的物理论文,费曼在 1955 年之前发表过 17 篇论文,即使把这 17 篇论文全部算进去,费曼的 H 指数最多也就是 38 ,也还没有达到 “ 杰出科学家 ” 的标准。老一辈科学家并不像当代科学家那样频繁发表论文,而且他们的重大贡献很快成为专业常识,人们在提及时不再引用其论文,这两方面的原因使得他们在 H 指数方面大大吃亏。再如国内的数据库大约在 20 世纪 90 年代才陆续创建,个别重要期刊的文献收录可以追溯到 20 世纪 70 年代末,而且是以中文文献为主,这些条件均对于以 H 指数来评价科学大师会带来严重影响。 H 指数的局限性 3 —— 自引与他引混为一谈 论文引用包括作者自引和他引两种情况,SCI和CNKI在统计时并不对二者进行区分。显然,自引次数的多少与论文的影响力毫无关系,但是如果有些科研人员故意频繁自引,制造论文被引次数高的假象。尽管赫希认为H指数的一个优势是很难通过自引来拔高,“无法伪造它”,因为它衡量的是一个人的全部学术成果能否经受时间的考验。波士顿大学物理学家悉尼·莱德纳接受《自然》(Nature)的采访时对此也表示同意:“想要假造全部的科研生涯是非常困难的。”但是,在利用H指数进行评价的过程中,我们对于高自引以及“友情互引”等不正常的引用现象带来的影响不可忽视。 然而 , 王革 等人在这项新的研究中考虑了合作者的相对贡献大小 , 使偏见降到最小化。表 2 是 王革 等人论文的 9 位合作者,根据不同方法,按照其贡献大小计算得出每一位合作者的 A 指数。 王革 说,“科学生产力和影响力的任何定量测量实际上都有存在一定偏见 , 因为智力是最复杂而奇妙的 , 要对其绝对测度是不可能的 , 任何测度都难免存在过失,这正是不断进行深入研究的乐趣所在。当我们由于多种原因不得不对某一篇论文进行衡量时 , 我们运用公理化文献计量学方法就是人们希望的最好的一种选择。”因为这种方法来源于公理( axioms ) , 故被称为 A 指数( A-index )。在 A 指数中 , 将每个合作者分配给某一组。对于一篇出版物而言,如果只有一位作者 , 则作者拥有 A 指数为 1 。如果每一位合作者的贡献大小均等,大家均分即可。若 4 人合作完成,均分结果每人 A 指数为 0.25 。但是如果每个合作者的贡献不同 , 根据贡献大小分组,得分多少是与其权重有关。例如 ,4 个合作者以降分排列其 A 指数分别为 0.521 、 0.271 、 0.146 和 0.063 。 一个研究人员的 A 指数总和称为 C 指数( C-index ) , 是根据研究者的相对贡献给出的发表论文的加权数。 A 指数 ( 是单篇论文的度量标准 ) 也可以用于衡量个人对于一篇论文的质量分享 , 无论质量是以杂志的影响因子( IF )来定义还是以论文的引用数量来定义。这些值的总和就是生产率指数即 P 指数 (P-index) 。对 186 名生物医学工程研究人员进行 C 指数和 P 指数测试时,同时进行仿真测试 , 研究人员发现这些指标与 N 指数( N-index )和 H 指数( H-index )相比 , 提供了一种更公平、更均衡的科学影响测量方法,其中 N 指数仅仅是一个研究人员发表论文的数量。 一个重点比较就是 , 虽然高 H 指数需要发表大量的论文 , 只有少数论文的研究人员照样可以获得高 P 指数 , 如果他们的论文发表在一些高影响因子期刊上或获得大量的引用。研究人员也可以通过发表很多比较重要的论文达到一个高 P 指数。通过这种方式 ,P 指数既考虑到合作者在合作成果中的相对贡献,有顾及了发表论文数量和质量之间的关系 , 并非仅依靠于一个研究人员的发表论文总数量。这种计算方法的优势使得 P 指数明显不同于 H 指数,它可以用于年轻研究人员和用于比较具有不同的合作趋势的研究人员科学影响力的评价。 王革 说他们的公理框架是一个公平的和敏感的运动场 , 应该鼓励更顺利 , 更大范围的合作 , 而不是沮丧的单枪匹马式孤军奋战。因为众所周知 , 在许多情况下 1+12 而不是数学上严格的 1+1=2, 特别是对于日益重要的跨学科研究项目,合作研究的优势更为突出。但是 王革 等人同时指出 , 他们提出的新指标体系,也存在着一定的缺陷,其中之一就是缺乏一个合作者排名的明确定义系统 , 这是所有合作度量中的一个棘手问题。他们强调开发一个定义良好的合作者排名系统对于实现这些指标的全部潜能是必要的。另外 ,A 指标可通过调整科学影响的其他评价指标如 H 指数的权重,来克服内在固有的局限性。他们也希望在未来进一步研究这些问题。
个人分类: 新观察|9984 次阅读|8 个评论
【我的研究】东海区资源保护型人工鱼礁经济效果评价
ljgan 2011-12-26 15:40
摘要:人工鱼礁是放置于海底以影响海洋生物资源的物理、生物或社会经济过程的人工设施,具有修复生态环境、保护渔业资源的功能。21世纪以来我国东海区开展了较大规模人工鱼礁建设,用以改善渔业资源严重衰退的局面。科学地评价人工鱼礁建设的经济效果,对指导今后建设具有重要现实意义。本文根据东海区建设规模超过5×104空m3、建成时间大于2年、礁体结构为具有代表性的钢筋混凝土和旧船改造、并且有跟踪调查记录的4个有代表性的资源保护型人工鱼礁项目的调查资料,选取净现值(NPV)、动态投资回收期(DPP)、内部收益率(IRR)和益本比(BCR)等作为评价指标,运用模糊数学法建立了相应的模糊隶属函数,运用熵权法确定了评价指标权重,计算了经济效果评价值。结果表明,评价结果与实际调研结果吻合,评价方法可以作为东海区相近海况的同类型鱼礁经济效果评价的参考依据。 Abstract : An artificial reef is one or more objects of natural or human origin deployed purposefully on the seafloor to influence physical, biological, or socioeconomic processes related to living marine resources, which is applied to improving marine entironment and protecting fishery resources. Large numbers of artificial reef projects have been developing in the East China Sea from the beginning of 21 st century, so as to restore and enhance fishery resources. It is realistically very important to the future construction of the artificial reefs that the economic impact of the artificial reef can be scientifically evaluated. On the basis of socioeconomic investigative data of 4 artificial reef projects in the East China Sea which had been deployed purposefully for fishery resources conservation. whose condition are as follows: (1)the dimensions are over 5 × 10 4 Void m 3 ; (2)finishing time is over 2 years; (3)the type of the materials are ferroconcrete and discarded boat; and (4)which have followed investigated data . Refered to other projects, based on the attributes of artificial reefs, four dynamic evaluated indexes are selected, namely, Net Present Value (abbr. NPV), Dynamic Payback Period(abbr. DPP), Inner Rate of Return (abbr. IRR) and Benefit-Cost Ratio(abbr. BCR). The fuzzy membership functions of the evaluated indexes on the artificial reef are evaluated. The weight of the evaluated indexes is evaluated by using entropy method in succession. Finally synthetical evaluation values of economic impact on the artificial reef are calculated. The result indicates that the calculated outcome of the evaluated methods is good in agreement with the fact of socioeconomic investigative of these artificial reefs, which can be applied to economic impact evaluation of the similar kind of the artificial reef. 发表于《资源科学》2009年第12期
2748 次阅读|0 个评论
学术期刊评价目的与评价方法关系研究
yuliping 2010-12-10 22:35
本文发表于2010年12月第6期《情报资料工作》。 摘要:本文针对学术期刊评价目的与评价方法的关系进行了深入研究。重点讨论了在多属性评价值和期刊真实水平数据发生扭曲的背景下,根据期刊评价目的选择不同期刊评价方法的原则和注意事项。认为在目前绝大多数评价是期刊总体评价的情况下,应该采取线性加权汇总评价方法;两端评价对评价方法的选用最不敏感; 激励鞭策评价只能选取系统评价方法和非线性加权汇总评价方法。中间数据运用评价可以选取加权汇总评价和系统评价方法。 评价值的可比性问题必须引起足够的重视,应该根据不同的评价目的选择评价方法。 论文全文 2010.12.10 俞立平 于宁波
个人分类: 科学计量|5099 次阅读|3 个评论
一种错误的评价方法----相对最佳标准综合评价模型ROSCE
yuliping 2010-8-21 10:34
最近看文献,偶尔看到国家统计局的一项课题简介中, 出现了一种新的评价方法 相对最佳标准综合评价模型 ROSCE ( The Model of Relative Optimum Standard Comprehensive Evaluation ),一看挺新颖,于是网上查找文献,发现只有两三篇论文,该方法 2001 年由国内一学者提出,用来评价城市投资环境, 2002 年另外一位作者采用该方法评价农业生态区域, 2005 年提出该方法的学者又发表了一篇投资环境评价的论文。 我仔细看了该方法的原理,本质上就是一种标准化方法: E i,j =|V i,j -V j |/V j 其中 E i,j 为标准化后的结果, V i,j 为原始数据, V j 为评价值的最优值。 根据该公式,对于正向指标,最优值就是极大值,标准化后极大值为 0 ,极小值反而最大。对于反向指标,最优值就是极小值,标准化后极小值为 0 ,极大值反而最大。 因此, E i,j 越小越好。 得到 E i,j 后,再根据权重进行加权汇总即可。评价值最优的就是 0 ,最差的值不固定。 该方法存在以下问题: 第一,非常不符合人们的习惯,虽说标新立异,但没有什么创新,无非将数据标准化方法重新修改,别人的评价结果越大越好,我的评价结果越小越好,这种创新有什么优越性?实在想不出来。 第二,不利于评价对象之间的互相比较。传统习惯的评价,评价值一般介于 0-1 之间,或者 0-100 之间,最好的是 100 ,最差的是 0 ,但是该方法最差的有可能是 100 、 1000 、 10000 ,如何比较?至多只能排序。 第三,该方法存在重大缺陷。对于正向指标而言,标准化后的值肯定在 0-1 之间,对于反向指标,标准化后的值可能是无穷大。量纲不统一,怎么能加权汇总? 所以,大凡是新东西,要仔细辨别,不能盲从。 2010.8.21 俞立平 于江北
个人分类: 科研心得|4578 次阅读|0 个评论
土博士学术水平评价方法建议
chrujun 2010-1-24 00:07
吕喆 老师提出了博士的评价问题【1】,我也认真思考这个问题,得到了一些博士评价方法的思路。 由于国内过于讲究人情,至关重要的博士论文答辩会基本上变成了走过场。 没有在答辩会上不通过的博士。 行政部门为了解决上述问题,发明了论文外单位盲审,要求SCI论文必须达到多少篇,影响因子达到多高才能合格。为了追求SCI论文篇数和影响因子,又产生了一稿多投,弄虚作假等行为。应该说来,出现土博士不被认可,评价手段僵化,形形色色的博导们应该是罪魁祸首。 如果博导们严格按照西方的博士制度培养和评价每一个博士,就不会出来行政部门权力干预和评价学术。 为了解决上述问题,不仅需要重拾学术权力,而且需要在博士培养和答辩环节进行更完善的制度设计,最大限度防止不按照学术规律办事,防止走人情、走过场而不受制裁的情况发生。因此,我提出了如下建议。 1. 答辩委员会评价要真正发挥作用,负起责任。 为了防止答辩委员会滥用权力,必须在博士论文上有答辩委员会成员的亲笔签名。如果答辩委员评价有问题,要追究答辩委员会成员责任。 2. 答辩时间可以延长为2小时或更多,让答辩委员会成员有充分时间了解答辩人学术水平。可以先让答辩委员会成员看一个小时论文。然后再答辩40分钟,回答问题20分钟。也可以提前数天将博士论文交给答辩委员会成员,让每一个答辩委员会成员有成分时间了解答辩者的学术能力。 3. 答辩时要提交所有发表或采稿论文的全文复印件。这样可以最大限度发现一稿多投和抄袭行为,也可以让答辩委员会成员有机会评价答辩者学术水平。 4. 可以邀请部分国际专家评阅论文。所有论文评阅意见必须放在博士论文中。 5. 答辩委员会答辩意见必须放在博士论文中。最后提交存档或上网的论文必须有同行专家评阅意见、答辩意见、答辩委员会成员名单及签名。 由于论文答辩意见、同行专家评阅意见(包括国际专家评阅意见)、答辩委员会全体成员名单及签名都在博士论文中,都暴露在阳光下,并且要负起相应责任,因此可以对博士水平提出比较中肯的评价。 比单独数论文篇数,看影响因子强。 用人单位也可以根据博士论文获得博士学术水平的客观评价。如果博士导师拉关系户充当答辩委员成员、答辩意见夸大其词、论文评阅人放水等,都可以被发现,这有利于提高博士培养水平。 欢迎大家批评指正。 【1】 也谈国产博士是否合格 http://www.sciencenet.cn/m/user_content.aspx?id=289662 相关文章: 【2】王宝山: 国内博士到底哪点不合格了? http://www.sciencenet.cn/m/user_content.aspx?id=289583 【3】刘进平: 国内到底有多少博士不合格? http://www.sciencenet.cn/m/user_content.aspx?id=289395
个人分类: 教学心得|9525 次阅读|10 个评论
学术期刊多属性评价方法的选择研究
yuliping 2009-11-26 16:28
本文即将发表于2009.12《情报理论与实践》 摘要:本文根据学术期刊评价中评价方法众多,评价结果不唯一问题,提出了九个评价方法的选取原则:高区分度、低灵敏度、单调递增、完全数据、公众接受、主客观结合、高拟合度、指标齐备、评价结果初步认同。从而为学术期刊评价方法选取提供了一些可行的解决办法。 关键词:学术期刊 指标体系 评价方法 1 学术期刊评价概况 期刊评价是文献计量学研究的重要组成部分,它通过对学术期刊的发展规律和增长趋势进行量化分析,揭示学科文献数量在期刊中的分布规律,为优化学术期刊的使用提供重要参考,同时 可以提高学术期刊的内在质量,促进学术期刊的健康成长和发展。 美国著名情报学家加菲尔德博士在 20 世纪 60 年代对期刊文献的引文进行了大规模统计分析,得到了大量被引用文献集中在少数期刊上,而少量被引用文献散布在大量期刊中的结论,这可以被认为是国外期刊评价理论的起源。 学术期刊评价主要有两大类方法,一种是直接根据期刊评价指标进行对比,二是采用多指标综合评价方法,该方法克服了单指标评价容易带来的片面性,比较适合期刊的综合评价,因此得到了较广泛的应用。 学术期刊多指标综合评价是一项复杂的系统工程,牵涉到评价原则、指标选取、数据归一化、评价方法选择等诸多方面,国内外学者在该领域进行了大量广泛的研究。从评价方法的角度, Weiping Yue 、 Concepcion S. Wilson ( 2004 ) 利用结构方程的原理建立了一个期刊影响力的分析框架。苏新宁( 2008 ) 采用指标体系赋权进行中国人文社会科学期刊的评价。邱均平、张荣等( 2004 ) 提出了期刊评价指标体系的三维层次结构图,并利用灰色关联法进行评价。庞景安、张玉华等( 2000 ) 及李凯扬、贾玉萍( 2005 ) 利用层次分析法对期刊进行评价。王小唯、杨波等( 2003 ) 将期刊以往状态的评价结果作为各期刊基础条件的一种度量,再运用数据包络分析方法( DEA )测算出它们的二次相对评价值。李修杰、陈景武( 2006 ) 运用判别分析法建立的期刊评估指标体系。王玖、徐天和( 2003 ) 运用秩和比法进行医学学术期刊学术质量综合评价。陈汉忠( 2004 ) 等数位学者 应用主成分分析对学术期刊进行评价。凌春艳、莫琳( 2004 ) 提出自然科学学术期刊质量指标体系的属性数学综合评价模型并进行了评价。李继晓、蔡成瑛( 2006 ) 对各种核心期刊的评价方法进行了介绍和分析,认为选择核心期刊的评价方法并不是一件一劳永逸的事,只能通过不断实践、比较、分析,才能使核心期刊的评价日臻完善。 此外,还有一些学者将两种或两种以上的评价方法进行有机融合,采用复合方法进行评价,如根据层次分析法确定权重,再采取加权 TOPSIS 法进行评价,由于复合评价方法只有一个评价结果,因此本质上仍然可以认为是一种多指标综合评价方法。 许多多属性评价与多属性决策方法在学术期刊评价中得到了广泛的应用。从方法论的角度,决策方法的研究要多于评价方法的研究,这是因为评价和决策具有某种程度的相似性,都是选取一定指标然后按照某种方法进行指标集结,最后得出评分或排序结果。经典的多准则决策( MCDM )可以划分为多属性决策 (MADM) 和多目标决策( MODM )。多属性决策的决策空间是离散的,往往采取各种定量方法进行选优;多目标决策的决策空间是连续的,一般采用运筹学方法进行选优,因此多属性决策方法全部可以用于多指标综合评价。现在用于学术期刊评价的方法不过 10 多种,一些用于其它领域的多属性评价和决策方法将会在学术期刊评价中继续得到应用。新出现的多属性决策方法也将有可能在评价领域(包括学术期刊评价)中得到应用。 2 学术期刊评价存在的问题 目前国内外综合评价方法有数十种之多,根据权重确定方式结合评价原理,可以分为三大类:第一类是主观评价法,其基本原理是进行指标主观赋权,然后将数据标准化后加权汇总,如专家会议法、德尔菲法、层次分析法等等。第二类是客观评价法,包括两种,一种是采用客观赋权法确定指标权重,然后进行加权汇总,如熵权法、变异系数法、复相关系数法等;另一种是不需要赋权的系统方法,如主成分分析法、因子分析法、 TOPSIS 等。第三种是主客观相结合的赋权法,首先采用主观赋权方法确定权重,然后采用系统方法进行综合处理,如 ELECTRE 法、模糊综合评价法、 PROMETHEE 等等。指标体系综合评价方法存在的主要问题是, 针对同一评价对象,选取相同的指标,采取同样的数据,不同评价方法得出的评价结果不一致,结果难以得到公认,那么,如何进行评价方法的选择呢? 虽然一些评价方法本身提供了一些统计检验方法,比如层次分析法的 CI 排序一致性检验,主成分分析法提供的 KMO 检验等等,问题是,如果学术期刊评价全部通过了这两种评价方法的统计检验,那如何进行取舍呢?有没有公认的尺度进行方法选择呢?迄今为止的文献,对这方面问题进行系统研究的比较缺乏,本文重点对这个问题进行深入分析。 3 学术期刊评价方法的选择原则 3.1 高区分度原则 评价的目的之一就是对所有评价对象的综合表现进行区分,很显然,相同的评价对象,不同的评价方法的区分度是不一样的。如果评价值比较拥挤,那么相邻评价对象就不易区分。俞立平( 2008 ) 提出了一种区分度的计算方法。 对于某种评价结果,假设有 m 个评价对象,将其按分值 V i 高低进行降序排列,然后给每个分值编上序号 N ,这 里 1 i m ,则函数 V=f(N) 是单调递减函数,评价结果最好的坐标值为( V 1 ,1 ),最差值坐标为( V m ,m ) , 本文将区分度定义为 ( 1 ) 即评价结果相邻两点距离之和(折线长度)与首尾两点距离(极值距离)的比值, D 1 , D 越大,说明相邻两点越分散,评价结果的区分度越好。由于评价数据可能存在误差,因此,区分度好意味着评价结果的可靠性高,评价更为稳定。 由于各种评价方法结果的极值(极大值与极小值之差)范围不一,比如 TOPSIS 法结果的极值范围在 0 ~ 1 之间,因子分析法结果的极值范围在 -1 ~ 1 之间,而德尔菲法根据人们的习惯结果一般在 0 ~ 100 之间,必须将结果标准化后才具有可比性。标准化的方法对区分度的计算也有很大影响,若标准化后的分值在 0 ~ 1 之间,根据区分度的原理,势必导致相邻两点之间距离之和与首尾两点距离之比过小,导致不同评价方法区分度相差不大;若标准化后的分值根据人们的日常习惯在 1 ~ 100 之间,但是由于评价对象数量不一,如此处理也不合适。本文将标准化处理后分值设定为 0 ~ m 之间,即最大值点坐标( m , 1 ),最小值点坐标为( 0 , m ),中间某点的标准化值根据原值与极大值的差等比例处理。计算公式如下: (2) 公式( 2 )中, V 为原指标值, Vi 为标准化后的指标值。由于进行的是简单线性变换,因此不会改变原评价结果的分布规律,保真度较好。如果评价结果分值相同,则允许并列,实际上是两点完全重合。标准化后,区分度的计算可以进一步简化为: ( 3 ) 3.2 低灵敏度原则 灵敏度是用来分析评价指标数值或权重变化对评价结果排序影响的一种方法,它广泛应用于多属性决策、多属性评价领域,但在学术期刊评价中,灵敏度分析比较少见。权重灵敏度分析可以用来分析指标权重的变化对评价结果排序的影响 。通常情况下,几乎所有的权重赋值方法对指标权重都允许有一定的变化范围,即指标权重在某个范围内变动不会影响排序结果,这也就是灵敏度的本质含义。很显然,灵敏度越低的评价方法,允许指标权重变化范围较大而不会影响评价结果的排序,对数据误差有一定的防范能力,因此灵敏度越低,评价方案越好。 一些评价方法已经不用权重,如主成分分析、证据理论等;一些评价方法即使用到权重,也是一种过渡,即权重只是评价的中间变量, 如 ELECTRE 法、模糊综合评价法等。在这种情况下,可以采用回归分析法,将评价结果作为因变量,评价指标作为自变量进行回归,然后将回归系数标准化后作为权重,在此基础上做灵敏度分析。当然,对于基于排序的评价结果,在回归时要采取排序因变量模型进行回归。 3.3 单调递增原则 所谓单调递增原则,就是不管什么评价方法,正向指标值增加一定会导致总评分值增加,反向指标增加一定会导致总评分值减少,按道理似乎这不应该存在问题。在按照权重加权汇总类的评价方法中,这并没有任何问题,如熵权法、专家会议法、层次分析法等,但是在一些系统评价中,则存在递减的可能性。比如主成分分析、因子分析、灰色关联法等,在给定期刊评价指标和数据后,用这些方法进行评价,然后再用评价值作为因变量,评价指标作为自变量进行回归,有时会发现某些评价指标的系数为负数的异常情况,即出现期刊某个指标值增加,其总得分会减少,排序会下降的异常现象。 对这种情况,要具体问题具体分析,如果排除评价指标选择不当的情况,那么说明是评价方法选择有问题,即不能用该评价方法进行评价,因此,评价方法是否单调递增可以作为评价指标筛选和评价方法选择的一个标准。 那么如何发现指标递减现象呢?可以将评价值作为因变量,评价指标作为自变量进行回归,然后看回归系数符号是否为负数。 笔者选取 14 个评价指标,采用主成分分析对 518 种期刊进行评价,将评价结果与指标进行回归,发现他引率的回归系数为负。继续将所有数据保持不变,仅将其中一种期刊的他引率提高了 20% ,继续采用主成分分析进行评价,结果发现该期刊排序下降了 10 位。 3.4 完全数据原则 评价和决策的目的往往是不相同的,评价重在总体,决策重在选优,有时甚至只关心最好的方案,对于中等或较差的对象是不敏感的。考虑到数据获取成本和处理方便,有时抽取少部分对象进行处理即可。比如某市移动公司筛选最重要的 1000 个客户,只要选取月话费前 5000 名的客户,再结合其他指标进行分析即可,因为前 1000 个重点客户肯定在这 5000 个里面,根本没有必要评价所有的几十万客户。 但是对于大多数不能独立于数据的评价方法,评价结果是完全不一样的。比如要筛选前 10 种最重要的医学期刊,若采用中国科学技术信息研究所 CSTPC 数据库和 TOPSIS 法评价,可以有两种不同的做法。该数据库 2006 年共收录了 518 种医学期刊,选取影响因子前 50 名的期刊进行评价,与选取所有 518 种医学期刊评价相比,两种情况下前 10 名往往是不同的,那么哪种结果可信呢?显然是采用所有期刊数据来进行评价的结果更可信、更服人。 如果采取不依赖于数据的评价方法,如专家会议法、德尔菲法、层次分析法,那么评价对象数据是否齐全对评价结果是没有影响的,这里要说明一下。 3.5 公众接受原则 决策更多地体现了决策者的意志,它不需要关心决策对象的满意度。而评价则类似于考试,更多地要兼顾公平。在大多数情况下,决策者根本无须向公众公布决策方法甚至决策结果,而评价方法和评价结果往往是要公开的。因此,在评价方法的选取过程中,除了兼顾方法的科学性外,一些影响小,使用不多的评价方法要慎重使用,比如,指标体系赋权中采取的变异系数法、复相关系数法。对于近年来出现的一些新的评价方法,如遗传算法、康托对角线法也要在认真研究评价原理的基础上加以选用。你的方法再科学,但只要评价对象较普遍地不认可你的方法与结论,那这样的评价就是失败的。我国某些大学排行榜就遭到这样的命运。 3.6 主客观结合原则 为了排除评价中的人为因素,出现了许多客观评价方法,固然起到了貌似公平的作用,但是客观评价法最大的缺点也正是无视评价者的主观因素。对评价者而言,不同的期刊评价指标的重要性是不同的,通过专家会议不同评价者有可能对指标权重达成共识。 不同类型的评价对评价的客观性要求是不同的,比如大气环境评价就相对客观一些。学术期刊更多地是以科学技术研究为主要对象的人类劳动,期刊的一些评价指标如影响因子、基金论文比、作者数等都与人的主观因素联系比较紧密,因此其评价必须充分考虑人的主观性,建议在期刊评价中采取主观或主客观相结合的一些评价方法。 3.7 高拟合度原则 不管什么评价方法,评价指标都是为了说明评价值的,也就是说,评价指标与评价结果之间必须有很好的拟合关系。除了加权平均类的评价方法外,其他几乎所有的评价方法都可以采用回归分析的方法对评价结果与评价指标的拟合度进行度量,方法是看 R 2 值的大小。通常情况下,根据经验一般要求 R 2 0.80 ,过小的 R 2 值是不合适的,说明指标对评价结果的解释力差,不能自圆其说。 3.8 指标齐全原则 一些评价方法,为了减少计算量和消除指标间的相关性,人为删除部分存在重复信息的指标,对这个问题的处理要慎重,因为完全相同的指标是不存在的,删除指标必然带来信息的损失。在期刊数量较多的情况下,由于期刊数据比较密集,删除指标对整个排序结果将产生较大的影响。现在计算机技术发展很快,已经没有必要考虑计算的精简,何况许多评价方法都有自己的软件包,我们需要解决的问题是如何消除指标间的相关问题。 当然,并不是说在指标选取时就可以滥选指标,要综合考虑指标的内涵及获取成本,就学术期刊评价而言,数据的获取成本是相对低廉的,不像医学检验,指标多了,意味了病人化验的项目多了,既增加了病人的负担,也延误了诊断时间。 3.9 评价结果初步认同原则 在学术期刊评价中,针对某个学科的期刊评价,如果存在某种大家一致公认的最好的期刊,但是在用某种评价方法进行评价时,该期刊没有排在第一,那么该评价方法最好不要选用,因为与人们的常识不符。当然,如果不存在大家公认的最好的期刊则另当别论。 4 讨论 本文提出了学术期刊评价方法选取的一些原则,根据本原则可以筛选掉一些不合适的评价方法,但是仍然会留下数种评价方法,在这样的情况下,建议采用组合评价方法进行处理,即根据一定的方法将几种评价方法的结果进行综合,最后得出唯一的评价结果。 虽然本文是针对学术期刊评价进行的讨论,但基本的原则和方法对所有的评价是普遍适用的,可供其它领域的评价方法选取参考。 参考文献 Weiping Yue 、 Concepcion S. Wilson . Measuring the citation impact of research journals in clinical neurology: a structural equation modeling analysis . Scientometrics,2004 ( 3 ): 317-334 苏新宁 . 构建人文社会科学学术期刊评价体系 . 东岳论丛, 2008 ( 1 ): 35-42 邱均平、张荣等 . 期刊评价指标体系及定量方法研究 . 现代图书情报技术, 2004 ( 7 ): 23-26 庞景安、张玉华等 . 中国学术期刊综合评价指标体系的研究 . 中国学术期刊研究, 2000 ( 11 ): 217-219 李凯扬、贾玉萍 . 基于 AHP 的期刊全文数据库的模糊综合评价 . 情报科学, 2005 ( 11 ): 1688-1703 王小唯、杨波等 . 学术期刊质量评估的二次相对评价方法 . 编辑学报, 2003 ( 6 ): 231-232 李修杰、陈景武 . 运用判别分析法建立的期刊评估指标体系 . 江西图书馆学刊, 2006 ( 3 ): 48-50 王玖、徐天和 . 秩和比法在医学学术期刊学术质量综合评价中的应用 . 数理医药学杂志 2003 ( 3 ): 266-267 陈汉忠 . 主成分分析在学术期刊评价中的应用 . 中国学术期刊研究, 2004 ( 6 ): 658-660 王引斌 . 测定核心期刊的新方法主成分分析法 . 情报学报, 1998,17(5):13. 贺颖 . 2001-2004 年中国管理类期刊学术影响力综合评价 . 中国软科学, 2007 ( 1 ): 107-112 管进,陈文凯等 . 外文核心期刊的综合评价主成分析法的应用 . 图书情报工作, 2004 ( 1 ): 13-16 张弘、赵惠祥等 . 基于主成分分析法的学术期刊评价方法 . 编辑学刊, 2008 ( 2 ): 87-90 杨文燕,刘亚民等 . 利用主成分分析法对中国肿瘤类期刊学术影响力的综合评价 . 中国肿瘤, 2008 ( 1 ): 79-81 周玲、张玲玲 . 利用因子分析法对国内主要数学期刊进行评价 . 淮北煤炭师范学院学报 2006 ( 6 ): 67-70 凌春艳、莫琳 . 自然科学学术期刊质量指标体系的属性数学综合评价模型 . 数学的实践与认识, 2004 ( 5 ) :1-7 李继晓、蔡成瑛 . 对各种核心期刊评价方法的分析 . 中国学术期刊研究, 2006 ( 2 ): 253-256 俞立平 . 比较不同评价方法评价效果的两个新指标 . 南京师范大学学报(自然科学版), 2008 ( 9 ) 2009.12.26 俞立平 于邗上 PDF下载
个人分类: 科学计量|6925 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-11 21:12

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部