科学网

 找回密码
  注册

tag 标签: 信度

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

旧文重贴:小测验:“你漂亮吗”与“你跳了吗”
热度 1 physicsxuxiao 2013-1-14 22:32
【按语】利用分区,利用SCI,利用同行评议等来评价科研,被来回讨论,但不像有停下来的趋势,所以我们不得不再次回顾定量评价的一些常识。 (1)你漂亮吗? 问题 :以下图片中是否是美女? 答案 : 第二张,是日本战国时代第一智将毛利元就的造型,男性;第三张、猫;第四张,出自百度“花样美男”图片,是“帅”锅。所以只有第一和第五张是美女。 点评: 看照片而选美女,结果出了岔子。学术化点讲,就是看照片这种方式,对选美女而言,效度太差。 所谓效度,是指测量工具确能测出其所要测量特质的程度。从数学上说,是指实际测量的集合和欲测量的集合的重合程度。若严格论美女,就必须将伪娘啊,猫啊,狗啊排除在外,否则就会闹出“按图索骥”的笑话。 进而言之,你必须清楚地定义啥是美女。若论心里美,凤姐并不一定输给第一张之美人。 所以量化评价,必须清楚定义目标对象,准确定义关键指标,而测量方法上要时刻提防伪娘混入。 参考文献: 美女的量化评价标准 (2)你跳了吗? 问题:这个帅哥为啥搞错了? 答案: 这个帅哥没有搞清测量的效度与信度问题。 所谓测量的信度,就是指测量结果是否真实。测量的真实性是通过一致性、稳定性及可靠性来体现的。所谓一致性,就是指换测量人、换方式来量,其结果一致;而稳定性主要是指多次测量结果稳定。如果结果稳定了,一致了,一般也就可靠了。 这个帅哥可以用手去摸一下冰面或者水面(换换方式),问问别人(换人测量),多看一下水动不动(多次测量),就不会砸冰面上了。 点评: 谈测量的信度,是谈效度的前提。这就好比,你带了副哈哈眼镜,看啥都变了形,还谈什么你能区分胖子瘦子,当然也分不清葛优和陈佩斯了。所以要讨论效度,必先讨论信度。 其实大量的国家基金评审问题,同行评议问题,人才引进问题。在中国,本质上就是个信度问题。 试想,各利益方端坐一堂,争成一团,那得势的,难免不把猪八戒评成潘金莲。测量标准和方式的问题,测不测得真,已经不是关键,而是要被大家扔到桌子下面的东西。 参考文献 外国土鳖都很好,中国的土鳖要争气
个人分类: 科学评价体系|3257 次阅读|2 个评论
人文社科评奖的公正性似乎是个无解的问题
热度 1 yuliping 2012-8-3 23:38
评价的信度大家应该都知道,就是评价结果的可靠性。在科技评奖中,如果一批匿名专家的评奖结果和另一批匿名专家的评奖结果相同度越高,那么评价的信度一般也越高。 在人文社科评奖中,如果不限定每个学科的获奖数量,放在一起评奖肯定是不合理的,因为不同学科一般是不可比的。但如果限定每个学科的获奖数量,由于不同学科的成果数量其实是不确定的,在评奖前无法知道,此外大奖数量毕竟有限,也不能每个学科都安排一个一等奖。即使大奖数量存在很多机动的余地,那么一等奖的指标不同学科如何分配?依据如何?所以最终结果是,不同学科的科研成果放在一起评奖是很正常的事情。 也就是说,必须将不同学科的成果放在一起评奖。怎么比较呢?专家打分,问题是专家的学科不同,偏好不同,打分有高有低,不具有可比性。那么进一步改进,规定每个专家的平均分必须相同,比如 85 分,这样不同学科才具有可比性。真可以这样?其实是不可以的,因为专家可以打一个最高分 100 分,然后再打一个较低的分数,比如 70 分,这样可以保证平均分为 85 分。所以从打分的角度,无法保证不同学科的比较,也难以实现评奖的公平。 在打分的基础上兼顾成果的影响可以吗?比如发表论文期刊的级别,论文被引用转载情况等等。这似乎可以考虑,但目前评奖采取的打分办法往往将这些内容包含在打分中了,也就是说,打分已经包括发表论文和成果转载引用情况。 即使将打分和论文发表、转载、引用分开,还有另外一个问题,不同学科发表论文和转载的难易程度是不一样的,比如哲学、管理工程、应用经济学三个学科,管理工程的论文别指望会被《新华文摘》、《人大复印资料》、《中国社科文摘》等转载,哲学类论文数量总体上也没有应用经济论文多。 所以,人文社科评奖要保证信度总体而言是个无解的问题,因为难以从方法上保证,这是我的直感,也许随着方法的进步会有所改观,但难以从根本上解决问题。 何况,还有评审专家的良心、评审流程的透明、评价方法的相对公正等等问题,不说内幕了。 自然科学评奖是不是也和人文社科差不多呢? 几点小结: 第一,人文社科评奖的信度总体较低,拿到大奖别太高兴,拿到小奖甚至不拿奖也不要不开心。 第二,小奖也许比大奖更有含金量。由于诸多原因,评委必须给某个东东一个大奖,知道你的成果不错,然而不能给你大奖,就给个小奖,也不错的,要谢谢评委。 第三,奖在哪儿?奖在你心中,如果你认为你做的东西真的付出了心血,会得到学术界的认可,这种认可不是可以用奖励来衡量的,有时,科研成果真正的分量远远超过所谓的奖励。用一句俗语:“金杯银杯,不如学术界的口碑”。 想明白了,才会 happy ,不是吗?哈哈。 2012.8.3 俞立平 于宁波
个人分类: 科研心得|3828 次阅读|1 个评论
统计学笔记一
LindaChina 2012-7-11 11:33
1 、信度和效度 测量的尺度或规则是测量观察结果的特定水平。每一个水平都有特定的属性特征集。测量尺度以 4 中形式出现: 定类:定类测量水平是以观察结果的属性特征定义,也就是观察结果只适合一个而且唯一的一个分类或层级。例如性别、种族等。定类测量水平的各个类别相互排斥。 定序:定序测量水平的“序”表示次序,被测量的食物按照他们的属性特征排序。例如去应聘时的排号等。 定距:当谈到定距测量水平,一般指的是检验或者评估工具是基于某种连续体,这样我们可以讨论一个较高的成绩比较低的成绩高多少。而定序测量水平只有次序,次序之间的差距不能体现。但是定距测量水平就可以。比如你的数学成绩是 90 分,是数学成绩为 45 分的同学的两倍高。 定比:定比测量水平的评估工具的特征是测量尺度中绝对零值的存在。这意味着没有要测量的任何特征。让人迷惑的是,这不就是说我们要测量的观察结果是否可能是没有任何可以测量的?后来在网上查找,确实存在这样的学科,例如心理学和生物学中你可以有不存在属性特征的情况,例如绝对零值(没有分子运动)或者零光程。但是在社会学和行为科学中,这种情况就比较让人无法理解了。即使你的数学成绩为 0 ,也并不意味着你的数学能力为 0 。 信度 所谓信度,通俗的理解就是“我如何知道我每次使用的检验、量表和工具等都能发挥作用?”。也就是一个测试或者你使用的其他任何测量工具对事物的测量可以保持一致性。但是,有很多因素会影响测试结果,导致结果产生误差。墨菲定律告诉我们,世界并不是完美的。因此,我们看到的结果是观察值而非真实值。 观察值 = 真实值 + 误差值。 而我们的工作就是尽量减少误差,增加信度,这样观察值和真实值才能更匹配。 信度有如下几种类型: 信度类型 何时使用 如何计算 举例说明所得结果的含义 再测信度 当你想知道一个测试在不同时间是否可信 计算时期 1 和时期 2 相同测试的两次值之间的相关系数 不同时期的青少年认同的形成的邦左( Bonzo )测试是可信的。 复本信度 当你想知道一个测试的几个复本是否可信或者是否等价 计算一个复本测试的值与相同内容的另一个复本的测试(不是完全相同的测试)的测试值之间的相关系数。 人格测试的两个复本是等价的,而且表现出复本信度。 内在一致性信度 当你想知道一个测试的项目是否评价一个而且只评价一个维度 每一个项目的得分与总得分之间的相关系数 SMART 创造性测试的所有项目评价相同结构。 评分者信度 你想知道对一个观察结果的评价是否具有一致性 检验不同评分者一致结论的百分比 最佳着装足球运动员评价的不同评分者信度是 0.91 ,表示不同裁判的一致程度很高。 效度 效度可以这样理解:效度是来帮助判断我每次使用的检验、量表和工具等是否能够测量我想测量的内容。效度类型总结: 效度的类型 何时使用 如何计算 举例说明所得结果的含义 内容效度 当你想知道一个特定主题的项目样本是否能够反映项目总体 请教专家,让专家判断测试的项目是否反映将要测量的主题的项目总体 我的统计学课程的而每周测试可以评价每章的内容。 准则效度 当你想知道测试成绩是否和其他标准系统相关,这个标准表明被测试者具备某个领域的能力。 计算测试成绩和其他有效的测量之间的相关系数,并评价相同的一组能力。 研究显示烹调技能的 EAT 测试与结束烹饪学习后两年内成为主厨相关(预测效度的一个案例) 建构效度 你想知道测试是否测量一些基本的心理结构 计算测试成绩和反映测试设计的结构的理论结果之间的相关系数 这是真实的——参与身体接触和危险性运动的男性的侵略性 TEST 测试的得分较高 信度和效度很重要,如果工具急不可信又无效,你的实验结果也就让人怀疑。 2 、假设检验 零假设 零假设总是表示研究的两个变量无关。零假设是提供与观察到的结果进行比较的基准,进而分析是否是由于其他因素引起这些差异。零假设有助于定义观察到的群体间的差异范围是由偶然性引起(这是零假设的论点)还是由偶然性之外的因素(这可能是其他变量影响的结果)引起。 除了零假设,还有研究假设,包括无方向研究假设和有方向研究假设,都非常好理解。这里不再赘述。 好假设的标准 (1) 一个好的假设一般是以陈述句形式出现 (2) 一个好的假设提出变量间预期的关系。 (3) 假设反映他们建立的理论和文献基础。 (4) 假设应该简短并切中要点。 (5) 好的假设是可检验的假设。 标准值: z 值 标准值是以标准差为单位进行了标准化,是可比较的。计算公式为: z= X-X~ s 其中, z 是标准值 z 值, X 是具体数值, X~ 是数据分布的均值, s 是数据分布的标准差。 不同分布的 z 值具有可比性。 z 值越大,表示该数值距离均值越远。需要记住如下结论: ( 1 ) 84% 的数值落在值为 +1 的 z 值之下( 50% 落在均值之下, 34% 落在均值和值为 +1 的 z 值之间)。 ( 2 ) 16% 的数值落在值为 +1 的 z 值之上(曲线下的全部面积是 100% , 84% 的数值落在值为 +1 的 z 值之下)
个人分类: 统计学|5266 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-23 12:20

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部