气象.水.熵.复杂性分享 http://blog.sciencenet.cn/u/zhangxw 张学文的文章,涉及气象、水分、熵、统计、复杂性、一般科学等

博文

我关于学生考试成绩的统计分布预言等等

已有 3170 次阅读 2016-4-6 10:43 |个人分类:统计、概率、熵、信息、复杂性.2.|系统分类:科研笔记|关键词:学者| 分布函数, 考试成绩

我关于学生考试成绩的统计分布预言等等

张学文,2016.4.6

昨天晚上(2016.4.5)看到杨正瓴的博客:学生考试分数:一般不是正态分布!http://blog.sciencenet.cn/blog-107667-968027.html我即回忆到我过去对此的一个博客,它预言大量学生的考试成绩为不同分数的权重(或者学生数量)可能符合GAMMA分布(一个猜想,欢迎证实或者证伪 http://blog.sciencenet.cn/blog-2024-378970.html。)我的这个预言是2011年提出的,并且当时获得杨正瓴的推荐。这个博客附后

 

一个猜想,欢迎证实或者证伪

张学文2010.10.31

2010年的高考录取新生都走进高等学府上课了。可今年高考时我就猜:

不同高考分数x,与具有该分数的考生人数y之间应当是一个相当光滑的函数。以xy为横、竖两个坐标,它应当是一个符合统计学里的GAMMA分布函数,即有一个偏向左侧的峰值,并且两端接近于0。这个猜想适用于每年的高考成绩,但是每年的的参数值可以不同。

现在欢迎有兴趣者参加分析,有资料者做验证。看我的预言对还是错了。

如果对了,我公布这么猜想的理由,如果与我的预言不符,那么我也提出了一个有意义的问题,推进了这个研究。

另外,去年57日我在博客,“歪谈正态分布”,中也谈及了学生考试成绩的分布函数的认识等事。它涉及对正态分布和对GAMMA分布的对比当地议论。该博客内容如下:

歪谈正态分布

张学文,2015/5/7

物理学应用于万物,化学分析万物的成分、个性,而统计学可以横跨各个自然、社会科学!所以现在你几乎找不到一个有大量数据的学科拒绝统计。而在统计学中经典的正态分布是大名鼎鼎。其发现者是号称数学大王的高斯,就足以说明它的尊贵地位。我们几乎难以找到一本统计书敢于不谈正态概率分布的含义、公式、曲线以致正态分布的表。

学生时记得一位教务长(可能是周培源,2016年注)谈批判资产阶级教育,说资产阶级教育要求学生的考试成绩要符合正态分布(考的特别好,特别不好的人很少,中等居多)。

确实多年来在学术界弥漫着一种认识:如果你分析的资料符合正态分布,那么你的文章就被认为是正结果,就应当发表。如果你分析的对象不符合正态分布,其频率分布比较难看,你就不能写论文,再不要说发表了。在这种鼓励下正态分布变成了一种崇拜,似乎各个领域的数据都应当是正态分布的自然领地

正态分布为什么如此常见,记得老师给过一个说得过去的理由。后来从信息论中知道,它可以从最大(信息)熵原理外加一个约束条件而获得证明,这样我对它得到进一步的理解。熵原理是谁都不敢反对的基本原理,所以正态分布不可动摇

注意从这个角度证明正态分布的合理性固然有依据,但是如果不放弃最大熵原理却改用另外的约束条件,人们也可以推导出简单、漂亮的有别于正态分布的概率分布。即在这种视角下正态分布固然漂亮但是它不应当特别尊贵,而是有其他的分布与之并列!

后来我看到了一些文章谈及对自变量做一些变换以使变换后的变量服从正态分布。我佩服人们的数学技巧!这显然也是正态分布扩大领地的新成绩,它似乎说明大家都努力拜正态分布这个神。而我认为这显然是人们对正态分布崇拜过头的行为。

 

长度为L的一根线被随机切割为M段,问不同长度的线段各有多少,它们符合正态分布吗?数值实验说明它不符合正态分布,而是符合负指数分布。而这也可以从最大熵原理配合平均值为常数的附加约束条件而获得理论证明。从数学角度看,负指数分布并不比正态分布低下。而我们也可以发现很多领域的数据符合这个分布(如气象学中的降水)。

 

近数十年来,幂律(另外的一种概率分布公式)又时髦了起来了。于是人们热心寻找并且发现了大量的符合幂律的自然现象,这催生了所谓分形科学,结果是幂律热淡化了正态分布的王位。

 

为什么那么多简单又普遍的幂律分布过去没有被注意,我们对正态分布地位的过分迷信可能是一个原因。

其实从最大熵原理看,

它配合一个标准差为常数的约束,就获得了正态分布,

配合一个平均值(或者总量)为常数的假设就获得了负指数分布,

配合一个几何平均值为常数的假设就获得一个几何分布(幂律),

同时配合代数平均值不变和几何平均值不变的约束就获得gamma分布,

而没有明确约束条件,仅知道变量出现于有限区间,那么就获得均匀分布(这常被物理学称为等概率假设),

….

所有这些都是最大熵原理的不同应用。正态分布不过是这个思路下的一种概率分布,而不是唯一尊贵的分布。

这么说最大熵原理就是惹不起的绝对规律了?这为什么?

其实细一思考,这也简单:最大熵原理是穿上了神秘外衣的一个非常浅显的道理:高概率的事情在一次实践中容易出现

正态分布由于历史的原因被过分看重了,负指数分布,幂律等等其实都是它的兄弟,而它们的共同母亲是“高概率的事情在一次实践中容易出现”。正态分布也好,负指数分布也好,幂律也好,最大熵原理原理也好,大家都需要走下神坛!http://blog.sciencenet.cn/blog-2024-888187.html

***

 我对这些问题的汇总见于2003年的组成论一书(张学文,中国科学大学出版社)17/18章。

期待杨正瓴获得了学生考试成绩的比较权威的大样本数据和开展的统计分布验证。

我认为认识到

1.   这里存在一个稳定的理想的统计分布函数就是一个知识提炼。

2.   说它不是正态也是一种提炼,

3.   落实它是GAMMA分布又是一种进步。

4.   而给予理论说明,又是一个境界。

期待杨正瓴用数据说话。




https://m.sciencenet.cn/blog-2024-968180.html

上一篇:中央气象台的图错了?
下一篇:“雨时”-雨区笼罩面积-统计雨时的程序…

5 武夷山 蔡小宁 檀成龙 杨正瓴 周少祥

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2022-9-27 06:59

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部