气象.水.熵.复杂性分享 http://blog.sciencenet.cn/u/zhangxw 张学文的文章,涉及气象、水分、熵、统计、复杂性、一般科学等

博文

歪谈正态分布

已有 3910 次阅读 2015-5-7 11:55 |个人分类:统计、概率、熵、信息、复杂性.2.|系统分类:观点评述|关键词:学者| 正态分布

歪谈正态分布

张学文,2015/5/7

物理学应用于万物,化学分析万物的成分、个性,而统计学可以横跨各个自然、社会科学!所以现在你几乎找不到一个有大量数据的学科拒绝统计。而在统计学中经典的正态分布是大名鼎鼎。其发现者是号称数学大王的高斯,就足以说明它的尊贵地位。我们几乎难以找到一本统计书敢于不谈正态概率分布的含义、公式、曲线以致正态分布的表。

学生时记得一位教务长谈批判资产阶级教育,说资产阶级教育要求学生的考试成绩要符合正态分布(考的特别好,特别不好的人很少,中等居多)。

确实多年来在学术界弥漫着一种认识:如果你分析的资料符合正态分布,那么你的文章就被认为是正结果,就应当发表。如果你分析的对象不符合正态分布,其频率分布比较难看,你就不能写论文,再不要说发表了。在这种鼓励下正态分布变成了一种崇拜,似乎各个领域的数据都应当是正态分布的自然领地

正态分布为什么如此常见,记得老师给过一个说得过去的理由。后来从信息论中知道,它可以从最大(信息)熵原理外加一个约束条件而获得证明,这样我对它得到进一步的理解。熵原理是谁都不敢反对的基本原理,所以正态分布不可动摇

注意从这个角度证明正态分布的合理性固然有依据,但是如果不放弃最大熵原理却改用另外的约束条件,人们也可以推导出简单、漂亮的有别于正态分布的概率分布。即在这种视角下正态分布固然漂亮但是它不应当特别尊贵,而是有其他的分布与之并列!

后来我看到了一些文章谈及对自变量做一些变换以使变换后的变量服从正态分布。我佩服人们的数学技巧!这显然也是正态分布扩大领地的新成绩,它似乎说明大家都努力拜正态分布这个神。而我认为这显然是人们对正态分布崇拜过头的行为。

 

长度为L的一根线被随机切割为M段,问不同长度的线段各有多少,它们符合正态分布吗?数值实验说明它不符合正态分布,而是符合负指数分布。而这也可以从最大熵原理配合平均值为常数的附加约束条件而获得理论证明。从数学角度看,负指数分布并不比正态分布低下。而我们也可以发现很多领域的数据符合这个分布(如气象学中的降水)。

 

近数十年来,幂律(另外的一种概率分布公式)又时髦了起来了。于是人们热心寻找并且发现了大量的符合幂律的自然现象,这催生了所谓分形科学,结果是幂律热淡化了正态分布的王位。

 

为什么那么多简单又普遍的幂律分布过去没有被注意,我们对正态分布地位的过分迷信可能是一个原因。

其实从最大熵原理看,

它配合一个标准差为常数的约束,就获得了正态分布,

配合一个平均值(或者总量)为常数的假设就获得了负指数分布,

配合一个几何平均值为常数的假设就获得一个几何分布(幂律),

同时配合代数平均值不变和几何平均值不变的约束就获得gamma分布,

而没有明确约束条件,仅知道变量出现于有限区间,那么就获得均匀分布(这常被物理学称为等概率假设),

….

所有这些都是最大熵原理的不同应用。正态分布不过是这个思路下的一种概率分布,而不是唯一尊贵的分布。

这么说最大熵原理就是惹不起的绝对规律了?这为什么?

其实细一思考,这也简单:最大熵原理是穿上了神秘外衣的一个非常浅显的道理:高概率的事情在一次实践中容易出现

正态分布由于历史的原因被过分看重了,负指数分布,幂律等等其实都是它的兄弟,而它们的共同母亲是“高概率的事情在一次实践中容易出现”。正态分布也好,负指数分布也好,幂律也好,最大熵原理原理也好,大家都需要走下神坛!

 




https://m.sciencenet.cn/blog-2024-888187.html

上一篇:科学网是否已经处于自杀前夜
下一篇:干空气与空中水的铅直输送量分布示意图

8 姬扬 檀成龙 周少祥 袁贤讯 杨正瓴 赵丽莉 黄河宁 icgwang

该博文允许注册用户评论 请点击登录 评论 (12 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2022-9-27 06:18

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部