科学网

 找回密码
  注册
科学网 标签 正态分布 相关日志

tag 标签: 正态分布

相关日志

科技评价:牛顿、俺;帕累托分布、正态分布
热度 3 zlyang 2020-3-8 14:29
科技评价: 牛顿 、俺; 帕累托分布 、正态分布 一、帕累托分布、正态分布 网上说: https://www.zhihu.com/question/20849901 二八法则又称幂律分布(Power Law Distribution)或帕累托分布(Paretian Distribution)。帕累托分布和高斯分布(Gaussian Distribution)并列为两大主导自然和人类现象的概率分布。 高斯分布的本质是独立性 (independence)。大量同质独立事件将导致高斯分布 (由大数定律保证)。 帕累托分布的本质是正反馈机制(positive feedback loop)。当事件不再独立(a. 事件之间通信成本降低; b. 事件之间的作用力增强 ),一个事件的产生对自身和其它同质事件的产生发生影响时,会导致帕累托分布。 2020-03-02的《科学网》博客前百点击量( 蓝色 ),与帕累托分布( 红线 )。 二、科学史上的高水平人才 不知道顶尖科学家的贡献,是不是服从“帕累托分布”? 印象苏联卢克1987年的《科学史上的高水平人才》里有“人数很少,但贡献极大”的说法。 万一科学家的贡献也是类似帕累托分布,毁掉牛顿意味着什么? 三、为了 俺 活下去,而杀死 牛顿 ? 显然,牛顿、爱因斯坦、居里夫妇都是贡献很大的科学家。可惜他们人数极少。 制定科技评价时,因为他们是少数,就不用去理他们? 以杀死牛顿为荣? 以成就牛顿为耻? 钱学森之问,是什么? 1970年代欧美科技、经济进入瓶颈期,是什么原因? 四、教育和人才成长是农业,还是工业? 人类科技发展、人才成长,有没有客观规律性? 生产人才,可以像“把钢锭锻造成任意需要的形状”一样? 参考资料: Pierpaolo Andriani, Bill McKelvey. Perspective—From Gaussian to Paretian Thinking: Causes and Implications of Power Laws in Organizations . ORGANIZATION SCIENCE, 2009, 20(6): 1053-1071. https://pubsonline.informs.org/doi/abs/10.1287/orsc.1090.0481 NOV-DEC 2009 , Published Online:7 Oct 2009https://doi.org/10.1287/orsc.1090.0481 科学史上的高水平人才,(苏)A.H.卢克 著 ; 马约(署肖自力) 译,科学史译丛,1987-05:58-66。 (苏)A.H.卢克 著,马约(署肖自力) 译. 科学史上的高水平人才 . 科学史译丛,1987(2):58-66. 帕累托分布、正态分布 https://www.zhihu.com/question/20849901 参考链接: 2017-04-20,诺贝尔奖获得者谴责“缺乏想象力”的研究资金模型, Nobel laureates condemn ‘unimaginative’ research funding models https://www.timeshighereducation.com/news/nobel-laureates-condemn-unimaginative-research-funding-models 理查德·罗伯茨爵士(Sir Richard Roberts)是1993年诺贝尔生理学或医学奖得主。他声称 决策者更愿意将钱分配给他们知道会取得成果的研究, 因为他们“主要是希望再次当选(拿到资助)”, 而不是资助那些“对国家好的”研究。 2008-04-17,杀死同行评议,拯救人类文明, Kill peer review, save civilisation https://www.timeshighereducation.com/news/kill-peer-review-save-civilisation/401457.article?storyCode=401457site=cn 扼杀高新颖的工作并使领先的研究人员“几乎不可能”做出不可预测的发现的“灾难性”科学资助体系正威胁着我们文明的未来。 布拉本教授认为, 1970年代对研究建议的审查的引入导致了缺乏重大科学发现。 他说,最激进的想法不太可能获得资助,因为在被证实之前很难打动同行。 “大约在1970年之前,科学家们相对自由地随心所欲地做事,但是新的规则几乎使不可能的继任者(对于20世纪的伟大科学家)做出发现来促进21世纪的经济增长和繁荣。” 2011年《大停滞 The Great Stagnation》一书的作者考恩(Tyler Cowen)认为,作为世界科技领头羊的美国,自从1973年以来人民的中位工资没有实质增长,经济已经进入了停滞。 目前支撑经济的主要科技都是1940年前发明的,在这之后最重要的发明只有计算机,其他乏善可陈,技术领域形成一种“高原平台”的停滞景观。 2018-06-02,Why some scientists say physics has gone off the rails https://www.nbcnews.com/mach/science/why-some-scientists-say-physics-has-gone-rails-ncna879346 物理学家 Neil Turok 说:“自1970年代后,所有的理论工作都还没有产生一个成功的预言,这是很令人震惊的现状。” 他说:“现如今,物理学家撰写许多的论文、建立许多的理论模型、举办许多的研讨会议、相互引用彼此的研究成果——我们拥有了好的科学所需要的一切。但我认为, 一个好的物理理论就是要能成功地作出预言,而这正是目前所缺乏的 。” 2019年诺贝尔医学奖得主William G. Kaelin Jr 2017-05-25撰文《Publish houses of brick, not mansions of straw》 https://www.nature.com/articles/545387a The danger is that papers are increasingly like grand mansions of straw, rather than sturdy houses of brick. 危险的是论文越来越像稻草豪宅,而不是坚固的砖房。 相关链接: 2020-03-06,破除论文“SCI至上”:尊重客观规律是核心 http://blog.sciencenet.cn/blog-107667-1222115.html 2020-02-29,破除论文“SCI至上”:科技活动的目的究竟是什么? http://blog.sciencenet.cn/blog-107667-1221034.html 2020-01-06, “钱学森之问”总体上存在? http://blog.sciencenet.cn/blog-107667-1213096.html 感谢您的指教! 感谢您指正以上任何错误! 感谢您提供更多的相关资料!
9251 次阅读|11 个评论
[转载]数据的正态分布性
haojm198 2018-4-11 09:45
转载: http://blog.sina.com.cn/s/blog_5d188bc40101p6wc.html 1、什么是正态分布 正态分布又叫高斯分布,若随机变量X服从一个数学期望为μ、方差为 σ^2,概率密度函数为 的高斯分布,记为X-N(μ,σ^2)。其曲线呈钟形,因此正态分布曲线为钟形曲线,μ决定了其位置,σ决定了其分布的幅度。当μ=0,σ=1时,正态分布服从标准正态分布,密度函数为: 标准化变换:此变换有特性:若原分布服从正态分布,则Z=(x-μ)/σ~N(0,1)就服从标准正态分布,通过查标准正态分布表就可以直接计算出原正态分布的概率值。 2、什么是二项分布? 二项分布:重复n次的伯努利实验,用ξ表示随机实验的结果。如果事件发生的概率是P,则不发生的概率q=1-p,N次独立重复试验中发生K次的概率是P(ξ=K)= C(n,k) * p^k * (1-p)^(n-k),其中C(n, k) = n!/(k! * (n-k)!) 3、正态分布的检验: 在SPSS里执行“分析—描述统计—频数统计表”,然后弹出左边的对话框,变量选择左边的候选变量,再点下面的“图表”按钮,在弹出的右边的对话框中,选择“直方图”,并选中“包括正态曲线” 设置完后点“确定”,就后会出来一系列结果,包括2个表格和一个图,我们先来看看最下面的图,见下图, 上图中横坐标为待观察变量,纵坐标为分数出现的频数。从图中可以看出根据直方图绘出的曲线是很像正态分布曲线。如何证明这些数据符合正态分布呢,光看曲线还不够,还需要检验: 检验方法一:看偏度系数和峰度系数 偏度系数Skewness1,峰度系数Kurtosis1可认为近似于正态分布。 检验方法二:Q-Q图检验 QQ Plot中,各点近似围绕着直线,说明数据呈近似正态分布。图例如下: 4、如果样本数据符合正态分布或者二项分布,则利用参数检验,否则可进行数据转换,如 对数转换,平方根转换及正切转换等,如果转换后的数据仍然完全偏离正态分布,则只能利 用非参数检验。
个人分类: 统计学|1339 次阅读|0 个评论
元代归除口诀与正态分布几何量数学模型 计量公式和函数值
Hyq18936853798 2017-7-30 15:40
中国元代归除口诀与正态分布几何量数学模型 归一三角数表计量公式与标准正态分布函数值 黄裕权(黄裕泉 黄晓勰) 摘要:“归除口诀”是元代朱世杰研究过的一种正态分布几何量数学模型,他从中概括出的一组正态分布计量(公式)口诀,从而揭示出“点、线、面、体、质”五者之间的数与量的计量单位和计量基准,正态分布函数值(Y1=X/N,分子X是累加频数变量、分母N是总量; Y2=(X^2)/((N^2)/2), 分子 X 是量表线性变量(0—N/2),分母(N^2)/2,是等腰三角面积(总量)。“归除口诀”也是中国古代立场、观点和方法论的一种数学模型。 1. 归一除法口诀与归一三角数表 : 儿时在师塾学堂中学习珠算,珠算归除口诀是学习除法的的必备知识:“二一添作五、逢二进一,三一三十一、三二六十二、逢三进一,四一二十二、四二添作五、四三七十二、逢四进一,五一配作二、五二配作四、五三配作六、五四配作八、逢五进一,六一下加四、六二三十二、六三添作五、六四六十四、六五八十二、逢六进一,七一下加三、七二下加六、七三四十二、七四五十五、七五七十一、七六八十四、逢七进一,八一下加二、八二下加四、八三下加六、八四添作五、八五六十二、八六七十四、八七八十六、逢八进一,九一下加一、九二下加二、九三下加三、九四下加四、九五下加五、九六下加六、九七下加七、九八下加八、逢九进一”。用现代语言将它翻译成归一三角数表、正态分布几何量数学模型、累加百分位计量公式、中位量和量表(表1) 归除口诀用分数形式表示,其 公式:Y1=X/N, X 为分子变量(0—N)、N为分母(自然数)。归除口诀从一至九,用分数形式表示,构成的三角即为 自然数归一三角数表 ;用小数形式表示,其 正态分分布范围归一为(0—0.5—1.0) ;用几何量正方块(质量、体积、面积、边长和点)表示,其 (量表) 边长=自然数(总量)开平方,即自然数的平方根;用等腰三角正态分布对称轴 中位量 表示,即直角三角形的底边长=自然数(总量)的平方根/2或自然数(总量)/4再开平方。 自然数1至9再扩大,可至无限大,其中N^2九九归一正态分布数学模型,量表都是自然数正整数,在现实生活中便于度量和刻度的几何量数学模型。无论自然数归一或是九九归一,其正态分布累加函数值是千变万化各不相同的。因为计量是指实现单位的统一,而单位则是指定量表示同种量的大小而约定定义和采用的特定量,所以,在自然数中以五指为计量标准,约定特定量 (5^2) 的等腰三角面积(12.5)为计量单位,该单位是自然数中符合五级十进制正态分布中唯一最小的公约数,而十进制又是国际计量单位认定的基准进制。 家之大小、国之大小、世界之大小、宇宙之大小,都可以纳入归一之中;0”和“1”则是两个极端的立场,而中位“0.5”才是不偏不倚的平衡点;地球上大小不同强弱不等的国家联合归一成“联合国”,联合国宪章则是归一的中位点,各自立场不同,只有相向而行,能达成共识;地球归一、太阳系归一、银河系归一、宇宙归一、自然数N可至无限小也可至无限大,而五指计量则是人类认知的基础;……。 2. 归一除法口诀与正态分布几何量数学模型: 不同的质量,放在相同容量(归一)的容器中,密度随着质量的增加而增加,就能构成比例关系。 归一除法的实质是将不同数量的物质(质量、密度)放在相同空间(容器)内,其物质的密度在相同体积(容器)中的变化规律,它可以用立体正方块、平面正方块、正态分布的等腰三角方块的面积、直角三角方块的面积或直角三角的底边线长来表示(几何量数学模型计量最终可以用线量表示)。例如,分别将1至九斤的食盐分别放置在容积相同(归一)的九个容器中,其食盐的密度从图1中的等腰三角量表中即可计算出。 例1. 图1四号容器中位量为1,其溶质总量=1*1*4=4;五号容器中位量为1.118,其溶质总=1.118*1.118*4=5;六号容器的中位量为1.225,其溶质总量=1.225*1.225*4=6…(图1)。 例2. 图1五号方块是五平方米,其中等腰三角面积是几平方米?在0.5米处作一垂直线与等腰三角斜边相交 如图1五号方块红线所示,请问标记问号的小直角三角形面积占总面积的百分之几? 解:五平方正方形的边长=5开平方=2.236米,等腰三角中位量表长=2.236/2=1.118米,标记问号小三角面积=0.5*0.5=0.25平方米,0.25/2.5=0.1 即是占五号等腰三角总面积的10% ,0.25/5=0.05 即是占总正方块面积的5%。由此可见几何量中(质、体、面、线、点)五种不同概念,数和量单位之间的相互关系。 图2是归除口诀三角数表及其几何量块和等腰三角三者之间关系的图解:1与不同单位总量之比,即1/1、1/2、1/3…(二一添作五、逢二进一;三一三十一、三二六十二、逢三进一 … 如图2三角数表所示…)。等腰三角面积=正方块面积/2;直角三角面积=直角三角底边平方,直角底边长=直角三角面积开平方;等腰三角正态分布累加百分率函数值:Y2=(X^2)/(N^2/2) X是直角三角底边线长,此时的N是等腰三角底边线长即正方块的边长;当N为总量时,则量表的线长=N总量的平方根,这是两个不同的概念,其实质相同(同一个等腰三角),都可以用来计量等腰三角正态分布累加百分率(位),可以通过比例进行等值转换(图2)。为了进一步说明两种不同概念之间的相互关系,请看 自然数的平方归一与正态分布几何量数学模型。 3. 自然数的平方归一与正态分布几何量数学模型。 2 归1与4归一,3归1与9归一,4归1与16归一,5归1与25归一,…;前者是自然数归一,后者是自然数平方归一。它们之间的区别和联系(图3)。 N^2 是显示正方形的变化规律,从珠算累加至峰值再倒加归一的总量=N^2。等腰三角面积=(N^2)/2,直角三角面积=(N^2)/4,直角三角底边线长(正方形边长/2)的量变,可以直接用来计量“质(密度)、体、面、线、点”的正态分布累加百分率。 不同计量单位总量归一,其边长计量公式=总量开平方:例如总量25归一,其正方形边长=25开平方=5;总量5归一,其正方形边长=5开平方=2.236…;正态分布累加百分率计量公式,Y2=中位量平方/((总量)/2):例如,(2.5*2.5)/12.5=50%,(1.118*1.118)/2.5=50%,如图3量表5所示。自然数归一与自然数的平方归一是两个不同概念计量单位归一,例如5归一,即是5平方米为一个正方块,而5^2归一,即是25平方米为一个正方块,前者正方块的边长=5开平方=2.236米,中位量=2.236/2=1.118,后者正方块的边长=25开平方=5米,其中位量=5/2=2.5。可谓是殊途同归,归于(0—0.5-1),图形相同,但是单位不同。自然数5归一的中位正态分布累加百分率=1.118^2/2.5=50%, 自然数平方归一的中位正态分布累加百分率=2.5^2/12.5=50%,路径不同,其结果相同。12.5:1=2.5:X, X=(1*2.5)/12.5=0.2; 1/12.5= 0.08 , 0.2/2.5= 0.08 。 N^2 正态分布几何量数学模型中( 5^2 )/2=12.5 ,它是自然正整数中唯一的一个符合五级十进制计量单位的最小公约数,其等腰三角的面积=12.5,它符合人类认知( 5^2 ) 的等腰三角,五指计量基准(1:3:4.5:3:1)(图4)。 将等腰三角底边与高相等皆等于“ 5 ”时的等腰三角正态分布几何量数学模型约定为基准等腰三角正态分布几何量数学模型。 基准等腰三角(正态分布)累加函数值的计量,可用直角三角底边(0--中位量)线长单位的平方/(N^2)/2, 基准正态分布累加百分率,Y2=X^2/(N^2)/2= X^2/12.5 X(0—2.5)。这是最“直观、形象、通俗、易懂、简明、快捷、精准、适用”的基准正态分布几何量数学模型;任何大数据的累加百分位,通过该基准正态分布几何量数学模型的卡平方检验,即可获得科学的计量数据,用以判断实得值是否在概率许可的范围!从而可以摆脱不能直接计算,必须通过查找高斯标准正态分布表的迷茫概率估算时代! 5. 五指计量口诀与正态分布 、标准正态分布和基准正态分布 : 正态分布是指两头小中间大,累加频数峰值百分位等于0.5时的对称分布几何量数学模型图(广义概念)(图5)。 标准正态分布是指五级量表为标准的正态分布几何量数学模型图(相对狭义概念)(图6)。 基准正态分布是指五级量表中高和底边相等,皆为“5”的等腰三角几何量数学模型图(绝对狭义概念)其它任何正态分布都可以按此进行等值转换。 五指计量是人类认知的基础(图5) (2^N) 量表=5 (图6) Y= X/16 (1:4:6:4:1) (N^2) 量表=5 (图5) Y= X/12.5 (1:3:4.5:3:1) 累加三角量表=5 (图3) Y= X/9 (1:2:3:2:1) (图6)Y= X/30 (1:2:3:4:5:5:4:3:2:1) (图6)Y= X/60 (2:4:6:8:10:10:8:6:4:2) (图6)Y=X/62750 (1:2:3:…250:250…3:2:1) 等腰三角有千万种(图7),唯有高与低边相等,皆为“ 5 ”时的等腰三角为基准等腰三角正态分布几何量数学模型。 参考文献: 朱世杰两句“口诀”与四篇学术论文: 1. 中国科举“五级百分”计量标准研究 黄裕泉…干有成 科教导刊201606(中旬刊) 2. 杨辉标准正态分布几何量数学模型和函数表 刘立云…黄裕泉 科教导刊201606(上旬刊) 3. 珠算累加三角正态分布几何量统计公式和函数表 干有成…黄裕泉 科教导刊201606(下旬刊) 4. 五级基准量表等腰三角正态分布计量公式 黄亮…黄晓勰 科教导刊2016116(中旬刊) 5. 中国元代五级百分标准分科学方法国际有奖擂台赛 科学网博文 2017.05.23 6. 中国元代五指计量口诀标准正态分布数学模型科学方法国际有奖擂台赛 科学网博文 2017.06.07 7. 群体考试“成绩报告单”的结构与功能 科学网博文 2017.07.01
个人分类: 中华民族古代科学遗产|2499 次阅读|0 个评论
中国元代五指计量口诀标准正态分布几何量数学模型国际有奖擂台赛
Hyq18936853798 2017-6-7 17:01
中国元代“五指计量口诀”标准正态分布数学模型 科学方法国际擂台赛 黄裕权(黄裕泉 黄晓勰) (江苏第二师范学院生物系 江苏.南京 210013) 摘要:为弘扬被历史尘埃淹没的古代科学文化遗产,故设立有奖科学方法国际擂台赛: 擂主黄晓勰:设擂台赛奖励基金:人民币300万元(生前有效) 擂台赛方法:在QQ互联网平台展现参赛者各自数学模型、计量公式和函数值及其五级百分转换分。 任何参赛者或研究机构(不论国籍),若能证明中国元代朱世杰“五指计量口诀标准正态分布几何量数学模型”不是当代 最“科学、直观、形象、通俗、易懂、简便、快捷、精准、适用”的数学模型,即可获擂主设立的全额奖金! 内容:标准正态分布数学模型、计量公式、函数值及其群体考试成绩原始分等值转换和概率分布。 v 学派代表:英国高尔登生物统计学派(1896年) 法国比内-西蒙离差智商统计学派(1904年) 美国麦 克尔百分位T分标准差统计学派(1939年) 德国高斯标准正态分布微积分概率统计学派(1733年) 中国元代朱世杰标准正态分布几何量数学模型精准计量学派(1299年)。 1. 元代朱世杰“16”字计量口诀与“2^N”标准正态分布几何量数学模型: 中国元代朱世杰“16”字计量口诀: 1-退625、2-125、3-1875、4-25、5-3125、6-375、7-4375、8作5、9-5625、10-625、11-6875、12-75、13-8125、14-875、15-9375、16为1;五级六点量表(0-1-2-3-4-5)。 杨辉三角数表(图1)所示,2^N中有N个正态分布,唯有量表5为五级计量标准,用五指代表,其比例为“1:4:6:4:1”;其累加百分率分别为“1/16、2/16、3/16、4/16、5/16、6/16、7/16、8/16、9/16、10/16、11/16、12/16、13/16、14/16、15/16、16/16”,对应的百分率即是 “16”字口诀标准正态分布几何量数学模型(图2)。 累加百分率计量公式:Y=N/16 N(0—16) 2. 元代朱世杰“10”字计量口诀与“N^2”标准正态分布几何量数学模型: 中国元代朱世杰“10”字计量口诀:(1上1、2上2、3下5去2、4去6进1、5上5、6上1去5进1、7上7、8退2进1、9退1进1、10上10);累加至峰值“N”再倒加至1,得正方形面积公式Y=N^2,其等腰三角形面积公式=(N^2)/2(图3),当N=5时,等腰三角形面积=12.5,直角三角底边N(0—2.5) 累加百分率计量公式:Y=( N^2)/12.5 N(0—2.5)(图4) 3. 元代朱世杰“N^2”五指计量口诀与扇形或钟形标准正态分布几何量数学模型(图5、6): 以半圆周长18为单位:累加扇形面积百分率计量公式:Y=N/18 N(0—18);Y= n^2/18 n(0—3) 1:2:3:2:1, 1:3:4.5:3:1, 1:4:6:4:1, 2:4:6:4:2, 1:4:8:4:1。 4. 朱世杰五级百分正态分布不同计量单位制之间的等值互换率(图7): 等腰三角计量单位为12.5,其单位最大;钟形计量单位为18,计量单位最小;杨辉三角计量单位为16、累加三角为25、30、50、60。 以等腰三角为基准:不同单位制之间的等值互换率分别为60/12.5=4.8、50/12.5=4、30/12.5=2.4、25/12.5=2、18/12.5=1.44和16/12.5=1.28,即1.44个钟形单位=1个等腰三角单位,1.44/18=0.08;1.28个杨辉三角单位=1个等腰三角单位,1.28/16=0.08;等腰三角1/12.5=0.08。1.44*4/18=0.32、1.28*4/16=0.32、4/12.5=0.32;1.44*6.25/18=0.5、1.28*6.25/16=0.5、6.25/12.5=0.5。 中国古代“九九归一”的含义,就是指 “N^2”中的N可以从“0”开始至“无穷大”,1至9”为一个轮回,“九九归一”后,进入下一个轮回;无论如何变化,归根结底,都可以还原成“1”,即“0--0.5--1”。九九归一的数学表达式:即累加频数百分率,Y= N(0--N)/ N,分子是变量,分母是不变量,当N=“0”时,0/N=0, 当N=“N/2”时,则为“0.5”为正态分布的峰值,当N=N时,则为“1”如下图: 。这是任何数的正态分布值,归根结底都一样(0--0.5--1);但是1/N的百分率却随着N数值的不同而千变万化,无标准可言;在千变万化中,以五指(五级)为单位制的等腰三角量表及其对应的(1:3:4.5:3:1)12.5基准,其它千变万化的标准,可以参照“12.5”的基准单位制进行等值转换(如图4和7所示);因为唯有“12.5”的单位制,才能使五指五级百分进入十进制的序列。 5. 朱世杰五指计量基准快速转换法:一分钟标准分转换计量法(图8、9)。 一秒钟概率计量法(图10):Y=(N^2)/12.5 N(0—2.5) 6. 结论: 中国元代朱世杰五指计量口诀和五级百分“标准正态分布几何量数学模型”与西方近代以“均数为等值点、标准差为等值单位、钟形微积分标准正态分布函数值”的数学模型相比,前者在当今仍然是最科学、直观、形象、通俗、易懂、简明、快捷、精准、适用的数学模型。这是被历史尘埃淹没的中华民族古代的科学文化遗产,这是西方相关近代科学无可比翼的精准的标准正态分布几何量数学模型。若有相关学者或研究机构(不论国籍)能证明该结论是错误的,即可获得擂主的300万元人民币奖励基金。 参考文献: 朱世杰两句“口诀”与四篇学术论文: 1. 中国科举“五级百分”计量标准研究 黄裕泉…干有成 科教导刊201606(中旬刊) 2. 杨辉标准正态分布几何量数学模型和函数表 刘立云…黄裕泉 科教导刊201606(上旬刊) 3. 珠算累加三角正态分布几何量统计公式和函数表 干有成…黄裕泉 科教导刊201606(下旬刊) 4. 五级基准量表等腰三角正态分布计量公式 黄亮…黄晓勰 科教导刊2016116(中旬刊) 我的联系方式:Tel:18936853798 E-Mail: 2319819539@qq.com 通过E-Mail,义务提供超大附件表格和图像。 附录:供国人思考(东西方科学文化和中华古代文明与现代民族复兴) 德国科学家:高斯头像和德国马克及其标准正态分布函数图形
个人分类: 中华民族古代科学遗产|2310 次阅读|0 个评论
[转载]正态分布检验
hsm 2017-5-18 21:19
我一般使用shapiro.test命令,这个不需要安装包 具体如图片,首先生成R随机正态分布数据data,然后进行shapiro.test检验,P值大于0.05说明数据正态
1256 次阅读|0 个评论
[转载]QTL作图的一些常见问题
mashengwei 2017-1-19 23:37
这是一篇转载的博文。全文见 李慧慧 张鲁燕 王建康 * 发表的“ 数量性状基因 定位 研究 中 若干 常见问题的 分析与解答” 对初次进行的QTL分析同学帮助挺大,有助于更好的理解QTL作图。转载结论部分,做个记录。 LOD 是 2 种假设检验下极大似然函数比值的常用对数,较高的 LOD 临界值将更好地控制假 QTL 的发生,同时遗传效应较小的真 QTL 就不易被检测出来。如何平衡两类错误的概率,不仅是统计学问题,还要考虑到具体的研究目标。 QTL 作图包含着复杂的统计假设检验,一般采用模拟方法估计 QTL 检测功效和假阳性的大小,功效高同时又具有较低假阳性在统计上就是较好的方法。增加群体大小、减小表型误差、创造近等基因系和染色体片断置换系、大群体中适当增加标记密度都是提高 QTL 检测功效的有效途径。 QTL 的遗传方差占表型方差的比例定义为 QTL 的贡献率,遗传方差受 QTL 的遗传效应和 QTL 基因型频率共同影响,不同 QTL 的贡献率一般不具有可加性。 有利等位基因的判断依赖于 QTL 作图时如何编码 2 个亲本,正加性效应 QTL 意味着编码为 2 的亲本携带的等位基因能提高性状值,反之编码为 0 的亲本携带的等位基因能提高性状值。 补充一点,我认为这一句不是全对,所谓有利等位基因对粒重来讲,提高粒重是有利基因,而对于抗病性状来讲有利性状则意味着负加性效应。 选择 基因型分析的检测功效一般都高于 IM 的检测功效,但低于 ICIM 的检测功效。与构成性状相比,复合性状 QTL 作图功效比构成性状下的功效明显下降,因此使用复合性状进行 QTL 作图的意义不大,但并不排除育种中使用复合性状进行选择。 表型正态分布不是该性状是否适合 QTL 作图的必要条件,但一般要求表型数据的随机误差服从正态分布。 高密度分子标记为分离紧密连锁 QTL 提供了可能,但高密度标记必须辅以大作图群体,才能提高 QTL 作图的准确度。缺失标记对 QTL 作图的影响等同于一个缩小了的作图群体。奇异分离标记对作图的影响可以用与其连锁的 QTL 遗传方差的变化来衡量,有时奇异分离标记会增大 QTL 的方差进而提高检测功效,这种影响会随着连锁距离的增大而减弱。缺失标记和奇异分离对 QTL 位置和效应估计的影响不大,对于效应较大的 QTL 和较大的群体,缺失标记和奇异分离对 QTL 作图的影响可以忽略。
3046 次阅读|0 个评论
求证:公交车数学:人数分布规律:正态,均匀?…
热度 1 zhangxw 2016-4-7 19:00
求证 : 公交车数学:人数分布规律:正态,均匀? … 张学文, 2016/4/7 今天天气好, 2016 的乌鲁木齐新春悄然来临,就坐公交车出去转了转。 不期想到,如果有一路公交车,它基本是从市郊开始到中心区以后再会另外一个郊区的,那么这种公交车上的乘客人数基本是正态分布,即靠近闹市区时,车上的人数最多,然后公交车上的人数均匀地向郊区减少。以始发站为起点,如果公交车有 21 个汽车站,把它设为横坐标,把各汽车站位置的车上人数为纵坐标,我猜,汽车站位置 - 人数的关系比较接近正态概率分布。 记得童年天津有一路电车是围着闹市区转的,它没有起点和终点。我想这种公交车的站点 - 人数图应当对应概率论中的均匀分布。 不知道是否有人统计、分析这种数据。 显然这第 2 种类型的公交车的效率要更高一些。 记得我还想过,上下公交车的人数问题,好像应当用一个转移矩阵表示它, …
个人分类: 生活滴点.2.|3271 次阅读|2 个评论
卜算子·正态分布
热度 12 kongmoon 2015-11-18 08:36
正态分布吟,离散平均律。 形若嵩峦绘起伏,理顺无章序。 天数纵茫茫,竞往巅峰聚。 山麓存留百分五,画满方家欲。   1917年美国决定参加第一次世界大战,同年4月对德宣战。由于之前美国对一战持“中立”,所以并没有备战,而现在必须在一个星期内赶制100万套军服,制衣商很为难,他都不知道军队的身高是什么样子,不得不求教于统计学家沃特·阿曼德·休哈特(Walter A. Shewhart)。休哈特说,人群中高个子和矮个子都比较少,大多数的人都是中等身材,也就是说人群的身高是一种自然的分布,也叫正态分布。只要随机抽一批美国人来量身高,得到身高的 平均值 和 标准差 后就能解决问题了。   正态分布只需要知道平均只和标准差就能轻松驾驭。平均值大家都知道,标准差就是分布中的每个数与平均值差值的平方和再开方,是一个描述群体离散程度的指标,标准差越大,群体间的差异就越大,如果群体高度接近一致,标准差则接近0。根据正态分布,入伍军人的身高分布有68%左右落在一个标准差之内,就是图中间的部分,95%的落在二个标准差之内,99。7%落在三个标准差之内…………,根据这个规律,美国军队一个星期内集结完毕开赴前线。   正态分布也叫高斯分布,10马克纸币上就印有高斯的头像和正态分布曲线图。很多看起来杂乱无章的数据,如人群的身高、智商、考试成绩、一天之内在路上跑的汽车数量、测量误差等等自然界和社会现象都服从正态分布。某事件采集的数据绝大多数都落在两个标准差范围之内,这部分曲线面积占95%,越靠近中心数越多,也就是说数字分部都有向曲线颠峰集中的趋势。而落在曲线山脚部分的只占5%,也就是说是一个很小的概率,按常理几乎不可能发生。在一次实验中如果发生了小概率事件,就可以认为这个事件与实验对照间有着本质的区别,是两件不同的事件。所以统计学上的显著水平就以5%为基准,也就是科技论文里面大量p0.05的来由,比如为了检测一种新药对某种病是否有疗效,就统计吃该种药和安慰剂的治愈率,如果两者差异显著水平p0.05就可以认为该种药有统计学意义上的疗效,p0.05就认为这种药和安慰剂一样没有统计学疗效,所以0.05这个数字在统计学上出现频率最多的数字,做对照实验的人是多么盼望出现p0.05呀!但如果一个事件不服从正态分布,这p0.05不知道多少实际意义,p值被滥用已经是心理学、流行病学领域非常普遍的问题了。
个人分类: 数学|6715 次阅读|29 个评论
[转载]二项分布和泊松分布、正态分布的简单关系
jaydow 2015-9-28 21:31
二项分布和泊松分布为离散分布 正态分布为连续分布 二项分布有两个参数,一个 n 表示试验次数,一个 p 表示一次试验成功概率。现在考虑一列二项分布,其中试验次数 n 无限增加,而 p 是 n 的函数。 1. 如果 np 存在有限极限 λ ,则这列二项分布就趋于参数为 λ 的 泊松分布。反之,如果 np 趋于无限大(如 p 是一个定值),则根据德莫佛 - 拉普拉斯 (De'Moivre-Laplace) 中心极限定理,这列二项分布将趋近于正态分布。 2. 实际运用中当 n 很大时一般都用正态分布来近似计算二项分布,但是如果同时 np 又比较小(比起 n 来说很小),那么用泊松分布近似计算更简单些,毕竟泊松分布跟二项分布一样都是离散型分布。 补充: 由 De Moivre-Laplace中心极限定理表明:正态分布是二项分布的极限分布。 摘自: http://www.cnblogs.com/kevinGaoblog/archive/2012/06/24/2560023.html
4550 次阅读|0 个评论
[转载]对统计关键词的理解
jaydow 2015-9-25 00:00
你知道的分布有哪些?均匀分布、正态分布、泊松分布、卡方分布;   统计分析:分为统计描述和统计推断两个部分。   统计描述:是通过绘制图表、计算统计量等方法来描述数据的分布特点。是数据分析的基本步骤,也是记性统计推断的基础。   统计推断:主要包含参数估计和假设检验两个主要内容。   参数估计:通过样本来估计总体分布所包含的未知参数,叫做参数估计,是统计推断的一种重要形式。常见的方法有两种,一种称为点估计,另一种是区间估计。   假设检验:通过样本数据对某个事先做出的假设按照某种设计好的方法进行检验,判断该假设是否正确。是统计推断的另一种表现形式。   假设检验的参数方法:在统计推断问题中,如果假定或者给定了总体分布的具体形式(如正态分布),只是其中含有若干未知参数,需要基于总体的样本对参数做出估计或者进行某种假设校验,这种推断方法称为参数方法。   假设检验的非参数方法:在许多实际问题中,都不知道总体是怎样的一种分布,很难对总体分布做出正确的假定,对于这种不假定总体分布的具体形式,尽量从样本本身来获取所需要的信息的统计方法称为非参数方法。   回归分析:变量间的关系有两类,一类是完全确定的关系,可以用函数形式表示;还有一类是变量间有一定的关系,但是由于情况复杂或者存在不可避免的误差无法做到精确确定,为了能够研究这类变量之间的关系,常常通过大量试验或观测获取数据,用统计方法去寻找两者之间的关系,注意,这种关系反映的是变量间的统计规律。这种统计方法便是回归分析。   方差分析:在实际工作中,影响一件事情的因素有很多,人们总是希望通过各种试验来观察各种因素对试验结果的影响。方差分析就是研究一种或多种维度的变化对试验结果指标是否有显著影响,从而找出较优的试验条件或者生产条件的一种常用统计方法。基本目标就是通过比较各种原因在总变异中的重要程度,对原因进行排序,从而实现下一步工作方向的确定。   判别分析:也就是机器学习中的有监督学习,鸡仔已知有多少类的情况下,并且在有训练样本的前提下,利用训练样本对数据进行分类。是用于判断个体所属群体的一种统计方法。   聚类分析:预先不知道有多少类别,很据某种规则将样本进行分类。是一类将数据所对应的研究对象进行分类的统计方法。   主成分分析:PCA。是将多指标化为少数几个综合指标的一种统计分析方法。通过降维技术把多个变量化成少数几个主成分的方法。这些主成分能够反映原始变量的大部分信息,通常表现为原始变量的线性组合。   因子分析:是PCA的推广和扩展,也是降维的一种方法,是一种用来分析隐藏在表面现象背后的因子作用的一类统计模型。   相关分析:分析两组随机变量之间相关性程度的一种统计方法。 摘自: http://book.douban.com/subject/2120492/
1267 次阅读|0 个评论
在悲观与乐观两极中,尽可能游近乐观
热度 24 何裕民 2015-6-24 16:21
乐观与悲观,是最显而易见的不同生活态度,也是常见的价值取向差异。 生活中,谁都知道乐观者优于悲观者。但通常,并没有绝对的乐观者,也没有纯粹的悲观者。它们只是一种呈现为正态分布的有所偏离倾向:这种倾向既有一定的先天性——如果父母悲观,孩子通常也更多具有悲观倾向;也与后天经历有关——人文环境良好,则乐观趋向可以加强;且这种倾向性每个个体可以自我有所改变。因此,现实世界中,大多数人通常只是游离在悲观与乐观之间——处在某中间段的较为偏离一侧的地方,且有周期性的起伏变化。 世上真正乐观者并不多见。实验证明,将动物和人置于绝望环境中,人为地让他们无法逃脱失败或惩罚,仍然有1/4的个体永不放弃。这1/4个体可以说是最乐观的。因此,人天生就存在着一定的悲观、乐观倾向性差异。 有资料进一步提示:人人都有乐观的天性。人的乐观倾向可能在进化过程中固定在大脑里,成为一种本能反应,并不断地被强化。因为乐观也是促使人类进化的重要机制之一。遗传学家认为,进化选择了乐观。原因之一在于积极的期望可提高生存概率。支持性证据之一就是乐观者更长寿、更健康。 悲观与乐观的差异及其对健康和人生的影响,人们做了很多研究。证明:乐观者的确不仅常常活得更好,且更容易成功,更趋向于健康。 例如,研究揭示:现代社会中,虽然个人能力和动机很大程度上决定着生存结果,但同时更是个人的精神状态之较量;乐观者远比悲观者来得成功,更容易笑到最后!笑得最好! 以前,人们倾向于认为一个人成功主要取决于能力和动机欲望,如个人拥有天分且很努力地投入学习或工作,他就一定会成功。但赛利格曼的积极心理学研究表明,当一个人天分意愿都很充足时,失败也可能发生。而这很可能仅仅只是因为这是个悲观的人。 悲观的人,总相信坏事都是自己的过错;坏事一旦发生,一定会持续很久;且会毁掉人生的一切。而乐观者遇到同样厄运时,通常会认为失败只是暂时的;每个失败都有它自身的原因;不完全是自己的错,可能是环境、运气或其他因素的后果;或者说,他们会想尽办法为自己找出开脱的理由,哪怕只是自我安慰性质的。比如,面对职业面试失败,悲观者往往认为都因为能力太差、形象欠佳,且意味着以后也不太会好;乐观者则每每认为“此山不留君,自有留君处”,他就会到另一家重新面试!就是这小小区别,决定着个体人生的幸福、充实、成功与否,很大程度上左右着他身心健康,甚至,寿命上都体现出明显差异。 悲观者更容易被癌症盯上,这是很早就明确了的研究结论。塞里格曼指导了一个研究,更证明了这一点:给老鼠种植癌细胞,将老鼠置于不同环境中。第一组老鼠可以通过逃避(如抓碰开关)而成功摆脱电击(乐观组);第二组则在第一组成功逃避电击时再次被电击——因为碰到开关同时,接通了电击线路,它们无论如何逃避不了电击(悲观组);第三组老鼠在没有危险的环境中(对照组)。结果,第一组老鼠患癌率只有1/4,第二组患癌率3/4,而最后一组患癌率1/2。可见,问题并不在于是否处在逆境,而是在于你怎么应对;积极有效地应对危险,可大大提升自我健康水准,包括大幅度降低癌症发生率。 综合研究结果表明:乐观情绪能让人们放松大脑,舒缓压力,有益于身心健康。心脏病患者中乐观的与不乐观的相比,其发病或复发的危险性均明显降低。 深入研究揭示:乐观情绪是前额叶皮质与大脑深处皮质下区域沟通的结果。前额叶皮质是人类大脑最新进化的产物,人类的这一部分结构远比其他灵长类动物要发达得多,这是人类拥有许多复杂功能的核心区域。这一结论还与对大脑另外两个关键区域的研究结论相吻合:一是大脑的杏核体,它是大脑处理情绪的重要结构;另一个是前扣带回皮质喙部,是前额叶皮层中调节情绪和动机的区域。研究表明:越是乐观者,在想象未来时,这些区域的电化学反应越趋活跃;这两个区域之间的联系也更为密切。正是这两个区域,每每是抑郁症患者大脑内活动异常之处。因此,激发、拓延乐观情绪,也是纠治与拮抗抑郁的妙法。 积极心理学家形容的“悲观者,就像是一个恐惧而悲伤地看着墙上的挂历每天被撕掉一张,挂历越变越薄的人。”而他们推崇的“积极应对生活问题者,好比是每撕掉一张就把它整齐地摞在一起,还要在背后记上日记的人。他可以快乐自豪地回忆日记中所有充实往事,那些他曾拥有过的生活。即便他意识到自己老了,那也无妨啊?他没有必要嫉妒年轻人,更不会为虚度的青春懊悔。他常会这样想:‘我拥有的不仅仅是可能性,而是现实性,我做过了,爱过了,也勇敢地承受过痛苦。这些痛苦甚至是我最珍视的,尽管它们不会引起别人的嫉妒’”。 乐观者往往稍带主观,有些“傻”。他们习惯于歪曲现实世界,当现实世界不利于他们所认为的现状,或有些危险时,他们倾向于人为地淡化或忽视危险,或缩小危险;常会自以为是地认为:天塌不下来,等等再说吧。 研究证明:乐观还是抵抗疾病的第一道防线。其机制之一是促进了积极的心身互动。问题只是在于:如何去激发、拓延人们的乐观情绪,并促使其在心身互动中发挥主导作用。 乐观倾向是可以培养的。有充分证据证实:教育可以明显改变悲观倾向。 远离悲观,游近乐观有一整套的方法措施,积极心理学在这方面做了一些开拓性研究,可以参照之。 我们的经验表明:肿瘤患者患病初期往往都偏于悲观,此时可努力纠正之。可采取的方法如下。第一,告诉大家事实真相:悲观和乐观只是个体自我的一种感受,只是一个过程;谁都有情绪低落时,就像是月圆月缺一样;在低落时尽可能正视它,告诫自己,这只是暂时的;悲观很快会过去,月缺总有月圆时;别把消极因素放大了。第二,对问题应全面看,尽可能多地理解正面意义,不要把所有的问题都归置为负面的,都往负面想:悲观和乐观者的一大差异是思考方式方法不同,一个是积极往上的,想着阳光,考虑明天会好的;一个是消极往下走,老想着明天更差,这需要努力纠正。第三,设置一些努力一下短期可实现的目标,情绪消极时,自我可找点简单的事干干,设定一个简单的目标:比如,体质很差,要活动,可出去走走,今天争取走三百步;走了四百步,就是很成功了;明天争取走个六百步,以短期的成功,激励自己,积极看待! 还可借助的方法包括经常和阳光者相处,多参与集体活动;多到阳光普照的环境中活动;在家里,则尽可能把光线开亮;因为光亮度和温度都会提高人的兴奋程度——越是阴暗阴冷的地方,人越容易消极悲观。
个人分类: 何裕民谈健康|2941 次阅读|24 个评论
歪谈正态分布
热度 5 zhangxw 2015-5-7 11:55
歪谈正态分布 张学文 ,2015/5/7 物理学应用于万物 , 化学分析万物的成分、个性,而统计学可以横跨各个自然、社会科学!所以现在你几乎找不到一个有大量数据的学科拒绝统计。而在统计学中经典的正态分布是大名鼎鼎。其发现者是号称数学大王的高斯,就足以说明它的尊贵地位。我们几乎难以找到一本统计书敢于不谈正态概率分布的含义、公式、曲线以致正态分布的表。 学生时记得一位教务长谈批判资产阶级教育,说资产阶级教育要求学生的考试成绩要符合正态分布(考的特别好,特别不好的人很少,中等居多)。 确实多年来在学术界弥漫着一种认识:如果你分析的资料符合正态分布,那么你的文章就被认为是正结果,就应当发表。如果你分析的对象不符合正态分布,其频率分布比较难看,你就不能写论文,再不要说发表了。在这种鼓励下 正态分布变成了一种崇拜,似乎各个领域的数据都应当是正态分布的自然领地 。 正态分布为什么如此常见,记得老师给过一个说得过去的理由。后来从信息论中知道,它可以从最大(信息)熵原理外加一个约束条件而获得证明,这样我对它得到进一步的理解。 熵原理是谁都不敢反对的基本原理,所以正态分布不可动摇 。 注意从这个角度证明正态分布的合理性固然有依据,但是如果不放弃最大熵原理却改用另外的约束条件,人们也可以推导出简单、漂亮的有别于正态分布的概率分布。即在这种视角下正态分布固然漂亮但是它不应当特别尊贵,而是有其他的分布与之并列! 后来我看到了一些文章谈及对自变量做一些变换以使变换后的变量服从正态分布。我佩服人们的数学技巧!这显然也是正态分布扩大领地的新成绩,它似乎说明大家都 努力拜正态分布这个神 。而我认为这显然是人们对正态分布崇拜过头的行为。 长度为 L 的一根线被随机切割为 M 段,问不同长度的线段各有多少,它们符合正态分布吗?数值实验说明它不符合正态分布,而是符合负指数分布。而这也可以从最大熵原理配合平均值为常数的附加约束条件而获得理论证明。从数学角度看, 负指数分布并不比正态分布低下 。而我们也可以发现很多领域的数据符合这个分布(如气象学中的降水)。 近数十年来,幂律(另外的一种概率分布公式)又时髦了起来了。于是人们热心寻找并且发现了大量的符合幂律的自然现象,这催生了所谓分形科学,结果是 幂律热淡化了正态分布的王位。 为什么那么多简单又普遍的幂律分布过去没有被注意,我们对正态分布地位的过分迷信可能是一个原因。 其实从最大熵原理看, 它配合一个标准差为常数的约束,就获得了正态分布, 配合一个平均值(或者总量)为常数的假设就获得了负指数分布, 配合一个几何平均值为常数的假设就获得一个几何分布(幂律), 同时配合代数平均值不变和几何平均值不变的约束就获得 gamma 分布, 而没有明确约束条件,仅知道变量出现于有限区间,那么就获得均匀分布(这常被物理学称为等概率假设), …. 所有这些都是最大熵原理的不同应用。正态分布不过是这个思路下的一种概率分布,而不是唯一尊贵的分布。 这么说最大熵原理就是惹不起的绝对规律了?这为什么? 其实细一思考,这也简单:最大熵原理是穿上了神秘外衣的一个非常浅显的道理: 高概率的事情在一次实践中容易出现 。 正态分布由于历史的原因被过分看重了,负指数分布,幂律等等其实都是它的兄弟,而它们的共同母亲是“高概率的事情在一次实践中容易出现”。正态分布也好,负指数分布也好,幂律也好,最大熵原理原理也好,大家都需要走下神坛!
个人分类: 统计、概率、熵、信息、复杂性.2.|4508 次阅读|12 个评论
[转载]自然科学基金 标准
热度 1 luzeyuan 2015-2-11 19:46
国家自然科学基金,一个神圣的名字,SCI论文标志着一个科研工作者和一个技术支撑人员的差别 SCI论文也是明确分级别的 最优秀的成果能发表在最高档次的SCI杂志上
1488 次阅读|2 个评论
气温的概率分布是单峰(正态)还是双峰?
热度 1 zhangxw 2015-2-8 17:32
气温的概率分布是单峰(正态)还是双峰 ? 张学文 ,2015/2/8 气象统计的传统教育在告诉我们 , 任何一个地点的气温 , 其出现不同值的概率一般符合著名的正态分布 ( 高斯分布 ) 。记得我在过去分析新疆的一些气象站的温度分布,这个结论大体上差不多。气温几乎成为气象学中理解正态分布的优秀实例。如果你发现某地的气温不符合正态分布,并且写成文章,估计编审人员会认为是反面结果而不能发表 … 但是, 但是后来我逐步明白,所谓各地的气温符合单峰的正态分布,其实是指当地的一些温度的平均值而言的,如年平均温度,月平均温度等等。如果你运用更多的样本(这应当更有权威性),而不去取平均值。任何一个地方的温度随机样本的统计特征则它与正态分布就相差甚远,并且出现了双峰。下面的乌鲁木齐温度样本统计就是例子。 乌鲁木齐不同温度的出现概率 ( 10 年,每天 24 个数据,合计 87648 个样本) 这个双峰分布说明冬、夏的温度比较多而春秋的温度比较少 为什么这个大样本的统计尽然与正态分布差这么多?难道是我们统计错了? 细一分析就明白,过去所谓的正态分布仅是对应对于确定的时间阶段而言的。例如你仅仅分析 3 月(或者任意特定的月份)。它应当是正态分布。如果你在把四季的不同温度,早晚的不同温度都拿来做统计分析,那么它可能就是我们给的乌鲁木齐这个例子的情况了。 所以我们不能说上面乌鲁木齐的这个温度分布图错误,我们仅能说过去没有人注意这种统计分析,而简单地相信了书本上的结论(其实是有条件的)。 为什么温度分布就是这样? 其实问题很简单:地球上任何地点的温度存在明显的日变化和年变化。即我们不能在认可温度存在随机变化(承认它是随机变量),进行统计分析时,而忽略它的日变化、年变化问题。 理论分析指出一个随机变量均匀地在 +1 到 -1 之间取值(这等价与时间均匀的前进),那么此变量的概率分布就是一个均匀分布。但是此取值的正弦值则是一个 M 型的概率分布(见下面的博客文章)。注意,我们观测的乌鲁木齐温度概率分布就十分类似 M 型的双峰分布。 所以任何地点的大量的温度数据的概率分布与其说一般是符合正态分布,不如说它符合双峰 M 型分布,而仅有特定季节内的温度,或者平均温度,才符合教科书上说的正态分布。 --------- 这是李小文老师要的双峰概率分布吗? 张学文, 2013/7/2 方才看到这个问题,我没有弄清楚原意。 但是我过去注意到对一个 sin 函数均匀随机采样,其取值为不同概率的分布就是双峰概率分布。不过它的自变量在 -1,1 之间。,也许与李老师要的比较合适?是否需要改造一下,这里我没有加入参数,其实在 sin 前面加了系数就是参数了。 本人关于双峰的问题好像在气象要素分布的博客中给出过例子,现在记不清了。 下面是我在 2011 年 7 月做的图 欢迎参考 2011 的博客: http://blog.sciencenet.cn/blog-2024-454770.html 本文引用地址: http://blog.sciencenet.cn/blog-2024-704658.html 此文来自科学网张学文博客
个人分类: (熵+统计)气象学|15402 次阅读|2 个评论
正态分布
热度 1 Michaelhu 2014-10-30 10:37
正态分布,不仅存在于许多自然现象中,在社会现象中也有不少。比如,完美的好人和完全的坏人总是极少,不好不坏或既好又坏的人总是占多数;就单个个人而言,极好和极坏的时间总体是不多的,不好不坏或既好又坏的时间总是占多数。然而,人常无意中会用两个极端来衡量整体,或对极致的追求,都会引起很多烦恼。至纯至真的人和物极难存在。在评论别人时,也常忘记反省。好人会无意中被认为任何时间都是好人、完人、超人、甚至圣人(即使是孔圣人也曾遭批),坏人就一无是处,被两极化了。这可能是不好的宣传或教育形成的思维惯性所致(诸如毫不利己专门利人之类,无非是物质或精神上的)。那些精英被抓,在可惜的同时还有些迷惘。原本大家都是普通人,精英也只是某方面的精英而非圣人。尤其还是在制度不完善甚至自相矛盾且随意多变的年代。(“胡”思“胡”想) (又:然而常常历史上又是极端的人才能成巨人、才能承前启后,科研上也是极少数人或极端的角度才能发现突破性的新东西。这里边可能包含着某些哲学规律吧。)
个人分类: 研究心得|3354 次阅读|2 个评论
动平衡的正态分布要求的转移矩阵--《气象随机场-24》
zhangxw 2014-9-12 12:51
动平衡的正态分布要求的转移矩阵--《气象随机场-24》 张学文,2014/9/12 上一讲讨论了一个气象场的某气象变量(如大气压力)如果其分布函数是稳定的均匀分布,即处于动态平衡情况下的均匀分布,它要求的转移矩阵的特征。这个讨论是在对分布函数的转移矩阵做了很多的一般分析基础上而展开的。 均匀分布的转移矩阵的高度对称特征也使我们看到转移矩阵无论阶数是多少,其矩阵都是类似的。所以我们没有就不同阶数的矩阵多讨论。 现在我们的核心任务是分析正态分布所对应的转移矩阵。即我们试图获得在动态平衡情况下的正态概率分布所要求的转移矩阵的特征。鉴于正态分布在概率论和统计学中经常遇到。所以这个讨论对非气象领域的正态分布的认识也有价值。 在23讲中我们看到对称性很强的均匀分布,除了满足状态在一个时间步长中最多只可以移动到相邻的相格(离散的状态区间)外,还具有向左右相格的转移速度(转移率)相等的特征。而左右相格的转移率如果相等,也就意味着待求的转移矩阵中的未知数又减少了n-1个。而在第22讲的最后部分我们指出过从分布函数获得转移矩阵尚缺n-1个未知数。 而左右转移速度相等的假设竟然使这些未知数消失了。这就算是说你给我任何一个离散化的分布函数 ,我都可以在 1. 转移矩阵适用于时间步长很短,从而状态仅可以转移到相邻相格或者不转移; 2. 满足马尔科夫过程的细致平衡原则(对分布函数是转移矩阵的极限分布); 3. 左右转移速度相等; 4. 任意给一个合理的假设的转移速度; 5. 转移矩阵的每一行的诸元素的合计值=1。 依据分布函数的n个离散值(相格)而推算出它要求的n阶转移矩阵。 下面就针对正态分布落实对应的各个环节: 1. 正态分布公式:这里用的是平均值=0,标准差=1的正态分布公式 其公式是 f(x)=(1/(2*Π)^0.5)*exp(-x*x/2) 2. 对此概率密度我们把它适当地离散化为15个相格(区间,分的不是很好)。而每个区间中的出现概率大致是如下的表。 离散的相格 变量上限 变量下限 区间概率值 1 - 无穷大 -3.5 0.000279 2 -3.5 -3 0.001304 3 -3 -2.5 0.00554 4 -2.5 -2 0.018417 5 -2 -1.5 0.047905 6 -1.5 -1 0.097511 7 -1 -0.5 0.155332 8 -0.5 0 0.19366 9 0 0.5 0.188972 10 0.5 1 0.144323 11 1 1.5 0.086265 12 1.5 2 0.040353 13 2 2.5 0.014771 14 2.5 3 0.00423 15 3 3.4 0.000861 合计 0.997 3. 根据前面整理的5项要求而得到的15乘15的转移矩阵(其中由我们主观设定的一个值是矩阵的第2行第2列为0.7)。而空白处的转移速度是0. 转移矩阵   概率 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 0.000279 1 0.299 0.701434                           0.001304 2 0.15 0.7 0.15                         0.00554 3   0.0353 0.929399823 0.0353                       0.018417 4     0.01061858 0.97876 0.01061858                     0.047905 5       0.00408 0.991835435 0.004082                   0.097511 6         0.00200556 0.995989 0.002006                 0.155332 7           0.001259 0.997482 0.001259               0.19366 8             0.00101 0.99798 0.00101             0.188972 9               0.001035 0.99793 0.001035           0.144323 10                 0.001355 0.99729 0.001355         0.086265 11                   0.002267 0.995466 0.002267       0.040353 12                     0.004846 0.990307 0.004846     0.014771 13                       0.01324 0.97352 0.01324   0.00423 14                         0.046228 0.907543 0.046228 0.000861 15                           0.227249 0.772751 4. 根据前面的介绍,我们从任意一个初始分布(实际是第4个相格=1,其他相格=0)与上面的矩阵做乘法,获得一个新的分布函数,以此分布函数再做矩阵乘法,如此做1万次,结果是获得的分布已经与正态分布函数很近了。见下图 图中的 变量的取值,应当修订为变量对应的相格位置编号 5. 这说明本转移矩阵就是正态分布函数的转移矩阵,或者说正态分布是本转移矩阵的极限分布。 关于保持动态平衡时的正态分布所要求的转移矩阵的特征我们初步分析到此。
个人分类: (熵+统计)气象学|4405 次阅读|0 个评论
[转载]正态分布的前世今生(转载)
lelieven 2014-4-21 19:28
神说,要有正态分布,就有了正态分布。 神看正态分布是好的,就让随机误差服从了正态分布。 创世纪—数理统计 1. 正态分布,熟悉的陌生人 学过基础统计学的同学大都对正态分布非常熟悉。这个钟形的分布曲线不但形状优雅,它对应的密度函数写成数学表达式 f ( x ) = 1 2 π − − √ σ e − ( x − μ ) 2 2 σ 2 也非常具有数学的美感。其标准化后的概率密度函数 f ( x ) = 1 2 π − − √ e − x 2 2 更加的简洁漂亮,两个最重要的数学常量 π 、 e 都出现在这公式之中。在我个人的审美之中,它也属于 top-N 的最美丽的数学公式之一,如果有人问我数理统计领域哪个公式最能让人感觉到上帝的存在,那我一定投正态分布的票。因为这个分布戴着神秘的面纱,在自然界中无处不在,让你在纷繁芜杂的数据背后看到隐隐的秩序。 正态分布曲线 正态分布又通常被称为高斯分布,在科学领域,冠名权那是一个很高的荣誉。2002年以前去过德国的兄弟们还会发现,德国1991年至2001年间发行的的一款10马克的纸币上印着高斯(Carl Friedrich Gauss, 1777-1855)的头像和正态密度曲线,而1977年东德发行的20马克的可流通纪念钢镚上,也印着正态分布曲线和高斯的名字。正态分布被冠名高斯分布,我们也容易认为是高斯发现了正态分布,其实不然,不过高斯对于正态分布的历史地位的确立是起到了决定性的作用。 德国马克和纪念币上的高斯头像和正态分布曲线 正态曲线虽然看上去很美,却不是一拍脑袋就能想到的。我们在本科学习数理统计的时候,课本一上来介绍正态分布就给出分布密度函数,却从来不说明这个密度函数是通过什么原理推导出来的。所以我一直搞不明白数学家当年是怎么找到这个概率分布曲线的,又是怎么发现随机误差服从这个奇妙的分布的。我们在实践中大量的使用正态分布,却对这个分布的来龙去脉知之甚少,正态分布真是让人感觉既熟悉又陌生。直到我读研究生的时候,我的导师给我介绍了陈希儒院士的《数理统计学简史》这本书,看了之后才了解了正态分布曲线从发现到被人们重视进而广泛应用,也是经过了几百年的历史。 正态分布的这段历史是很精彩的,我们通过讲一系列的故事来揭开她的神秘面纱。 2. 邂逅,正态曲线的首次发现 第一个故事和概率论的发展密切相关,主角是棣莫弗(Abraham de Moivre, 1667-1754) 和拉普拉斯 (Pierre-Simon Laplace 1749-1827)。拉普拉斯是个大科学家,被称为法国的牛顿;棣莫弗名气可能不算很大,不过大家应该都应该很熟悉这个名字,因为我们在高中数学学复数的时候都学过棣莫弗公式 ( cos θ + i sin θ ) n = cos ( n θ ) + i sin ( n θ ) . 而棣莫弗所写的《机遇论》(The doctrine of chances)是概率论发展历史中很重要的一本书。牛顿对棣莫弗十分欣赏,遇到学生向他请教概率方面的问题时,他就说:“这样的问题应该去找棣莫弗,他对这些问题的研究比我深入得多。” 棣莫弗和拉普拉斯 古典概率论发源于赌博,惠更斯(Christiaan Huygens, 1629-1695)、帕斯卡(Blaise Pascal, 1623-1662)、费马(Pierre de Fermat, 1601-1665)、雅可比·贝努利(Jacob Bernoulli, 1654-1705)都是古典概率的奠基人,他们那会研究的概率问题大都来自赌桌上,最早的概率论问题是赌徒梅累在1654年向帕斯卡提出的如何分赌金的问题。统计学中的总体均值之所以被称为期望 (Expectation), 就是源自惠更斯、帕斯卡这些人研究平均情况下一个赌徒在赌桌上可以期望自己赢得多少钱。 有一天一个哥们,也许是个赌徒,向棣莫弗提了一个和赌博相关的问题:A、B 两人在赌场里赌博,A、B各自的获胜概率是 p , q = 1 − p , 赌 n 局。两人约定:若 A 赢的局数 X n p , 则 A 付给赌场 X − n p 元;若 X n p ,则B 付给赌场 n p − X 元。 问赌场挣钱的期望值是多少。 问题并不复杂, 本质上是一个二项分布,若 n p 为整数,棣莫弗求出最后的理论结果是 2 n p q b ( n , p , n p ) 其中 b ( n , p , i ) = ( n i ) p i q n − i 是常见的二项概率。 但是对具体的 n , 因为其中的二项公式中有组合数,要把这个理论结果实际计算出数值结果可不是件容易的事, 这就驱动棣莫弗寻找近似计算的方法。 与此相关联的另一个问题,是遵从二项分布的随机变量 X ~ B ( n , p ) , 求X 落在二项分布中心点一定范围的概率 P d = P ( | X – n p | ≤ d ) 。 对于 p = 1 / 2 的情形, 棣莫弗做了一些计算并得到了一些近似结果,但是还不够漂亮,幸运的是棣莫弗和斯特林(James Stirling, 1692-1770)处在同一个时代, 而且二人之间有联系,斯特林公式是在数学分析中必学的一个重要公式 n ! ≈ 2 π n − − − − √ ( n e ) n . 事实上斯特林公式的雏形是棣莫弗最先得到的,但斯特林改进了这个公式,改进的结果为棣莫弗所用。1733 年,棣莫弗很快利用斯特林公式进行计算并取得了重要的进展。考虑 n 是偶数的情形,二项概率为 b ( n , 1 2 , i ) = ( n i ) ( 1 2 ) n 以下把 b ( n , 1 2 , i ) 简记为 b ( i ) , 通过斯特林公式做一些简单的计算容易得到, b ( n 2 ) ≈ 2 π n − − − √ , b ( n 2 + d ) b ( n 2 ) ≈ e − 2 d 2 n , 于是有 b ( n 2 + d ) ≈ 2 2 π n − − − − √ e − 2 d 2 n . 使用上式的结果,并在二项概率累加求和的过程中近似的使用定积分代替求和,很容易就能得到 P ( ∣ ∣ ∣ X n – 1 2 ∣ ∣ ∣ ≤ c n − − √ ) = ≈ = ≈ ∑ − c n √ ≤ i ≤ c n √ b ( n 2 + i ) ∑ − c n √ ≤ i ≤ c n √ 2 2 π n − − − − √ e − 2 i 2 n ∑ − 2 c ≤ 2 i n √ ≤ 2 c 1 2 π − − √ e − 1 2 ( 2 i n √ ) 2 2 n − − √ ∫ 2 c − 2 c 1 2 π − − √ e − x 2 / 2 d x . 看,正态分布的密度函数的形式在积分公式中出现了!这也就是我们在数理统计课本上学到的一个重要结论:二项分布的极限分布是正态分布。 以上只是讨论了 p = 1 / 2 的情形, 棣莫弗也对 p ≠ 1 / 2 做了一些计算,后来拉普拉斯对 p ≠ 1 / 2 的情况做了更多的分析,并把二项分布的正态近似推广到了任意 p 的情况。 这是第一次正态密度函数被数学家刻画出来,而且是以二项分布的极限分布的形式被推导出来的。 熟悉基础概率统计的同学们都知道这个结果其实叫棣莫弗-拉普拉斯中心极限定理。 设随机变量 X n ( n = 1 , 2 , … ) 服从参数为 n , p 的二项分布,则对任意的 x , 恒有 lim n → ∞ P ( X n – n p n p ( 1 − p ) − − − − − − − − √ ≤ x ) = ∫ x − ∞ 1 2 π − − √ e − t 2 2 d t . 我们在大学学习数理统计的时候,学习的过程都是先学习正态分布,然后才学习中心极限定理。而学习到正态分布的时候,直接就描述了其概率密度的数学形式,虽然数学上很漂亮,但是容易困惑数学家们是如何凭空就找到这个分布的。读了陈希孺的《数理统计学简史》之后,我才明白正态分布的密度形式首次发现是在棣莫弗-拉普拉斯的中心极限定理中。数学家研究数学问题的进程很少是按照我们数学课本编排的顺序推进的,现代的数学课本都是按照数学内在的逻辑进行组织编排的,虽然逻辑结构上严谨优美,却把数学问题研究的历史痕迹抹得一干二净。DNA 双螺旋结构的发现者之一詹姆斯·沃森(James D. Watson, 1928-) 在他的名著《DNA 双螺旋》序言中说:“ Science seldom proceeds in the straightforward logical manner imagined by outsiders. (科学的发现很少会像门外汉所想象的一样,按照直接了当合乎逻辑的方式进行的。)” 棣莫弗给出他的发现后40年(大约是1770年), 拉普拉斯建立了中心极限定理较一般的形式,中心极限定理随后又被其他数学家们推广到了其它任意分布的情形,而不限于二项分布。后续的统计学家发现,一系列的重要统计量,在样本量 N 趋于无穷的时候, 其极限分布都有正态的形式, 这构成了数理统计学中大样本理论的基础。 棣莫弗在二项分布的计算中瞥见了正态曲线的模样,不过他并没有能展现这个曲线的美妙之处。棣莫弗的这个工作当时并没有引起人们足够的重视,原因在于棣莫弗 不是个统计学家,从未从统计学的角度去考虑其工作的意义。 正态分布(当时也没有被命名为正态分布) 在当时也只是以极限分布的形式出现,并没有在统计学,尤其是误差分析中发挥作用。这也就是正态分布最终没有被冠名 棣莫弗分布的重要原因。 那高斯做了啥工作导致统计学家把正态分布的这顶桂冠戴在了他的头上呢?这先得从最小二乘法的发展说起。 3. 最小二乘法,数据分析的瑞士军刀 第二个故事的主角是欧拉(Leonhard Euler, 1707-1783)、拉普拉斯、勒让德 (Adrien-Marie Legendre, 1752–1833) 和高斯, 故事发生的时间是18世纪中到19世纪初。17、18 世纪是科学发展的黄金年代,微积分的发展和牛顿万有引力定律的建立,直接的推动了天文学和测地学的迅猛发展。当时的大科学家们都在考虑许多天文学上的问题,几个典型的问题如下: 土星和木星是太阳系中的大行星,由于相互吸引对各自的运动轨道产生了影响,许多大数学家,包括欧拉和拉普拉斯都在基于长期积累的天文观测数据计算土星和木星的运行轨道。 勒让德承担了一个政府给的重要任务,测量通过巴黎的子午线的长度。 海上航行经纬度的定位。主要是通过对恒星和月面上的一些定点的观测来确定经纬度。 这些天文学和测地学的问题,无不涉及到数据的多次测量、分析与计算;17、18世纪的天文观测,也积累了大量的数据需要进行分析和计算。很多年以前,学者们就已经经验性的认为,对于有误差的测量数据,多次测量取算术平均是比较好的处理方法。虽然缺乏理论上的论证,也不断的受到一些人的质疑,取算术平均作为一种异常直观的方式,已经被使用了千百年, 在多年积累的数据的处理经验中也得到相当程度的验证,被认为是一种良好的数据处理方法。 以上涉及的问题,我们直接关心的目标量往往无法直接观测,但是一些相关的量是可以观测到的,而通过建立数学模型,最终可以解出我们关心的量。这些问题都可以用如下数学模型描述:我们想估计的量是 β 0 , … , β p , 另有若干个可以测量的量 x 1 , … , x p , y , 这些量之间有线性关系 y = β 0 + β 1 x 1 + … + β p x p 如何通过多组观测数据求解出参数 β 0 , … , β p 呢? 欧拉和拉普拉斯采用的的方法都是求解如下线性方程组 ⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ y 1 = β 0 + β 1 x 11 + … + β p x p 1 y 2 = β 0 + β 1 x 12 + … + β p x p 2 ⋮ y n = β 0 + β 1 x 1 n + … + β p x p n . 但是面临的一个问题是,有 n 组观测数据, p + 1 个变量, 如果 n p + 1 , 则得到的线性矛盾方程组,无法直接求解。 所以欧拉和拉普拉斯采用的方法都是通过对数据的一定的观察,把 n 个线性方程分为 p + 1 组,然后把每个组内的方程线性求和后归并为一个方程,从而就把 n 个方程的方程组化为 p + 1 个方程的方程组,进一步解方程求解参数。这些方法初看有一些道理,但是都过于经验化, 无法形成统一处理这一类问题的通用解决框架。 以上求解线性矛盾方程的问题在现在的本科生看来都不困难,这就是统计学中的线性回归问题,直接用最小二乘法就解决了。可是即便如欧拉、拉普拉斯这些数学大牛,当时也未能对这些问题提出有效的解决方案。可见在科学研究中,要想在观念上有所突破并不容易。有效的最小二乘法是勒让德在 1805 年发表的,基本思想就是认为测量中有误差,所以所有方程的累积误差为 累积误差 = ∑ ( 观测值 – 理论值 ) 2 我们求解出导致累积误差最小的参数 β ^ = = arg min β ∑ i = 1 n e 2 i arg min β ∑ i = 1 n 2 . 勒让德 勒让德在论文中对最小二乘法的优良性做了几点说明: 最小二乘法使得误差平方和最小,并在各个方程的误差之间建立了一种平衡,从而防止某一个极端误差取得支配地位; 计算中只要求偏导后求解线性方程组,计算过程明确便捷; 最小二乘法可以导出算术平均值作为估计值。 对于最后一点,推理如下:假设真值为 θ , x 1 , … , x n 为 n 次测量值, 每次测量的误差为 e i = x i – θ ,按最小二乘法,误差累积为 L ( θ ) = ∑ i = 1 n e 2 i = ∑ i = 1 n ( x i – θ ) 2 求解 θ 使得 L ( θ ) 达到最小,正好是算术平均 x ˉ = ∑ n i = 1 x i n 。 由于算术平均是一个历经考验的方法,而以上的推理说明,算术平均是最小二乘法的一个特例,所以从另一个角度说明了最小二乘法的优良性,使我们对最小二乘法更加有信心。 最小二乘法发表之后很快得到了大家的认可接受,并迅速的在数据分析实践中被广泛使用。不过历史上又有人把最小二乘法的发明归功于高斯,这又是怎么一回事呢。高斯在1809 年也发表了最小二乘法,并且声称自己已经使用这个方法多年。高斯发明了小行星定位的数学方法,并在数据分析中使用最小二乘法进行计算,准确的预测了谷神星的位置。 扯了半天最小二乘法,没看出和正态分布有任何关系啊,离题了吧?单就最小二乘法本身,虽然很实用,不过看上去更多的算是一个代数方法,虽然可以推导出最优解,对于解的误差有多大,无法给出有效的分析,而这个就是正态分布粉墨登场发挥作用的地方。勒让德提出的最小二乘法,确实是一把在数据分析领域披荆斩棘的好刀,但是刀刃还是不够锋利;而这把刀的打造后来至少一半功劳被归到高斯,是因为高斯不但独自的给出了造刀的方法,而且把最小二乘这把刀的刀刃磨得无比锋利,把最小二乘法打造成了一把瑞士军刀。高斯拓展了最小二乘法,把正态分布和最小二乘法联系在一起,并使得正态分布在统计误差分析中确立了自己的地位,否则正态分布就不会被称为高斯分布了。 那高斯这位神人是如何把正态分布引入到误差分析之中,打造最小二乘法这把瑞士军刀的呢? 4. 众里寻她千百度,误差分布曲线的确立 第三个故事有点长,主角是高斯和拉普拉斯,故事的主要内容是寻找随机误差分布的规律。 天文学是第一个被测量误差困扰的学科,从古代至18世纪天文学一直是应用数学最发达的领域,到18世纪,天文学的发展积累了大量的天文学数据需要分析计算,应该如何来处理数据中的观测误差成为一个很棘手的问题。我们在数据处理中经常使用平均的常识性法则,千百来来的数据使用经验说明算术平均能够消除误差,提高精度。算术平均有如此的魅力,道理何在,之前没有人做过理论上的证明。算术平均的合理性问题在天文学的数据分析工作中被提出来讨论:测量中的随机误差应该服从怎样的概率分布?算术平均的优良性和误差的分布有怎样的密切联系? 伽利略在他著名的《关于两个主要世界系统的对话》中,对误差的分布做过一些定性的描述,主要包括: 观测数据存在误差 误差是对称分布的; 大的误差出现频率低,小的误差出现频率高。 用数学的语言描述,也就是说误差分布的密度函数 f ( x ) 关于0对称分布,概率密度随 | x | 增加而减小,这两个定性的描述都很符合常识。 许多天文学家和数学家开始了寻找误差分布曲线的尝试。 天文学家辛普森(Thomas Simpson, 1710-1761) 先走出了有意义的一步。设真值为 θ , x 1 , … , x n 为n次测量值, 每次测量的误差为 e i = x i – θ ,若用算术平均 x ˉ = ∑ n i = 1 x i n 去估计 θ , 其误差为 e ˉ = ∑ n i = 1 e i n 。 辛普森证明了, 对于如下的一个概率分布, 辛普森的误差分布曲线 有如下结论 P ( | e ˉ | x ) ≥ P ( | e i | x ) . 也就是说, | e ˉ | 相比于 | e i | 取小值的机会更大。 辛普森的这个工作很粗糙,但是这是第一次在一个特定情况下,从概率论的角度严格证明了算术平均的优良性。 从 1772-1774 年, 拉普拉斯也加入到了寻找误差分布密度函数的队伍中。拉普拉斯假定误差分布密度函数 f ( x ) 对称且满足 − f ′ ( x ) = m f ( x ) 由此可求得分布密度函数为 f ( x ) = m 2 e − m | x | . 这个概率密度函数现在被称为拉普拉斯分布。 拉普拉斯的误差分布曲线 以该函数作为误差分布,拉普拉斯开始考虑如何基于测量的结果去估计未知参数的值。拉普拉斯可以算是一个贝叶斯主义者,他的参数估计的原则和现代贝叶斯方法非常相似:假设先验分布是均匀的,计算出参数的后验分布后,取后验分布的中值点,即 1 / 2 分位点,作为参数估计值。可是基于这个误差分布密度函数做了一些计算之后,拉普拉斯发现计算过于复杂,最终没能给出什么有用的结果。 拉普拉斯可是概率论的大牛,写过在概率发展历史中极有影响力的《分析概率论》,不过以我的数学审美,实在无法理解拉普拉斯这样的牛人怎么找了一个零点不可导的函数作为误差的分布密度函数,拉普拉斯最终还是没能搞定误差分布的问题。 现在轮到高斯登场了,高斯在数学史中的地位极高,年轻的时候号称数学王子,后来被称为数学家中的老狐狸,数学家阿贝尔 (Niels Henrik Abel, 1802-1829) 对他的评论是 :“高斯像一只狐狸,用尾巴将沙地上的足迹抹去(He is like the fox, who effaces his tracks in the sand with his tail) 。” 我们的数学大师陈省身把黎曼(Georg Friedrich Bernhard Riemann,1826-1866) 和庞加莱(Jules Henri Poincaré, 1854-1912)称为数学家中的菩萨,而称自己为罗汉;高斯是黎曼的导师,数学圈里有些教授把高斯称为数学家中的佛。 在数学家中既能仰望理论数学的星空,又能脚踏应用数学的实地的可不多见,高斯是数学家中少有的顶”天“立”地“的人物,它既对纯理论数学有深刻的洞察力,又极其重视数学在实践中的应用。 在误差分布的处理中,高斯以极其简单的手法确立了随机误差的概率分布,其结果成为数理统计发展史上的一块里程碑。 高斯的介入首先要从天文学界的一个事件说起。1801年1月,天文学家朱塞普·皮亚齐 (Giuseppe Piazzi, 1746-1826)发现了一颗从未见过的光度8等的星在移动,这颗现在被称作谷神星(Ceres)的小行星在夜空中出现6个星期,扫过八度角后就在太阳的光芒下没了踪影,无法观测。而留下的观测数据有限,难以计算出他的轨道,天文学家也因此无法确定这颗新星是彗星还是行星,这个问题很快成了学术界关注的焦点。高斯当时已经是很有名望的年轻数学家了,这个问题引起了他的兴趣。高斯以其卓越的数学才能创立了一种崭新的行星轨道的计算方法,一个小时之内就计算出了谷神星的轨道,并预言了他在夜空中出现的时间和位置。 1801年12月31 日夜,德国天文爱好者奥伯斯(Heinrich Olbers, 1758-1840),在高斯预言的时间里,用望远镜对准了这片天空。果然不出所料,谷神星出现了! 高斯为此名声大震,但是高斯当时拒绝透露计算轨道的方法,原因可能是高斯认为自己的方法的理论基础还不够成熟,而高斯一向治学严谨、精益求精,不轻易发表没有思考成熟的理论。直到1809年高斯系统地完善了相关的数学理论后,才将他的方法公布于众,而其中使用的数据分析方法,就是以正态误差分布为基础的最小二乘法。那高斯是如何推导出误差分布为正态分布的?让我们看看高斯是如何猜测上帝的意图的。 设真值为 θ , x 1 , … , x n 为 n 次独立测量值, 每次测量的误差为 e i = x i – θ ,假设误差 e i 的密度函数为 f ( e ) , 则测量值的联合概率为 n 个误差的联合概率,记为 L ( θ ) = L ( θ ; x 1 , … , x n ) = f ( e 1 ) … f ( e n ) = f ( x 1 − θ ) … f ( x n − θ ) 但是高斯不采用贝叶斯的推理方式,而是直接取使 L ( θ ) 达到最大值的 θ ^ = θ ^ ( x 1 , … , x n ) 作为 θ 的估计值,即 θ ^ = arg max θ L ( θ ) . 现在我们把 L ( θ ) 称为样本的似然函数,而得到的估计值 θ ^ 称为极大似然估计。高斯首次给出了极大似然的思想,这个思想后来被统计学家费希尔系统的发展成为参数估计中的极大似然估计理论。 数学家波利亚(George Pólya, 1887-1985)说过:“要成为一个好的数学家,……,你必须首先是一个好的猜想家(To be a good mathematician,…, you must be a good guesser)。”历史上一流的数学家都是伟大的猜想家。高斯接下来的想法特别牛,他开始揣度上帝的意图,而这充分体现了高斯的数学天才。高斯把整个问题的思考模式倒过来:既然千百年来大家都认为算术平均是一个好的估计,那我就认为极大似然估计导出的就应该是算术平均!所以高斯猜测上帝在创世纪中的旨意就是: 误差分布导出的极大似然估计 = 算术平均值 然后高斯去找误差密度函数 f 以迎合这一点。即寻找这样的概率分布密度函数 f , 使得极大似然估计正好是算术平均 θ ^ = x ˉ 。而高斯应用数学技巧求解这个函数 f , 高斯证明(证明不难,后续给出),所有的概率密度函数中,唯一满足这个性质的就是 f ( x ) = 1 2 π − − √ σ e − x 2 2 σ 2 瞧,正态分布的密度函数 N ( 0 , σ 2 ) 被高斯他老人家给解出来了! 进一步,高斯基于这个误差分布的密度函数对最小二乘法给出了一个很漂亮的解释。对于最小二乘公式中涉及的每个误差 e i , 由于误差服从概率分布 N ( 0 , σ 2 ) , 则 ( e 1 , … , e n ) 的概率为 1 ( 2 π − − √ σ ) n exp { − 1 2 σ 2 ∑ i = 1 n e 2 i } . 要使得这个概率最大,必须使得 ∑ n i = 1 e 2 i 取最小值,这正好就是最小二乘法的要求。 高斯所拓展的最小二乘法成为了19世纪统计学的最重要成就,它在19世纪统计学的重要性就相当于18世纪的微积分之于数学。而勒让德和高斯的关于最小二乘法的发明权之争,成了数学史上仅次于牛顿、莱布尼茨微积分发明权的争端。相比于勒让德1805年给出的最小二乘法描述,高斯基于误差正态分布的最小二乘理论显然更高一筹,高斯的工作中既提出了极大似然估计的思想,又解决了误差的概率密度分布的问题,由此我们可以对误差大小的影响进行统计度量了。高斯的这项工作对后世的影响极大,而正态分布也因此被冠名高斯分布。估计高斯本人当时是完全没有意识到他的这个工作给现代数理统计学带来的深刻影响。高斯在数学上的贡献特多,去世前他是要求给自己的墓碑上雕刻上正十七边形,以说明他在正十七边形尺规作图上的杰出工作。而后世的德国钞票和钢镚上是以正态密度曲线来纪念高斯,这足以说明高斯的这项工作在当代科学发展中的分量。 17、18世纪科学界流行的做法,是尽可能从某种简单明了的准则(first principle)出发进行逻辑推导。高斯设定了准则“最大似然估计应该导出优良的算术平均”,并导出了误差服从正态分布,推导的形式上非常简洁优美。但是高斯给的准则在逻辑上并不足以让人完全信服,因为算术平均的优良性当时更多的是一个经验直觉,缺乏严格的理论支持。高斯的推导存在循环论证的味道:因为算术平均是优良的,推出误差必须服从正态分布;反过来,又基于正态分布推导出最小二乘法和算术平均,来说明最小二乘法和算术平均的优良性。这陷入了一个鸡生蛋蛋生鸡的怪圈,逻辑上算术平均的优良性到底有没有自行成立的理由呢? 高斯的文章发表之后,拉普拉斯很快得知了高斯的工作。拉普拉斯看到,正态分布既可以从抛钢镚产生的序列和中生成出来,又可以被优雅的作为误差分布定律,这难道是偶然现象?拉普拉斯不愧为概率论的大牛,他马上将误差的正态分布理论和中心极限定理联系起来,提出了元误差解释。他指出如果误差可以看成许多微小量的叠加,则根据他的中心极限定理,随机误差理所应当是高斯分布。而20世纪中心极限定理的进一步发展,也给这个解释提供了更多的理论支持。因此以这个解释为出发点,高斯的循环论证的圈子就可以打破。 估计拉普拉斯悟出这个结论之后一定想撞墙,自己辛辛苦苦寻寻觅觅了这么久的误差分布曲线就在自己的眼皮底下,自己却长年视而不见,被高斯占了先机。 至此,误差分布曲线的寻找尘埃落定,正态分布在误差分析中确立了自己的地位,并在整个19世纪不断的开疆扩土,直至在统计学中鹤立鸡群,傲世其它一切概率分布;而高斯和拉普拉斯的工作,为现代统计学的发展开启了一扇大门。 在整个正态分布被发现与应用的历史中,棣莫弗、拉普拉斯、高斯各有贡献,拉普拉斯从中心极限定理的角度解释它,高斯把它应用在误差分析中,殊途同归。正态分布被人们发现有这么好的性质,各国人民都争抢它的冠名权。因为拉普拉斯是法国人,所以当时在法国被称为拉普拉斯分布;而高斯是德国人, 所以在德国叫做高斯分布;第三中立国的人民称他为拉普拉斯-高斯分布。后来法国的大数学家庞加莱建议改用正态分布这一中立名称, 而随后统计学家卡尔·皮尔森使得这个名称被广泛接受: Many years ago I called the Laplace-Gaussian curve the normal curve, which name, while it avoids an international question of priority, has the disadvantage of leading people to believe that all other distributions of frequency are in one sense or another “abnormal”. —Karl Pearson (1920) 不过因为高斯在数学家中的名气实在是太大, 正态分布的桂冠还是更多地被戴在了高斯的脑门上,目前数学界通行的用语是正态分布、高斯分布, 两者并用。 正态分布在高斯的推动下,迅速在测量误差分析中被广泛使用,然而早期也仅限于测量误差的分析中,其重要性远没有被自然科学和社会科学领域中的学者们所认识,那正态分布是如何从测量误差分析的小溪,冲向自然科学和社会科学的汪洋大海的呢? 5. 曲径通幽处,禅房花木深 在介绍正态分布的后续发展之前,我们来多讲一点数学,也许有些人会觉得枯燥,不过高斯曾经说过:“数学是上帝的语言”;所以要想更加深入的理解正态分布的美,唯有借助于上帝的语言。 造物主造物的准则往往是简单明了的,只是在纷繁芜杂的万物之中,我们要发现并领会它并非易事。之前提到过,17、18世纪科学界流行的做法,是尽可能从某种简单明了的准则出发作为科学探求的起点;而后来的数学家和物理学家们的研究发现,屡次从一些给定的简单的准则出发, 我们总是被引领到了正态分布的家门口,这让人感觉到正态分布的美妙。 达尔文的表弟高尔顿是生物学家兼统计学家,他对正态分布非常的推崇与赞美:”我几乎不曾见过像误差呈正态分布这么激发人们无穷想象的宇宙秩序“。当代两位伟大的概率学家列维(Paul Pierre L é vy, 1886-1971) 和卡克(Mark Kac, 1914-1984) 都曾经说过,正态分布是他们切入概率论的初恋情人,具有无穷的魅力。如果古希腊人知道正态分布,想必奥林匹斯山的神殿里会多出一个正态女神,由她来掌管世间的混沌。 要拉下正态分布的神秘面纱展现她的美丽,需要高深的概率论知识,本人在数学方面知识浅薄,不能胜任。只能在极为有限的范围内尝试掀开她的面纱的一角。棣莫弗和拉普拉斯以抛钢镚的序列求和为出发点,沿着一条小径第一次把我们领到了正态分布的家门口,这条路叫做中心极限定理。而这条路上风景秀丽,许多概率学家都为之倾倒。这条路在二十世纪被概率学家们越拓越宽,成为了通往正态曲线的一条康庄大道。而数学家和物理学家们发现:条条小路通正态。著名的物理学家杰恩斯(Edwin Thompson Jaynes, 1922-1998) 在他的名著《概率论沉思录(Probability Theory: the Logic of Science)》中,描绘了四条通往正态分布的小径;曲径通幽处,禅房花木深,让我们一起来欣赏一下这四条小径上的风景吧。 5.1 高斯(1809)的推导 第一条小径是高斯找到的,高斯以如下准则作为小径的出发点 误差分布导出的极大似然估计 = 算术平均值 设真值为 θ , x 1 , … , x n 为n次独立测量值, 每次测量的误差为 e i = x i – θ ,假设误差 e i 的密度函数为 f ( e ) , 则测量值的联合概率为 n 个误差的联合概率,记为 L ( θ ) = L ( θ ; x 1 , … , x n ) = f ( e 1 ) … f ( e n ) = f ( x 1 − θ ) … f ( x n − θ ) 为求极大似然估计,令 d log L ( θ ) d θ = 0 整理后可以得到 ∑ i = 1 n f ′ ( x i − θ ) f ( x i − θ ) = 0 令 g ( x ) = f ′ ( x ) f ( x ) , ∑ i = 1 n g ( x i − θ ) = 0 由于高斯假设极大似然估计的解就是算术平均 x ˉ ,把解代入上式,可以得到 ∑ i = 1 n g ( x i − x ˉ ) = 0 ( 1 ) (1)式中取 n = 2 , 有 g ( x 1 − x ˉ ) + g ( x 2 − x ˉ ) = 0 由于此时有 x 1 − x ˉ = − ( x 2 − x ˉ ) , 并且 x 1 , x 2 是任意的,由此得到 g ( − x ) = − g ( x ) (1)式中再取 n = m + 1 , 并且要求 x 1 = … = x m = − x , x m + 1 = m x , 则有 x ˉ = 0 , 并且 ∑ i = 1 n g ( x i − x ˉ ) = m g ( − x ) + g ( m x ) 所以得到 g ( m x ) = m g ( x ) 而满足上式的唯一的连续函数就是 g ( x ) = c x , 从而进一步可以求解出 f ( x ) = M e c x 2 由于 f ( x ) 是概率密度函数,把 f ( x ) 正规化一下就得到均值为 0 的正态分布密度函数 N ( 0 , σ 2 ) 。 5.2 赫歇尔(1850)和麦克斯韦(1860) 的推导 第二条小径是天文学家赫歇尔(John Frederick William Herschel, 1792-1871)和物理学家麦克斯韦(James Clerk Maxwell, 1831-1879) 发现的。 1850年,天文学家赫歇尔在对星星的位置进行测量的时候,需要考虑二维的误差分布,为了推导这个误差的概率密度分布 p ( x , y ) ,赫歇尔设置了两个准则: x 轴和 y 轴的误差是相互独立的,即随机误差在正交的方向上相互独立 误差的概率分布在空间上具有旋转对称性,即误差的概率分布和角度没有关系 这两个准则对于赫歇尔考虑的实际测量问题看起来都很合理。由第一条准则,可以得到 p ( x , y ) 应该具有如下形式 p ( x , y ) = f ( x ) ∗ f ( y ) 把这个函数转换为极坐标,在极坐标下的概率密度函数设为 g ( r , θ ) , 有 p ( x , y ) = p ( r c o s θ , r s i n θ ) = g ( r , θ ) 由第二条准则, g ( r , θ ) 具有旋转对称性,也就是应该和 θ 无关, 所以 g ( r , θ ) = g ( r ) , 综上所述,我们可以得到 f ( x ) f ( y ) = g ( r ) = g ( x 2 + y 2 − − − − − − − √ ) 取 y = 0 , 得到 g ( x ) = f ( x ) f ( 0 ) , 所以上式可以转换为 log + log = log 令 log = h ( x ) , 则有 h ( x ) + h ( y ) = h ( x 2 + y 2 − − − − − − − √ ) 从这个函数方程中可以解出 h ( x ) = a x 2 , 从而可以得到 f ( x ) 的一般形式如下 f ( x ) = α π − − √ e − α x 2 而 f ( x ) 就是正态分布 N ( 0 , 1 / 2 α ) − − − √ , 从而 p ( x , y ) 就是标准二维正态 分布的密度函数 p ( x , y ) = α π e − α ( x 2 + y 2 ) . 1860 年,伟大的物理学家麦克斯韦在考虑气体分子的运动速度分布的时候,在三维空间中基于类似的准则推导出了气体分子运动的分布是正态分布 ρ ( v x , v y , v z ) ∝ exp { − α ( v 2 x + v 2 y + v 2 z ) } 。这就是著名的麦克斯韦分子速率分布定律。大家还记得我们在普通物理中学过的麦克斯韦-波尔兹曼气体速率分布定律吗? F ( v ) = = ( m 2 π k T ) 3 / 2 e − m v 2 2 k T ( m 2 π k T ) 1 / 2 e − m v 2 x 2 k T × ( m 2 π k T ) 1 / 2 e − m v 2 y 2 k T × ( m 2 π k T ) 1 / 2 e − m v 2 z 2 k T . 所以这个分布其实是三个正态分布的乘积, 你的物理老师是否告诉过你其实这个分布就是三维正态分布? 赫歇尔-麦克斯韦推导的神妙之处在于,没有利用任何概率论的知识,只是基于空间几何的不变性,就推导出了正态分布。美国诺贝尔奖物理学家费曼(Richard Feymann,1918-1988) 每次看到一个有 π 的数学公式的时候,就会问:圆在哪里?这个推导中使用到了 x 2 + y 2 , 也就是告诉我们正态分布密度公式中有个 π , 其根源在于二维正态分布中的等高线恰好是个圆。 5.3 兰登(1941)的推导 第三条道是一位电气工程师兰登(Vernon D. Landon)给出的。1941 年, 兰登研究通信电路中的噪声电压,通过分析经验数据他发现噪声电压的分布模式很相似,不同的是分布的层级,而这个层级可以使用方差 σ 2 来刻画。因此他推理认为噪声电压的分布密度函数形式是 p ( x ; σ 2 ) 。假设原来的电压为X, 累加了一个相对其方差 σ 而言很微小的误差扰动 ϵ , ϵ 的概率密度是 q ( e ) , 那么新的噪声电压是 X ′ = X + ϵ 。 兰登提出了如下的准则 随机噪声具有稳定的分布模式 累加一个微小的随机噪声,不改变其稳定的分布模式,只改变分布的层级(用方差度量) 用数学的语言描述: 如果 X ~ p ( x ; σ 2 ) , ϵ ~ q ( e ) , X ′ = X + ϵ 则有 X ′ ~ p ( x ; σ 2 + v a r ( ϵ ) ) 现在我们来推导函数 p ( x ; σ 2 ) 应该长成啥样。按照两个随机变量和的分布的计算方式, X ′ 的分布密度函数将是 X 的分布密度函数和 ϵ 的分布密度函数的卷积,即有 f ( x ′ ) = ∫ p ( x ′ − e ; σ 2 ) q ( e ) d e 把 p ( x ′ − e ; σ 2 ) 在 x ′ 处做泰勒级数展开(为了方便,展开后把自变量由 x ′ 替换为 x ), 上式可以展开为 f ( x ) = p ( x ; σ 2 ) – ∂ p ( x ; σ 2 ) ∂ x ∫ e q ( e ) d e + 1 2 ∂ 2 p ( x ; σ 2 ) ∂ x 2 ∫ e 2 q ( e ) d e + … 将 p ( x ; σ 2 ) 简记为 p ,则有 f ( x ) = p – ∂ p ∂ x ϵ ˉ + 1 2 ∂ 2 p ∂ x 2 ϵ 2 ˉ ˉ ˉ + o ( ϵ 2 ˉ ˉ ˉ ) 对于微小的随机扰动 ϵ , 我们认为他取正值或者负值是对称的,所以 ϵ ˉ = 0 。所以有 f ( x ) = p + 1 2 ∂ 2 p ∂ x 2 ϵ 2 ˉ ˉ ˉ + o ( ϵ 2 ˉ ˉ ˉ ) ( 2 ) 对于新的噪声电压 X ′ = X + ϵ , 方差由 σ 2 增加为 σ 2 + v a r ( ϵ ) = σ 2 + ϵ 2 ˉ ˉ ˉ ,所以按照兰登的分布密度函数模式不变的假设, 新的噪声电压的分布密度函数应该为 f ( x ) = p ( x ; σ 2 + ϵ 2 ˉ ˉ ˉ ) 。把 p ( x ; σ 2 + ϵ 2 ˉ ˉ ˉ ) 在 σ 2 处做泰勒级数展开,得到 f ( x ) = p + ∂ p ∂ σ 2 ϵ 2 ˉ ˉ ˉ + o ( ϵ 2 ˉ ˉ ˉ ) ( 3 ) 比较 (2) 和 (3) 这两个式子,可以得到如下偏微分方程 1 2 ∂ 2 p ∂ x 2 = ∂ p ∂ σ 2 而这个方程就是物理上著名的扩散方程(diffusion equation),求解该方程就得到 p ( x ; σ 2 ) = 1 2 π − − √ σ e − x 2 2 σ 2 又一次,我们推导出了正态分布! 杰恩斯对于这个推导的评价很高,认为兰登 的推导本质上给出了自然界的噪音形成过程。他指出这个推导这基本上就是中心极限定理的增量式版本,相比于中心极限定理是一次性累加所有的因素,兰登 的推导是每次在原有的分布上去累加一个微小的扰动。而在这个推导中,我们看到,正态分布具有相当好的稳定性;只要数据中正态的模式已经形成,他就容易继续保持正态分布,无论外部累加的随机噪声 q ( e ) 是什么分布,正态分布就像一个黑洞一样把这个累加噪声吃掉。 5.4 基于最大熵的推导 还有一条小径是基于最大熵原理的, 物理学家杰恩斯在最大熵原理上有非常重要的贡献,他在《概率论沉思录》里面对这个方法有描述和证明,没有提到发现者,我不确认这条道的发现者是否是杰恩斯本人。 熵在物理学中由来已久,信息论的创始人香农(Claude Elwood Shannon, 1916-2001)把这个概念引入了信息论,学习机器学习的同学们都知道目前机器学习中有一个非常好用的分类算法叫最大熵分类器。要想把熵和最大熵的来龙去脉说清楚可不容易,不过这条道的风景是相当独特的,杰恩斯对这条道也是偏爱有加。 对于一个概率分布 p ( x ) , 我们定义他的熵为 H ( p ) = − ∫ p ( x ) log p ( x ) d x 如果给定一个分布密度函数 p ( x ) 的均值 μ 和方差 σ 2 (给定均值和方差这个条件,也可以描述为给定一阶原点矩和二阶原点矩,这两个条件是等价的), 则在所有满足这两个限制的概率分布中,熵最大的概率分布 p ( x | μ , σ 2 ) 就是正态分布 N ( μ , σ 2 ) 。 这个结论的推导数学上稍微有点复杂,不过如果已经猜到了给定限制条件下最大熵的分布是正态分布,要证明这个猜测却是很简单的,证明的思路如下。 考虑两个概率分布 p ( x ) 和 q ( x ) ,使用不等式 log x ≤ ( x − 1 ) , 得 ∫ p ( x ) log q ( x ) p ( x ) d x ≤ ∫ p ( x ) ( q ( x ) p ( x ) – 1 ) d x = ∫ q ( x ) d x – ∫ p ( x ) d x = 0 于是 ∫ p ( x ) log q ( x ) p ( x ) d x = ∫ p ( x ) log 1 p ( x ) d x + ∫ p ( x ) log q ( x ) d x ≤ 0 所以 H ( p ) ≤ − ∫ p ( x ) log q ( x ) d x 熟悉信息论的同学都知道,这个式子是信息论中的很著名的结论:一个概率分布的熵总是小于相对熵。上式要取等号当且仅当 q ( x ) = p ( x ) 。 对于 p ( x ) , 在给定的均值 μ 和方差 σ 2 下, 我们取 q ( x ) = N ( μ , σ 2 ) , 则可以得到 H ( p ) ≤ = = – ∫ p ( x ) log { 1 2 π − − √ σ e − ( x − μ ) 2 2 σ 2 } d x ∫ p ( x ) { ( x − μ ) 2 2 σ 2 + log 2 π − − √ σ } d x 1 2 σ 2 ∫ p ( x ) ( x − μ ) 2 d x + log 2 π − − √ σ 由于 p ( x ) 的均值方差有如下限制 ∫ p ( x ) ( x − μ ) 2 d x = σ 2 于是 H ( p ) ≤ 1 2 σ 2 σ 2 + log 2 π − − √ σ = 1 2 + log 2 π − − √ σ 而当 p ( x ) = N ( μ , σ 2 ) 的时候,上式可以取到等号,这就证明了结论。 杰恩斯显然对正态分布具有这样的性质极为赞赏,因为这从信息论的角度证明了正态分布的优良性。而我们可以看到,正态分布熵的大小,取决于方差的大小。 这也容易理解, 因为正态分布的均值和密度函数的形状无关,正态分布的形状是由其方差决定的,而熵的大小反应概率分布中的信息量,显然和密度函数的形状相关。 好的,风景欣赏暂时告一段落。所谓“横看成岭侧成峰,远近高低各不同”,正态分布给人们提供了多种欣赏角度和想象空间。法国菩萨级别的大数学家庞加莱对正态分布说过一段有意思的话,引用来作为这个小节的结束: Physicists believe that the Gaussian law has been proved in mathematics while mathematicians think that it was experimentally established in physics. ( 物理学家认为高斯分布已经在数学上得到证明,而数学家则认为高斯分布在物理试验中得 到确认 。) — Henri Poincaré 以下为下半部分: 6. 开疆拓土,正态分布的进一步发展 19世纪初,随着拉普拉斯中心极限定理的建立与高斯正态误差理论的问世,正态分布开始崭露头角,逐步在近代概率论和数理统计学中大放异彩。在概率论中,由于拉普拉斯的推动,中心极限定理发展成为现代概率论的一块基石。而在数理统计学中,在高斯的大力提倡之下,正态分布开始逐步畅行于天下。 6.1 论剑中心极限定理 先来说说正态分布在概率论中的地位,这个主要是由于中心极限定理的影响。 1776 年,拉普拉斯开始考虑一个天文学中的彗星轨道的倾角的计算问题,最终的问题涉及独立随机变量求和的概率计算,也就是计算如下的概率值 S n = X 1 + X 2 + … + X n P ( a S n b ) = ? 在这个问题的处理上,拉普拉斯充分展示了其深厚的数学分析功底和高超的概率计算技巧,他首次引入了特征函数(也就是对概率密度函数做傅立叶变换)来处理概率分布的神妙方法,而这一方法经过几代概率学家的发展,在现代概率论里面占有极其重要的位置。基于这一分析方法,拉普拉斯通过近似计算,在他的1812年发表的名著《概率分析理论》中给出了中心极限定理的一般描述: 定理: e i ( i = 1 , … n ) 为独立同分布的测量误差,具有均值 μ 和方差 σ 2 。如果 λ 1 , … , λ 2 为常数, a 0 , 则有 P ⎛ ⎝ ∣ ∣ ∣ ∑ i = 1 n λ i ( e i – μ ) ∣ ∣ ∣ ≤ a ∑ i = 1 n λ 2 i − − − − − √ ⎞ ⎠ ≈ 2 2 π − − √ σ ∫ a 0 e − x 2 2 σ 2 d x . 这已经是比棣莫弗-拉普拉斯中心极限定理更加深刻的一个结论了,理科专业的本科生学习《概率论与数理统计》这门课程的时候,通常学习的中心极限定理的一般形式如下: 设 X 1 , … , X n 独立同分布,且具有有限的均值 μ 和方差 σ 2 ,则在 n → ∞ 时,有 n − − √ ( X ˉ ˉ ˉ – μ ) σ → N ( 0 , 1 ) . 多么奇妙的性质,随意的一个概率分布中生成的随机变量,在序列和(或者等价的求算术平均)的操作之下,表现出如此一致的行为,统一的规约到正态分布。 中心极限定理 概率学家们进一步的研究结果更加令人惊讶,序列求和最终要导出正态分布的条件并不需要这么苛刻,即便 X 1 , … , X n 并不独立,也不具有相同的概率分布形式,很多时候他们求和的最终的归宿仍然是正态分布。一切的纷繁芜杂都在神秘的正态曲线下被消解,这不禁令人浮想联翩。中心极限定理恐怕是概率论中最具有宗教神秘色彩的定理,如果有一位牧师拿着一本圣经向我证明上帝的存在,我是丝毫不会买账;可是如果他向我展示中心极限定理并且声称那是神迹,我可能会有点犹豫,从而乐意倾听他的布道。如果我能坐着时光机穿越到一个原始部落中,我也一定带上中心极限定理,并劝说部落的酋长把正态分布作为他们的图腾。 中心极限定理虽然表述形式简洁,但是严格证明它却非常困难。中心极限定理就像一张大蜘蛛网,棣莫弗和拉普拉斯编织了它的雏形,可是这张网上漏洞太多,一个多世纪来,数学家们就像蜘蛛一样前赴后继,努力想把所有的漏洞都补上。在19世纪,泊松 (Siméon Denis Poisson, 1781-1840)、狄利克莱(Gustav Lejeune Dirichlet, 1805-1859)、柯西(Augustin-Louis Cauchy, 1789-1857)、贝塞尔(Friedrich Bessel, 1784-1846)这些大蜘蛛都曾经试图对把这张网上的漏洞补上。从现代概率论的角度来看,整个19世纪的经典概率理论并没有能输出一个一般意义下严格的证明。而真正把漏洞补上的是来自俄罗斯的几位蜘蛛侠:切比雪夫(Pafnuty Chebyshev, 1821-1894)、马尔可夫(Andrey Andreyevich Markov, 1856-1922)和李雅普诺夫(Aleksandr Mikhailovich Lyapunov, 1857-1918)。俄罗斯是一个具有优秀的数学传统的民族,产生过几位顶尖的的数学家,在现代概率论的发展中,俄罗斯的圣彼得堡学派可以算是顶了半边天。把漏洞补上的严格方案的雏形是从切比雪夫 1887年的工作开始的,不过切比雪夫的证明存在一些漏洞。马尔可夫和李雅普诺夫都是切比雪夫的学生,马尔科夫沿着老师的基于矩法的思路在蜘蛛网上辛勤编织,但洞还是补得不够严实;李雅普诺夫不像马尔可夫那样深受老师的影响,他沿着拉普拉斯当年提出的基于特征函数的思路,于1901年给出了一个补洞的方法,切比雪夫对这个方法大加赞赏,李雅普诺夫的证明被认为是第一个在一般条件下的严格证明;而马尔科夫也不甘示弱,在 1913年基于矩法也把洞给补严实了。 华山论剑 20世纪初期到中期,中心极限定理的研究几乎吸引了所有的概率学家,这个定理俨然成为了概率论的明珠,成为了各大概率论武林高手华山论剑的场所。不知道大家对中心极限定理中的“中心”一词如何理解,许多人都认为“中心”这个词描述的是这个定理的行为:以正态分布为中心。这个解释看起来确实合情合理,不过并不符合该定理被冠名的历史。事实上,20世纪初概率学家大都称呼该定理为极限定理(Limit Theorem),由于该定理在概率论中处于如此重要的中心位置,如此之多的概率学武林高手为它魂牵梦绕,于是数学家波利亚于1920年在该定理前面冠以“中心”一词,由此后续人们都称之为中心极限定理。 数学家们总是极其严谨苛刻的,给定了一个条件下严格证明了中心极限定理。数学家就开始探寻中心极限定理成立的各种条件,询问这个条件是否充分必要条件,并且进一步追问序列和在该条件下以什么样的速度收敛到正态分布。1922年林德伯格(Jarl Waldemar Lindeberg, 1876-1932) 基于一个比较宽泛容易满足的条件,给中心极限定理提出了一个很容易理解的初等证明,这个条件我们现在称之为林德伯格条件。然后概率学家费勒 (William Feller, 1906-1970) 和列维就开始追问林德伯格 条件是充分必要的吗?基于林德伯格的工作, 费勒和列维都于 1935 年独立的得到了中心极限定理成立的充分必要条件,这个条件可以用直观的非数学语言描述如下: 假设独立随机变量序列 X i 的中值为0, 要使序列和 S = ∑ i = 1 n X i 的分布密度函数逼近正态分布,以下条件是充分必要的 如果 X i 相对于序列和 S 的散布(也就是标准差)是不可忽略的,则 X i 的分布必须接近正态分布 对于所有可忽略的 X i , 取绝对值最大的那一项,这个绝对值相对于序列和也是可忽略的 事实上这个充分必要条件发现的优先权,费勒和列维之间还着实出现了一些争论,当然他们俩都是独立的几乎在同一时间解决了这个问题。在列维证明这个充分必要条件的过程中,列维发现了正态分布的一个有趣的性质:我们在数理统计中都学过,如果两个独立随机变量 X , Y 具有正态分布,则 S = X + Y 也具有正态分布;奇妙的是这个定理的逆定理也成立: 如果 X , Y 是独立的随机变量,且 S = X + Y 是正态分布,那么 X , Y 也是正态分布。 正态分布真是很奇妙,就像蚯蚓一样具有再生的性质,你把它一刀两断,它生成两个正态分布;或者说正态分布具有极其高贵的优良血统,正态分布的组成成分中只能包含正态分布,而不可能含有其它杂质。一流的数学家都是接近上帝的人,善于猜测上帝的意图; 1928 年 列维就猜到了这个定理,并在1935年使用这个定理对中心极限定理的充分必要条件作了证明。有意思的是列维却无法证明正态分布的这个看上去极其简单的再生性质,所以他的证明多少让人觉得有些瑕疵。不过列维的救星很快就降临了,1936 年概率学家克拉美(Harald Cramér, 1893-1985)证明列维的猜想完全正确。 中心极限定理成为了现代概率论中首屈一指的定理,事实上中心极限定理在现代概率论里面已经不是指一个定理,而是指一系列相关的定理。统计学家们也基于该定理不断的完善拉普拉斯提出的元误差理论,并据此解释为何世界上正态分布如此常见。而中心极限定理同时成为了现代统计学中大样本理论的基础。 6.2 进军近代统计学 花开两朵,各表一枝。上面说了正态分布在概率论中的发展,现在来看看正态分布在数理统计学中发展的故事。这个故事的领衔主演是凯特勒(Adolphe Quetelet, 1796-1874)和高尔顿 (Francis Galton, 1822-1911)。 凯特勒和高尔顿 由于高斯的工作,正态分布在误差分析中迅速确定了自己的地位。有了这么好的工具,我们可能拍脑袋就认为,正态分布很快就被人们用来分析其它的数据,然而事实却出乎我们的意料,正态分布进入社会领域和自然科学领域,可是经过一番周折的。 首先我要告诉大家一个事实:误差分析和统计学是风马牛不相及的两个学科;当然这个事实存在的时间是19世纪初之前。统计学的产生最初是与“编制国情报告”有关,主要服务于政府部门。统计学面对的是统计数据,是对多个不同对象的测量;而误差分析研究的是观测数据,是对同一个对象的多次测量。因此观测数据和统计数据在当时被认为是两种不同行为获取得到的数据,适用于观测数据的规律未必适用于统计数据。 19世纪的统计数据分析处于一个很落后的状态,和概率论没有多少结合。概率论的产生主要和赌博相关,发展过程中与误差分析紧密联系,而与当时的统计学交集非常小。将统计学与概率论真正结合起来推动数理统计学发展的便是我们的统计学巨星凯特勒。 凯特勒这名字或许不如其它数学家那么响亮,估计很多人不熟悉,所以有必要介绍一下。 凯特勒是比利时人,数学博士毕业,年轻的时候曾追随拉普拉斯学习过概率论。此人学识渊博,涉猎广泛,脑门上的桂冠包括统计学家、数学家、天文学家、社会学家、国际统计会议之父、近代统计学之父、数理统计学派创始人。 凯特勒 的最大的贡献就是将法国的古典概率理论引入统计学,用纯数学的方法对社会现象进行研究。 1831年,凯特勒参与主持新建比利时统计总局的工作。他开始从事有关人口问题的统计学研究。在这种研究中,凯特勒发现,以往被人们认为杂乱无章的、偶然性占统治地位的社会现象,如同自然现象一样也具有一定的规律性。 凯特勒 搜集了大量关于人体生理测量的数据,如体重、身高与胸围等,并使用概率统计方法来对数据进行数据分析。但是当时的统计分析方法遭到了社会学家的质疑,社会学家们的反对意见主要在于:社会问题与科学实验不同,其数据一般由观察得到,无法控制且经常不了解其异质因素,这样数据的同质性连带其分析结果往往就有了问题,于是社会统计工作者就面临一个如何判断数据同质性的问题。凯特勒大胆地提出: 把一批数据是否能很好地拟合正态分布,作为判断该批数据同质的标准。 凯特勒提出了一个使用正态曲线拟合数据的方法,并广泛的使用正态分布去拟合各种类型的数据。由此, 凯特勒为正态分布的应用拓展了广阔的舞台。正态分布如同一把屠龙刀,在凯特勒 的带领下,学者们挥舞着这把宝刀在各个领域披荆斩棘,攻陷了人口、领土、政治、农业、工业、商业、道德等社会领域,并进一步攻占天文学、数学、物理学、生物学、社会统计学及气象学等自然科学领域。 正态分布的下一个推动力来自生物学家高尔顿,当正态分布与生物学联姻时,近代统计学迎来了一次大发展。高尔顿是生物统计学派的奠基人,他的表哥达尔文的巨著《物种起源》问世以后,触动他用统计方法研究遗传进化问题。受凯特勒的启发,他对正态分布怀有浓厚的兴趣,开始使用正态分布去拟合人的身高、胸围、以至考试成绩等各类数据,发现正态分布拟合得非常好。他因此相信正态曲线是适用于无数情况的一般法则。 然而,对高尔顿而言,这个无处不在的正态性给他带来一些困惑。他考察了亲子两代的身高数据,发现遵从同一的正态分布,遗传作为一个显著因素是如何发挥作用的?1877年,高尔顿设计了一个叫高尔顿钉板(quincunx, 或者Galton board)的装置,模拟正态分布的性质,用于解释遗传现象。 如下图中每一点表示钉在板上的一颗钉子,它们彼此的距离均相等。当小圆球向下降落过程中,碰到钉子后皆以 1/2 的概率向左或向右滚下。如果有n排钉子,则各槽内最终球的个数服从二项分布 B ( n , 1 / 2 ) , 当 n 较大的时候,接近正态分布。 高尔顿钉板 设想在此装置的中间某个地方 AB 设一个挡板把小球截住,小球将在AB处聚成正态曲线形状,如果挡板上有许多阀门,打开一些阀门,则在底部形成多个大小不一的正态分布,而最终的大正态分布正是这些小正态分布的混合。 高尔顿钉板解释遗传现象 高尔顿利用这个装置创造性的把正态分布的性质用于解释遗传现象。他解释说身高受到显著因素和其它较小因素的影响,每个因素的影响可以表达为一个正态分布。遗传作为一个显著因素,类似图中底部大小不一的正态分布中的比较大的正态分布,而多个大小不一正态分布累加之后其结果仍然得到一个正态分布。 高尔顿在研究身高的遗传效应的时候,同时发现一个奇特的现象:高个子父母的子女,其身高有低于其父母身高的趋势,而矮个子父母的子女,其身高有高于其父母的趋势,即有“回归”到普通人平均身高去的趋势,这也是“回归”一词最早的含义。高尔顿用二维正态分布去拟合父代和子代身高的数据,同时引进了回归直线、相关系数的概念,从而开创了回归分析这门技术。 可以说,高尔顿是用统计方法研究生物学的第一人,他用实际行动开拓了凯特勒的思想;为数理统计学的产生奠定了基础。无论是 凯特勒 还是高尔顿,他们的统计分析工作都是以正态分布为中心的,在他们的影响下,正态分布获得了普遍认可和广泛应用,甚至是被滥用,以至有些学者认为19世纪是正态分布在统计学中占统治地位的时代。 6.3 数理统计三剑客 最后,我们来到了20世纪,正态分布的命运如何呢?如果说19世纪是正态分布在统计学中独领风骚的话,20世纪则是数理统计学蓬勃发展、百花齐放的时代。 1901年,高尔顿和他的学生卡尔.皮尔逊(Karl Pearson, 1857-1936)、韦尔登(Walter Frank Raphael Weldon, 1860-1906) 创办《生物计量 (Biometrika)》杂志,成为生物统计学派的一面旗帜,引导了现代数理统计学的大发展。统计学的重心逐渐由欧洲大陆向英国转移,使英国在以后几十年数理统计学发展的黄金时代充当了领头羊。 在20世纪以前,统计学所处理的数据一般都是大量的、自然采集的,所用的方法以拉普拉斯中心极限定理为依据,总是归结到正态。到了19世纪末期,数据与正态拟合不好的情况也日渐为人们所注意:进入20世纪之后,人工试验条件下所得数据的统计分析问题,逐渐被人们所重视。由于试验数据量有限,那种依赖于近似正态分布的传统方法开始招致质疑,这促使人们研究这种情况下正确的统计方法问题。 在这个背景之下,统计学三大分布 χ 2 分布、 t 分布、 F 分布逐步登上历史舞台。这三大分布现在的理科本科生都很熟悉。在历史上,这三个分布和来自英国的现代数理统计学的三大剑客有着密切的关系。 数理统计三剑客 第一位剑客就是卡尔.皮尔逊,手中的宝剑就是 χ 2 分布。 χ 2 分布这把宝剑最早的锻造者其实是物理学家麦克斯韦,他在推导空气分子的运动速度的分布的时候,发现分子速度在三个坐标轴上的分量是正态分布,而分子运动速度的平方 v 2 符合自由度为3 的 χ 2 分布。麦克斯韦虽然造出了这把宝剑,但是真正把它挥舞得得心应手、游刃有余的是皮尔逊。在分布曲线和数据的拟合优度检验中, χ 2 分布可是一个利器,而皮尔逊的这个工作被认为是假设检验的开山之作。皮尔逊继承了高尔顿的衣钵,统计功力深厚,在19世纪末20世纪初很长的一段时间里,一直被数理统计武林人士尊为德高望重的第一大剑客。 第二位剑客是戈塞特(William Sealy Gosset, 1876-1937),笔名是大家都熟悉的学生氏 (Student),而他手中的宝剑是 t 分布。戈塞特是化学、数学双学位,依靠自己的化学知识进酿酒厂工作,工作期间考虑酿酒配方实验中的统计学问题,追随卡尔.皮尔逊学习了一年的统计学,最终依靠自己的数学知识打造出了 t 分布这把利剑而青史留名。 1908年,戈塞特提出了正态样本中样本均值和标准差的比值的分布,并给出了应用上极其重要的第一个分布表。戈塞特在 t 分布的工作开创了小样本统计学的先河。 第三位剑客是费希尔(Ronald Aylmer Fisher, 1890-1962),手持 F 分布这把宝剑,在一片荒芜中开拓出方差分析的肥沃土地。 F 分布就是为了纪念费希尔而用他的名字首字母命名的。费希尔剑法飘逸,在三位剑客中当属费希尔的天赋最高,各种兵器的使用都得心应手。费希尔统计造诣极高,受高斯的启发,系统的创立了极大似然估计剑法,这套剑法现在被尊为统计学参数估计中的第一剑法。 费希尔还未出道,皮尔逊已经是统计学的武林盟主了,两人岁数相差了33岁,而戈塞特介于他们中间。三人在统计学擂台上难免切磋剑术。费希尔天赋极高,年少气盛;而皮尔逊为人强势,占着自己武林盟主的地位,难免固执己见,以大欺小;费希尔着实受了皮尔逊不少气。而戈塞特性格温和,经常在两位大侠之间调和。毕竟是长江后浪推前浪,一代新人换旧人,在众多擂台比试中,费希尔都技高一筹,而最终取代了皮尔逊成为数理统计学第一大剑客。 由于这三大剑客和统计三大分布的出现,正态分布在数理统计学中不再是一枝独秀,数理统计的领地基本上是被这三大分布抢走了半壁江山。不过这对正态分布而言并非坏事,我们细看这三大分布的数学细节: 假设独立随机变量 X i ~ N ( 0 , 1 ) , Y j ~ N ( 0 , 1 ) ( i = 1 … n , j = 1 … m ) ,则满足三大分布的随机变量可以如下构造出来 χ 2 n = X 2 1 + … + X 2 n t = Y 1 X 2 1 + … + X 2 n n − − − − − − − − √ F = X 2 1 + … + X 2 n n Y 2 1 + … + Y 2 m m 你看这三大分布哪一个不是正态分布的嫡系血脉, χ 2 、 t 、 F 这三大分布最初都是从正态分布切入进行研究的。所以正态分布在19世纪是武则天,进入20世纪就学了慈禧太后,垂帘听政了。或者,换个角度说,一个好汉三个帮,正态分布如果是孤家寡 人恐怕也难以雄霸天下,有了统计学三大分布作为开国先锋为它开疆拓土,正态分布真正成为傲世群雄的君王。 20世纪初,统计学这三大剑客成为了现代数理统计学的奠基人。以哥塞特为先驱,费希尔为主将,掀起了小样本理论的革命,事实上提升了正态分布在统计学中的地位。在数理统计学中,除了以正态分布为基础的小样本理论获得了空前的胜利,其它分布上都没有成功的案例,这不能不让人对正态分布刮目相看。在随后的发展中,相关回归分析、多元分析、方差分析、因子分析、布朗运动、高斯过程等等诸多概率统计分析方法陆续登上了历史舞台,而这些和正态分布密切相关的方法,成为推动现代统计学飞速发展的一个强大动力。 7. 正态魅影 Everyone believes in it: experimentalists believing that it is a mathematical theorem, mathematicians believing that it is an empirical fact. — Henri Poincaré 如果说,充斥着偶然性的世界是一个纷乱的世界,那么,正态分布为这个纷乱的世界建立了一定的秩序,使得偶然性现象在数量上被计算和预测成为可能。杰恩斯在《概率论沉思录》中提出了两个问题 为什么正态分布被如此广泛的使用? 为什么正态分布在实践使用中非常的成功? 杰恩斯指出,正态分布在实践中成功的被广泛应用,主要是因为正态分布在数学方面的具有多种稳定性质,这些性质包括: 两个正态分布密度的乘积还是正态分布 两个正态分布密度的卷积还是正态分布,也就是两个独立正态分布的和还是正态分布 正态分布 N ( 0 , σ 2 ) 的傅立叶变换正规化为密度分布后还是正态分布 中心极限定理保证了多个随机变量的求和效应将导致正态分布 正态分布和其它具有相同均值、方差的概率分布相比,具有最大熵 前三个性质说明了正态分布一旦形成,就容易保持该形态的稳定, 兰登对于正态分布的推导也表明了,正态分布可以吞噬较小的干扰而继续保持形态稳定。后两个性质则说明,其它的概率分布在各种的操作之下容易越来越靠近正态分布。正态分布具有最大熵的性质,所以任何一个对指定概率分布的操作,如果该操作保持方差的大小,却减少已知的知识,则该操作不可避免的增加概率分布的信息熵,这将导致概率分布向正态分布靠近。 正由于正态分布多种的稳定性质,使得它像一个黑洞一样处于一个中心的位置,其它的概率分布形式在各种操作之下都逐渐向正态分布靠拢,杰恩斯把它描述为概率分布中重力现象(gravitating phenomenon)。 我们在实践中为何总是选择使用正态分布呢,正态分布在自然界中的频繁出现只是原因之一,杰恩斯认为还有一个重要的原因是正态分布的最大熵性质。在很多时候我们其实没有任何的知识知道数据的真实分布是什么, 但是一个分布的均值和方差往往是相对稳定的。因此我们能从数据中获取到的比较好的知识就是均值和方差,除此之外没有其它更加有用的信息量。因此按照最大熵的原理,我们应该在给定的知识的限制下,选择熵最大的概率分布,而这就恰好是正态分布。即便数据的真实分布不是正态分布,由于我们对真实分布一无所知,如果数据不能有效提供除了均值和方差之外的更多的知识,按照最大熵的原理,正态分布就是这时候最佳的选择。 当然正态分布还有更多令人着迷的数学性质,我们可以欣赏一下: 二项分布 B ( n , p ) 在 n 很大逼近正态分布 N ( n p , n p ( 1 − p ) ) 泊松分布 P o i s s o n ( λ ) 在 λ 较大时逼近正态分布 N ( λ , λ ) χ 2 ( n ) 在 n 很大的时候逼近正态分布 N ( n , 2 n ) t 分布在 n 很大时逼近标准正态分布 N ( 0 , 1 ) 正态分布的共轭分布还是正态分布 几乎所有的极大似然估计在样本量 n 增大的时候都趋近于正态分布 克拉美分解定理(之前介绍过):如果 X , Y 是独立的随机变量,且 S = X + Y 是正态分布,那么 X , Y 也是正态分布 如果 X , Y 独立且满足正态分布 N ( μ , σ 2 ) , 那么 X + Y , X − Y 独立且同分布,而正态分布是唯一满足这一性质的概率分布 对于两个正态分布 X , Y , 如果 X , Y 不相关则意味着 X , Y 独立,而正态分布是唯一满足这一性质的概率分布 8. 大道至简,大美天成 To see a world in a grain of sand And a heaven in a wild flower, Hold infinity in the palm of your hand And eternity in an hour. X ˉ ˉ ˉ = X 1 + X 2 + … + X n n 算术平均,极其简单而朴素的一个式子,被人们使用了千百年,在其身后隐藏着一个美丽的世界,而正态分布正是掌管这个美丽世界的女神。正态分布的发现与应用的最初历史,就是数学家们孜孜不倦的从概率论和统计学角度对算术平均不断深入研究的历史。中心极限定理在 1773年棣莫弗的偶然邂逅的时候,它只是一粒普通的沙子,两百多年来吸引了众多的数学家,这个浑金璞玉的定理不断的被概率学家们精雕细琢,逐渐的发展成为现代概率论的璀璨明珠。而在统计学的误差分析之中,高斯窥视了造物主对算术平均的厚爱,也发现了正态分布的美丽身影。殊途同归,那是偶然中的必然。一沙一世界,一花一天国, 算术平均或许只是一粒沙子,正态分布或许只是一朵花,它们却包含了一个广阔而美丽的世界,几百年来以无穷的魅力吸引着科学家和数学家们。 高尔顿他对正态分布非常的推崇与赞美,1886 年他在人类学研究所的就职演讲中说过一段著名的话:“我几乎不曾见过像误差呈正态分布这么美妙而激发人们无穷想象的宇宙秩序。如果古希腊人知道这条曲线,想必会给予人格化乃至神格化。它以一种宁静无形的方式在最野性的混乱中实施严厉的统治。暴民越多,无政府状态越显现,它就统治得越完美。他是无理性世界中的最高法律。当我们从混沌中抽取大量的样本,并按大小加以排列整理时,那么总是有一个始料不及的美妙规律潜伏在其中。” 概率学家卡克在他的自述传记《机遇之谜》(Enigmas of chance: An autobiography) 中描述他与正态分布的渊源:“我接触到正态分布之后马上被他深深的吸引,我感到难以相信,这个来自经验直方图和赌博游戏的规律,居然会成为我们日常生活数学的一部分。”另一位概率学家 Michel Loéve(1907-1979) 说:“如果我们要抽取列维的概率中心思想,那我们可以这样说,自从 1919 年以后,列维研究的主题曲就是正态分布,他一而再再而三的以她为出发点,并且坚决的又回到她…… 他是带着随机时钟沿着随机过程的样本路径作旅行的人。”美国国家标准局的顾问 W. J. Youden 用如下一段排列为正态曲线形状的文字给予正态分布极高的评价,意思是说:误差的正态分布规律在人类的经验中具有“鹤立鸡群”的地位,它在物理、社会科学、医学、农业、工程等诸多领域都充当了研究的指南,在实验和观测数据的解读中是不可或缺的工具。 正态误差态分布律 几乎所有的人都或多或少的接触数学,虽然各自的目的不同,对数学的感觉也不同。工程师、科学家们使用数学是因为他简洁而实用,数学家们研究数学是因为它的美丽动人。像正态分布这样,既吸引着无数的工程师、科学家,在实践中被如此广泛的应用,又令众多的数学家为之魂牵梦绕的数学存在,在数学的世界里也并不多见。我在读研究生的时候,经常逛北大未名BBS 的数学板,有一个叫 ukim 的著名 ID 在精华区里面留下了一个介绍数学家八卦的系列《Heroes in My Heart》,写得非常的精彩,这些故事在喜欢数学的人群中也流传广泛。最后一个八卦是关于菲尔兹奖得主法国数学家托姆(René Thom)的,它曾经令无数人感动,我也借用来作为我对正态分布的八卦的结语: 在一次采访当中,作为数学家的托姆同两位古人类学家讨论问题。谈到远古的人们为什么要保存火种时,一个人类学家说,因为保存火种可以取暖御寒;另外一个人类学家说,因为保存火种可以烧出鲜美的肉食。而托姆说,因为夜幕来临之际,火光摇曳妩媚,灿烂多姿,是最美最美的……
个人分类: 数学|1964 次阅读|0 个评论
[请教] 正态分布 log 后的均值、方差和各阶距
热度 3 zlyang 2013-12-6 22:49
正态分布 log 后的均值、方差和各阶距 该问题属于数学里的“概率论”或“数理统计学”,即求 正态分布 随机变量 对数 之后的统计量的 解析计算公式 。 设 X ~ N (0, σ 2 ), Y = log( a X + b ), 这里实常数 a 、 b 的目的是使 Y 也为实数 (至少是在工程意义下的有用近似)。 请教: Y = log( a X + b ) 的 均值 、 方差 和各阶 距 的 解析 计算公式。 感谢您的指教! 相关链接: 袁贤讯 ,2013-12-13,《To Yang ZL兄》 http://blog.sciencenet.cn/blog-103568-749358.html 徐晓 2013-12-16 17:32 有没有搞错,题目都没看清,居然就算做了,还第六,第七作者。注意(1)各阶矩;(2)精度。(3)归一化。 徐晓 ,2013-12-10,《命题作文之华南植物园(3):热烈与抒情》 http://blog.sciencenet.cn/blog-731678-748760.html (2013-12-17 20:55):其实袁贤讯并没有解决问题,三点:(1)归一化;(2)精度;(3)各阶矩
11650 次阅读|14 个评论
正态分布下分类事件的机会问题(2)
seawan 2013-9-20 08:31
找到接近均值的点(即0),作为入场点: sectionChanceOnNorm.zero.R 另一种方法:以两点间的差值作为考察对象: sectionChanceOnNorm.diff.R 最后,将事件边界进行变化,做出图形,见下面: sectionChanceOnNorm.thresholds.R
个人分类: 测算|1 次阅读|0 个评论
[转载]利用正态分布近似二项分布
songhaomouse 2013-5-7 03:53
http://en.wikipedia.org/wiki/Binomial_proportion_confidence_interval Normal approximation interval The simplest and most commonly used formula for a binomial confidence interval relies on approximating the binomial distribution with a normal distribution . This approximation is justified by the central limit theorem . The formula is where is the proportion of successes in a Bernoulli trial process estimated from the statistical sample, is the percentile of a standard normal distribution , is the error percentile and n is the sample size. For example, for a 95% confidence level the error ( ) is 5%, so and . The central limit theorem applies well to a binomial distribution, even with a sample size less than 30, as long as the proportion is not too close to 0 or 1. For very extreme probabilities, though, a sample size of 30 or more may still be inadequate. The normal approximation fails totally when the sample proportion is exactly zero or exactly one. A frequently cited rule of thumb is that the normal approximation works well as long as np 5 and n (1 − p ) 5 ; (经验准则:利用正态分布近似,只要 np5 ,或者n(1-p)5,即是:实验中True的次数5,或者实验中False的次数5)see however Brown et al. 2001. In practice there is little reason to use this method rather than one of the other, better performing, methods.
个人分类: 笔记|2532 次阅读|0 个评论
正态分布的聚类
hyalone 2013-4-14 06:50
对正态分布的样本,只取出一个类,临界点在1.069个标准差比较好。 2个标准差95%有很多距离中心点较远的个体;1个标准差是拐点也可以;如果比较比例上的得失结果是1.069个标准差,有71.5%的个体在此区域。 对于两个正态分布混合的样本,如果两个正态分布1.069个标准差在分界点的两侧,可以认为能较好地分割。 其他分布可类似计算可识别临界点。
个人分类: 数据挖掘|3532 次阅读|1 个评论
[转载]正态分布的前世今生
stone2002 2012-11-2 10:27
本文来自蒋讯博主的博文 http://blog.sciencenet.cn/blog-420554-628452.html 中的链接,特表示感谢! 神说,要有正态分布,就有了正态分布。 神看正态分布是好的,就让随机误差就服从了正态分布。 创世纪-数理统计 一、正态分布 学过基础统计学的同学大都对正态分布非常熟悉。这个钟型的分布曲线不但形状优雅,其密度函数写成数学表达式 也非常具有数学的美感。其标准化后的概率密度函数 更加的简洁漂亮,两个最重要的数学常量 \pi, e 都出现在了公式之中。在我个人的审美之中,它也属于 top-N 的最美丽的数学公式之一,如果有人问我数理统计领域哪个公式最能让人感觉到上帝的存在,那我一定投正态分布的票。因为这个分布戴着神秘的面纱,在自然界中无处不在,让你在纷繁芜杂的数据背后看到隐隐的秩序。 正态分布又通常被称为高斯分布,在科学领域,冠名权那是一个很高 的荣誉。去过德国的兄弟们还会发现,德国的钢镚和10马克的纸币上都留有高斯的头像和正态密度曲线。正态分布被冠名高斯分布,我们也容易认为是高斯发现了正态分布,其实不然,不过高斯对于正态分布的历史地位的确立是起到了决定性的作用。 正态曲线虽然看上去很美,却不是一拍脑袋就能想到的。我在本科学习数理统计的时候,课本一上来介绍正态分布就给出密度分布函数,却从来不说明这个分布函数是通过什么原理推导出来的。所以我一直搞不明白数学家当年是怎么找到这个概率分布曲线的,又是怎么发现误差服从这个奇妙的分布的。直到我读研究生的时候我的导师给我介绍了陈希儒的《数理统计简史》这本书,看了之后才了解了正态分布曲线从发现到被人们重视进而广泛应用,也是经过了几百年的历史。 正态分布的这段历史是很精彩的,我们通过讲几个故事来揭开她的神秘面纱。 二、邂逅,正态曲线的首次发现 第一个故事和概率论的发展密切相关,主角是棣莫弗(De Moivre) 和拉普拉斯(Laplace)。 拉普拉斯是个大科学家,被称为法国的牛顿;棣莫弗名气可能不算很大,不过大家应该都熟悉这个名字,因为我们在高中数学学复数的时候我们都学过棣莫弗定理 (cos\theta + i sin\theta)^n = cos(n\theta) + i sin(n\theta) 。 古典概率论发源于赌博,惠更斯、帕斯卡、费马、贝努力都是古典概率的奠基人,他们那会研究的概率问题大都来自赌桌上,最早的概率论问题是赌徒梅累在1654年向帕斯卡提出的如何分赌金的问题。统计学中的总体均值之所以被称为期望(Expectation), 就是源自惠更斯、帕斯卡这些人研究平均情况下一个赌徒在赌桌上可以期望自己赢得多少钱。 有一天一个哥们,也许是个赌徒,向棣莫弗提了一个和赌博相关 的一个问题:A,B 两人在赌场里赌博,A,B各自的获胜概率是 p, q=1-p ,赌 n 局,若 A 赢的局数 X np , 则 A 付给赌场 X-np 元,否则B 付给赌场 np-X 元。 问赌场挣钱的期望值是多少。 问题并不复杂, 本质上是一个二项分布,最后求出的理论结果是 其中 b(n,p,i) = \binom{n}{i}p^iq^{n-i} 是常见的二项概率。 但是对具体的 n , 要把这个理论结果实际计算出数值结果可不容易, 因为其中的二项公式中有组合数.这就驱动 De Moivre寻找近似计算的方法计算。 与此相关联的另一个问题,是遵从二项分布的随机变量 X \sim B(n,p) , 求X 落在二项分布中心点一定范围的概率 P_d = P(|X - np| \le d) 对于 p=1/2 的情形, 棣莫弗 做了一些计算并得到了一些近似结果,但是还不够漂亮,幸运的是 棣莫弗 和 Stirling 处在同一个时代, 而且二人之间有联系,Stirling 公式是在数学分析中必学的一个重要公式 1733 年,棣莫弗很快利用 Stirling 公式计算取得了重要的进展。考虑 n 是偶数的情形,令二项概率 通过 Stirling 公式做一些简单的计算容易得到, 于是有 使用上式的结果,并在二项概率累加求和的过程中近似的使用定积分代替求和,很容易就能得到 看,正态分布的密度函数的形式在积分公式中出现了!这也就是我们在数理统计课本上学到的二项分布的极限分布是正态分布。 以上只是讨论了 p=1/2 的情形, 棣莫弗也对 p \ne 1/2 做了一些计算,后来拉普拉斯对 p \ne 1/2 的情况做了更多的分析,并把二项分布的正态近似推广到了任意 p 的情况。 这是第一次正态密度函数被数学家勾画出来,而且是以二项分布的极限分布的情形被推导出来的。 熟悉基础概率统计的同学们都知道这个结果其实叫棣莫弗-拉普拉斯中心极限定理。 设随机变量 X_n (n=1,2,\cdots) 服从参数为 p 的二项分布,则对任意的 x , 恒有 我在大学学习数理统计的时候,学习的过程都是先学习了正态分布,然后才学习中心极限定理。而学习到正态分布的时候,直接就描述了其概率密度的数学形式,虽然数学上很漂亮,但是当时很困惑数学家们是如何凭空就找到这个分布的。然而读了陈希孺的《数理统计学简史》之后,才发现正态分布的密度形式首次发现是在棣莫弗-拉普拉斯的中心极限定理中。数学家研究数学问题的进程很少是按照我们数学课本的安排顺序推进的,现代的数学课本都是按照数学内在的逻辑进行组织编排的,虽然逻辑结构上严谨优美,却把数学问题研究的历史痕迹抹得一干二净,我们难以在数学课本上看到数学家对数学问题是如何研究推进的。DNA 双螺旋结构的发现者之一 Waston 在他的名著《DNA 双螺旋》序言中说:“科学的发现很少会像门外汉所想象的一样,按照直接了当合乎逻辑的方式进行的。” 棣莫弗 出他的发现后40年(大约是 1770), 拉普拉斯建立了中心极限定理较一般的形式,中心极限定理后续又被其它数学家们推广到了其它任意分布的情形,而不限于二项分布。后续的统计学家发现,一系列的重要统计量,在样本量 N 趋于无穷的时候, 其极限分布都有正态的形式, 这构成了数理统计学中大样本理论的基础。 棣莫弗在二项分布的计算中瞥见了正态曲线的模样,不过他并没有能展现这个曲线的美妙之处。棣莫弗的这个工作当时并没有引起人们足够的重视,原因在于棣莫弗 不是个统计学家,从未从统计学的角度去考虑其工作的意义。 正态分布(当时也没有被命名为正态分布) 在当时也只是以极限分布的形式出现,并没有在统计学,尤其是误差分析中发挥作用。这也就是正态分布最终没有被冠名 棣莫弗分布的重要原因。 那Gauss 做了啥工作导致统计学家把正态分布的这顶桂冠戴在了他的头上呢?这先得从最小二乘法的发展说起。下回分解:-) 三、最小二乘法,数据分析的瑞士军刀 第二个故事的主角是欧拉(Euler), 拉普拉斯(Lapalace),勒让德Legendre) 和高斯(Gauss),故事发生的时间是十八世纪中到十九世纪初。十七、十八世纪是科学发展的黄金年代,微积分的发展和牛顿万有引力定律的建立,直接的推动了天文学和测地学的迅猛发展。当时的大科学家们都在考虑许多天文学上的问题。几个典型的问题如下: 土星和木星是太阳系中的大行星,由于相互吸引对各自的运动轨道产生了影响,许多大数学家,包括欧拉和拉普拉斯都在基于长期积累的天文观测数据计算土星和木星的运行轨道。 勒让德承担了一个政府给的重要任务,测量通过巴黎的子午线的长度, 海上航行经纬度的定位。主要是通过对恒星和月面上的一些定点的观测来确定经纬度。 这些天文学和测地学的问题,无不涉及到数据的多次测量,数据的计算与分析;十七、十八世纪的天文观测,也积累了大量的数据需要进行分析和计算。很多年以前,学者们就已经经验性的认为,对于有误差的测量数据,多次测量取平均是比较好的处理方法,虽然缺乏理论上的论证,也不断的受到一些人的质疑。取平均作为一种异常直观的方式,已经被使用了千百年,在多年积累的数据的处理经验中也得到一定的验证,被认为是一种良好的数据处理方法。 以上涉及的问题,我们直接关心的目标量往往无法直接观测,但是一些相关的量是可以观测到的,而通过建立数学模型,最终可以解出我们关心的量。这些天文学的问题大体都可以转换为描述如下的问题:有我们想估计的量 \beta_0,\cdots,\beta_p , 另有若干个可以测量的量 x_1,\cdots,x_p, y , 这些量之间有线性关系 如何通过多组观测数据求解出参数 \beta_0,\cdots,\beta_p 呢? 欧拉和拉普拉斯采用的都是求解线性方程组的方法。 \begin{eqnarray}\left\{\begin{array}{lll}y_1 = \beta_0 + \beta_1x_{11} + \cdots + \beta_px_{p1} \\y_2 = \beta_0 + \beta_1x_{12} + \cdots + \beta_px_{p2} \\\vdots \\y_n = \beta_0 + \beta_1x_{1n} + \cdots + \beta_px_{pn}\end{array}\right.\end{eqnarray} 但是面临的一个问题是,有 n 组观测数据, p + 1 个变量, 如果 n p + 1 , 则得到的线性矛盾方程组,无法直接求解。 所以欧拉和拉普拉斯采用的方法都是通过一定的对数据的观察,把 n 个线性方程分为 p+1 组,然后把每个组内的方程线性求和后归并为一个方程,从而就把 n 个方程的方程组划归为 p+1 个方程的方程组,进一步解方程求解参数。这些方法初看有一些道理,但是都过于 adhoc, 无法形成统一处理这一类问题的一个通用解决框架。 以上求解线性矛盾方程的问题在现在的本科生看来都不困难,就是统计学中的线性回归问题,直接用最小二乘法就解决了,可是即便如欧拉、拉普拉斯这些数学大牛,当时也未能对这些问题提出有效的解决方案。可见在科学研究中,要想在观念上有所突破并不容易。有效的最小二乘法是勒让德在 1805 年发表的,基本思想就是认为测量中有误差,所以所有方程的累积误差为 累积误差 = \sum( 观测值 - 理论值 )^2 我们求解出导致累积误差最小的参数即可。 \begin{eqnarray}\label{least-square-error} \begin{array}{lll}\hat{\beta} = \displaystyle argmin_{\beta} \sum_{i=1}^n e_i^2 \\ = \displaystyleargmin_{\beta} \sum_{i=1}^n ^2\end{array} \end{eqnarray} 勒让德在论文中对最小二乘法的优良性做了几点说明: 最小二乘使得误差平方和最小,并在各个方程的误差之间建立了一种平衡,从而防止某一个极端误差取得支配地位 计算中只要求偏导后求解线性方程组,计算过程明确便捷 最小二乘可以导出算术平均值作为估计值 对于最后一点,从统计学的角度来看是很重要的一个性质。推理如下:假设真值为 \theta , x_1, \cdots, x_n 为n次测量值, 每次测量的误差为 e_i = x_i - \theta ,按最小二乘法,误差累积为 求解 \theta 使得 L(\theta) 达到最小,正好是算术平均 \bar{x} = \frac{\sum_{i=1}^n x_i}{n} 。 由于算术平均是一个历经考验的方法,而以上的推理说明,算术平均是最小二乘的一个特例,所以从另一个角度说明了最小二乘方法的优良性,使我们对最小二乘法更加有信心。 最小二乘法发表之后很快得到了大家的认可接受,并迅速的在数据分析实践中被广泛使用。不过历史上又有人把最小二乘法的发明归功于高斯,这又是怎么一回事呢。高斯在1809年也发表了最小二乘法,并且声称自己已经使用这个方法多年。高斯发明了小行星定位的数学方法,并在数据分析中使用最小二乘方法进行计算,准确的预测了谷神星的位置。 扯了半天最小二乘法,没看出和正态分布有任何关系啊,离题了吧?单就最小二乘法本身,虽然很实用,不过看上去更多的算是一个代数方法,虽然可以推导出最优解,对于解的误差有多大,无法给出有效的分析,而这个就是正态分布粉墨登场发挥作用的地方。勒让德提出的最小二乘法,确实是一把在数据分析领域披荆斩棘的好刀,但是刀刃还是不够锋利;而这把刀的打造后来至少一半功劳被归到高斯,是因为高斯不单独自的给出了造刀的方法,而且把最小二乘这把利刀的刀刃造得无比锋利,把最小二乘打造为了一把瑞士军刀。高斯拓展了最小二乘法,把正态分布和最小二乘法联系在一起,并使得正态分布在统计误差分析中确立了自己的定位,否则正态分布就不会被称为高斯分布了。 那高斯这位神人是如何把正态分布引入到误差分析之中,打造最小二乘这把瑞士军刀的呢?看下一个故事。 四、众里寻她千百度,误差分布曲线的确立 第三个故事有点长,主角是高斯和拉普拉斯,故事的主要内容是猜测上帝的造物的旨意,寻找随机误差分布的规律。 天文学是第一个被测量误差困扰的学科,从古代至十八世纪天文学一直是应用数学最发达的领域, 到十八世纪,天文学的发展积累了大量的天文学数据需要分析计算,应该如何来处理数据中的观测误差成为一个很棘手的问题。 我们在数据处理中经常使用平均的常识性法则,千百来来的数据使用经验说明算术平均能够消除误差,提高精度。 平均有如此的魅力,道理何在,之前没有人做过理论上的证明。 算术平均的合理性问题在天文学的数据分析工作中被提出来讨论:测量中的随机误差服应该服从怎样的概率分布? 算术平均的优良性和误差的分布有怎样的密切联系? 伽利略在他著名的《关于两个主要世界系统的对话》中,对误差的分布做过一些定性的描述,主要包括: 误差是对称分布的; 大的误差出现频率低,小的误差出现频率高。 用数学的语言描述,也就是说误差分布函数 f(x) 关于0对称分布,概率密度随 |x| 增加而减小, 这两个定性的描述都很符合常识。 许多天文学家和数学家开始了寻找误差分布曲线的尝试。 Thomas Simpson (1710-1761) 先走出了有意义的一步。 设真值为 \theta , x_1, \cdots, x_n 为n次测量值, 每次测量的误差为 e_i = x_i - \theta , 若用算术平均 \bar{x} = \frac{\sum_{i=1}^n x_i}{n} 去估计 \theta , 其误差为 \bar{e} = \frac{\sum_{i=1}^n e_i}{n} 。 Simpson 证明了, 对于如下的一个概率分布, 【Simpson 的误差态分布曲线】 有 IMG class=tex border=0 alt="P(|\bar{e}| x) \ge P(|e_1| 也就是说, |\bar{e}| 相比于 |e_1| 取小值的机会更大。 Simpson 的这个工作很粗糙,但是这是第一次在一个特定情况下,从概率论的角度严格证明了算术平均的优良性。 从 1772-1774 年, 拉普拉斯也加入到了寻找误差分布函数的队伍中。拉普拉斯假定误差分布函数 f(x) 满足如下性质 由此最终求得的分布函数为 这个函数现在被称为拉普拉斯分布。 【Laplace 的误差态分布曲线】 以这个函数作为误差分布,拉普拉斯开始考虑如何基于测量的结果去估计未知参数的值。 拉普拉斯可以算是一个贝叶斯主义者,他的参数估计的原则和现代贝叶斯方法非常相似,假设先验分布是均匀的, 计算出参数的后验分布后,取后验分布的中值点,即 1/2 分位点,作为参数估计值。可是基于这个误差分布函数 做了一些计算之后,拉普拉斯发现计算过于复杂,最终没能给出什么有用的结果。 拉普拉斯可是概率论的大牛,写过两本极有影响力的《概率分析理论》, 不过以我的数学审美,实在无法理解拉普拉斯这样的大牛怎么找了一个零点不可导的误差的分布函数, 拉普拉斯最终还是没能搞定误差分布的问题。 现在轮到高斯登场了,高斯在数学史中的地位极高,号称数学史上的狐狸,数学家阿贝尔对他的评论是 "He is like the fox, who effaces his tracks in the sand with his tail." 我们的数学大师陈省身把黎曼和庞加莱称为数学家中的菩萨,而称自己为罗汉;高斯是黎曼的导师,数学圈里有些教授把高斯称为数学家中的佛。 在数学家中上既能仰望理论数学的星空,又能脚踏应用数学的实地的可不多见, 高斯是数学家中少有的顶”天“立”地“的人物,它既对纯理论数学有深刻的洞察力,又极其重视数学在实践中的应用。 在误差分布的处理中,高斯以及其简单的手法确立了随机误差的概率分布,其结果成为数理统计发展史上的一块里程碑。 高斯的介入首先要从天文学界的一个事件说起。1801年1月,天文学家Giuseppe Piazzi发现了一颗从未见过 的光度8等的星在移动, 这颗现在被称作谷神星(Ceres)的小行星在夜空中出现6个星期,扫过八度角后在就在太阳的光芒下没了踪影,无法观测。 而留下的观测数据有限,难以计算出他的轨道,天文学家也因此无法确定这颗新星是彗星还是行星, 这个问题很快成了学术界关注的焦点。高斯当时已经是很有名望的年轻数学家了, 这个问题引起了他的兴趣。高斯以其卓越的数学才能创立了一种崭新的 行星轨道的计算方法,一个小时之内就计算出了行星的轨道,并预言了他在夜空中出现的时间和位置。 1801年12月31日夜,德国天文爱好者奥伯斯(Heinrich Olbers),在高斯预言的时间里,用望远镜对准了这片天空。 果然不出所料,谷神星出现了! 高斯为此名声大震,但是高斯当时拒绝透露计算轨道的方法,原因可能是高斯认为自己的方法的理论基础还不够成熟, 而高斯一向治学严谨、精益求精,不轻易发表没有思考成熟的理论。直到1809年高斯系统地完善了相关的数学理论后, 才将他的方法公布于众,而其中使用的数据分析方法,就是以正态误差分布为基础的最小二乘法。 那高斯是如何推导出误差分布为正态分布的?让我们看看高斯是如何猜测上帝的意图的。 设真值为 \theta , x_1, \cdots, x_n 为n次独立测量值, 每次测量的误差为 e_i = x_i - \theta , 假设误差 e_i 的密度函数为 f(e), 则测量值的联合概率为n个误差的联合概率,记为 \begin{equation} L(\theta) = L(\theta;x_1,\cdots,x_n)=f(e_1)\cdots f(e_n) = f(x_1-\theta)\cdots f(x_n-\theta)\end{equation} 但是高斯不采用贝叶斯的推理方式,而是直接取 L(\theta) 达到最大值的 \hat{\theta}=\hat{\theta}(x_1,\cdots,x_n) 作为 \theta 的估计值,即 现在我们把 L(\theta) 称为样本的似然函数,而得到的估计值 \hat{\theta} 称为极大似然估计。 高斯首次给出了极大似然的思想,这个思想后来被统计学家 R.A.Fisher 系统的发展成为参数估计中的极大似然估计理论。 高斯接下来的想法特别牛,他开始揣度上帝的意图,而这充分体现了高斯的数学天才。 高斯把整个问题的思考模式倒过来:既然千百年来大家都认为算术平均 是一个好的估计,那我就认为极大似然估计导出的就应该是算术平均!所以高斯猜测上帝在创世纪中的旨意就是: 误差分布导出的极大似然估计 = 算术平均值 然后高斯去找误差密度函数 f 以迎合这一点。即寻找这样的概率分布函数 f , 使 得极大似然估计正好是算术平均 \hat{\theta} = \bar{x} 。而高斯应用数学技巧求解这个函数 f , 高斯证明(证明不难,后续给出),所有的概率密度函数中,唯一满足这个性质的就是 瞧,正态分布的密度函数 N(0, \sigma^2) 被高斯他老人家给解出来了! 【正态误差态分布律】 进一步,高斯基于这个误差分布函数对最小二乘法给出了一个很漂亮的解释。 对于每个误差 e_i ,有 e_i \sim N(0, \sigma^2) , 则 (e_1, \cdots, e_n) 的联合概率分布为 要使得这个概率最大,必须使得 \sum_{i=1}^n e_i^2 取最小值,这正好就是最小二乘法的要求。 高斯所拓展的最小二乘法成为了十九世纪统计学的最重要成就,它在十九世纪统计学的重要性就相当于十八世紀的微积分之于数学。 而勒让德和最小二乘的的发明权之争,成了数学史上仅次于牛顿、莱布尼茨微积分发明的争端。 相比于勒让德1805给出的最小二乘法描述,高斯基于误差正态分布的最小二乘理论显然更高一筹, 高斯的工作中既提出了极大似然估计的思想,又解决了误差的概率密度分布的问题, 由此我们可以对误差的大小的影响进行统计度量了。高斯的这项工作对后世的影响极大,而正态分布也因此被冠名 高斯分布。估计高斯本人当时是完全没有意识到他的这个工作给现代数理统计学带来的深刻影响。 高斯在数学上的贡献特多,去世前他是要求给自己的墓碑上雕刻上正十七边形,以说明他在正十七边形尺规作图上的杰出工作。 而后世的德国钞票和钢镚上是以正态密度曲线来纪念高斯,这足以说明高斯的这项工作在当代科学发展中的分量。 17-18世纪科学界流行的做法,是尽可能从某种简单明了的准则(first principle)出发进行推导, 高斯设定的准则“最大似然估计应该导出优良的算术平均”,并导出了误差服从正态分布,推导的形式上非常简洁优美。 但是高斯给的准则在逻辑上并不足以让人完全信服,因为算术平均的优良性当时更多的是一个直觉经验,缺乏严格的理论支持。 高斯的推导存在循环论证的味道:因为算术平均是优良的,推出误差必须服从正态分布; 反过来,又基于正态分布推导出最小二乘和算术平均,来说明最小二乘法和算术平均的优良性。 这陷入了一个鸡生蛋蛋生鸡的怪圈,逻辑上算术平均的优良性到底有没有自行成立的理由呢? 高斯的文章发表之后,拉普拉斯很快得知了高斯的工作。 拉普拉斯看到,正态分布既可以从作为抛钢镚产生的序列和中生成出来,又可以被优雅的作为误差分布定律, 这难道是偶然现象?拉普拉斯不愧为概率论的大牛,他马上将误差的正态分布理论和中心极限定理联系起来,提出了元误差解释。 他指出如果误差可以看成许多量的叠加,则根据他的中心极限定理,则随机误差理所应当是高斯分布。 而20世纪中心极限定理的进一步发展,也给这个解释提供了更多的理论支持。因此有了这个解释为出发点, 高斯的循环论证的圈子就可以打破。 估计拉普拉斯悟出这个结论之后一定想撞墙,自己辛辛苦苦寻寻觅觅 了这么久的误差分布曲线就在自己的眼皮底下,自己却长年来视而不见,被高斯给占了先机。 至此,误差分布曲线的寻找尘埃落定,正态分布在误差分析中确立了自己的地位,开始并在整个19世纪不断的开疆扩土, 直至在统计学中鹤立鸡群,傲世其它一切概率分布;而高斯和拉普拉斯的工作,为现代统计学的发展开启了一扇大门。 在整个正态分布被发现与应用的历史中,棣莫弗、拉普拉斯、高斯各有贡献,拉普拉斯从中心极限定理的角度解释它, 高斯把它应用在误差分析中,殊途同归。正态分布被人们发现有这么好的性质,各国人民都争抢他的冠名权。 因为 Laplace 是法国人,所以当时在法国被称为拉普拉斯分布; 而高斯是德国人, 所以在德国叫做高斯分布;第三中立国的人民称他为拉普拉斯-高斯分布。后来法国的大数学家庞加莱(Henri Poincaré)建议改用正态分布这一中立名称,而随后统计学家卡尔.皮尔森使得这个名称被广泛接受: Many years ago I called the Laplace-Gaussian curve the normal curve, which name, while it avoids an international question of priority, has the disadvantage of leading people to believe that all other distributions of frequency are in one sense or another "abnormal".} -Karl Pearson (1920) 不过因为高斯在数学家中的名气是在太大, 正态分布的桂冠还是更多的被戴在了高斯的脑门上,目前数学界通行的用语是正态分布高斯分布, 两者并用。 正态分布在高斯的推动下,迅速在测量误差分析中被广泛使用,然而早期也仅限于测量误差的分析中, 其重用性远没有被自然科学和社会科学领域中的人们所认识,那正态分布是如何从测量误差分析的小溪, 冲向自然科学和社会科学的汪洋大海的呢? (五)曲径通幽处,禅房花木深,正态分布的各种推导 在介绍正态分布的后续发展之前,我们来多讲一点数学,也许有些人会觉得枯燥,不过高斯曾经说过:“数学是上帝的语言”。所以要想更加深入的理解正态分布的美,唯有通过上帝的语言。 造物主造物的准则往往是简单明了的,只是在纷繁芜杂的万物之中,我们要发现并领会它并非易事。之前提到过,17-18世纪科学界流行的做法,是尽可能从某种简单明了的准则(first principle)出发作为我们探求的起点,而后来的数学家和物理学家们研究发现,屡次从一些给定的简单的准则出发,我们总是被引领到了正态分布的家门口,这让人感觉到正态分布的美妙。 达尔文的表弟高尔顿是生物学家兼统计学家,他对正态分布非常的推崇与赞美:”我几乎不曾见过像误差呈正态分布这么激发人们无穷想象的宇宙秩序“。当代两位伟大的概率学家 Levy 和 Kac 都曾经说过, 正态分布是他们切入概率论的初恋情人,具有无穷的魅力。自从 1919 年以后,Levy 研究的主题曲就是正态分布,他一而再再而三的以他为出发点,并且屡次坚决的又回到她......如果古希腊人知道正态分布,想必奥林匹斯山的神殿里会多出一个正态女神,由她来掌管世间的混沌。 要拉下正态分布的神秘面纱展现她的美丽,需要高深的概率论知识,本人在数学方面知识浅薄,不能胜任。只能在极为有限的范围内尝试掀开她的面纱的一角。棣莫弗和拉普拉斯以抛钢镚的序列求和为出发点,沿着一条小径把我们第一次领到了正态分布的家门口,这条路叫作中心极限定理,而这条路上风景秀丽,许多概率学家都为之倾倒,这条路在20世纪被概率学家们越拓越宽。而后数学家和物理学家们发现:条条曲径通正态。著名的物理学家 E.T.Jaynes 在他的名著《Probability Theory, the Logic of Science》(中文书名翻译为《概率论沉思录》)中,描绘了四条通往正态分布的小径。曲径通幽处,禅房花木深,让我们一起来欣赏一下四条小径上的风景吧。 1. 高斯的推导(1809) 第一条小径是高斯找到的,高斯以如下准则作为小径的出发点 误差分布导出的极大似然估计 = 算术平均值 设真值为 \theta , x_1, \cdots, x_n 为n次独立测量值, 每次测量的误差为 e_i = x_i - \theta , 假设误差 e_i 的密度函数为 f(e), 则测量值的联合概率为n个误差的联合概率,记为 \begin{equation} L(\theta) = L(\theta;x_1,\cdots,x_n)=f(e_1)\cdots f(e_n) = f(x_1-\theta)\cdots f(x_n-\theta)\end{equation} 为求极大似然估计,令 整理后可以得到 令 g(x) = \frac{f'(x)}{f(x)} , 由于高斯假设极大似然估计的解就是算术平均 \bar{x} ,把解带入上式,可以得到 \begin{equation} \label{gauss-derivation}\sum_{i=1}^n g(x_i-\bar{x}) = 0 (*) \end{equation} (*) 式中取 n=2 , 有 由于此时有 x_1-\bar{x} = -(x_2-\bar{x}) , 并且 x_1, x_2 是任意的,有此得到 (*) 式中再取 n=m+1 , 并且要求 x_1=\cdots=x_m=-x, x_{m+1} = mx , 则有 \bar{x} = 0 , 并且 所以得到 而满足上式的唯一的连续函数就是 g(x)=cx , 从而进一步可以求解出 由于 f(x) 是概率分布函数,把 f(x) 正规化一下就得到正态分布函数。 2. Herschel(1850)和 Maxwell(1860) 的推导 第二条小径是天文学家 Hershcel 和物理学家麦克斯韦(Maxwell) 发现的。1850年,天文学家 John Herschel 在对星星的位置进行测量的时候,需要考虑二维的误差分布,为了推导这个误差的概率密度分布 f(x,y) ,Herschel 设置了两个准则: x 轴和 y 轴的误差是相互独立的,即误差的概率在正交的方向上相互独立 误差的概率分布在空间上具有旋转对称性,即误差的概率分布和角度没有关系 这两个准则对于 Herschel 考虑的实际测量问题看起来都很合理。由准则1,可以得到 f(x,y) 应该具有如下形式 把这个函数转换为极坐标,在极坐标下的概率密度函数设为 g(r,\theta) , 有 由准则2, g(r,\theta) 具有旋转对称性,也就是应该和 \theta 无关, 所以 g(r,\theta)=g(r) , 综合以上,我们可以得到 取 y=0 , 得到 g(x) = f(x)f(0) , 所以上式变为 令 \log = h(x) , 则有 从这个函数方程中容易求解出 h(x) = ax^2 , 从而可以得到 f(x) 的一般形式如下 而 f(x) 就是正态分布 N(0, 1/\sqrt{2\alpha)} , 而 f(x,y) 就是标准二维正态分布函数。 1860 年,我们伟大的物理学家麦克斯韦在考虑气体分子的运动速度分布的时候,在三维空间中基于类似的准则推导出了气体分子运动的分布是正态分布 \rho(v_x,v_y,v_z) \propto exp\{-\alpha(v_x^2+v_y^2+v_z^2)\} 。这就是著名的麦克斯韦分子速率分布定律。大家还记得我们在普通物理中学过的麦克斯韦-波尔兹曼气体速率分布定律吗? \begin{eqnarray} \label{maxwell}\begin{array}{lll}F(v) = \displaystyle (\frac{m}{2\pi kT})^{3/2} e^{-\frac{mv^2}{2kT}} \\ = \displaystyle (\frac{m}{2\pi kT})^{1/2} e^{-\frac{mv_x^2}{2kT}} \times (\frac{m}{2\pi kT})^{1/2} e^{-\frac{mv_y^2}{2kT}} \times (\frac{m}{2\pi kT})^{1/2} e^{-\frac{mv_z^2}{2kT}} \end{array}\end{eqnarray} 所以这个分布其实是三个正态分布的乘积,你的物理老师是否告诉过你其实这个分布就是三维正态分布?反正我是一直不知道,直到今年才明白 Herschel-Maxwell 推导的神妙之处在于,没有利用任何概率论的知识,只是基于空间几何的不变性,就推导出了正态分布。 3. Landon 的推导(1941) 第三条道是一位电气工程师,Vernon D. Landon 给出的。1941 年,Landon 研究通信电路中的噪声电压,通过分析经验数据他发现噪声电压的分布模式很相似,不同的是分布的层级,而这个层级可以使用方差 \sigma^2 来刻画。因此他推理认为噪声电压的分布函数形式是 p(x;\sigma^2) 。现在假设有一个相对于 \sigma 而言很微小的误差扰动 e , e 的分布函数是 q(e) , 那么新的噪声电压是 x' = x + e 。Landon 提出了如下的准则 随机噪声具有稳定的分布模式 累加一个微小的随机噪声,不改变其稳定的分布模式,只改变分布的层级(用方差度量) 用数学的语言描述: 如果 则有 现在我们来推导满足以上两个准则的函数 p(x;\sigma^2) 应该长成啥样。按照两个随机变量和的分布的计算方式, x' 的分布函数将是 x 的分布函数和 e 的分布函数的卷积,即有 把 p(x'-e; \sigma^2) 在 x' 处做泰勒级数展开(为了方便,展开后把自变量由 x' 替换为 x ), 上式可以展开为 记 p=p(x; \sigma^2) ,则有 对于微小的随机扰动 e , 我们认为他取正值或者负值是对称的,所以 \bar{e} = 0 。所以有 \begin{equation} \label{landon-x}f(x) = p + \frac{1}{2} \frac{\partial^2 p}{\partial^2 x}\bar{e^2} + o(\bar{e^2})\end{equation} 对于新的噪声电压是 x' = x + e , 方差由 \sigma^2 增加为 \sigma^2 + var(e) = \sigma^2 + \bar{e^2} ,所以按照 Landon 的分布函数模式不变的假设, 新的噪声电压的分布函数应该为 f(x) = p(x; \sigma^2 + \bar{e^2}) 。把 p(x; \sigma^2 + \bar{e^2}) 在 \sigma^2 处做泰勒级数展开,得到 \begin{equation} \label{landon-sigma}\displaystylef(x) = p + \frac{\partial p}{\partial \sigma^2}\bar{e^2} + o(\bar{e^2})\end{equation} 比较 以上 f(x) 的两个展开式,可以得到如下偏微分方程 而这个方程就是物理上著名的扩散方程(diffusion equation),求解该方程就得到 又一次,我们推导出了正态分布! E.T. Jaynes对于这个推导的评价很高,认为Landon 的推导本质上给出了自然界的噪音形成的过程。他指出这个推导这基本上就是中心极限定理的增量式版本,相比于中心极限定理是一次性累加所有的因素,Landon 的推导是每次在原有的分布上去累加一个微小的扰动。 而在这个推导中,我们看到,正态分布具有相当好的稳定性;只要数据中正态的模式已经形成,他就容易继续保持正态分布,无论外部累加的随机噪声 q(e) 是什么分布,正态分布就像一个黑洞一样把这个累加噪声吃掉。 4. 最大熵和正态分布 还有一条神妙的小径是基于最大熵原理的, 物理学家 E.T.Jaynes 在最大熵原理上有非常重要的贡献,他在《概率论沉思录》里面对这个方法有描述和证明,没有提到发现者,我不确认这条道的发现者是否是 E.T.Jaynes 本人。 熵在物理学中由来已久,信息论的创始人香农(Claude Elwood Shannon)把这个概念引入了信息论,学习机器学习的同学们都知道目前机器学习中有一个非常好用的分类算法叫最大熵分类器。要想把熵和最大熵的来龙去脉说清楚可不容易,希望我后续能有时间整理一下。这条道的风景是相当独特的,E.T.Jaynes 对这条道也是偏爱有加。 对于一个概率分布 p(e) , 我们定义他的熵为 如果给定一个分布函数 f(x) 的均值 \mu 和方差 \sigma^2 (给定均值和方差这个条件,也可以描述为给定一阶原点矩和二阶原点矩,这两个条件是等价的)则在所有满足这两个限制的概率分布中,熵最大的概率分布 p(e|\mu, \sigma^2) 就是正态分布 N(\mu, \sigma^2) 。 (Todo: 插入证明) E.T.Jaynes 显然对正态分布具有这样的性质极为赞赏,因为这从信息论的角度证明了正态分布的优良性。而我们可以看到,熵的大小,取决于方差的大小。 这也容易理解, 因为正态分布的均值和密度函数的形状无关,而熵的大小反应概率分布中的信息量,显然和密度函数的形状相关,而正态分布的形状是由其方差决定的。 好的,风景欣赏暂时告一段落。所谓横看成岭侧成峰,远近高低各不同,正态分布给人们提供了多种欣赏角度和想象空间。法国菩萨级别的大数学家庞加莱对正态分布说过一段有意思的话,引用来作为这个小节的结束: Physicists believe that the Gaussian law has been proved in mathematics while mathematicians think that it was experimentally established in physics. — Henri Poincaré html{background-image:none;}body{background-color:#FFFFFF;background-image:none;padding-top:5px;} body{height:auto;width:730px;min-width:730px;}
9611 次阅读|0 个评论
[转载]gamma与normal分布的关系
dengxuejing 2012-9-29 10:01
"Introduction to Probability and Statistics for Engineers and Scientists" Third Edition pp.182-185(5.7节) 里面写了 k=1时的gamma分布是指数分布 用生成函数的方法可以证明具有相同尺度参数θ的两个独立gamma分布之和仍为gamma分布,形状参数k=k1+k2 k=n(正整数)时的gamma分布可以看作n个独立的k=1的gamma分布(即指数分布)之和,按照中心极限定理(CLT),独立同分布随机变量之和趋于正态分布
1529 次阅读|0 个评论
统计学知识谱和正态分布
yunxiangzhao 2012-9-14 15:51
统计学知识谱和正态分布
个人分类: 生物统计与应用|2910 次阅读|0 个评论
Kolmogorov–Smirnov test
huangyanxin356 2012-9-7 15:20
柯尔莫哥洛夫-斯米尔诺夫检验(以下简称K-S检验)是用累计次数或累计频率来判断两组数据之间是否存在显著差异的方法。它是将需要做统计分析的数据和另一组标准数据进行对比,求得它和标准数据之间的偏差的方法。 Matlab中的两个函数调用: kstest:如kstest(x),x为一向量,则将检查x是否属于标准正态分布;其它调用形式见matlab说明。 kstest2:如kstest2(x,y),x和y为数据向量,检查x和y是否来自于同一个分布。
个人分类: 技术类|0 个评论
金融市场的价格波动是正态分布的叠加3
热度 2 itellin 2012-7-9 15:31
金融市场的价格波动是正态分布的叠加3
3115 次阅读|5 个评论
金融市场的价格波动是正态分布的叠加2
itellin 2012-7-6 15:48
金融市场的价格波动是正态分布的叠加2
1917 次阅读|0 个评论
金融市场的价格波动是正态分布的叠加1
热度 1 itellin 2012-7-5 16:16
金融市场的价格波动是正态分布的叠加1
2478 次阅读|3 个评论
金融市场的价格波动是正态分布的叠加
itellin 2012-7-4 22:10
金融市场的价格波动是正态分布的叠加
3329 次阅读|0 个评论
matlab实现:基于极大似然估计的混合分布参数估计(LM洪峰流量)
热度 1 caffery 2012-7-4 10:04
这个是无错误版~ clear; clc; load('test.mat'); test = A_pastespecial; c2 = test(1:32,:);%前半部分数据 c3 = test(33:49,:);%后半部分数据 %c6 = ; c3(5) = 50;%修改数据,不影响整体分布趋势 c3(13) = 185;%修改数据,不影响整体分布趋势 c3(14)=350;%修改数据,不影响整体分布趋势 %c4 = log(c2); %c5 = log(c3); %c5 = abs(c5); c6 = ; %c7 = ; =mle(c2,'distribution','lognormal');%前32个数对数正态分布函数的极大似然估计值 =mle(c3,'distribution','lognormal');%剩下的数的对数正态分布函数的极大似然估计值 mixedpdf=@(x,mu1,mu2,s1,s2,rho)(rho*lognpdf(x,mu1,s1)+(1-rho)*lognpdf(x,mu2,s2));% 极大似然估计的混合分布 phat1=mle(c6,'pdf',mixedpdf,'start', );%对混合分布进行极大似然估计 phat1=mle(c6,'pdf',mixedpdf,'start',phat1);%没有收敛,继续估计 phat1=mle(c6,'pdf',mixedpdf,'start',phat1);%没有收敛,继续估计 mu1 = phat1(1);%前面对数正态分布的平均值估值 mu2 = phat1(2);%后面对数正态分布的平均值估值 s1 = phat1(3);%前面对数正态分布的标准值估值 s2 = phat1(4);%前面对数正态分布的标准值估值 rho = phat1(5);%权值估值 x = 1:exp(0.05):exp(10); y1 = (rho*lognpdf(x,mu1,s1)+(1-rho)*lognpdf(x,mu2,s2));%混合分布的概率密度函数 subplot(1,2,1); plot(x,y1,'r-'); a=1:0.05:10; F=1-(rho*logncdf(a,mu1,s1)+(1-rho)*logncdf(a,mu2,s2));%对数正态分布概率密度函数的累积频率值 subplot(1,2,2); plot(a,F,'r-'); c8=sort(c6,'descend'); P=1-(rho*logncdf(c8,mu1,s1)+(1-rho)*logncdf(c8,mu2,s2));%对原始数据进行排序后计算的累计频率值
10720 次阅读|1 个评论
[转载]水文频率曲线线型
caffery 2012-6-29 22:26
转载: http://jpkt.whu.edu.cn/jpkc2008/gcswx/swx/cc/hydrology04/4_4.htm 4.4 水文频率曲线线型 内容提要: 正态分布,对数正态分布,皮尔逊Ⅲ型分布,经验频率曲线 学习要求: 1.了解正态分布、对数正态分布的形式和特点;2.掌握皮尔逊Ⅲ型分布的形式、特点及其频率曲线的绘制方法;3.掌握经验频率曲线的特点及其绘制方法。 水文分析计算中使用的概率分布曲线俗称水文频率曲线,习惯上把由实测资料(样本)绘制的频率曲线称为经验频率曲线,而把由数学方程式所表示的频率曲线称为理论频率曲线。所谓水文频率分布线型是指所采用的理论频率曲线(频率函数)的型式(水文中常用线型为正态分布型、极值分布型、皮尔逊Ⅲ型分布型等),它的选择主要取决于与大多数水文资料的经验频率点据的配合情况。分布线型的选择与统计参数的估算,一起构成了频率计算的两大内容。 4.4.1 正态分布 1、正态分布的密度函数及其参数 正态分布具有如下形式的概率密度函数: (-∞﹤x﹤+∞) (4-4-1) 式中 - 平均数; σ - 标准差; e - 自然对数的底。 2、频率格纸 正态频率曲线在普通格纸上是一条规则的S形曲线,它在P=50%前后的曲线方向虽然相反,但形状完全一样,如图4-4-2中的①线。水文计算中常用的一种"频率格纸",其横坐标的分划就是按把标准正态频率曲线拉成一条直线的原理计算出来的,如图4-4-2中的②线。 图4-4-1 正态分布密度曲线 图4-4-2 频率格纸横坐标的分割(说明:先绘出曲线,再显示出箭头并闪动,最后绘出曲线。) 4.4.2 对数正态分布 当随机变量x的对数值服从正态分布时,称x的分布为对数正态分布。对于两参数正态分布而言,变量x的对数 y = ln x 服从正态分布时,y的概率密度函数为: (-∞﹤y﹤+∞)(4-4-2) 式中 a y - 随机变量y的数学期望; σ y 2 - 随机变量y的方差。 由此可得到随机变量x的概率密度函数: (x﹥0) (4-4-3) 式(4-4-3)的概率密度函数包含了a y 和σ y 两个参数,故称为两参数对数正态曲线。 因x = ey,故式(4-4-3)又可写成: (4-4-4) 由矩法可以得到各个统计参数,即: (4-4-5) (4-4-6) (4-4-7) 所以,两参数对数正态分布是正偏的。 4.4.3 皮尔逊Ⅲ(P-Ⅲ)型曲线 1、皮尔逊Ⅲ型曲线的概率密度函数 皮尔逊Ⅲ型曲线是一条一端有限一端无限的不对称单峰、正偏曲线(见图4-4-3),数学上常称伽玛分布,其概率密度函数为: (4-4-8) 式中:Γ(α)―α的伽玛函数; α、β、a0―分别为皮尔逊Ⅲ型分布的形状尺度和位置未知参数, α﹥0, β﹥0 。 图4-4-3 皮尔逊Ⅲ型概率密度曲线 显然,三个参数确定以后,该密度函数随之可以确定。可以推论,这三个参数与总体三个参数 、Cv、CS具有如下关系: (4-4-9) 2、皮尔逊Ⅲ型频率曲线及其绘制 水文计算中,一般需要求出指定频率P所相应的随机变量取值xp,也就是通过对密度曲线进行积分,即: (4-4-10) 求出等于及大于xp的累积频率P值。直接由式(4-4-10)计算P值非常麻烦,实际做法是通过变量转换,变换成下面的积分形式: (4-4-11) 式(4-4-11)中被积函数只含有一个待定参数CS,其它两个参数 、Cv都包含在 中。 ,x是标准化变量, 称为离均系数。 的均值为0,标准差为1。因此,只需要假定一个CS值,便可从式(4-4-11)通过积分求出 与 之间的关系。对于若干个给定的C S 值, 的对应数值表,已先后由美国福斯特和前苏联雷布京制作出来,见附表1"皮尔逊Ⅲ型频率曲线的离均系数 值表"。由 就可以求出相应频率 的x值: (4-4-12) 附表1 皮尔逊Ⅲ型频率曲线的离均系数 值表(摘录) P(%)Cs 0.1 1 5 20 50 80 95 99 99.9 0.0 3.09 2.33 1.64 0.84 0.00 -0.84 -1.64 -2.33 -3.09 0.1 3.23 1.67 2.0 0.84 -0.02 -0.85 -1.62 -2.25 -2.95 0.2 3.38 2.47 1.70 0.83 -0.03 -0.85 -1.59 -2.18 -2.81 0.3 3.52 2.54 1.73 0.82 -0.05 -0.85 -1.55 -2.10 -2.67 0.4 3.67 2.62 1.75 0.82 -0.07 -0.85 -1.52 -2.03 -2.54 0.5 3.81 2.68 1.77 0.81 -0.08 -0.85 -1.40 -1.96 -2.40 0.6 3.96 2.75 1.80 0.80 -0.10 -0.85 -1.45 -1.88 -2.27 0.7 4.10 2.82 1.82 0.79 -0.12 -0.85 -1.42 -1.81 -2.14 0.8 4.24 2.89 1.84 0.78 -0.13 -0.85 -1.38 -1.74 -2.02 0.9 4.39 2.96 1.86 0.77 -0.15 -0.85 -1.35 -1.66 -1.90   4.53 3.02 1.88 0.76 -0.16 -0.85 -1.32 -1.59 -1.79 3、皮尔逊Ⅲ型频率曲线的应用 在频率计算时,由已知的C S 值,查 值表得出不同的P的 值,然后利用已知的 、C V ,通过式(4-4-12)即可求出与各种P相应的 值,从而可绘制出皮尔逊Ⅲ型频率曲线。 当C S 等于C V 的一定倍数时,P-Ⅲ型频率曲线的模比系数K P = ,也已制成表格,见附表2"皮尔逊Ⅲ型频率曲线的模比系数K P 值表"。频率计算时,由已知的C S 和C V 可以从附表2中查出与各种频率P相对应的K P 值,然后即可算出与各种频率对应的 =K P 。有了P和 的一些对应值,即可绘制出皮尔逊Ⅲ型频率曲线。 附表2 皮尔逊Ⅲ型频率曲线的模比系数KP值表 (摘录,C S = 2C V ) P(%)Cs 0.1 1 5 20 50 75 90 95 99 0.05 1.16 1.12 1.08 1.04 1.00 0.97 0.94 0.92 0.89 0.10 1.34 1.25 1.17 1.08 1.00 0.93 0.87 0.84 0.78 0.20 1.73 1.52 1.35 1.16 0.99 0.86 0.75 0.70 0.59 0.30 2.19 1.83 1.54 1.24 0.97 0.78 0.64 0.56 0.44 0.40 2.70 2.15 1.74 1.31 0.95 0.71 0.53 0.45 0.30 0.50 3.27 2.51 1.94 1.38 0.92 0.64 0.44 0.34 0.21 0.60 3.89 2.89 2.15 1.44 0.89 0.56 0.35 0.26 0.13 0.70 4.56 3.29 2.36 1.50 0.85 0.49 0.27 0.18 0.08 0.80 5.30 3.71 2.57 1.54 0.80 0.42 0.21 0.12 0.04 0.90 6.08 4.15 2.78 1.58 0.75 0.35 0.15 0.08 0.02 1.00 6.91 4.61 3.00 1.61 0.69 0.29 0.11 0.05 0.01 4.4.4 经验频率曲线 上述各种频率曲线是用数学方程式来表示的, 属于理论频率曲线。在水文计算中还有一种经验频率曲线, 是由实测资料绘制而成的, 它是水文频率计算的基础, 具有一定的实用性。 1、经验频率曲线的绘制 根据实测水文资料,按从大到小的顺序排列,如图4-4-4所示,然后用经验频率公式计算系列中各项的频率,称为经验频率。以水文变量x为纵坐标,以经验频率 为横坐标,点绘经验频率点据,根据点群趋势绘出一条平滑的曲线,称为经验频率曲线,图4-4-5为某站年最大洪峰流量经验频率曲线。有了经验频率曲线,即可在曲线上求得指定频率 的水文变量值 。 图4-4-4 水文系列按大小排列示意图 对经验频率的计算,目前我国水文计算上广泛采用的是数学期望公式: (4-4-13) 式中 p - 等于和大于x m 的经验频率; m - x m 的序号,即等于和大于x m 的项数; n - 系列的总项数。 2、经验频率曲线存在的问题 经验频率曲线计算工作量小,绘制简单,查用方便,但受实测资料所限,往往难以满足设计上的需要。为此,提出用理论频率曲线来配合经验点据,这就是水文频率计算适线(配线)法。 图4-4-5 某站年最大洪峰流量经验频率曲线 4.4.5 频率与重现期的关系 频率曲线绘制后,就可在频率曲线上求出指定频率p的设计值x p 。由于"频率"较为抽象,水文上常用"重现期"来代替"频率"。所谓重现期是指某随机变量的取值在长时期内平均多少年出现一次,又称多少年一遇。根据研究问题的性质不同,频率P与重现期T的关系有两种表示方法。 1、当为了防洪研究暴雨洪水问题时,一般设计频率P<50%,则: (4-4-14) 式中:T――重现期,年; ――频率,%。 (2)当考虑水库兴利调节研究枯水问题时,设计频率P>50%,则 (4-4-15) 复习思考题 1、选择题 在水文频率计算中,我国一般选配皮尔逊III型曲线,这是因为 。 a、已从理论上证明它符合水文统计规律; b、已制成该线型的Φ值表供查用,使用方便; c、已制成该线型的k p 值表供查用,使用方便; d、经验表明该线型能与我国大多数地区水文变量的频率分布配合良好。 【 答案 】 百年一遇洪水,是指 。 a、大于等于这样的洪水每隔100年必然会出现一次; b、大于等于这样的洪水平均100年可能出现一次; c、小于等于这样的洪水正好每隔100年出现一次; d、小于等于这样的洪水平均100年可能出现一次; 【 答案 】 正态频率曲线绘在频率格纸上为一条 。 a、直线; b、S型曲线; c、对称的铃型曲线; d、不对称的铃型曲线。 【 答案 】 如图4-1-4,为两条皮尔逊III型频率密度曲线,它们的Cs 。 a、Cs1﹤0,Cs2﹥0; b、Cs1﹥0,Cs2﹤0; c、Cs1﹦0,Cs2﹦0; d、Cs1﹦0,Cs2﹥0。 【 答案 】 图4-1-4 皮尔逊III型频率密度曲线 如图4-1-5,为不同的三条概率密度曲线,由图可知 。 a、Cs1 >0,Cs2 <0,Cs3=0; b、Cs1 <0,Cs2 >0,Cs3=0; c、Cs1 =0,Cs2 >0,Cs3<0; d、Cs1 >0,Cs2 =0,Cs3<0; 【 答案 】 图4-1-5 概率密度曲线 2、是非题 我国在水文频率分析中选用皮尔逊III型曲线,是因为已经从理论上证明皮尔逊III型曲线符合水文系列的概率分布规律。 【 答案 】 正态频率曲线在普通格纸上是一条直线。 【 答案 】 皮尔逊III型频率曲线在频率格纸上是一条规则的S型曲线。 【 答案 】 在频率曲线上,频率P愈大,相应的设计值x p 就愈小。 【 答案 】 3、简答题 皮尔逊III型概率密度曲线的特点是什么? 何谓离均系数Φ?如何利用皮尔逊III型频率曲线的离均系数Φ值表绘制频率曲线? 何谓经验频率?经验频率曲线如何绘制? 重现期(T)与频率(P)有何关系?P=90%的枯水年,其重现期(T)为多少年?含义是什么?
9441 次阅读|0 个评论
[转载]MATLAB产生随机噪声的函数
huozhenhua 2012-4-26 09:44
rand(M,N):产生(0,1)均匀分布的M*N随机数矩阵 (^y旁澘Ld? randn(M,N):产生N(0,1)的正态分布的M*N随机数矩阵 E#E?涮\u0010? random(Name,A,B,C,M,N):产生各种分布的M*N随机数矩阵,其中,Name为分布名称,包 ?z?R}盫B 括:'beta' or 'Beta', 'bino' or 'Binomial', 'chi2' or 'Chisquare','exp' or ' v铛\u001B? 设某个随机变量x均值为mu,方差为var^2,若要产生同样分布的随机变量y,但使新的随 園na_?帝% 机变量参数改变,均值为mu_1,方差为var_1^2,可以用如下公式进行变换: ㄅ?嵘*hr\u0019 y=var_1/var*(x-mu)+mu_1,其中x为随机变量,其余为常数(原分布参数)。 Z?K!f!_\u0001? 具体到正态分布,若要产生均值为u,方差为o^2的M*N的随机数矩阵,可以用 0讴?_5nc? y=o*randn(M,N)+u得到。 ??K\u0006g8議 对于均匀分布,若要产生 区间的均匀分布的M*N的随机数矩阵,则可以用 ??鄋P迳\u0007 y=rand(M,N)*(b-a)+a得到。 w戌?驔ov; 6荦???" 3. 其它的分布与重要函数 簿匩QA@蔑? 主要参考Matlab的统计工具箱stats 嚙麭潶LuI/ 生成概率密度分布函数的值:y=pdf('name',x,a1,a2,a3);累积分布函数:cdf;逆累积 E妹??%? 分布函数:icdf。 \u0005\u0004愮袗X2鋘 随机数产生函数:一般为随机数分布的英文名称加后缀rnd,如正态分布normrnd(mu,si 驴函袟︵\u0007? gma),二项分布binornd(n,p),对数正态分布lognrnd(mu,sigma),几何分布geornd(p) 瓅謃鎛C@? ,指数分布exprnd(mu),泊松分布poissrnd(lamda),瑞利分布raylrnd(B)等等。 燪駾抻?獯 参数估计:正态分布参数估计normfit,指数分布的参数估计expfit,最大似然估计mle d挠4\u00057?? 擄?侩巸 O 数字特征:均值mean,中值median,方差var,标准差std,任意阶中心矩moment,协方 rw债+ ?轮 差cov,相关系数corrcoef
个人分类: matlab|12809 次阅读|0 个评论
[转载]方差分析(analysis of variance,ANOVA)
linpandr 2012-4-13 15:46
  方差分析(analysis of variance,简写为ANOV或ANOVA)可用于两个或两个以上样本均数的比较。应用时要求各样本是相互独立的随机样本;各样本来自正态分布总体且各总体方差相等。方差分析的基本思想是按实验设计和分析目的把全部观察值之间的总变异分为两部分或更多部分,然后再作分析。常用的设计有完全随机设计和随机区组设计的多个样本均数的比较。   一、完全随机设计的多个样本均数的比较   又称单因素方差分析。把总变异分解为组间(处理间)变异和组内变异(误差)两部分。目的是推断k个样本所分别代表的μ1,μ2,……μk是否相等,以便比较多个处理的差别有无统计学意义。其计算公式见表19-6。 表19-6 完全随机设计的多个样本均数比较的方差分析公式 变异来源 离均差平方和SS 自由度v 均方MS F 总 ΣX2-C* N-1     组间(处理组间)    k-1 SS组间/v组间 MS组间/MS组间 组内(误差) SS总-SS组间 N-k SS组内/v组内     *C=(ΣX)2/N=Σni,k为处理组数 表19-7 F值、P值与统计结论 α F值 P值 统计结论 0.05 <F0.05(v1.V2) >0.05 不拒绝H0,差别无统计学意义 0.05 ≥F0.05(v1.V2) ≤0.05 拒绝H0,接受H1,差别有统计学意义 0.01 ≥F0.01(v1.V2) ≤0.01 拒绝H0,接受H1,差别有高度统计学意义   方差分析计算的统计量为F,按表19-7所示关系作判断。   例19.9 某湖水不同季节氯化物含量测量值如表19-8,问不同季节氯化物含量有无差别? 表19-8 某湖水不同季节氯化物含量(mg/L)   Xij 春 夏 秋 冬 22.6 19.1 18.9 19.0 22.8 22.8 13.6 16.9 21.0 24.5 17.2 17.6 16.9 18.0 15.1 14.8 20.0 15.2 16.6 13.1 21.9 18.4 14.2 16.9 21.5 20.1 16.7 16.2 21.2 21.2 19.6 14.8 ΣXij j 167.9 159.3 131.9 129.3 588.4(ΣX) ni 8 8 8 8 32(N) Xi 20.99 19.91 16.49 16.16   ΣX2ijj 3548.51 3231.95 2206.27 2114.11 11100.84(ΣX2)   H0:湖水四个季节氯化物含量的总体均数相等,即μ1=μ2=μ3=μ4   H1:四个总体均数不等或不全相等   α=0.05   先作表19-8下半部分的基础计算。   C= (Σx)2/N=(588.4)2/32=10819.205   SS总=Σx2-C=11100.84-10819.205=281.635   V总=N-1=31      V组间=k-1=4-1=3   SS组内=SS总-SS组间=281.635-141.107=140.465   V组内=N-k=32-4=28   MS组间=SS组间/v组间=141.107/3=47.057   MS组内=SS组内/v组内=140.465/28=5.017   F=MS组间/MS组内=47.057/5.017=9.380   以v1(即组间自由度)=3,v2(即组内自由度)=28查附表19-2,F界值表,得F0.05(3,28)=2.95,F0.01(3,28)=4.57。本例算得的F=9.380>F0.01(3,28),P<0.01,按α=0.05检验水准拒绝H0,接受H1,可认为湖水不同季节的氯化物含量不等或不全相等。必要时可进一步和两两比较的q检验,以确定是否任两总体均数间不等。   资料分析时,常把上述计算结果列入方差分析表内,如表19-9。 表19-9 例19.9资料的方差分析表 变异来源 SS v MS F P 组间 141.170 3 47.057 9.38 <0.01 组内 140.465 28 5.017     总 281.635 31         二、随机区组(配伍组)设计的多个样本均数比较   又称两因素方差分析。把总变异分解为处理间变异、区组间变异及误差三部分。除推断k个样本所代表的总体均数,μ1,μ2,……μk是否相等外,还要推断b个区组所代表的总体均数是否相等。也就是说,除比较多个处理的差别有无统计学意义外,还要比较区组间的差别有无统计学意义。该设计考虑了个体变异对处理的影响,故可提高检验效率。 表19-10随机区组设计的多个样本均数比较的方差分析公式 变异来源 离均差平方和SS 自由度v 均方MS F 总 ΣX2-C N-1     处理间 k-1 SS处理/v处理 MS处理/MS误差 区组间 b-1 SS区组/v区组 MS区组MS误差 误差 SS总-SS处理-SS区组 V总-v处理-v区组 SS误差/v误差     C、k、N的意义同表19-6,b为区组数   例19.10为研究酵解作用对血糖浓度的影响,从8名健康人中抽血并制成血滤液。每个受试者的血滤液被分成4份,再随机地把4份血滤液分别放置0,45,90,135分钟,测定其血溏浓度(表19-11),试问放置不同时间的血糖浓度有无差别?   处理间:   H0:四个不同时间血糖浓度的总体均数相等,即μ1=μ2=μ3=μ4 表19-11 血滤放置不同时间的血糖浓度(mmol/L)   区组号 放置时间(分) 受试者小计 ΣXijj 0 45 90 135 1 5.27 5.27 4.94 4.61 20.09 2 5.27 5.22 4.88 4.66 20.03 3 5.88 5.83 5.38 5.00 22.09 4 5.44 5.38 5.27 5.00 21.09 5 5.66 5.44 5.38 4.88 21.36 6 6.22 6.22 5.61 5.22 23.27 7 5.83 5.72 5.38 4.88 21.81 8 5.27 5.11 5.00 4.44 19.82 ΣXij j 44.84 44.19 41.84 38.69 169.56(ΣX) Ni 8 8 8 8 32(N) Xi 5.6050 5.5238 5.2300 4.8363   ΣX2ij j 252.1996 245.0671 219.2962 187.5585 904.1214(ΣX2)   H1:四个总体均数不等或不全相等   α=0.05   区组间:   H0:八个区组的总体均数相等,即μ1=μ2=……μ8   H1:八个区组的总体均数不等或不全相等   α=0.05   先作表19-11下半部分和右侧一栏的基本计算。   C=(ΣX)2/N=(169.56)2/32=898.45605   SS总=ΣX2-C=904.1214-898.45605=5.66535   V总=N-1=32-1=31   V处理=k-1=4-1=3   V区组=b-1=8-1=7   SS误差=SS总-SS处理-SS区组=5.66535-2.90438-2.49800=0.26297   V误差=(k-1)(b-1)=3×7=21   MS处理=SS处理/v处理=2.90438/3=0.9681   MS区组=SS区组/v区组=2.49800/7=0.3569   MS误差=SS误差/v误差=0.26297/21=0.0125   F处理=MS处理/MS误差=0.9681/0.0125=77.448    F区组=MS区组/MS误差=0.3569/0.0125=28.552   推断处理间的差别,按v1=3,v2=21查F界值表,得F0.005(3,21)=3.07,F0.01(3,21)=4.87,P<0.01;推断区组间的差别,按v1=7,v2=21查F界值表,得F0.05(7,21)=2.49,F0.01(7,21)=3.64,P<0.01。按α=0.05检验水准皆拒绝H0,接受H1,可认为放置时间长短会影响血糖浓度且不同受试者的血糖浓度亦有差别。但尚不能认为任两个不同放置时间的血糖浓度总体均数皆有差别,必要时可进一步作两两比较的q检验。 表19-12 例19.10资料的方差分析表 变异来源 SS v MS F P 处理间 2.90438 3 0.9681 77.448 <0.01 区组间 2.49800 7 0.3569 28.552 <0.01 误差 0.26297 21 0.0125     总 5.66538 31         三、多个样本均数间的两两比较的q检验   经方差分析后,若按α=0.05检验水准不拒绝H0,通常就不再作进一步分析;若按α=0.05甚至α=0.01检验水准拒绝H0,且需了解任两个总体均数间是否都存在差别,可进一步作多个样本均数间的两两比较。两两比较的方法较多,在此仅介绍较常用的q检验(Newman-Keuls法)   公式(19.13)   (各组ni相等) 公式(19.14)   (各组ni不等) 公式(19.15)   式中,xA-xB为两两对比中,任两个对比组A、B的样本均数之差;sxA-xB为两样本均数差的标准误;ni为各处理组的样本含量;nA,nB分别为A、B两对比组的样本含量;MS误差为单因素方差分析中的组内均方(MS组内)或两因素方差分析中的误差均方(MS误差)。   计算的统计量为q,按表19-13所示关系作判断。   例19.11 对例19.9资料作两两比较   H0:任两个季节的湖水氯化物含量的总体均数相等,即μA=μB   H1:任两总体均数不等,即μA≠μB  表19-13 |q| 值、P值与统计结论 α  |q| P值 统计结论 0.05 <q0.05(v.a) >0.05 不拒绝H0,差别无统计学意义 0.05 ≥q0.05(v.a) ≤0.05 拒绝H0。接受H1,差别有统计学意义 0.01 ≥q0.01(v.a) ≤0.01 拒绝H0,接受H1,差别有高度统计学意义   α= 0.05   1.将四个样本的均数由大到小排列编秩,注明处理组。 xi 167.9 159.3 131.9 129.3 处理组 春 夏 秋 冬 秩次 1 2 3 4   2.计算 sxA-xB本例各处理组的样本含量n1相等,按式(19,14)计算两均数差的标准误。已知MS组内=5.017,n=8   3.列两两比较的q检验计算表(表19-14) 表19-14 两两比较的q检验计算表 A与B (1) xA-xB (2) 组数,a (3) q值 (4)=(2)/0.7919 q0.05(v.a) (5) q0.01(v.a) (6) P值 (7) (1)与(4) 38.6 4 48.744 3.85 4.80 <0.01 (1)与(3) 36.0 3 45.460 3.49 4.45 <0.01 (1)与(2) 8.6 2 10.860 2.89 3.89 <0.01 (2)与(4) 30.0 3 37.884 3.49 4.45 <0.01 (2)与(3) 27.4 2 34.600 2.89 3.89 <0.01 (2)与(4) 2.6 2 3.283 2.89 3.89 <0.05   表中第(1)栏为各对比组,如第一行1与4,指A为第1组,B为第4组。第(2)栏为两对比组均数之差,如第一行为X1与X4之差,余类推。第(3)栏为四个样本均数按大小排列时,A、B两对比组范围内所包含的组数a,如第一“1与4”范围内包含4个组,故a=4。第(4)栏是按式(19.13)计算的统计量q值,式中的分母0.7919是按式(19.14)计算出来的SXA-XB。第(5)、(6)栏是根据误差自由度v与组数a查附表19-3q界值表所得的q界值,本例v误差=28,因q界值表中自由度一栏无28,可用近似值30或用内插法得出q界值,本例用近似值30查表,当a=4时,q0.05(30,4)=3.85,q0.01(30,4)=4.80 ,余类推。第(7)栏是按表19-13判定的。   4.结论由表19-14可见,除秋季与冬季为P<0.05外,其它任两对比组皆为P<0.01,按α=0.05检验水准均拒绝H0,接受H1,可认为不同季节的湖水氯化物含量皆不同,春季氯化物含量最高,冬季含量最低。 该文章转载自医学全在线: http://www.med126.com/edu/200712/17245.shtml
个人分类: ANOVA|6887 次阅读|0 个评论
基于样本不同条件的方差分析(ANOVA)及两两比较
Bearjazz 2012-1-12 19:52
基于样本不同条件的方差分析( ANOVA )及两两比较 熊荣川 六盘水师范学院 xiongrongchuan@126.com 通过改变一个实验条件,我们通常会得到几组不同的数据,比如不同的物种的头体长数据。为了比较这些数据之间有没有显著差异,通常需要进行方差分析和之后的两两对比分析( paired comparison or multiple comparison ) 在进行方差分析之前,首先要检验每组数据是否符合正态分布 具体步骤我们以 SPSS 为例演示 为了图文并貌请下载pdf文件观看 基于样本不同条件的方差分析(ANOVA)及两两比较.pdf 附件一 用Spss进行正态分布检验(图)_统计学教程_中生网.mht
个人分类: 我的研究|9453 次阅读|0 个评论
ENVI下生成特定数据的方法与应用
热度 1 dongyanqing 2012-1-5 12:40
ENVI下生成特定数据的方法与应用
ENVI 下根据需要生成特定类型、大小、规律的随机数据。 1. 生成方法 单击 ENVI 主菜单 - ,弹出界面如下 ü 其中第一项中列出可以生成如固定值、水平渐变值、垂直渐变值、均匀分布、正态分布和高斯发散规律。 ü Value 部分则根据不同类型可设置相应的参数。 ü 第二项设置输出文件的大小、行列号和数据类型,第三项则设置输出到磁盘文件或内存中。 2. 应用 问题源自论坛( Esri 中国社区)中的一个需求: “ 我想对影像的纬度求余弦值,但是坐标是本身存在的,不是值,这个该如何做 ” 。 1) 分析 对一影像来讲, ENVI 中只显示了影像的数据值,而经纬度信息是根据头文件内容中的左上角点坐标和分辨率随时计算的,并不单独存为一波段或文件,故无法直接对纬度求余弦值。 2) 解决 问题可分为生成纬度数据和纬度求余弦两步。以 ENVI 自带的 WorldDem 文件为例,操作如下: a) 查看文件的基本信息 在 Available bandlist 中右击打开后文件和 map Info , 可得知,该图像左上角经纬度为 ,大小为 3600*1800 ,分辨率为 。 对应纬度图像应该为大小为 3600*1800 ,分辨率为 0.1 °竖向渐变的图像。 b) 生成纬度数据 利用数据生成工具,对应参数设置如下: 生成图像显示效果如下 与我们的预期效果恰恰相反,故需要在波段运算中进行反转,表达式为 -b1 波段运算后图像为预期得到的纬度数据分布图。 c) 余弦求解 直接波段运算求解。但要注意, cos 函数的输入要求必须是弧度,而咱们的数据是角度,故需要转换下,最终波段运算表达式为 COS(b1*!pi/180) 或 COS(b1*!dtor) 。
个人分类: ENVI|5537 次阅读|1 个评论
关于多重比较的两个疑问~
qibao08 2011-12-19 17:36
1.非正态分布的数据,多重比较怎么实现?(有看到说利用matlab中的两个函数可以,不知是否还有其他方法?) 2.多重比较是否只能比较各处理平均数之间的差异?(可以比较中位数之间的差异吗?) 3.字母标记法的可靠性? 现在的情况是用matlab做了非参数检验及多重比较,可是用字母标记的时候却发现无法标记,问题在哪儿?
5591 次阅读|2 个评论
[转载]利用SPSS检验数据是否符合正态分布
lishumin 2011-12-13 09:47
[转载]利用SPSS检验数据是否符合正态分布
原文地址: 利用SPSS检验数据是否符合正态分布 作者: 夏天 转载自 http://hi.baidu.com/wangyong1518/blog/item/5bd8b0388bbd4ed7d462259c.html 正态分布也叫常态分布,在我们后面说的很多东西都需要数据呈正态分布。下面的图就是正态分布曲线,中间隆起,对称向两边下降。 下面我们来看一组数据,并检验“期初平均分” 数据是否呈正态分布(此数据已在 SPSS 里输入好) 在 SPSS 里执行“分析— 描述统计— 频数统计表” ( 菜单见下图,英文版的可以找到相应位置 ) ,然后弹出左边的对话框,变量选择左边的“期初平均分”,再点下面的“图表”按钮,弹出图中右边的对话框,选择“直方图”,并选中“包括正态曲线” 设置完后点“确定”,就后会出来一系列结果,包括 2 个表格和一个图,我们先来看看最下面的图,见下图, 上图中横坐标为期初平均分,纵坐标为分数出现的频数。从图中可以看出根据直方图绘出的曲线是很像正态分布曲线。如何证明这些数据符合正态分布呢,光看曲线还不够,还需要检验: 检验方法一:看偏度系数和峰度系数 我们把 SPSS 结果最上面的一个表格拿出来看看 ( 见下图 ) : 偏度系数Skewness=-0.333;峰度系数Kurtosis=0.886;两个系数都小于1,可认为近似于正态分布。 检验方法二:单个样本 K-S 检验 在 SPSS 里执行“分析— 非参数检验— 单个样本 K-S 检验 ,弹出对话框,检验变量选择“期初平均分”,检验分布选择“正态分布”,然后点“确定”。 检验结果为: 从结果可以看出,K-S检验中, Z 值为 0.493 , P 值 (sig 2-tailed)=0.9680.05 ,因此数据呈近似正态分布 检验方法三:Q-Q图检验 在 SPSS 里执行“图表— Q-Q 图”,弹出对话框,见下图: 变量选择“期初平均分”,检验分布选择“正态”,其他选择默认,然后点“确定”,最后可以得到 Q-Q 图检验结果,结果很多,我们只需要看最后一个图,见下图。 QQ Plot 中,各点近似围绕着直线,说明数据呈近似正态分布。
个人分类: 专业转载|4 次阅读|0 个评论
IDL中生成随机数
dongyanqing 2011-10-22 21:21
随机数,是数据处理和分析时经常要用到的,也有一篇文章 《 随机数的生成 》 对随机数产生的原理和方法做了简单概述。 IDL 中产生随机数主要有 RANDOMU 和 RANDOMN 两个函数,分别生成均匀分布和正态分布的随机数,参考下各自的帮助,能够生成满足通常状态下任意要求的随机数。 IDL ; 生成 5 个元素的 范围内随机数组,注意 undefinevar 是个未定义变量 IDL print , randomu (undefinevar, 5 ) 0.758868 0.0292860 0.425083 0.375357 0.288495 IDL ; 生成 4*5 的 范围内随机数组 IDL print , randomu (undefinevar, 5 , 4 ) 0.344222 0.732798 0.209895 0.307210 0.534765 0.214072 0.439286 0.681666 0.0401281 0.442817 0.0882233 0.369515 0.800266 0.431608 0.0122711 0.992980 0.564629 0.920463 0.850796 0.331296 IDL ; 生成 2*3 的 范围内浮点随机数组 IDL print , randomu (undefinevar, 3 , 2 )* 100 13.9903 73.1388 7.30314 40.8773 4.95458 25.9772 IDL ; 生成 2*3 的 范围内的整型随机数组 IDL print , fix ( randomu (undefinevar, 3 , 2 )* 255 ) 85 216 247 181 180 83 IDL ; 生成 2*3 的 范围内的长整型随机数组 IDL print , randomu (undefinevar, 3 , 2 ,/long) 1945085313 713527705 771678015 128722589 2010134861 1909949562 IDL ; 生成 范围内的 4 元素随机数组 IDL print , RANDOMN (undefinevar, 4 ) 0.578943 0.561237 -0.391116 -0.0516022 IDL ; 生成 范围内的 3*4 随机数组 IDL print , RANDOMN (undefinevar, 4 , 3 ) 0.770915 0.483093 -0.668937 -0.855310 -0.939424 1.94780 -0.301939 -0.316978 -0.777380 -0.521554 1.52465 0.473643
个人分类: IDL技术|20698 次阅读|0 个评论
正态分布 vs 正规分布
热度 2 liwei999 2011-8-22 17:54
RE: Normal Distribution不能翻译成正规分布,只能是正态分布 术语翻译也是约定俗成 没有对错 作者: 立委 日期: 08/21/2011 12:56:17 中文大家都用正态分布 日语翻译成正规分布 等价的 镜子在中文网站应该遵从大家的约定。 立委兄是只知其一,不知其二。“分布”有各种,“正态”为其一。 作者: mirror (*) 日期: 08/21/2011 18:41:42 当听道 “分布”有各种 的时候,大约有两种反应:标本空间的样本分布和“分布”函数的种类。 各种分布函数里,都有个“矩”的概念。对此,人们大约没有什么“不同意见”。以汉语博大精深,有“矩”而没有“规”很不合“规矩”。因此,需要有个“正规分布”来做表率。如此来理解分布的“规”、分布的“矩”,就能知道什么叫做“分布函数”了。 立委主张“没有对错”是知道有“规”。所谓不知其二,是说不知有“矩”。此乃“分布函数”之规矩也。 有没有之三呢?应该有。“分布函数”之母——母函数。 ---------- 就“是”论事儿,就“事儿”论是,就“事儿”论“事儿”。 RE:如此说来,柯西分布是既不“规”,又无“矩”,且从小就没娘。 当一个分布命名为“柯西”的时候,就是“规”了。矩也是必须要“有”的,但 作者: mirror (*) 日期: 08/21/2011 22:19:11 可以是“不存在”。也就是说,集合必须有,但可以是个“空” 的。 世上只有妈妈好,没妈的孩子象颗草。没有妈的孩子也有,不过是特殊些罢了。 ---------- 就“是”论事儿,就“事儿”论是,就“事儿”论“事儿”。 “态”者,是说集团样本的“态”,“规”者,是说对集团度量的“规”。 作者: mirror (*) 日期: 08/20/2011 10:31:08 因此,作为normal distribution翻译,从统计上看,用“正态”合适 ,从概率上看,用“正规”合适。 ---------- 就“是”论事儿,就“事儿”论是,就“事儿”论“事儿”。 镜老师,定义应该是“共识”的总结,而不是个人的理解。 - shijie 如此的话,也就不可能有“温故知新”了。 - mirror 08/20 10:40
个人分类: 镜子大全|5589 次阅读|2 个评论
不要跟猴子谈素质
热度 10 考槃在涧 2011-5-24 18:39
除了守旧者和别有用心者外,今天对社会进步持有看法的人不外乎两派。 一派讲制度,一派讲文化(素质)。 在文化派里,又可分为复古派、西化派和创造派,不一二足。 这两派基本上公说公有理,婆说婆有理。 道行高一点的,认同文化和制度相互作用,相互影响。 但二者如何相互作用,相互影响, 很少有人能说得清楚。 文化派的核心思想,归到底是认为,一个社会里人的行为主要掌握在自己手里。 思想境界高的就会做好事,思想境界差的就会做坏事; 要想提高全社会素质,得让大家思想境界都提高; 然后才配得上“先进的制度”,或者说,这个国家现在大家的素质,就决定了这个国家只能用这个制度。 说到这里,是不是感觉很熟悉?国情说。 这种说法不见得全错,但是搞混了很多问题。 我提示几点: 一是人智力(可以推论到素质)符合正态分布, 一是人在社会中和他人的交互作用, 一是短板效应。 如果你能自己把这几个问题打通,在这个基础上你才能真正“理性”地去思考社会里文化和制度的相互作用。 一个社会的底限是由道德规定,还是由法律规定? 一个社会的平均水平是由文化规定,还是由制度规定? 有人说,教育啊。 是啊,教育啊。 请问大家,大学扩招了多少年? 现在有多少大学生? 我党的各种保先学习活动有多少? 这几十年来我们的素质提高了没有? 你说,是教育方式不正确, 诚然,这些教育方式都值得商榷, 但是,要采用更先进的教育方式, 你会发现:现有体制不允许! 这就是个死结。 所有把社会发展归结到人的素质,都会是个死结。 实际上,个人素质是微观的,任何个人的行为都可以看成随机行为; 很多人认为文化是驱动因素,实际上,文化是个结果,是个统计结果。 只不过这个结果并不是一位被动罢了。 真正能规定个体行为的只能是制度。 有人又会说,现在不是没有制度,只是这些制度得不到很好的执行罢了。 于是又归结到个人素质和思想境界了。 你看,又是一个死结。 其实,你应该仔细分析,为什么这些制度得不到好执行。 是素质不高,还是一些关键性的,基础性的制度缺失。 举个例子。 国家电网的人说,其实我们不怕电价涨,更不怕电价跌。 如果国家要求我们跌,那好,拿补贴来! 然后人家大小节假奖金照发。 看到没有,为什么执行不好? 换你做国家电网董事长,你该怎么做? 你说,我有魄力,我有人格魅力, 我要求,国家电网的人勒紧裤腰带, 月薪800领低保,降价! 如果你知道国家电网的员工都是谁的太太、儿媳, 你就不会有魄力了。 我不否定个人素质和文化的良好作用, 也不反对任何人在这两方面努力, 但如果你只把希望寄托在这两件事上, 那我告诉你,社会永远都不能进步。 你说,那我们国家不是搞了很多制度吗, 怎么都没用。 你还得要仔细分析, 不论哪个衙门搞的制度, 他们是要真正解决问题吗? 他们都是在打擦边球呢。 人家的出发点, 首先是满足以自己为核心的小群体的利益, 其次是满足自己这个部门的利益; 再次是满足自己部门相关部门的利益; 再再次是鼓捣出个有模有样的东西让领导满意; 再再再次是鼓捣出个有模有样的东西让媒体和公众满意; 人家根本就没有想过解决问题, 逗你玩呢! 你说,这些人的自律太差,素质太低! 奇怪,为什么素质差的人总能当大官呢? 你又会说是文化, 可是奇怪, 在同一个国家, 为什么私企的各部门就不会有这种状况呢? 虽然部门主义,小群体同样存在, 但这些行为都是在一定范围内的,这个范围才是大家常说的文化。 而在这个小范围之外的良好行为, 则是由公司制度和契约规定。 所以说,制度的尺度比文化的尺度更大更严格, 即使在一个大文化氛围里, 小群体的制度也更有制约力。 而在小群体制度制约力的作用下, 小群体会形成有别于大群体的亚文化。 更有甚者, 同一个人, 在A群体会表现出在B群体完全不同的行为, 这也是在相同大文化背景下不同制度的制约力。 所以,用国家安全、民族大义、国情等借口来提某些制度不适合, 才不是屁股决定脑袋呢, 利益决定脑袋罢了。 实际上,关于制度规定行为, 美国有很多实验研究,这些实验研究后来还被拍成电影, 监狱是个有意思的例证。 当然,在任何制度下, 都有坏人和好人, 我说过,这是符合正态分布的, 但是你会发现,一个制度完备的国家, 分布是正偏态的, 也就是“好人”和“正常人”要多一些; 而“小孩”和“思想境界低”的人要少一些。 这也是为什么有国外和国内都呆过的学者说过, 国外也搞政治,但是国内没有底限,国外有。 不要举什么泰国之类的例子, 同样是亚洲小国,同样的儒家文化, 你不看日本韩国新加坡台湾, 你非要看泰国。 你需要考虑的是如何保证制度的完备性(尽可能), 而不是挖空心思去想如何搞一个符合现在国情的制度, 我告诉你,没有。 你想搞的只不过是把早上给猴子4颗栗子晚上3颗,换成早上3颗晚上4颗罢了。 一切类似的探讨都是扯淡, 一切要求通过提高自律来改善现状都是扯淡。 你最多只能要求自己, 当你要求自己的时候,你是圣人, 当你要求别人的时候, 不是你想要这个来忽悠别人保证你的利益,那就说明你是猪头。 不论是谁,院士也好总理也好, 只要这么要求,就符合这个铁律。 说了这么多, 如果你还不明白, 你真的应该先读一些组织行为学、社会心理学和制度经济学相关的书籍。 如果离开这些知识谈这一大类的问题, 基本都是扯淡。 那种认为中国民众是小孩所以应该用种种措施保护起来的观点, 是包含在这一大类扯淡观点之中的。 都是拿着结果当原因, 对着猴子谈素质。
个人分类: 心外有物|5098 次阅读|33 个评论
评“莫让“第一学历”阻碍人才选拔”
热度 6 sarstone 2011-5-6 13:53
这是一个不是问题的问题。首先我们必须承认,第一学历是个人智力和能力筛选的结果,起码的全日制大学本科教育已是低得不能再低的门槛;其次,人才成长和形成也符合统计学正态分布,高智商和全弱智都是极少数;第三,作为选人用人的单位来说,确保大概率地获得可用之才,使用某个标准无可厚非。相反,这种鼓励打碎标准的做法,常常是在为某些滥竽充数者美其名曰地大开方便之门。这在科学领域里是万万使不得的!相反,若是真有才干者,怕也不是个别人力资源经理、或某个单位能埋得住的!所以,恕我冒昧,这更像是个伪命题。 原文转自 http://blog.sciencenet.cn/u/abovesky 包万平   又有一批大学生毕业在即,人才招聘市场更加热闹起来。然而近两年来,一些单位招聘人才时,在提高最高学历要求的同时,也越来越看重“第一学历”,学历查“三代”的做法正在成为人才选拔中的“明规则”。换言之,现在大学生毕业找工作,不但要看硕士、博士学位是不是在名校拿的,还要看大学本科即“第一学历”是否是名校出身,是不是全日制本科等等。   用人单位在选拔人才时,将学历高低作为衡量人才水平的标准无可厚非。追查“第一学历”的做法,在用人单位那里好像也很有“道理”。在他们看来,“第一学历”阶段能受到更好教育的人素质会更高一些,第二、第三学历是弥补不了这种“客观差距”的。但按照这个逻辑,中学毕业的华罗庚、梁漱溟今天恐怕连个小学的讲台都上不了;小学毕业的沈从文能不能在学校里当个保安都是个未知数,更别说是在清华、北大当教授了。客观的现实也印证了这一点,这几年很多研究生不管你有多高的水平,因为“第一学历”的差距在就业路上屡遭挫折,可以说“第一学历”成了不少高材生永远也无法刷掉的人生“缺憾”。   实际上,一个人能否取得成功,与“第一学历”没什么关系。“第一学历”出身好的学生未必都优秀,“第一学历”出身不好的学生未必都是低能儿。再者,如今知识信息更新速度很快,学校学习的知识在大学生毕业时基本上都过时了,学生在校期间学到的只是学习的方法,毕业生能否成功关键要看未来的努力。俗话说“英雄莫问出处”。毕竟“第一学历”和以后的工作是两码事,我想谁也没有能力凭“第一学历”来判定一个人未来事业的成败。   从本质上讲,“第一学历”要求是人为地制造社会歧视和竞争障碍,是对社会公平正义底线的公然挑战。我们知道,我国是一个高等教育大国,但不是高等教育强国,在千余所大学里一流水平的高校只有那么几十所,大部分高校还是一般的普通院校。这些普通大学培养的学生才是社会发展的主体人群,是国家发展的主要推动者和建设者。这种“第一学历”的要求,对我们这样一个有着十几亿人口、亟待需要改革和发展的大国来说,提得过于“奢侈”,也没有丝毫的合理性和必要性。恰恰相反,普通院校里有着极为丰富的人力资源,可能我们苦苦寻找的大师、拔尖人才等就埋藏于其中,用人单位应该创造更多条件从这些一般大学进行人才挖掘。因此,笔者认为用人单位要转变人才价值观,从学历本位转到能力本位上来,取消“第一学历”设限,不拘一格用人才,给普通大学的学生一些机会,或许就会有不一样的收获和惊喜。
个人分类: 时评|3568 次阅读|8 个评论
Matlab中产生正态分布随机数的函数normrnd
hillpig 2011-2-26 17:09
有时候需要产生正态分布的随机数,现转如下: Matlab中产生正态分布随机数的函数normrnd http://www.vcbeta.net/read.php/331.htm R=normrnd(MU,SIGMA) R=normrnd(MU,SIGMA,m) R=normrnd(MU,SIGMA,m,n) 同时配合使用(参考: 在matlab中如何控制数据的输出格式?(完整总结 ) ) format short g 当数据大于1000或小于1时便会以科学记数法显示(-e),若想坚持用整数部分加小数部分的格式来显示,就要再后边加 g 加我私人微信,交流技术。
个人分类: postgresql|20251 次阅读|0 个评论
两个球体中心对撞比人们想像的要难
liwei999 2010-12-6 17:02
两个球体中心对撞比人们想像的要难。看看打台球就可知道 作者: mirror 日期: 12/05/2010 20:51:10 一二。如果是中心对撞,一个球就要停下来,把能量和动量传给另一个球。问题和回答也是这样,能否合拍很是要紧的。所问非所答 也是个技巧,可以岔过很多尴尬的、或不愿意回答的问题。 科网上有人问 为什么会是正态分布? 对此问有访客应贴:概率当中有大数定理和中心极限定理。王老师回复说:这两个定理我学过,但是他们没有解释为什么。 这个问题的答案应该从物理学中找,而不是数学。最直接的说法应该是来自几率的分布函数比例与exp(-E/T)。这里的E是状态的能量,T是系统的温度。状态能量对坐标的表述一般是二次形式。所以就出现了正态分布。为什么是exp(-E/T)?这个问题统计力学里有交待。 严格地说,日常生活中正态分布的现象比较少。因为一个集团现象中的成员不是统计力学所说的那样的量级。金融现象就更不是正态分布的事儿了。 难怪女人们都说好男人都死光了,见不到优秀的男人。因为这个事情不是正态分布,都是变态分布。 物理上认为,有一种相互作用的关系即决定了一个分布函数。从此观点看土壤中的水份, Quote 土壤水分主要受降水和蒸发都因素的影响。由于一个地区的降雨量和蒸散发在一直变化,且有时候变化剧烈,导致土壤水分的概率分布呈现多峰(图2) 的说法就很不入流了。这个图的标准分析是对应着样品土壤中三种典型的团粒结构。为了证实这个推测,就可以利用各种分析手段。这就是科学了。 王老师心里有矛盾: Quote 这种解释我个人觉得比较合理。但是主观性比较强,如果要更客观地去解释这种现象,还需要提出某种比较合理的理论。 能有这个自省很是要紧,因为我个人觉得比较合理一般都是要被否定的。 为什么要有老师呢?就是可以订正这类不着四六的胡思乱想。不要轻信别人说有意思。那就是种客套话。 这个思路也不是很好。 Quote 假设北京市建筑物的高度70%集中在50-100m之间,为什么会是50-100m这个和北京市的社会经济发展水平、人口数量及地质条件等因素有关。也就是说变量所处的外部环境因素决定了变量值的集中范围。 或者就是作者没有明白自己在表达着什么。如果真是变量所处的外部环境因素决定了变量值的集中范围的话,只能说明是变量选错了。直接选那个外部环境因素作变量就是了。 ---------- 就是论事儿,就事儿论是,就事儿论事儿。
个人分类: 镜子大全|2858 次阅读|1 个评论
为什么会是正态分布?
热度 3 doniao 2010-12-4 20:53
做过统计分析的人都知道,某变量的值在随机取样的情况下一般服从正态分布。在分析变量之间的显著性差异和进行方差分析等经验统计分析时都要求变量服从或者近似正态分布(对数正态分布)。这是因为变量的统计分析基本上都是以变量的正态分布为基础进行的。既然是统计,一般来说都是经验的,缺乏一定的理论依据。因此,许多人都有这样的疑惑,在没有人为干扰下,变量的分布为什么会是正态的呢? 首先简单介绍一下正态分布的概念和性质。 正态分布是一种概率分布,又叫高斯分布(图1)。高斯等人对正态分布进行了推导并发现了正态分布的相关性质。其中一个主要性质就是正态分布以变量均值u为轴成对称分布,均值所对应的概率最大,向两边对称减小。这句话也可以这样理解,在一次取样中,某变量的大部分值集中在变量均值附近,其余一小部分值与均值相差较大。正态分布在英语中叫normal distribution。说明变量的这种分布是正常分布。为什么大部分变量值会集中在其均值附近呢?想一想我们生活中的遭遇,看一看我们周围正在发生的事,我们会很吃惊地发现我们生活中很多事物和事情都是这样。比如社会上大多数人的收入和财产处于平均水平,富人是少数,穷人也是少数。再比如社会上大多数人的相貌平平,只有少部分相貌出众,当然也有部分人相貌丑陋。生物界是这样,非生物界亦如此;植物界是这样,动物界同样如此。 其实,自然条件下由于受众多因素影响,变量的分布不会是均匀分布。既然不是均匀分布,就会出现变量值的相对集中,变量就可能会呈现如正态分布那样的单峰分布。其实我们的疑问更多是为什么大多数变量会集中在那个值附近,以及为什么是单峰而不是多峰分布?对于第一个疑问,要具体问题具体分析。打个比方,假设北京市建筑物的高度70%集中在50-100m之间,为什么会是50-100m这个和北京市的社会经济发展水平、人口数量及地质条件等因素有关。也就是说变量所处的外部环境因素决定了变量值的集中范围。对于第二个疑问,为什么不是多峰。这可能也是由变量所处的外部环境决定。如果外部环境处于相对稳定的状态,那么其分布就不会是多峰型。而如果其外部环境经常变化,则其分布就可能是多峰型。以我所研究的土壤水分为例,土壤水分主要受降水和蒸发都因素的影响。由于一个地区的降雨量和蒸散发在一直变化,且有时候变化剧烈,导致土壤水分的概率分布呈现多峰(图2)。这种解释我个人觉得比较合理。但是主观性比较强,如果要更客观地去解释这种现象,还需要提出某种比较合理的理论。我希望借此抛砖引玉,和感兴趣的网友进行交流。 图1 正态分布图 图2 土壤水分概率分布图
个人分类: 科学狂想曲|25517 次阅读|7 个评论
离散化正态分布熵的matlab计算
zhixianghust 2010-11-6 11:56
1,正态分布的概率密度函数: ; 2,正态分布的熵(连续概率密度的熵): ; 3,离散化的正态函数,设L为最小分辨区间, 以 为中心向左右划分网格,两边对称,第n个网格中心对应的概率密度为: ; 目标落在该格点中的概率P(n)为 f(n) 与L的乘积。 另外,P(n)也可由下式计算: . 4. 离散化正态分布的熵: 。 显然H(n)的值与L选取的大小有关, 例如当L-0, 则H(n)较大, 但当L较大,使得目标以极大的根率落在一两个格点内,则熵显然很小,i.e.,-log1=0, 或-2*0.5*log1/2=0.693; 因此,为逼近连续正态分布概率密度的熵,则需较小的网格划分。 5,matlab数值计算 取方差为1,均值为0,以下为计算代码。注意到 % entropy clc,clear; % entropy of H(x) Sigma=1; Hx = log(2*pi)+1+log(Sigma); F = @(x)1./sqrt(2*pi).*exp(-x.^2/2); for k = 1:300 L(k)=k/100; for n = 1:100 % n (below) is big enough. =quad(F,(n-1)*L(k),n*L(k),1e-5,0); if P(n)0 Hn(n)=-P(n)*log(P(n)); else Hn(n)=0; end end HnSum(k)=2*sum(Hn); end plot(L,HnSum); 以下两图为计算结果, 上图显示当L足够大时,熵最终减小为0.693, 没有减小为0的原因是我们采用了对称的划分方法, 使目标无论如何都有2选1的不确定度. 当L越小, 熵不一定越大, 这在第二张图可以体现. 当方差根为2时,也可绘出类似第二张图的曲线,因此,正态分布离散化熵的计算需统一划分尺度,否则不可比较。
个人分类: 个人研究笔记|3197 次阅读|1 个评论
SPSS中的参数检验(一)
热度 1 xiezilai 2010-9-16 19:30
题外话:很多时候,都是以为自己真懂 SPSS中的参数检验,样本要服从正态分布。SPSS中进行正态分布检验的常用方法是通过P-P图或Q-Q图来完成。 SPSS中的参数检验包括: 1. 单样本t检验(Analyze - Compare Means - One-Sample T Test) 注:方差未知的均值检验,操作极其简单,输入检验变量和均值即可。 2. 独立样本t检验(Analyze - Compare Means - Independent-Samples T Test) 注:方差未知的两个独立样本的均值检验。操作也很简单,在设置分组变量时一般直接指定。结果表中的F是方差齐性检验,如果其Sig.大于0.1,则认为两者方差没显著性差异;如果方差齐性检验通不过,则使用结果表中的最后一行进行检验。 3.配对样本t检验(Analyze - Compare Means - Paired-Samples T Test) 注:方差未知的两个相关样本的均值检验。操作时选定俩变量即可。独立样本t检验跟配对样本t检验的区别在于:前者是两批对象之间比较,后者是一批对象自己比较。 4.单因素方差分析(Analyze - Compare Means -One-Way ANOVA) 注:对单因素多个独立样本均值进行比较,统计量实质上是因素水平间离差平方和与因素水平内离差平方和的份额。 参数说明: a)Contrasts按钮,用于设置均值的多项式比较,可以同时建立多个多项式; b)Post Hoc按钮,指验后多重比较,用于设置多重比较和配对比较。方差分析一旦确定各组均值间存在显著差异,多重比较检测可以求出均值相等的组;配对比较可找出和其它组均值有差异的组,并输出显著性水平为0.95的均值比较矩阵,在矩阵中用星号表示有差异的组。其中,方差齐性时, LSD (Least-significant difference) 最小显著差数法,用t检验完成各组均值间的配对比较,对多重比较误差率不进行调整。 Bonferroni (LSDMOD) 用t检验完成各组间均值的配对比较,但通过设置每个检验的误差率来控制整个误差率。 Sidak 计算t统计量进行多重配对比较,可以调整显著性水平,比Bofferroni方法的界限要小。 Scheffe 对所有可能的组合进行同步进入的配对比较,这些选择项可以同时选择若干个。以便比较各种均值比较方法的结果。 R-E-G-WF (Ryan-Einot-Gabriel-Welsch F) 用F检验进行多重比较检验。 R-E-G-WQ (Ryan-Einot-Gabriel-Welsch range test) 正态分布范围进行多重配对比较。 S-N-K (Student-Newmnan-Keuls) 用Student Range分布进行所有各组均值间的配对比较。如果各组样本含量相等或者选择了Harmonic average of all groups即用所有各组样本含量的调和平均数进行样本量估计时还用逐步过程进行齐次子集(差异较小的子集)的均值配对比较。在该比较过程中,各组均值从大到小按顺序排列,最先比较最末端的差异。 Tukey (Tukey's,honestly signicant difference) 用Student-Range统计量进行所有组间均值的配对比较,用所有配对比较误差率作为实验误差率。 Tukey's-b 用stndent Range分布进行组间均值的配对比较。其精确值为前两种检验相应值的平均值。 Duncan (Duncan's multiple range test) 新复极差法(SSR),指定一系列的Range值,逐步进行计算比较得出结论。 Hochberg's GT2 用正态最大系数进行多重比较。 Gabriel 用正态标准系数进行配对比较,在单元数较大时,这种方法较自由。 Waller-Dunca 用t统计量进行多重比较检验,使用贝叶斯逼近。 Dunnett 指定此选择项,进行各组与对照组的均值比较。默认的对照组是最后一组。选择了该项就激活下面的Control Category参数框。展开下拉列表,可以重新选择对照组。 Test框中列出了三种区间分别为:双边检验、Control 左边检验、Conbo1右边检验。 方差不齐次性, Tamhane's T2, t检验进行配对比较。 Dunnett's T3,采用基于学生氏最大模的成对比较法。 Games-Howell,Games-Howell比较,该方法较灵活。 Dunnett's C,采用基于学生氏极值的成对比较法。 c)Options按钮。 Homogeneity-of-variance ,要求进行方差齐次性检验,并输出检验结果。 (参数说明部分的内容摘自网络)
个人分类: SPSS学习|16331 次阅读|0 个评论
统计分析 无处不在(091110)
ymin 2009-11-9 15:03
统计分析 无处不在(091110) 闵应骅 对于纳米集成电路,线宽可能只有4个原子。多一个或少一个原子,误差就是20-25%。所以,生产过程的变差必须考虑。而这种变差是随机的。随机的东西也有规律,那就是概率。概率是波内尔集上的一种测度,它有很严格的理论基础。一个随机变量可以有分布,也可以没有分布。最简单而直观的分布是正态分布,其密度函数对称地分布在均值的两边,均值和方差两个参数就可以完全地表征它。大数定律表明,许多微小的相互独立的因素影响该随机变量,它就可能是正态分布。但是,许多随机变量并不是正态分布的。而且,可以解析表达的分布函数并不多。而统计分析恰恰是基于概率论的,而且大多是基于假设母体是服从正态分布的。但常常不加声明。 统计分析在自然科学和技术领域得到广泛应用,在社会科学中更是无处不在。你打开报纸,上面几乎所有的数字都是统计出来的。就拿GDP来说,这是出现频率很高的字眼,也是大家最关心的。我们来看看GDP的定义。GDP(gross domestic product)即国内生产总值。一般认为, GDP = 个人消费 + 投资总额 + 政府支出 + (出口-进口) 这些参数,没有一个是绝对准确的,都是统计出来的。统计就很有学问了。 统计是一门学问,理论、方法很多。但是,我们一般做统计要经过四个基本步骤,即设计、搜集资料、整理资料和分析资料。其中采集样本是最关键的一步,采多少样,到哪里去采样。在社会、经济领域,就是找多少人采样、找一些什么人做采样,可能结果就完全不同。譬如说,电视剧的收视率、某一个电视栏目的收视率,常常很快就可以出来,我不知道他们是怎么采样的。找多少人可以得出xx.x%的收视率。最近,国内一个学会做了一次学会满意度调查,出了许多统计图表,包括身份分析、职业分析、学历分析、职称分析、满意度等等,说明93%人对学会通讯表示满意。全是百分数。但是没有提供:你调查了多少人、得到多少回复?如果调查发出的问卷不够多,则没有代表性。如果回复的比例不大,说明会员对你的调查兴趣不大。就像各国总统选举,一定要说明,投票率是多少,太少了不行。在统计设计阶段,关键是要确定这次统计的目的是什么。统计的目的应该是为了了解客观情况,而不是为自己的某一种观点做注解、做证明,甚至是先有预期的统计结果,再去做统计。 统计既是一门学问,也是适用价值很高的技术,统计分析则更是与社会科学、经济学等紧密相关。在美国,学数学、理论物理的人很难到找工作,而学统计的人,工作很好找。我国现在各行各业都在运用统计分析,用数字说话。这比空话、大话好得多。但是,统计过程看来需要更加透明。那样就会更有说服力。
个人分类: 杂谈|4373 次阅读|0 个评论
中心极限定理之二
zhouda1112 2009-7-17 13:00
正态分布(Normal distribution)大家都很熟悉,应该是概率论中,知名度最高的名词之一。 每一位接触过概率论的朋友都能说出一点关于正态分布的东西,翻看任何一本概率或者统计的书籍,都少不了对它的介绍。有关它的基本知识,可以参阅WIki百科或者百度百科,搜索一下就可以了。 正态分布的故事很多,从数学里最专门的调和分析到时下最时髦的和谐社会,吹吹正态分布的牛很容易。 这里我想讲这么几个问题,希望能有点新意。 1、正态分布的密度函数exp(-x^2)是唯一的一个傅立叶变换不变函数。用概率论的语言讲,就是正态分布的密度函数跟它的特征函数(characteristic function)形式一致,而且只有正态分布具有这样的性质。傅立叶变换的数学及其应用价值不言而喻,而exp(-x^2)这个量因其优美的不变性,在其中扮演了核心角色。 2、正态分布是轻尾的。明显,exp(-x^2)随着x的增加,会下降很快。用直观的语言讲,符合正态分布的群体,绝大部分个体是集中在中庸附近,太极端的个体非常少。这很好的符合了很多自然和社会现实。不过,有越来越多的研究者去关注厚尾现象,特别是复杂性的一些工作。比如scale-free网络就是厚尾的,即网络中度很大的节点数目其实还不少。 3、正态分布是无穷可分(infinitely devisible)的。无穷可分是概率极限理论的一个专门概念。粗略地讲,我们关心那些可能成为某一串随机变量极限的分布,都具备什么样的特点?比如,大家知道中心极限定理是一串随机变量收敛到正态分布;还有一种叫poisson收敛,就是二项分布在某种条件下会收敛到poisson分布。教科书里都有介绍。那么正态分布和poisson分布有何种共性?无穷可分性非常好的回答了这个问题。相关内容可参看Durrett的教材第二章。
个人分类: 概率论问题讨论|7236 次阅读|0 个评论
中心极限定理之一(总则)
zhouda1112 2009-7-10 09:56
从本次开始,将用几次机会跟大家讨论概率论中又一个超重量级的话题:中心极限定理。 跟大数定律一样,中心极限定理的内容非常庞大。不夸张地说,中心极限定理所涉及的概念内容极其延伸,几乎撑起了概率论的半边天。一方面,它能深入到概率论,乃至纯数学最核心的部位(如调和函数);另一方面,它又被广泛应用,哪怕是最实用的工程。 限于个人学识,我只能尽力跟大家讨论中心极限定理的小部分内容,期望对大家有所帮助。 个人计划分次介绍如下内容: 1、正态分布 2、独立同分布随机变量序列的中心极限定理 3、不变原理 4、应用思路 自然,这四部分不可能涵盖中心极限定理的庞大内容,但是我想,基于了解的目的,这四部分内容或许能起到抛砖引玉的作用,方便大家后续学习。
个人分类: 概率论问题讨论|6680 次阅读|1 个评论
生物统计学习笔记—概率与概率分布
wangzhong 2009-3-1 16:53
随机事件(random event):某些确定条件下,可能出现也可能不出现的现象。 频率(frequency):事件A在n次重复试验中发生了m次,则m/n即为事件A发生的频率, 。 概率(probability):事件A在n次重复试验中发生了m次,当试验次数n不断增大时,A发生的频率W(A)就越来越接近某一确定值p,则定义p为事件A发生的概率,P(A)=p。 。 常见的随机变量概率理论分布:离散型变量的概率分布(二项分布、泊松分布)和连续型变量的概率分布(正态分布)。 二项分布 (binomial distribution):非此即彼事件的概率分布。每次试验的两个对立的结果的概率分别为p和q(q=1-p)。若事件A在n次试验中发生的次数为x,则x=0,1,2,...,n,其概率分布函数P(x)为: 泊松分布 (Poisson distribution):事件出现的概率(p值)很小,而样本容量或试验次数(n值)很大时的二项分布。其概率分布函数P(x)为: ,其中, =np,x=0,1,2,...。np无限增大时,泊松分布逼近正态分布 ;当二项分布的p0.1和np5时,可用泊松分布来近似。 正态分布 (normal distribution):即高斯分布(Gauss distribution)。许多生物现象的计量资料均近似服从这种分布,试验误差的分布一般服从于这种分布。正态分布记为 ,表示具有平均数 ,方差为 的正态分布。其概率分布函数为: ,表示某一定x值出现的概率密度函数值, 为总体平均数, 为总体标准差, 为圆周率,e为自然对数底,近似值为2.71828。 正态分布中, 决定了分布曲线的中心位置, 则决定了分布曲线的变异度(正态分布曲线的展开程度)。令 =0, =1可将正态分布标准化,即标准正态分布N(0,1),也叫u分布。 ,u称为标准正态离差,表示离开平均数有几个标准差。其概率密度函数为: 标准正态分布的概率累计函数记作F(u),表示变量u小于某一定值u i 的概率。 对于u落在区间 正态分布的概率计算 :将服从正态分布的随机变量x取值区间的上、下限按 转换,查询正态分布的累积函数F(u)值表即可。 例:计算P(|x| +2.58 ) 根据 ,u=2.58,则P(|x| +2.58 )=P(|u|2.58)=P(u2.58)+P(u-2.58)=1-F(u=2.58)+F(u=-2.58)=1-0.99506+0.00494=0.00988。 正态离差u值表可得知两尾概率取某一值时的u临界值,如P=0.05时,u=1.9600,P=0.01时,u=2.5758。
个人分类: 资料积累|7954 次阅读|1 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-18 18:24

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部