科学网

 找回密码
  注册

tag 标签: 正态分布

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

[转载]水文频率曲线线型
caffery 2012-6-29 22:26
转载: http://jpkt.whu.edu.cn/jpkc2008/gcswx/swx/cc/hydrology04/4_4.htm 4.4 水文频率曲线线型 内容提要: 正态分布,对数正态分布,皮尔逊Ⅲ型分布,经验频率曲线 学习要求: 1.了解正态分布、对数正态分布的形式和特点;2.掌握皮尔逊Ⅲ型分布的形式、特点及其频率曲线的绘制方法;3.掌握经验频率曲线的特点及其绘制方法。 水文分析计算中使用的概率分布曲线俗称水文频率曲线,习惯上把由实测资料(样本)绘制的频率曲线称为经验频率曲线,而把由数学方程式所表示的频率曲线称为理论频率曲线。所谓水文频率分布线型是指所采用的理论频率曲线(频率函数)的型式(水文中常用线型为正态分布型、极值分布型、皮尔逊Ⅲ型分布型等),它的选择主要取决于与大多数水文资料的经验频率点据的配合情况。分布线型的选择与统计参数的估算,一起构成了频率计算的两大内容。 4.4.1 正态分布 1、正态分布的密度函数及其参数 正态分布具有如下形式的概率密度函数: (-∞﹤x﹤+∞) (4-4-1) 式中 - 平均数; σ - 标准差; e - 自然对数的底。 2、频率格纸 正态频率曲线在普通格纸上是一条规则的S形曲线,它在P=50%前后的曲线方向虽然相反,但形状完全一样,如图4-4-2中的①线。水文计算中常用的一种"频率格纸",其横坐标的分划就是按把标准正态频率曲线拉成一条直线的原理计算出来的,如图4-4-2中的②线。 图4-4-1 正态分布密度曲线 图4-4-2 频率格纸横坐标的分割(说明:先绘出曲线,再显示出箭头并闪动,最后绘出曲线。) 4.4.2 对数正态分布 当随机变量x的对数值服从正态分布时,称x的分布为对数正态分布。对于两参数正态分布而言,变量x的对数 y = ln x 服从正态分布时,y的概率密度函数为: (-∞﹤y﹤+∞)(4-4-2) 式中 a y - 随机变量y的数学期望; σ y 2 - 随机变量y的方差。 由此可得到随机变量x的概率密度函数: (x﹥0) (4-4-3) 式(4-4-3)的概率密度函数包含了a y 和σ y 两个参数,故称为两参数对数正态曲线。 因x = ey,故式(4-4-3)又可写成: (4-4-4) 由矩法可以得到各个统计参数,即: (4-4-5) (4-4-6) (4-4-7) 所以,两参数对数正态分布是正偏的。 4.4.3 皮尔逊Ⅲ(P-Ⅲ)型曲线 1、皮尔逊Ⅲ型曲线的概率密度函数 皮尔逊Ⅲ型曲线是一条一端有限一端无限的不对称单峰、正偏曲线(见图4-4-3),数学上常称伽玛分布,其概率密度函数为: (4-4-8) 式中:Γ(α)―α的伽玛函数; α、β、a0―分别为皮尔逊Ⅲ型分布的形状尺度和位置未知参数, α﹥0, β﹥0 。 图4-4-3 皮尔逊Ⅲ型概率密度曲线 显然,三个参数确定以后,该密度函数随之可以确定。可以推论,这三个参数与总体三个参数 、Cv、CS具有如下关系: (4-4-9) 2、皮尔逊Ⅲ型频率曲线及其绘制 水文计算中,一般需要求出指定频率P所相应的随机变量取值xp,也就是通过对密度曲线进行积分,即: (4-4-10) 求出等于及大于xp的累积频率P值。直接由式(4-4-10)计算P值非常麻烦,实际做法是通过变量转换,变换成下面的积分形式: (4-4-11) 式(4-4-11)中被积函数只含有一个待定参数CS,其它两个参数 、Cv都包含在 中。 ,x是标准化变量, 称为离均系数。 的均值为0,标准差为1。因此,只需要假定一个CS值,便可从式(4-4-11)通过积分求出 与 之间的关系。对于若干个给定的C S 值, 的对应数值表,已先后由美国福斯特和前苏联雷布京制作出来,见附表1"皮尔逊Ⅲ型频率曲线的离均系数 值表"。由 就可以求出相应频率 的x值: (4-4-12) 附表1 皮尔逊Ⅲ型频率曲线的离均系数 值表(摘录) P(%)Cs 0.1 1 5 20 50 80 95 99 99.9 0.0 3.09 2.33 1.64 0.84 0.00 -0.84 -1.64 -2.33 -3.09 0.1 3.23 1.67 2.0 0.84 -0.02 -0.85 -1.62 -2.25 -2.95 0.2 3.38 2.47 1.70 0.83 -0.03 -0.85 -1.59 -2.18 -2.81 0.3 3.52 2.54 1.73 0.82 -0.05 -0.85 -1.55 -2.10 -2.67 0.4 3.67 2.62 1.75 0.82 -0.07 -0.85 -1.52 -2.03 -2.54 0.5 3.81 2.68 1.77 0.81 -0.08 -0.85 -1.40 -1.96 -2.40 0.6 3.96 2.75 1.80 0.80 -0.10 -0.85 -1.45 -1.88 -2.27 0.7 4.10 2.82 1.82 0.79 -0.12 -0.85 -1.42 -1.81 -2.14 0.8 4.24 2.89 1.84 0.78 -0.13 -0.85 -1.38 -1.74 -2.02 0.9 4.39 2.96 1.86 0.77 -0.15 -0.85 -1.35 -1.66 -1.90   4.53 3.02 1.88 0.76 -0.16 -0.85 -1.32 -1.59 -1.79 3、皮尔逊Ⅲ型频率曲线的应用 在频率计算时,由已知的C S 值,查 值表得出不同的P的 值,然后利用已知的 、C V ,通过式(4-4-12)即可求出与各种P相应的 值,从而可绘制出皮尔逊Ⅲ型频率曲线。 当C S 等于C V 的一定倍数时,P-Ⅲ型频率曲线的模比系数K P = ,也已制成表格,见附表2"皮尔逊Ⅲ型频率曲线的模比系数K P 值表"。频率计算时,由已知的C S 和C V 可以从附表2中查出与各种频率P相对应的K P 值,然后即可算出与各种频率对应的 =K P 。有了P和 的一些对应值,即可绘制出皮尔逊Ⅲ型频率曲线。 附表2 皮尔逊Ⅲ型频率曲线的模比系数KP值表 (摘录,C S = 2C V ) P(%)Cs 0.1 1 5 20 50 75 90 95 99 0.05 1.16 1.12 1.08 1.04 1.00 0.97 0.94 0.92 0.89 0.10 1.34 1.25 1.17 1.08 1.00 0.93 0.87 0.84 0.78 0.20 1.73 1.52 1.35 1.16 0.99 0.86 0.75 0.70 0.59 0.30 2.19 1.83 1.54 1.24 0.97 0.78 0.64 0.56 0.44 0.40 2.70 2.15 1.74 1.31 0.95 0.71 0.53 0.45 0.30 0.50 3.27 2.51 1.94 1.38 0.92 0.64 0.44 0.34 0.21 0.60 3.89 2.89 2.15 1.44 0.89 0.56 0.35 0.26 0.13 0.70 4.56 3.29 2.36 1.50 0.85 0.49 0.27 0.18 0.08 0.80 5.30 3.71 2.57 1.54 0.80 0.42 0.21 0.12 0.04 0.90 6.08 4.15 2.78 1.58 0.75 0.35 0.15 0.08 0.02 1.00 6.91 4.61 3.00 1.61 0.69 0.29 0.11 0.05 0.01 4.4.4 经验频率曲线 上述各种频率曲线是用数学方程式来表示的, 属于理论频率曲线。在水文计算中还有一种经验频率曲线, 是由实测资料绘制而成的, 它是水文频率计算的基础, 具有一定的实用性。 1、经验频率曲线的绘制 根据实测水文资料,按从大到小的顺序排列,如图4-4-4所示,然后用经验频率公式计算系列中各项的频率,称为经验频率。以水文变量x为纵坐标,以经验频率 为横坐标,点绘经验频率点据,根据点群趋势绘出一条平滑的曲线,称为经验频率曲线,图4-4-5为某站年最大洪峰流量经验频率曲线。有了经验频率曲线,即可在曲线上求得指定频率 的水文变量值 。 图4-4-4 水文系列按大小排列示意图 对经验频率的计算,目前我国水文计算上广泛采用的是数学期望公式: (4-4-13) 式中 p - 等于和大于x m 的经验频率; m - x m 的序号,即等于和大于x m 的项数; n - 系列的总项数。 2、经验频率曲线存在的问题 经验频率曲线计算工作量小,绘制简单,查用方便,但受实测资料所限,往往难以满足设计上的需要。为此,提出用理论频率曲线来配合经验点据,这就是水文频率计算适线(配线)法。 图4-4-5 某站年最大洪峰流量经验频率曲线 4.4.5 频率与重现期的关系 频率曲线绘制后,就可在频率曲线上求出指定频率p的设计值x p 。由于"频率"较为抽象,水文上常用"重现期"来代替"频率"。所谓重现期是指某随机变量的取值在长时期内平均多少年出现一次,又称多少年一遇。根据研究问题的性质不同,频率P与重现期T的关系有两种表示方法。 1、当为了防洪研究暴雨洪水问题时,一般设计频率P<50%,则: (4-4-14) 式中:T――重现期,年; ――频率,%。 (2)当考虑水库兴利调节研究枯水问题时,设计频率P>50%,则 (4-4-15) 复习思考题 1、选择题 在水文频率计算中,我国一般选配皮尔逊III型曲线,这是因为 。 a、已从理论上证明它符合水文统计规律; b、已制成该线型的Φ值表供查用,使用方便; c、已制成该线型的k p 值表供查用,使用方便; d、经验表明该线型能与我国大多数地区水文变量的频率分布配合良好。 【 答案 】 百年一遇洪水,是指 。 a、大于等于这样的洪水每隔100年必然会出现一次; b、大于等于这样的洪水平均100年可能出现一次; c、小于等于这样的洪水正好每隔100年出现一次; d、小于等于这样的洪水平均100年可能出现一次; 【 答案 】 正态频率曲线绘在频率格纸上为一条 。 a、直线; b、S型曲线; c、对称的铃型曲线; d、不对称的铃型曲线。 【 答案 】 如图4-1-4,为两条皮尔逊III型频率密度曲线,它们的Cs 。 a、Cs1﹤0,Cs2﹥0; b、Cs1﹥0,Cs2﹤0; c、Cs1﹦0,Cs2﹦0; d、Cs1﹦0,Cs2﹥0。 【 答案 】 图4-1-4 皮尔逊III型频率密度曲线 如图4-1-5,为不同的三条概率密度曲线,由图可知 。 a、Cs1 >0,Cs2 <0,Cs3=0; b、Cs1 <0,Cs2 >0,Cs3=0; c、Cs1 =0,Cs2 >0,Cs3<0; d、Cs1 >0,Cs2 =0,Cs3<0; 【 答案 】 图4-1-5 概率密度曲线 2、是非题 我国在水文频率分析中选用皮尔逊III型曲线,是因为已经从理论上证明皮尔逊III型曲线符合水文系列的概率分布规律。 【 答案 】 正态频率曲线在普通格纸上是一条直线。 【 答案 】 皮尔逊III型频率曲线在频率格纸上是一条规则的S型曲线。 【 答案 】 在频率曲线上,频率P愈大,相应的设计值x p 就愈小。 【 答案 】 3、简答题 皮尔逊III型概率密度曲线的特点是什么? 何谓离均系数Φ?如何利用皮尔逊III型频率曲线的离均系数Φ值表绘制频率曲线? 何谓经验频率?经验频率曲线如何绘制? 重现期(T)与频率(P)有何关系?P=90%的枯水年,其重现期(T)为多少年?含义是什么?
9441 次阅读|0 个评论
[转载]MATLAB产生随机噪声的函数
huozhenhua 2012-4-26 09:44
rand(M,N):产生(0,1)均匀分布的M*N随机数矩阵 (^y旁澘Ld? randn(M,N):产生N(0,1)的正态分布的M*N随机数矩阵 E#E?涮\u0010? random(Name,A,B,C,M,N):产生各种分布的M*N随机数矩阵,其中,Name为分布名称,包 ?z?R}盫B 括:'beta' or 'Beta', 'bino' or 'Binomial', 'chi2' or 'Chisquare','exp' or ' v铛\u001B? 设某个随机变量x均值为mu,方差为var^2,若要产生同样分布的随机变量y,但使新的随 園na_?帝% 机变量参数改变,均值为mu_1,方差为var_1^2,可以用如下公式进行变换: ㄅ?嵘*hr\u0019 y=var_1/var*(x-mu)+mu_1,其中x为随机变量,其余为常数(原分布参数)。 Z?K!f!_\u0001? 具体到正态分布,若要产生均值为u,方差为o^2的M*N的随机数矩阵,可以用 0讴?_5nc? y=o*randn(M,N)+u得到。 ??K\u0006g8議 对于均匀分布,若要产生 区间的均匀分布的M*N的随机数矩阵,则可以用 ??鄋P迳\u0007 y=rand(M,N)*(b-a)+a得到。 w戌?驔ov; 6荦???" 3. 其它的分布与重要函数 簿匩QA@蔑? 主要参考Matlab的统计工具箱stats 嚙麭潶LuI/ 生成概率密度分布函数的值:y=pdf('name',x,a1,a2,a3);累积分布函数:cdf;逆累积 E妹??%? 分布函数:icdf。 \u0005\u0004愮袗X2鋘 随机数产生函数:一般为随机数分布的英文名称加后缀rnd,如正态分布normrnd(mu,si 驴函袟︵\u0007? gma),二项分布binornd(n,p),对数正态分布lognrnd(mu,sigma),几何分布geornd(p) 瓅謃鎛C@? ,指数分布exprnd(mu),泊松分布poissrnd(lamda),瑞利分布raylrnd(B)等等。 燪駾抻?獯 参数估计:正态分布参数估计normfit,指数分布的参数估计expfit,最大似然估计mle d挠4\u00057?? 擄?侩巸 O 数字特征:均值mean,中值median,方差var,标准差std,任意阶中心矩moment,协方 rw债+ ?轮 差cov,相关系数corrcoef
个人分类: matlab|12809 次阅读|0 个评论
[转载]方差分析(analysis of variance,ANOVA)
linpandr 2012-4-13 15:46
  方差分析(analysis of variance,简写为ANOV或ANOVA)可用于两个或两个以上样本均数的比较。应用时要求各样本是相互独立的随机样本;各样本来自正态分布总体且各总体方差相等。方差分析的基本思想是按实验设计和分析目的把全部观察值之间的总变异分为两部分或更多部分,然后再作分析。常用的设计有完全随机设计和随机区组设计的多个样本均数的比较。   一、完全随机设计的多个样本均数的比较   又称单因素方差分析。把总变异分解为组间(处理间)变异和组内变异(误差)两部分。目的是推断k个样本所分别代表的μ1,μ2,……μk是否相等,以便比较多个处理的差别有无统计学意义。其计算公式见表19-6。 表19-6 完全随机设计的多个样本均数比较的方差分析公式 变异来源 离均差平方和SS 自由度v 均方MS F 总 ΣX2-C* N-1     组间(处理组间)    k-1 SS组间/v组间 MS组间/MS组间 组内(误差) SS总-SS组间 N-k SS组内/v组内     *C=(ΣX)2/N=Σni,k为处理组数 表19-7 F值、P值与统计结论 α F值 P值 统计结论 0.05 <F0.05(v1.V2) >0.05 不拒绝H0,差别无统计学意义 0.05 ≥F0.05(v1.V2) ≤0.05 拒绝H0,接受H1,差别有统计学意义 0.01 ≥F0.01(v1.V2) ≤0.01 拒绝H0,接受H1,差别有高度统计学意义   方差分析计算的统计量为F,按表19-7所示关系作判断。   例19.9 某湖水不同季节氯化物含量测量值如表19-8,问不同季节氯化物含量有无差别? 表19-8 某湖水不同季节氯化物含量(mg/L)   Xij 春 夏 秋 冬 22.6 19.1 18.9 19.0 22.8 22.8 13.6 16.9 21.0 24.5 17.2 17.6 16.9 18.0 15.1 14.8 20.0 15.2 16.6 13.1 21.9 18.4 14.2 16.9 21.5 20.1 16.7 16.2 21.2 21.2 19.6 14.8 ΣXij j 167.9 159.3 131.9 129.3 588.4(ΣX) ni 8 8 8 8 32(N) Xi 20.99 19.91 16.49 16.16   ΣX2ijj 3548.51 3231.95 2206.27 2114.11 11100.84(ΣX2)   H0:湖水四个季节氯化物含量的总体均数相等,即μ1=μ2=μ3=μ4   H1:四个总体均数不等或不全相等   α=0.05   先作表19-8下半部分的基础计算。   C= (Σx)2/N=(588.4)2/32=10819.205   SS总=Σx2-C=11100.84-10819.205=281.635   V总=N-1=31      V组间=k-1=4-1=3   SS组内=SS总-SS组间=281.635-141.107=140.465   V组内=N-k=32-4=28   MS组间=SS组间/v组间=141.107/3=47.057   MS组内=SS组内/v组内=140.465/28=5.017   F=MS组间/MS组内=47.057/5.017=9.380   以v1(即组间自由度)=3,v2(即组内自由度)=28查附表19-2,F界值表,得F0.05(3,28)=2.95,F0.01(3,28)=4.57。本例算得的F=9.380>F0.01(3,28),P<0.01,按α=0.05检验水准拒绝H0,接受H1,可认为湖水不同季节的氯化物含量不等或不全相等。必要时可进一步和两两比较的q检验,以确定是否任两总体均数间不等。   资料分析时,常把上述计算结果列入方差分析表内,如表19-9。 表19-9 例19.9资料的方差分析表 变异来源 SS v MS F P 组间 141.170 3 47.057 9.38 <0.01 组内 140.465 28 5.017     总 281.635 31         二、随机区组(配伍组)设计的多个样本均数比较   又称两因素方差分析。把总变异分解为处理间变异、区组间变异及误差三部分。除推断k个样本所代表的总体均数,μ1,μ2,……μk是否相等外,还要推断b个区组所代表的总体均数是否相等。也就是说,除比较多个处理的差别有无统计学意义外,还要比较区组间的差别有无统计学意义。该设计考虑了个体变异对处理的影响,故可提高检验效率。 表19-10随机区组设计的多个样本均数比较的方差分析公式 变异来源 离均差平方和SS 自由度v 均方MS F 总 ΣX2-C N-1     处理间 k-1 SS处理/v处理 MS处理/MS误差 区组间 b-1 SS区组/v区组 MS区组MS误差 误差 SS总-SS处理-SS区组 V总-v处理-v区组 SS误差/v误差     C、k、N的意义同表19-6,b为区组数   例19.10为研究酵解作用对血糖浓度的影响,从8名健康人中抽血并制成血滤液。每个受试者的血滤液被分成4份,再随机地把4份血滤液分别放置0,45,90,135分钟,测定其血溏浓度(表19-11),试问放置不同时间的血糖浓度有无差别?   处理间:   H0:四个不同时间血糖浓度的总体均数相等,即μ1=μ2=μ3=μ4 表19-11 血滤放置不同时间的血糖浓度(mmol/L)   区组号 放置时间(分) 受试者小计 ΣXijj 0 45 90 135 1 5.27 5.27 4.94 4.61 20.09 2 5.27 5.22 4.88 4.66 20.03 3 5.88 5.83 5.38 5.00 22.09 4 5.44 5.38 5.27 5.00 21.09 5 5.66 5.44 5.38 4.88 21.36 6 6.22 6.22 5.61 5.22 23.27 7 5.83 5.72 5.38 4.88 21.81 8 5.27 5.11 5.00 4.44 19.82 ΣXij j 44.84 44.19 41.84 38.69 169.56(ΣX) Ni 8 8 8 8 32(N) Xi 5.6050 5.5238 5.2300 4.8363   ΣX2ij j 252.1996 245.0671 219.2962 187.5585 904.1214(ΣX2)   H1:四个总体均数不等或不全相等   α=0.05   区组间:   H0:八个区组的总体均数相等,即μ1=μ2=……μ8   H1:八个区组的总体均数不等或不全相等   α=0.05   先作表19-11下半部分和右侧一栏的基本计算。   C=(ΣX)2/N=(169.56)2/32=898.45605   SS总=ΣX2-C=904.1214-898.45605=5.66535   V总=N-1=32-1=31   V处理=k-1=4-1=3   V区组=b-1=8-1=7   SS误差=SS总-SS处理-SS区组=5.66535-2.90438-2.49800=0.26297   V误差=(k-1)(b-1)=3×7=21   MS处理=SS处理/v处理=2.90438/3=0.9681   MS区组=SS区组/v区组=2.49800/7=0.3569   MS误差=SS误差/v误差=0.26297/21=0.0125   F处理=MS处理/MS误差=0.9681/0.0125=77.448    F区组=MS区组/MS误差=0.3569/0.0125=28.552   推断处理间的差别,按v1=3,v2=21查F界值表,得F0.005(3,21)=3.07,F0.01(3,21)=4.87,P<0.01;推断区组间的差别,按v1=7,v2=21查F界值表,得F0.05(7,21)=2.49,F0.01(7,21)=3.64,P<0.01。按α=0.05检验水准皆拒绝H0,接受H1,可认为放置时间长短会影响血糖浓度且不同受试者的血糖浓度亦有差别。但尚不能认为任两个不同放置时间的血糖浓度总体均数皆有差别,必要时可进一步作两两比较的q检验。 表19-12 例19.10资料的方差分析表 变异来源 SS v MS F P 处理间 2.90438 3 0.9681 77.448 <0.01 区组间 2.49800 7 0.3569 28.552 <0.01 误差 0.26297 21 0.0125     总 5.66538 31         三、多个样本均数间的两两比较的q检验   经方差分析后,若按α=0.05检验水准不拒绝H0,通常就不再作进一步分析;若按α=0.05甚至α=0.01检验水准拒绝H0,且需了解任两个总体均数间是否都存在差别,可进一步作多个样本均数间的两两比较。两两比较的方法较多,在此仅介绍较常用的q检验(Newman-Keuls法)   公式(19.13)   (各组ni相等) 公式(19.14)   (各组ni不等) 公式(19.15)   式中,xA-xB为两两对比中,任两个对比组A、B的样本均数之差;sxA-xB为两样本均数差的标准误;ni为各处理组的样本含量;nA,nB分别为A、B两对比组的样本含量;MS误差为单因素方差分析中的组内均方(MS组内)或两因素方差分析中的误差均方(MS误差)。   计算的统计量为q,按表19-13所示关系作判断。   例19.11 对例19.9资料作两两比较   H0:任两个季节的湖水氯化物含量的总体均数相等,即μA=μB   H1:任两总体均数不等,即μA≠μB  表19-13 |q| 值、P值与统计结论 α  |q| P值 统计结论 0.05 <q0.05(v.a) >0.05 不拒绝H0,差别无统计学意义 0.05 ≥q0.05(v.a) ≤0.05 拒绝H0。接受H1,差别有统计学意义 0.01 ≥q0.01(v.a) ≤0.01 拒绝H0,接受H1,差别有高度统计学意义   α= 0.05   1.将四个样本的均数由大到小排列编秩,注明处理组。 xi 167.9 159.3 131.9 129.3 处理组 春 夏 秋 冬 秩次 1 2 3 4   2.计算 sxA-xB本例各处理组的样本含量n1相等,按式(19,14)计算两均数差的标准误。已知MS组内=5.017,n=8   3.列两两比较的q检验计算表(表19-14) 表19-14 两两比较的q检验计算表 A与B (1) xA-xB (2) 组数,a (3) q值 (4)=(2)/0.7919 q0.05(v.a) (5) q0.01(v.a) (6) P值 (7) (1)与(4) 38.6 4 48.744 3.85 4.80 <0.01 (1)与(3) 36.0 3 45.460 3.49 4.45 <0.01 (1)与(2) 8.6 2 10.860 2.89 3.89 <0.01 (2)与(4) 30.0 3 37.884 3.49 4.45 <0.01 (2)与(3) 27.4 2 34.600 2.89 3.89 <0.01 (2)与(4) 2.6 2 3.283 2.89 3.89 <0.05   表中第(1)栏为各对比组,如第一行1与4,指A为第1组,B为第4组。第(2)栏为两对比组均数之差,如第一行为X1与X4之差,余类推。第(3)栏为四个样本均数按大小排列时,A、B两对比组范围内所包含的组数a,如第一“1与4”范围内包含4个组,故a=4。第(4)栏是按式(19.13)计算的统计量q值,式中的分母0.7919是按式(19.14)计算出来的SXA-XB。第(5)、(6)栏是根据误差自由度v与组数a查附表19-3q界值表所得的q界值,本例v误差=28,因q界值表中自由度一栏无28,可用近似值30或用内插法得出q界值,本例用近似值30查表,当a=4时,q0.05(30,4)=3.85,q0.01(30,4)=4.80 ,余类推。第(7)栏是按表19-13判定的。   4.结论由表19-14可见,除秋季与冬季为P<0.05外,其它任两对比组皆为P<0.01,按α=0.05检验水准均拒绝H0,接受H1,可认为不同季节的湖水氯化物含量皆不同,春季氯化物含量最高,冬季含量最低。 该文章转载自医学全在线: http://www.med126.com/edu/200712/17245.shtml
个人分类: ANOVA|6887 次阅读|0 个评论
基于样本不同条件的方差分析(ANOVA)及两两比较
Bearjazz 2012-1-12 19:52
基于样本不同条件的方差分析( ANOVA )及两两比较 熊荣川 六盘水师范学院 xiongrongchuan@126.com 通过改变一个实验条件,我们通常会得到几组不同的数据,比如不同的物种的头体长数据。为了比较这些数据之间有没有显著差异,通常需要进行方差分析和之后的两两对比分析( paired comparison or multiple comparison ) 在进行方差分析之前,首先要检验每组数据是否符合正态分布 具体步骤我们以 SPSS 为例演示 为了图文并貌请下载pdf文件观看 基于样本不同条件的方差分析(ANOVA)及两两比较.pdf 附件一 用Spss进行正态分布检验(图)_统计学教程_中生网.mht
个人分类: 我的研究|9433 次阅读|0 个评论
ENVI下生成特定数据的方法与应用
热度 1 dongyanqing 2012-1-5 12:40
ENVI下生成特定数据的方法与应用
ENVI 下根据需要生成特定类型、大小、规律的随机数据。 1. 生成方法 单击 ENVI 主菜单 - ,弹出界面如下 ü 其中第一项中列出可以生成如固定值、水平渐变值、垂直渐变值、均匀分布、正态分布和高斯发散规律。 ü Value 部分则根据不同类型可设置相应的参数。 ü 第二项设置输出文件的大小、行列号和数据类型,第三项则设置输出到磁盘文件或内存中。 2. 应用 问题源自论坛( Esri 中国社区)中的一个需求: “ 我想对影像的纬度求余弦值,但是坐标是本身存在的,不是值,这个该如何做 ” 。 1) 分析 对一影像来讲, ENVI 中只显示了影像的数据值,而经纬度信息是根据头文件内容中的左上角点坐标和分辨率随时计算的,并不单独存为一波段或文件,故无法直接对纬度求余弦值。 2) 解决 问题可分为生成纬度数据和纬度求余弦两步。以 ENVI 自带的 WorldDem 文件为例,操作如下: a) 查看文件的基本信息 在 Available bandlist 中右击打开后文件和 map Info , 可得知,该图像左上角经纬度为 ,大小为 3600*1800 ,分辨率为 。 对应纬度图像应该为大小为 3600*1800 ,分辨率为 0.1 °竖向渐变的图像。 b) 生成纬度数据 利用数据生成工具,对应参数设置如下: 生成图像显示效果如下 与我们的预期效果恰恰相反,故需要在波段运算中进行反转,表达式为 -b1 波段运算后图像为预期得到的纬度数据分布图。 c) 余弦求解 直接波段运算求解。但要注意, cos 函数的输入要求必须是弧度,而咱们的数据是角度,故需要转换下,最终波段运算表达式为 COS(b1*!pi/180) 或 COS(b1*!dtor) 。
个人分类: ENVI|5513 次阅读|1 个评论
关于多重比较的两个疑问~
qibao08 2011-12-19 17:36
1.非正态分布的数据,多重比较怎么实现?(有看到说利用matlab中的两个函数可以,不知是否还有其他方法?) 2.多重比较是否只能比较各处理平均数之间的差异?(可以比较中位数之间的差异吗?) 3.字母标记法的可靠性? 现在的情况是用matlab做了非参数检验及多重比较,可是用字母标记的时候却发现无法标记,问题在哪儿?
5559 次阅读|2 个评论
[转载]利用SPSS检验数据是否符合正态分布
lishumin 2011-12-13 09:47
[转载]利用SPSS检验数据是否符合正态分布
原文地址: 利用SPSS检验数据是否符合正态分布 作者: 夏天 转载自 http://hi.baidu.com/wangyong1518/blog/item/5bd8b0388bbd4ed7d462259c.html 正态分布也叫常态分布,在我们后面说的很多东西都需要数据呈正态分布。下面的图就是正态分布曲线,中间隆起,对称向两边下降。 下面我们来看一组数据,并检验“期初平均分” 数据是否呈正态分布(此数据已在 SPSS 里输入好) 在 SPSS 里执行“分析— 描述统计— 频数统计表” ( 菜单见下图,英文版的可以找到相应位置 ) ,然后弹出左边的对话框,变量选择左边的“期初平均分”,再点下面的“图表”按钮,弹出图中右边的对话框,选择“直方图”,并选中“包括正态曲线” 设置完后点“确定”,就后会出来一系列结果,包括 2 个表格和一个图,我们先来看看最下面的图,见下图, 上图中横坐标为期初平均分,纵坐标为分数出现的频数。从图中可以看出根据直方图绘出的曲线是很像正态分布曲线。如何证明这些数据符合正态分布呢,光看曲线还不够,还需要检验: 检验方法一:看偏度系数和峰度系数 我们把 SPSS 结果最上面的一个表格拿出来看看 ( 见下图 ) : 偏度系数Skewness=-0.333;峰度系数Kurtosis=0.886;两个系数都小于1,可认为近似于正态分布。 检验方法二:单个样本 K-S 检验 在 SPSS 里执行“分析— 非参数检验— 单个样本 K-S 检验 ,弹出对话框,检验变量选择“期初平均分”,检验分布选择“正态分布”,然后点“确定”。 检验结果为: 从结果可以看出,K-S检验中, Z 值为 0.493 , P 值 (sig 2-tailed)=0.9680.05 ,因此数据呈近似正态分布 检验方法三:Q-Q图检验 在 SPSS 里执行“图表— Q-Q 图”,弹出对话框,见下图: 变量选择“期初平均分”,检验分布选择“正态”,其他选择默认,然后点“确定”,最后可以得到 Q-Q 图检验结果,结果很多,我们只需要看最后一个图,见下图。 QQ Plot 中,各点近似围绕着直线,说明数据呈近似正态分布。
个人分类: 专业转载|4 次阅读|0 个评论
IDL中生成随机数
dongyanqing 2011-10-22 21:21
随机数,是数据处理和分析时经常要用到的,也有一篇文章 《 随机数的生成 》 对随机数产生的原理和方法做了简单概述。 IDL 中产生随机数主要有 RANDOMU 和 RANDOMN 两个函数,分别生成均匀分布和正态分布的随机数,参考下各自的帮助,能够生成满足通常状态下任意要求的随机数。 IDL ; 生成 5 个元素的 范围内随机数组,注意 undefinevar 是个未定义变量 IDL print , randomu (undefinevar, 5 ) 0.758868 0.0292860 0.425083 0.375357 0.288495 IDL ; 生成 4*5 的 范围内随机数组 IDL print , randomu (undefinevar, 5 , 4 ) 0.344222 0.732798 0.209895 0.307210 0.534765 0.214072 0.439286 0.681666 0.0401281 0.442817 0.0882233 0.369515 0.800266 0.431608 0.0122711 0.992980 0.564629 0.920463 0.850796 0.331296 IDL ; 生成 2*3 的 范围内浮点随机数组 IDL print , randomu (undefinevar, 3 , 2 )* 100 13.9903 73.1388 7.30314 40.8773 4.95458 25.9772 IDL ; 生成 2*3 的 范围内的整型随机数组 IDL print , fix ( randomu (undefinevar, 3 , 2 )* 255 ) 85 216 247 181 180 83 IDL ; 生成 2*3 的 范围内的长整型随机数组 IDL print , randomu (undefinevar, 3 , 2 ,/long) 1945085313 713527705 771678015 128722589 2010134861 1909949562 IDL ; 生成 范围内的 4 元素随机数组 IDL print , RANDOMN (undefinevar, 4 ) 0.578943 0.561237 -0.391116 -0.0516022 IDL ; 生成 范围内的 3*4 随机数组 IDL print , RANDOMN (undefinevar, 4 , 3 ) 0.770915 0.483093 -0.668937 -0.855310 -0.939424 1.94780 -0.301939 -0.316978 -0.777380 -0.521554 1.52465 0.473643
个人分类: IDL技术|20650 次阅读|0 个评论
正态分布 vs 正规分布
热度 2 liwei999 2011-8-22 17:54
RE: Normal Distribution不能翻译成正规分布,只能是正态分布 术语翻译也是约定俗成 没有对错 作者: 立委 日期: 08/21/2011 12:56:17 中文大家都用正态分布 日语翻译成正规分布 等价的 镜子在中文网站应该遵从大家的约定。 立委兄是只知其一,不知其二。“分布”有各种,“正态”为其一。 作者: mirror (*) 日期: 08/21/2011 18:41:42 当听道 “分布”有各种 的时候,大约有两种反应:标本空间的样本分布和“分布”函数的种类。 各种分布函数里,都有个“矩”的概念。对此,人们大约没有什么“不同意见”。以汉语博大精深,有“矩”而没有“规”很不合“规矩”。因此,需要有个“正规分布”来做表率。如此来理解分布的“规”、分布的“矩”,就能知道什么叫做“分布函数”了。 立委主张“没有对错”是知道有“规”。所谓不知其二,是说不知有“矩”。此乃“分布函数”之规矩也。 有没有之三呢?应该有。“分布函数”之母——母函数。 ---------- 就“是”论事儿,就“事儿”论是,就“事儿”论“事儿”。 RE:如此说来,柯西分布是既不“规”,又无“矩”,且从小就没娘。 当一个分布命名为“柯西”的时候,就是“规”了。矩也是必须要“有”的,但 作者: mirror (*) 日期: 08/21/2011 22:19:11 可以是“不存在”。也就是说,集合必须有,但可以是个“空” 的。 世上只有妈妈好,没妈的孩子象颗草。没有妈的孩子也有,不过是特殊些罢了。 ---------- 就“是”论事儿,就“事儿”论是,就“事儿”论“事儿”。 “态”者,是说集团样本的“态”,“规”者,是说对集团度量的“规”。 作者: mirror (*) 日期: 08/20/2011 10:31:08 因此,作为normal distribution翻译,从统计上看,用“正态”合适 ,从概率上看,用“正规”合适。 ---------- 就“是”论事儿,就“事儿”论是,就“事儿”论“事儿”。 镜老师,定义应该是“共识”的总结,而不是个人的理解。 - shijie 如此的话,也就不可能有“温故知新”了。 - mirror 08/20 10:40
个人分类: 镜子大全|5567 次阅读|2 个评论
不要跟猴子谈素质
热度 10 考槃在涧 2011-5-24 18:39
除了守旧者和别有用心者外,今天对社会进步持有看法的人不外乎两派。 一派讲制度,一派讲文化(素质)。 在文化派里,又可分为复古派、西化派和创造派,不一二足。 这两派基本上公说公有理,婆说婆有理。 道行高一点的,认同文化和制度相互作用,相互影响。 但二者如何相互作用,相互影响, 很少有人能说得清楚。 文化派的核心思想,归到底是认为,一个社会里人的行为主要掌握在自己手里。 思想境界高的就会做好事,思想境界差的就会做坏事; 要想提高全社会素质,得让大家思想境界都提高; 然后才配得上“先进的制度”,或者说,这个国家现在大家的素质,就决定了这个国家只能用这个制度。 说到这里,是不是感觉很熟悉?国情说。 这种说法不见得全错,但是搞混了很多问题。 我提示几点: 一是人智力(可以推论到素质)符合正态分布, 一是人在社会中和他人的交互作用, 一是短板效应。 如果你能自己把这几个问题打通,在这个基础上你才能真正“理性”地去思考社会里文化和制度的相互作用。 一个社会的底限是由道德规定,还是由法律规定? 一个社会的平均水平是由文化规定,还是由制度规定? 有人说,教育啊。 是啊,教育啊。 请问大家,大学扩招了多少年? 现在有多少大学生? 我党的各种保先学习活动有多少? 这几十年来我们的素质提高了没有? 你说,是教育方式不正确, 诚然,这些教育方式都值得商榷, 但是,要采用更先进的教育方式, 你会发现:现有体制不允许! 这就是个死结。 所有把社会发展归结到人的素质,都会是个死结。 实际上,个人素质是微观的,任何个人的行为都可以看成随机行为; 很多人认为文化是驱动因素,实际上,文化是个结果,是个统计结果。 只不过这个结果并不是一位被动罢了。 真正能规定个体行为的只能是制度。 有人又会说,现在不是没有制度,只是这些制度得不到很好的执行罢了。 于是又归结到个人素质和思想境界了。 你看,又是一个死结。 其实,你应该仔细分析,为什么这些制度得不到好执行。 是素质不高,还是一些关键性的,基础性的制度缺失。 举个例子。 国家电网的人说,其实我们不怕电价涨,更不怕电价跌。 如果国家要求我们跌,那好,拿补贴来! 然后人家大小节假奖金照发。 看到没有,为什么执行不好? 换你做国家电网董事长,你该怎么做? 你说,我有魄力,我有人格魅力, 我要求,国家电网的人勒紧裤腰带, 月薪800领低保,降价! 如果你知道国家电网的员工都是谁的太太、儿媳, 你就不会有魄力了。 我不否定个人素质和文化的良好作用, 也不反对任何人在这两方面努力, 但如果你只把希望寄托在这两件事上, 那我告诉你,社会永远都不能进步。 你说,那我们国家不是搞了很多制度吗, 怎么都没用。 你还得要仔细分析, 不论哪个衙门搞的制度, 他们是要真正解决问题吗? 他们都是在打擦边球呢。 人家的出发点, 首先是满足以自己为核心的小群体的利益, 其次是满足自己这个部门的利益; 再次是满足自己部门相关部门的利益; 再再次是鼓捣出个有模有样的东西让领导满意; 再再再次是鼓捣出个有模有样的东西让媒体和公众满意; 人家根本就没有想过解决问题, 逗你玩呢! 你说,这些人的自律太差,素质太低! 奇怪,为什么素质差的人总能当大官呢? 你又会说是文化, 可是奇怪, 在同一个国家, 为什么私企的各部门就不会有这种状况呢? 虽然部门主义,小群体同样存在, 但这些行为都是在一定范围内的,这个范围才是大家常说的文化。 而在这个小范围之外的良好行为, 则是由公司制度和契约规定。 所以说,制度的尺度比文化的尺度更大更严格, 即使在一个大文化氛围里, 小群体的制度也更有制约力。 而在小群体制度制约力的作用下, 小群体会形成有别于大群体的亚文化。 更有甚者, 同一个人, 在A群体会表现出在B群体完全不同的行为, 这也是在相同大文化背景下不同制度的制约力。 所以,用国家安全、民族大义、国情等借口来提某些制度不适合, 才不是屁股决定脑袋呢, 利益决定脑袋罢了。 实际上,关于制度规定行为, 美国有很多实验研究,这些实验研究后来还被拍成电影, 监狱是个有意思的例证。 当然,在任何制度下, 都有坏人和好人, 我说过,这是符合正态分布的, 但是你会发现,一个制度完备的国家, 分布是正偏态的, 也就是“好人”和“正常人”要多一些; 而“小孩”和“思想境界低”的人要少一些。 这也是为什么有国外和国内都呆过的学者说过, 国外也搞政治,但是国内没有底限,国外有。 不要举什么泰国之类的例子, 同样是亚洲小国,同样的儒家文化, 你不看日本韩国新加坡台湾, 你非要看泰国。 你需要考虑的是如何保证制度的完备性(尽可能), 而不是挖空心思去想如何搞一个符合现在国情的制度, 我告诉你,没有。 你想搞的只不过是把早上给猴子4颗栗子晚上3颗,换成早上3颗晚上4颗罢了。 一切类似的探讨都是扯淡, 一切要求通过提高自律来改善现状都是扯淡。 你最多只能要求自己, 当你要求自己的时候,你是圣人, 当你要求别人的时候, 不是你想要这个来忽悠别人保证你的利益,那就说明你是猪头。 不论是谁,院士也好总理也好, 只要这么要求,就符合这个铁律。 说了这么多, 如果你还不明白, 你真的应该先读一些组织行为学、社会心理学和制度经济学相关的书籍。 如果离开这些知识谈这一大类的问题, 基本都是扯淡。 那种认为中国民众是小孩所以应该用种种措施保护起来的观点, 是包含在这一大类扯淡观点之中的。 都是拿着结果当原因, 对着猴子谈素质。
个人分类: 心外有物|5079 次阅读|33 个评论
评“莫让“第一学历”阻碍人才选拔”
热度 6 sarstone 2011-5-6 13:53
这是一个不是问题的问题。首先我们必须承认,第一学历是个人智力和能力筛选的结果,起码的全日制大学本科教育已是低得不能再低的门槛;其次,人才成长和形成也符合统计学正态分布,高智商和全弱智都是极少数;第三,作为选人用人的单位来说,确保大概率地获得可用之才,使用某个标准无可厚非。相反,这种鼓励打碎标准的做法,常常是在为某些滥竽充数者美其名曰地大开方便之门。这在科学领域里是万万使不得的!相反,若是真有才干者,怕也不是个别人力资源经理、或某个单位能埋得住的!所以,恕我冒昧,这更像是个伪命题。 原文转自 http://blog.sciencenet.cn/u/abovesky 包万平   又有一批大学生毕业在即,人才招聘市场更加热闹起来。然而近两年来,一些单位招聘人才时,在提高最高学历要求的同时,也越来越看重“第一学历”,学历查“三代”的做法正在成为人才选拔中的“明规则”。换言之,现在大学生毕业找工作,不但要看硕士、博士学位是不是在名校拿的,还要看大学本科即“第一学历”是否是名校出身,是不是全日制本科等等。   用人单位在选拔人才时,将学历高低作为衡量人才水平的标准无可厚非。追查“第一学历”的做法,在用人单位那里好像也很有“道理”。在他们看来,“第一学历”阶段能受到更好教育的人素质会更高一些,第二、第三学历是弥补不了这种“客观差距”的。但按照这个逻辑,中学毕业的华罗庚、梁漱溟今天恐怕连个小学的讲台都上不了;小学毕业的沈从文能不能在学校里当个保安都是个未知数,更别说是在清华、北大当教授了。客观的现实也印证了这一点,这几年很多研究生不管你有多高的水平,因为“第一学历”的差距在就业路上屡遭挫折,可以说“第一学历”成了不少高材生永远也无法刷掉的人生“缺憾”。   实际上,一个人能否取得成功,与“第一学历”没什么关系。“第一学历”出身好的学生未必都优秀,“第一学历”出身不好的学生未必都是低能儿。再者,如今知识信息更新速度很快,学校学习的知识在大学生毕业时基本上都过时了,学生在校期间学到的只是学习的方法,毕业生能否成功关键要看未来的努力。俗话说“英雄莫问出处”。毕竟“第一学历”和以后的工作是两码事,我想谁也没有能力凭“第一学历”来判定一个人未来事业的成败。   从本质上讲,“第一学历”要求是人为地制造社会歧视和竞争障碍,是对社会公平正义底线的公然挑战。我们知道,我国是一个高等教育大国,但不是高等教育强国,在千余所大学里一流水平的高校只有那么几十所,大部分高校还是一般的普通院校。这些普通大学培养的学生才是社会发展的主体人群,是国家发展的主要推动者和建设者。这种“第一学历”的要求,对我们这样一个有着十几亿人口、亟待需要改革和发展的大国来说,提得过于“奢侈”,也没有丝毫的合理性和必要性。恰恰相反,普通院校里有着极为丰富的人力资源,可能我们苦苦寻找的大师、拔尖人才等就埋藏于其中,用人单位应该创造更多条件从这些一般大学进行人才挖掘。因此,笔者认为用人单位要转变人才价值观,从学历本位转到能力本位上来,取消“第一学历”设限,不拘一格用人才,给普通大学的学生一些机会,或许就会有不一样的收获和惊喜。
个人分类: 时评|3555 次阅读|8 个评论
Matlab中产生正态分布随机数的函数normrnd
hillpig 2011-2-26 17:09
有时候需要产生正态分布的随机数,现转如下: Matlab中产生正态分布随机数的函数normrnd http://www.vcbeta.net/read.php/331.htm R=normrnd(MU,SIGMA) R=normrnd(MU,SIGMA,m) R=normrnd(MU,SIGMA,m,n) 同时配合使用(参考: 在matlab中如何控制数据的输出格式?(完整总结 ) ) format short g 当数据大于1000或小于1时便会以科学记数法显示(-e),若想坚持用整数部分加小数部分的格式来显示,就要再后边加 g 加我私人微信,交流技术。
个人分类: postgresql|20230 次阅读|0 个评论
两个球体中心对撞比人们想像的要难
liwei999 2010-12-6 17:02
两个球体中心对撞比人们想像的要难。看看打台球就可知道 作者: mirror 日期: 12/05/2010 20:51:10 一二。如果是中心对撞,一个球就要停下来,把能量和动量传给另一个球。问题和回答也是这样,能否合拍很是要紧的。所问非所答 也是个技巧,可以岔过很多尴尬的、或不愿意回答的问题。 科网上有人问 为什么会是正态分布? 对此问有访客应贴:概率当中有大数定理和中心极限定理。王老师回复说:这两个定理我学过,但是他们没有解释为什么。 这个问题的答案应该从物理学中找,而不是数学。最直接的说法应该是来自几率的分布函数比例与exp(-E/T)。这里的E是状态的能量,T是系统的温度。状态能量对坐标的表述一般是二次形式。所以就出现了正态分布。为什么是exp(-E/T)?这个问题统计力学里有交待。 严格地说,日常生活中正态分布的现象比较少。因为一个集团现象中的成员不是统计力学所说的那样的量级。金融现象就更不是正态分布的事儿了。 难怪女人们都说好男人都死光了,见不到优秀的男人。因为这个事情不是正态分布,都是变态分布。 物理上认为,有一种相互作用的关系即决定了一个分布函数。从此观点看土壤中的水份, Quote 土壤水分主要受降水和蒸发都因素的影响。由于一个地区的降雨量和蒸散发在一直变化,且有时候变化剧烈,导致土壤水分的概率分布呈现多峰(图2) 的说法就很不入流了。这个图的标准分析是对应着样品土壤中三种典型的团粒结构。为了证实这个推测,就可以利用各种分析手段。这就是科学了。 王老师心里有矛盾: Quote 这种解释我个人觉得比较合理。但是主观性比较强,如果要更客观地去解释这种现象,还需要提出某种比较合理的理论。 能有这个自省很是要紧,因为我个人觉得比较合理一般都是要被否定的。 为什么要有老师呢?就是可以订正这类不着四六的胡思乱想。不要轻信别人说有意思。那就是种客套话。 这个思路也不是很好。 Quote 假设北京市建筑物的高度70%集中在50-100m之间,为什么会是50-100m这个和北京市的社会经济发展水平、人口数量及地质条件等因素有关。也就是说变量所处的外部环境因素决定了变量值的集中范围。 或者就是作者没有明白自己在表达着什么。如果真是变量所处的外部环境因素决定了变量值的集中范围的话,只能说明是变量选错了。直接选那个外部环境因素作变量就是了。 ---------- 就是论事儿,就事儿论是,就事儿论事儿。
个人分类: 镜子大全|2845 次阅读|1 个评论
为什么会是正态分布?
热度 3 doniao 2010-12-4 20:53
做过统计分析的人都知道,某变量的值在随机取样的情况下一般服从正态分布。在分析变量之间的显著性差异和进行方差分析等经验统计分析时都要求变量服从或者近似正态分布(对数正态分布)。这是因为变量的统计分析基本上都是以变量的正态分布为基础进行的。既然是统计,一般来说都是经验的,缺乏一定的理论依据。因此,许多人都有这样的疑惑,在没有人为干扰下,变量的分布为什么会是正态的呢? 首先简单介绍一下正态分布的概念和性质。 正态分布是一种概率分布,又叫高斯分布(图1)。高斯等人对正态分布进行了推导并发现了正态分布的相关性质。其中一个主要性质就是正态分布以变量均值u为轴成对称分布,均值所对应的概率最大,向两边对称减小。这句话也可以这样理解,在一次取样中,某变量的大部分值集中在变量均值附近,其余一小部分值与均值相差较大。正态分布在英语中叫normal distribution。说明变量的这种分布是正常分布。为什么大部分变量值会集中在其均值附近呢?想一想我们生活中的遭遇,看一看我们周围正在发生的事,我们会很吃惊地发现我们生活中很多事物和事情都是这样。比如社会上大多数人的收入和财产处于平均水平,富人是少数,穷人也是少数。再比如社会上大多数人的相貌平平,只有少部分相貌出众,当然也有部分人相貌丑陋。生物界是这样,非生物界亦如此;植物界是这样,动物界同样如此。 其实,自然条件下由于受众多因素影响,变量的分布不会是均匀分布。既然不是均匀分布,就会出现变量值的相对集中,变量就可能会呈现如正态分布那样的单峰分布。其实我们的疑问更多是为什么大多数变量会集中在那个值附近,以及为什么是单峰而不是多峰分布?对于第一个疑问,要具体问题具体分析。打个比方,假设北京市建筑物的高度70%集中在50-100m之间,为什么会是50-100m这个和北京市的社会经济发展水平、人口数量及地质条件等因素有关。也就是说变量所处的外部环境因素决定了变量值的集中范围。对于第二个疑问,为什么不是多峰。这可能也是由变量所处的外部环境决定。如果外部环境处于相对稳定的状态,那么其分布就不会是多峰型。而如果其外部环境经常变化,则其分布就可能是多峰型。以我所研究的土壤水分为例,土壤水分主要受降水和蒸发都因素的影响。由于一个地区的降雨量和蒸散发在一直变化,且有时候变化剧烈,导致土壤水分的概率分布呈现多峰(图2)。这种解释我个人觉得比较合理。但是主观性比较强,如果要更客观地去解释这种现象,还需要提出某种比较合理的理论。我希望借此抛砖引玉,和感兴趣的网友进行交流。 图1 正态分布图 图2 土壤水分概率分布图
个人分类: 科学狂想曲|25434 次阅读|7 个评论
离散化正态分布熵的matlab计算
zhixianghust 2010-11-6 11:56
1,正态分布的概率密度函数: ; 2,正态分布的熵(连续概率密度的熵): ; 3,离散化的正态函数,设L为最小分辨区间, 以 为中心向左右划分网格,两边对称,第n个网格中心对应的概率密度为: ; 目标落在该格点中的概率P(n)为 f(n) 与L的乘积。 另外,P(n)也可由下式计算: . 4. 离散化正态分布的熵: 。 显然H(n)的值与L选取的大小有关, 例如当L-0, 则H(n)较大, 但当L较大,使得目标以极大的根率落在一两个格点内,则熵显然很小,i.e.,-log1=0, 或-2*0.5*log1/2=0.693; 因此,为逼近连续正态分布概率密度的熵,则需较小的网格划分。 5,matlab数值计算 取方差为1,均值为0,以下为计算代码。注意到 % entropy clc,clear; % entropy of H(x) Sigma=1; Hx = log(2*pi)+1+log(Sigma); F = @(x)1./sqrt(2*pi).*exp(-x.^2/2); for k = 1:300 L(k)=k/100; for n = 1:100 % n (below) is big enough. =quad(F,(n-1)*L(k),n*L(k),1e-5,0); if P(n)0 Hn(n)=-P(n)*log(P(n)); else Hn(n)=0; end end HnSum(k)=2*sum(Hn); end plot(L,HnSum); 以下两图为计算结果, 上图显示当L足够大时,熵最终减小为0.693, 没有减小为0的原因是我们采用了对称的划分方法, 使目标无论如何都有2选1的不确定度. 当L越小, 熵不一定越大, 这在第二张图可以体现. 当方差根为2时,也可绘出类似第二张图的曲线,因此,正态分布离散化熵的计算需统一划分尺度,否则不可比较。
个人分类: 个人研究笔记|3197 次阅读|1 个评论
SPSS中的参数检验(一)
热度 1 xiezilai 2010-9-16 19:30
题外话:很多时候,都是以为自己真懂 SPSS中的参数检验,样本要服从正态分布。SPSS中进行正态分布检验的常用方法是通过P-P图或Q-Q图来完成。 SPSS中的参数检验包括: 1. 单样本t检验(Analyze - Compare Means - One-Sample T Test) 注:方差未知的均值检验,操作极其简单,输入检验变量和均值即可。 2. 独立样本t检验(Analyze - Compare Means - Independent-Samples T Test) 注:方差未知的两个独立样本的均值检验。操作也很简单,在设置分组变量时一般直接指定。结果表中的F是方差齐性检验,如果其Sig.大于0.1,则认为两者方差没显著性差异;如果方差齐性检验通不过,则使用结果表中的最后一行进行检验。 3.配对样本t检验(Analyze - Compare Means - Paired-Samples T Test) 注:方差未知的两个相关样本的均值检验。操作时选定俩变量即可。独立样本t检验跟配对样本t检验的区别在于:前者是两批对象之间比较,后者是一批对象自己比较。 4.单因素方差分析(Analyze - Compare Means -One-Way ANOVA) 注:对单因素多个独立样本均值进行比较,统计量实质上是因素水平间离差平方和与因素水平内离差平方和的份额。 参数说明: a)Contrasts按钮,用于设置均值的多项式比较,可以同时建立多个多项式; b)Post Hoc按钮,指验后多重比较,用于设置多重比较和配对比较。方差分析一旦确定各组均值间存在显著差异,多重比较检测可以求出均值相等的组;配对比较可找出和其它组均值有差异的组,并输出显著性水平为0.95的均值比较矩阵,在矩阵中用星号表示有差异的组。其中,方差齐性时, LSD (Least-significant difference) 最小显著差数法,用t检验完成各组均值间的配对比较,对多重比较误差率不进行调整。 Bonferroni (LSDMOD) 用t检验完成各组间均值的配对比较,但通过设置每个检验的误差率来控制整个误差率。 Sidak 计算t统计量进行多重配对比较,可以调整显著性水平,比Bofferroni方法的界限要小。 Scheffe 对所有可能的组合进行同步进入的配对比较,这些选择项可以同时选择若干个。以便比较各种均值比较方法的结果。 R-E-G-WF (Ryan-Einot-Gabriel-Welsch F) 用F检验进行多重比较检验。 R-E-G-WQ (Ryan-Einot-Gabriel-Welsch range test) 正态分布范围进行多重配对比较。 S-N-K (Student-Newmnan-Keuls) 用Student Range分布进行所有各组均值间的配对比较。如果各组样本含量相等或者选择了Harmonic average of all groups即用所有各组样本含量的调和平均数进行样本量估计时还用逐步过程进行齐次子集(差异较小的子集)的均值配对比较。在该比较过程中,各组均值从大到小按顺序排列,最先比较最末端的差异。 Tukey (Tukey's,honestly signicant difference) 用Student-Range统计量进行所有组间均值的配对比较,用所有配对比较误差率作为实验误差率。 Tukey's-b 用stndent Range分布进行组间均值的配对比较。其精确值为前两种检验相应值的平均值。 Duncan (Duncan's multiple range test) 新复极差法(SSR),指定一系列的Range值,逐步进行计算比较得出结论。 Hochberg's GT2 用正态最大系数进行多重比较。 Gabriel 用正态标准系数进行配对比较,在单元数较大时,这种方法较自由。 Waller-Dunca 用t统计量进行多重比较检验,使用贝叶斯逼近。 Dunnett 指定此选择项,进行各组与对照组的均值比较。默认的对照组是最后一组。选择了该项就激活下面的Control Category参数框。展开下拉列表,可以重新选择对照组。 Test框中列出了三种区间分别为:双边检验、Control 左边检验、Conbo1右边检验。 方差不齐次性, Tamhane's T2, t检验进行配对比较。 Dunnett's T3,采用基于学生氏最大模的成对比较法。 Games-Howell,Games-Howell比较,该方法较灵活。 Dunnett's C,采用基于学生氏极值的成对比较法。 c)Options按钮。 Homogeneity-of-variance ,要求进行方差齐次性检验,并输出检验结果。 (参数说明部分的内容摘自网络)
个人分类: SPSS学习|16268 次阅读|0 个评论
统计分析 无处不在(091110)
ymin 2009-11-9 15:03
统计分析 无处不在(091110) 闵应骅 对于纳米集成电路,线宽可能只有4个原子。多一个或少一个原子,误差就是20-25%。所以,生产过程的变差必须考虑。而这种变差是随机的。随机的东西也有规律,那就是概率。概率是波内尔集上的一种测度,它有很严格的理论基础。一个随机变量可以有分布,也可以没有分布。最简单而直观的分布是正态分布,其密度函数对称地分布在均值的两边,均值和方差两个参数就可以完全地表征它。大数定律表明,许多微小的相互独立的因素影响该随机变量,它就可能是正态分布。但是,许多随机变量并不是正态分布的。而且,可以解析表达的分布函数并不多。而统计分析恰恰是基于概率论的,而且大多是基于假设母体是服从正态分布的。但常常不加声明。 统计分析在自然科学和技术领域得到广泛应用,在社会科学中更是无处不在。你打开报纸,上面几乎所有的数字都是统计出来的。就拿GDP来说,这是出现频率很高的字眼,也是大家最关心的。我们来看看GDP的定义。GDP(gross domestic product)即国内生产总值。一般认为, GDP = 个人消费 + 投资总额 + 政府支出 + (出口-进口) 这些参数,没有一个是绝对准确的,都是统计出来的。统计就很有学问了。 统计是一门学问,理论、方法很多。但是,我们一般做统计要经过四个基本步骤,即设计、搜集资料、整理资料和分析资料。其中采集样本是最关键的一步,采多少样,到哪里去采样。在社会、经济领域,就是找多少人采样、找一些什么人做采样,可能结果就完全不同。譬如说,电视剧的收视率、某一个电视栏目的收视率,常常很快就可以出来,我不知道他们是怎么采样的。找多少人可以得出xx.x%的收视率。最近,国内一个学会做了一次学会满意度调查,出了许多统计图表,包括身份分析、职业分析、学历分析、职称分析、满意度等等,说明93%人对学会通讯表示满意。全是百分数。但是没有提供:你调查了多少人、得到多少回复?如果调查发出的问卷不够多,则没有代表性。如果回复的比例不大,说明会员对你的调查兴趣不大。就像各国总统选举,一定要说明,投票率是多少,太少了不行。在统计设计阶段,关键是要确定这次统计的目的是什么。统计的目的应该是为了了解客观情况,而不是为自己的某一种观点做注解、做证明,甚至是先有预期的统计结果,再去做统计。 统计既是一门学问,也是适用价值很高的技术,统计分析则更是与社会科学、经济学等紧密相关。在美国,学数学、理论物理的人很难到找工作,而学统计的人,工作很好找。我国现在各行各业都在运用统计分析,用数字说话。这比空话、大话好得多。但是,统计过程看来需要更加透明。那样就会更有说服力。
个人分类: 杂谈|4357 次阅读|0 个评论
中心极限定理之二
zhouda1112 2009-7-17 13:00
正态分布(Normal distribution)大家都很熟悉,应该是概率论中,知名度最高的名词之一。 每一位接触过概率论的朋友都能说出一点关于正态分布的东西,翻看任何一本概率或者统计的书籍,都少不了对它的介绍。有关它的基本知识,可以参阅WIki百科或者百度百科,搜索一下就可以了。 正态分布的故事很多,从数学里最专门的调和分析到时下最时髦的和谐社会,吹吹正态分布的牛很容易。 这里我想讲这么几个问题,希望能有点新意。 1、正态分布的密度函数exp(-x^2)是唯一的一个傅立叶变换不变函数。用概率论的语言讲,就是正态分布的密度函数跟它的特征函数(characteristic function)形式一致,而且只有正态分布具有这样的性质。傅立叶变换的数学及其应用价值不言而喻,而exp(-x^2)这个量因其优美的不变性,在其中扮演了核心角色。 2、正态分布是轻尾的。明显,exp(-x^2)随着x的增加,会下降很快。用直观的语言讲,符合正态分布的群体,绝大部分个体是集中在中庸附近,太极端的个体非常少。这很好的符合了很多自然和社会现实。不过,有越来越多的研究者去关注厚尾现象,特别是复杂性的一些工作。比如scale-free网络就是厚尾的,即网络中度很大的节点数目其实还不少。 3、正态分布是无穷可分(infinitely devisible)的。无穷可分是概率极限理论的一个专门概念。粗略地讲,我们关心那些可能成为某一串随机变量极限的分布,都具备什么样的特点?比如,大家知道中心极限定理是一串随机变量收敛到正态分布;还有一种叫poisson收敛,就是二项分布在某种条件下会收敛到poisson分布。教科书里都有介绍。那么正态分布和poisson分布有何种共性?无穷可分性非常好的回答了这个问题。相关内容可参看Durrett的教材第二章。
个人分类: 概率论问题讨论|7218 次阅读|0 个评论
中心极限定理之一(总则)
zhouda1112 2009-7-10 09:56
从本次开始,将用几次机会跟大家讨论概率论中又一个超重量级的话题:中心极限定理。 跟大数定律一样,中心极限定理的内容非常庞大。不夸张地说,中心极限定理所涉及的概念内容极其延伸,几乎撑起了概率论的半边天。一方面,它能深入到概率论,乃至纯数学最核心的部位(如调和函数);另一方面,它又被广泛应用,哪怕是最实用的工程。 限于个人学识,我只能尽力跟大家讨论中心极限定理的小部分内容,期望对大家有所帮助。 个人计划分次介绍如下内容: 1、正态分布 2、独立同分布随机变量序列的中心极限定理 3、不变原理 4、应用思路 自然,这四部分不可能涵盖中心极限定理的庞大内容,但是我想,基于了解的目的,这四部分内容或许能起到抛砖引玉的作用,方便大家后续学习。
个人分类: 概率论问题讨论|6662 次阅读|1 个评论
生物统计学习笔记—概率与概率分布
wangzhong 2009-3-1 16:53
随机事件(random event):某些确定条件下,可能出现也可能不出现的现象。 频率(frequency):事件A在n次重复试验中发生了m次,则m/n即为事件A发生的频率, 。 概率(probability):事件A在n次重复试验中发生了m次,当试验次数n不断增大时,A发生的频率W(A)就越来越接近某一确定值p,则定义p为事件A发生的概率,P(A)=p。 。 常见的随机变量概率理论分布:离散型变量的概率分布(二项分布、泊松分布)和连续型变量的概率分布(正态分布)。 二项分布 (binomial distribution):非此即彼事件的概率分布。每次试验的两个对立的结果的概率分别为p和q(q=1-p)。若事件A在n次试验中发生的次数为x,则x=0,1,2,...,n,其概率分布函数P(x)为: 泊松分布 (Poisson distribution):事件出现的概率(p值)很小,而样本容量或试验次数(n值)很大时的二项分布。其概率分布函数P(x)为: ,其中, =np,x=0,1,2,...。np无限增大时,泊松分布逼近正态分布 ;当二项分布的p0.1和np5时,可用泊松分布来近似。 正态分布 (normal distribution):即高斯分布(Gauss distribution)。许多生物现象的计量资料均近似服从这种分布,试验误差的分布一般服从于这种分布。正态分布记为 ,表示具有平均数 ,方差为 的正态分布。其概率分布函数为: ,表示某一定x值出现的概率密度函数值, 为总体平均数, 为总体标准差, 为圆周率,e为自然对数底,近似值为2.71828。 正态分布中, 决定了分布曲线的中心位置, 则决定了分布曲线的变异度(正态分布曲线的展开程度)。令 =0, =1可将正态分布标准化,即标准正态分布N(0,1),也叫u分布。 ,u称为标准正态离差,表示离开平均数有几个标准差。其概率密度函数为: 标准正态分布的概率累计函数记作F(u),表示变量u小于某一定值u i 的概率。 对于u落在区间 正态分布的概率计算 :将服从正态分布的随机变量x取值区间的上、下限按 转换,查询正态分布的累积函数F(u)值表即可。 例:计算P(|x| +2.58 ) 根据 ,u=2.58,则P(|x| +2.58 )=P(|u|2.58)=P(u2.58)+P(u-2.58)=1-F(u=2.58)+F(u=-2.58)=1-0.99506+0.00494=0.00988。 正态离差u值表可得知两尾概率取某一值时的u临界值,如P=0.05时,u=1.9600,P=0.01时,u=2.5758。
个人分类: 资料积累|7927 次阅读|1 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-5 04:20

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部