谢钢
杂谈常用的概率分布(common probability distributions)
2022-6-18 21:05
阅读:3168


 概率分布是相对随机变量而言的。所以,谈概率分布首先要说什么是随机变量。让我们从小学的数学算术题入手来谈这个复杂的概念。

对一个正常健康的成人来说人人都会算3+2=5 。进一步如果我们用Y来代表某一个数,那么Y+2=5,Y等于多少呢?这也太容易了,很少会有人做不出Y=3的正确答案。再进一步,如果用X来代表另一个未知数,那么X + Y = 5的话, Y等于多少呢?这一下可能会让一些人作难了。这时候数学家就要站出来说话了,首先把这个式子改头换面一下,写成Y = 5-X,然后,我们就可以说,Y的值取决于X的取值;只要你给我一个确定的X的值,我就可以还给你一个确定的Y值;所以,Y在这种情况下不是一个确定的数,我们把它称作‘变量’。当然,X也是一个变量。以上我们讨论的都是所谓的非随机变化的数学问题(deterministic problem)。如果我们按代数的标准方式表达Y = f (X),则所有X变量可能的取值范围就是‘定义域’,所有Y变量可能的取值范围就是‘值域’。

好,现在我告诉你,X的取值是服从一个概率分布,比如正态分布(normal distribution)这样一个规律;可写作X ~ N(μ,σ2),其中μ和σ2是两个可以完全定义正态分布的参数,μ叫做期望值(expected value),σ2叫做方差(variance)。于是,我们就称X是一个随机变量。因为Y = 5-X,如果X是一个服从正态分布的随机变量,Y也是一个服从正态分布的随机变量;Y与X的差别只是在期望值上,Y的期望值是5-μ。这里一下子我们从讨论非随机变化的数学问题(deterministic problem)跳到了涉及随机变量的数学问题(stochastic problem or a problem involving random variables)。

因此,如果一个变量它的取值结果是服从于某个概率分布的,这样的变量就被称作一个‘随机变量’。

于是你就会要问,那么这概率分布究竟是什么东东?好,我们不去涉及定义概率的哲学层次的考虑,仅仅从标准的概率论的角度来定义概率分布。标准的概率分布定义包括三个要素(英文有一个很吓人的名称‘概率空间’probability space, probability triple):(1)一个随机事件;(2)这个逻辑上定义好的随机事件所有可能的数量结果;(3)该随机事件所有可能的数量结果对应的可能性/倾向度/概率的值。请注意,这是我把数理统计教科书用来定义概率分布的严格的数学语言用日常语言变通的一种表达。我们通过举例来更容易地理解领会‘概率空间’所表达的概率分布定义。

假定我们有一个标准的立方六面体的色子每一面对应一个1 到6 的阿拉伯数字。我们定义一个随机事件:掷出色子并读取向上一面的数字;对应的所有的可能的结果是:{1,2,3,4,5,6};结果对应的可能性/倾向度/概率为{1/6,1/6,1/6,1/6,1/6,1/6}。这就是一个离散随机变量的均匀分布(discrete uniform distribution)的例子。

现在假定我们有两个标准的立方六面体的色子,而我们要定义的随机事件的实验设计如下所述。每次掷出这两枚色子后读它们取向上一面的数字并加总;如果结果为6或比6小则说‘这是个小的结果’,否则为‘大的结果’。当然这是一个可以用作通过‘大’或‘小’的不同随机结果进行赌博的事件。随机变量为在完成n次上述实验后结果为大的次数X。根据这个随机事件的实验设计我们知道其对应的所有可能的结果为:{2,3,4,5,6}=“小“,{7,8,9,10,11,12}=”大“,如果进行了n次实验,x={0,1,2,…, n};p1.png

更直观一点让我们来看一看下面这个通过所谓的帕斯卡三角形(Pascal’s triangle,只展示了头七行,up to the first 7 rows)来说明二项分布(假定 p=0.5)所代表的随机事件的结果的概率是怎样计算出来的。当n=1时,这是伯努利分布(Bernoulli distribution),随机变量X只有两种结果x=0或x=1,当然P(X=0) = P(X=1) = ½=0.5。当n>1时,就成了二项分布(因此伯努利分布是二项分布的一个特例),其概率分布为 帕斯卡三角形的对应的行的数值除以行数值的加总。比如,当n=2时,二项分布为P(X=0) =P(X=2) = ¼; P(X=1)=2/4。当n=3时,二项分布为P(X=0) =P(X=3) = 1/8; P(X=1)=P(X=2)=3/8。当n=5时,二项分布为P(X=0) =P(X=5) = 1/32; P(X=1)=P(X=4)=5/32, P(X=2)=P(X=3)=10/32,等等。

至此,通过观察帕斯卡三角形显示出的对称规律可能有读者会产生一个想法,当n无限增大的时候,二项分布是否会变成了著名的正态分布呢?你的猜想完全正确 – 理论已经证明了在满足np > 5及n(1-p) > 5的条件下,二项分布随着n值的加大就越来越逼近正态分布,当n趋于无穷大时二项分布就成了正态分布。而当n值很大但p值很小时,随着n值的加大二项分布就逐渐逼近一个期望值μ=np的泊阿松分布。

如果我们在上述的抛掷双色子的例子的随机变量X从另一个角度定义一下,考虑X为在n次实验中出现“小“的次数达到一个预设好的数m次时我们获得”大“的结果的概率分布为何?这就成了负二项分布(negative binomial distribution);进一步,若m=1,则这个负二项分布的特例被称作几何分布(geometric distribution)。

现在让我们来讨论一下这样一个实际生活中可能遇到的问题。情景一:一条自动化生产线的产品的质量控制。如果我把每小时所记录到的次品的数量作为随机变量来分析,首先我们想到的会是用泊阿松分布(Poisson distribution只需要一个参数μ=期望值来定义)。可是如果我换一个角度来研究这个问题,以每两个连续出现的次品的间隔时间作为随机变量,则对此同样问题的研究所用的就是指数分布(exponential distribution,同样也只需一个参数来定义)了。其实针对同一个问题的泊阿松分布与指数分布就是等同于一个硬币的不同的面,互为表里。情景二:我要研究某高速公路收费站的交通流量问题。于是在收费站对所通过的车辆数量进行统计分析。类似地我们可以通过把一个固定的时间间隔内(比如每10分钟)通过的车辆数作为随机变量,按泊阿松分布来做分析;或以每两个连续通过的车辆的间隔时间作为随机变量从指数分布的角度进行分析。但问题来了,不论是泊阿松分布还是指数分布都要求假设通过的车辆彼此是互不关联的,比如时不时有来自同一个单位的几辆车通过收费站,这种情况就违反了泊阿松分布及指数分布的应用条件。这时我们可以让泊阿松分布的参数不再是一个常数,例如让Poisson(μ)中的μ服从一个Gamma distribution(伽马分布),则理论上可以证明这样一个复合分布的结果是一个负二项分布(negative binomial distribution)。概率论的理论还告诉我们指数分布其实是伽马分布的一个特例。伽马分布由两个参数定义,一个是形状参数(shape parameter),一个是比例参数(scale parameter),当其形状参数=1时,伽马分布就成了一个指数分布。

十年前我在昆士兰理工大学工作时有机会研究工程设备的可靠性问题(reliability analysis for engineering assets),作可靠性分析主要是分析设备零部件或系统的使用寿命,统计分析部分用到最多的就是用指数分布或韦伯分布(Weibull distribution)对设备的风险发生率(hazard rate)作拟合。与伽马分布一样,韦伯分布也是由形状参数(shape parameter)和比例参数(scale parameter)来定义,而当形状参数=1时,韦伯分布也成了一个指数分布。理论上有一个广义的三参数的伽马分布,而两参数的伽马分布和韦伯分布都是广义伽马分布的特例(both Gamma distribution and Weibull distribution are special case of the generalised Gamma distribution)。所以伽马分布和韦伯分布就是“兄弟关系”。

篇1.png

数学里的贝塔β函数也是基于伽马函数来定义的,而概率论里的贝塔分布又是借助贝塔函数来定义的。贝塔分布(Beta distribution)由两个参数来定义,它的极限形式(当两个参数都是无穷大时)就成为了正态分布;当两个参数都等于1时,贝塔分布就变成了取值范围为0到1 的连续型均匀分布(continuous uniform distribution)。

在我们的日常生活中凡是涉及对某个具体目标进行控制的努力,其控制效果的好坏可以用标定值与实际值的偏离程度来衡量,在统计数据分析里就是看所有离差平方值的和的大小(SSE = Sum of Squared Errors)。由于离差的形成是我们人为控制的结果,许多的无法控制的因素使得离差呈正态分布。或者说大量同质独立事件对某一个受控事件发生结果的叠加影响在统计规律上是一个正态分布。如果一个随机变量X是服从正态分布的,那么概率论告诉我们X2 也是一个随机变量并且它服从卡方分布(Chi-square distribution)。而当我们需要比较两个以上的方差项的时候所应用的F分布(F distribution)实际上就是两个Chi-square项的比值。当然,正态分布在统计数据分析的主导角色也离不开中心极限定理的功劳。以下几段关于中心极限定理的文字拷贝/粘贴自“女士品茶”的中文译本: