科学网

 找回密码
  注册

tag 标签: 负指数分布

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

用发生概率和广义熵同时最大原理推导负指数分布的关键步骤
冯向军 2017-8-20 06:28
用发生概率和广义熵同时最大原理推导负指数分布的关键步骤 美国归侨冯向军博士,2017年8月20日写于美丽家乡 (一)关键步骤 对于任何处于平衡态的系统的非均匀概率分布p1,p2,...pn而言,一般说来,均存在自然约束条件 、 自洽约束条件和系统约束条件, 这是现代统计力学和热力学的过去认识模糊且不全面的一个地方。 人们只是片面地认识到这三种同时存在的约束条件中的某一种或两种,因此导致 以拉格朗日乘数法为基础的种种极值原理普遍存在不自洽和有违统计力学和热力学的根本因果律等重大理论问题。 所谓 自然约束条件是指: p1 + p2 + ...+ pn = 1 (1-1) 自然约束条件 之所以普遍存在,那是因为一切服从科尔莫哥洛夫概率公理的概率分布均具有规范性的缘故。 所谓 自洽约束条件是指: p1/f(x1) + p2/f(x2) + ... + pn/f(xn) = 常数 = n (1-2) 自洽约束条件 之所以在系统的平衡态普遍存在,那是因为一切在平衡态已发生的分布pi=f(xi)(i = 1,2,...,n)不再变化的缘故。 所谓系统约束 条件则是指: p1x1 + p2x2 + ... + pnxn = 常量 (1-3) 系统约束 条件就是历史上著名的“变量的统计平均值不变”。之所以 系统约束 条件在系统平衡态普遍存在,那是因为在 系统平衡态位于广义能级x上的粒子数不再变化从而令系统的总广义能量 N(p1x1 + p2x2 + ... + pnxn) (这其中N是系统宏观粒子总数) 不变的缘故。 在自然约束条件 、自洽约束条件和系统约束条件下,所谓推导负指数分布f(xi)=aexp(-bxi),i = 1,2,...,n,就是要在给定约束条件下,根据拉格朗日乘数法选定目标函数,以确保 负指数分布f(xi)=aexp(-bxi)即是最值分布或极值分布。由此可见 推导负指数分布f(xi)=aexp(-bxi)的关键步骤就是 选定目标函数。因为自洽约束条件,为使拉格朗日算子的一阶偏导数为零,最简单的方法就是在目标函数中包含发生概率的对数log(P); 因为系统约束条件,为使拉格朗日算子的一阶偏导数为零,最简单的方法就是在目标函数中包含詹尼斯信息熵,于是就有了目标函数 T = 发生概率的对数log(P)+ 詹尼斯信息熵。以上就是 发明发生概率信息熵同时最大原理的真实过程。 (二)用 发生概率信息熵同时最大原理推导负指数分布 对于平衡态负指数分布pi=f(xi)= aexp(-bxi),i=1,2,...,n 因为: log(P) + S = -(p1-1)log(p1) -(p2-1)log(p2)-...-(pn-1)log(pn)(目标函数) p1/f(x1) + p2/f(x2) +...+pn/f(xn) = 常数 = n (自洽约束条件) p1 + p2 +...+pn = 1 (自然约束条件) 又因为: f(xi) = aexp(-bxi),i=1,2,...,n p1x1 + p2x2 +... + pnxn = 常量 所以: -p1log(f(x1))-p2log(f(x2))-...-pnlog(f(xn)) = 常量 (系统约束条件) 可构造 拉格朗日算子 L = -(p1-1)log(p1) -(p2-1)log(p2)-...-(pn-1)log(pn) + C 1 (p1 + p2 +...+ pn - 1) + C2( ( p1/f(x1) + p2/f(x2) +...+ pn/f(xn) - C3) + C4( -p1log(f(x1))-p2log(f(x2))-...-pnlog(f(xn)) - C5) 对于 拉格朗日算子L求一阶偏导数 dL/dpi(i=1,2,...,n) 并令之为零。有: dL/dpi = -log(pi) -1 + 1 /pi + C1 + C2/f( xi) - C4log(f(xi)) = 0, i = 1,2,...,n。 当C1 = 1, C2 = -1,C4 = -1,有: pi = f( xi ) = aexp(-bxi), i = 1,2,...,n。 但是 拉格朗日算子 L的二阶偏导数矩阵为一主对角线上元素恒负而其余元素全为零的负定对称矩阵,因此令 拉格朗日算子 L 一阶偏导数为零的上述负指数 分布pi = aexp(-bxi) 也必定是令 拉格朗日算子 L或约束条件下的目标函数 发生概率的对数 + 信息熵 取得最大值或极大值的概率分布。 这种 负指数 分布pi = aexp(-bxi) 符合 发生概率和信息熵同时 最大 原理 。
个人分类: 决定性概率论|2563 次阅读|0 个评论
由二项分布推导出张学文快刀斩乱麻分布
热度 1 冯向军 2017-7-20 06:26
由二项分布推导出张学文快刀斩乱麻分布 美国归侨冯向军博士,2017年7月20日写于美丽家乡 【摘要】本文暂时忘失一切由种种极值原理配合约束条件来求概率分布的方法,返朴归真,从最朴素的二项分布出发,自然而直接地推导出 张学文快刀斩乱麻实验中的乱麻长度分布: 张学文快刀斩乱麻分布【1】。 (一)二项分布【2】 考察由n次随机实验所组成的随机现象,它满足以下条件:1)重复进行n次随机实验;2)n次实验相互独立;3)每次实验仅有两个可能结果;4)每次实验中给定事件出现的概率为p,不出现的概率为1-p。假设Y表示n次独立重复实验中给定事件出现的次数,显然Y是可以取0,1,…,n等n+1个值的离散随机变量。假设这n次实验中,每个“给定事件出现k次的结果”为Ek,显然Ek的发生概率为p k (1-p) n-k 。因为这样的结果有:n!/k!(n-k)!个,所以按照柯尔莫哥洛夫概率的可加性, 这n次实 验中,给定事件出现k次的概率 P(Y=k) = n!/(k!(n-k)!)p k (1-p) (n-k) ,k = 0,1,...,n。 (1-1) (1-1)式就是二项分布的概率分布表达式。 (二)恒等式 (1+1/n) n -e, 当n-无穷大。 (1 - b/ n) n -e -b , 当n-无穷大。 (三)广义泊松分布 假设把任意给定的变量x=0等分成n个变量片段。当n足够大时,在每个等分变量片段上给定事件要么出现1次,要么不出现。又 假设 给定事件出现(1次)的概率p与变量片段的长度x/n成正线性关系 。有:p = (bx + c)/n。这其中,b 0。按(1-1)式,变量不大于x时 给定事件 出现的概率的分布为 P(Y = k) = n!/(k!(n-k)!)((bx+c)/n) k (1-(bx+c)/n) (n-k) (1-2) P(Y= k) = n!/(n k (n-k)!)(1-(bx+c)/n) -k (( bx+c)) k /k!(1-(bx+c)/n) n = (n/n)(1-1/n)(1-2/n)...(1-( k- 1)/n) (1-(bx+c)/n) -k (( bx+c)) k /k! (1-(bx+c)/n) n 当 n-无穷大 P(Y= k) =((bx+c)) k / k! e -(bx+c) (1-3) 这就是广义泊松分布。 (三)负指数分布 假设变量小于x时给定事件都不发生,要等到 变量等于 x以后 给定事件才出现或发生。那么, 给定事件在 等到 变量等于 x以后 才发生的概率关于x的分布为: P(x)= P(Y=0) = e- ( bx+c) = ae -bx (1-4) 这其中,a = e -c 。 这就是负指数分布。 (四)张学文快刀斩乱麻分布 假设乱麻长度小于x时张学文快刀斩乱麻实验中的乱麻都不出现或不发生,要等到 乱麻长度 等于x以后 乱麻 才发生。那么,乱麻 在等到其长度等于x以后才发生的概率是x的函数, 乱麻 在等到其长度等于x以后才发生的概率 关于x的分布为: P(x)= P(Y=0) = ae- bx (1-4) 显然,x越小, 乱麻 在等到其长度等于x以后才发生的概率就越大。 这就是 张学文快刀斩乱麻分布 。 经过对张学文先生的连续分布模型离散化,我已确定a和b的值分别是【3】: a = 64.87 b = 0.1 参考文献 【1】冯向军,张学文快刀斩乱麻实验 ,科学网,2017年月15日。 http://blog.sciencenet.cn/blog-1968-1066532.html 【2】冯向军, 由二项分布推导泊松分布和负指数分布,科学网,2017年月19日。 http://blog.sciencenet.cn/blog-1968-1067190.html 【3】 冯向军, 对张学文快刀斩乱麻实验的友好再研究, 2017年7月18日 。 http://blog.sciencenet.cn/blog-1968-1066954.html
个人分类: 概率论|2088 次阅读|2 个评论
由二项分布推导泊松分布和负指数分布
冯向军 2017-7-19 20:45
由二项分布推导泊松分布和负指数分布 美国归侨冯向军博士,2017年7月19日写于美丽家乡 (一)二项分布 考察由n次随机实验所组成的随机现象,它满足以下条件:1)重复进行n次随机实验;2)n次实验相互独立;3)每次实验仅有两个可能结果;4)每次实验中给定事件出现的概率为p,不出现的概率为1-p。假设X表示n次独立重复实验中给定事件出现的次数,显然X是可以取0,1,…,n等n+1个值的离散随机变量。设这n次实验中,每个“给定事件出现k次的结果”为Ek,显然Ek的发生概率为p k (1-p) n-k 。因为这样的结果有:n!/k!(n-k)!个,所以按照柯尔莫哥洛夫概率的可加性, 这n次实 验中,给定事件出现k次的概率 P(X=k) = n!/(k!(n-k)!)p k (1-p) (n-k) (1-1) (1-1)式就是二项分布的概率分布表达式。 (二)恒等式 (1+1/n) n -e, 当n-无穷大。 (1 - b/ n) n -e -b , 当n-无穷大。 (三)泊松分布 假设把时间t等分成n个时间片段。当n足够大时,在每个等分时间片段上给定事件要么出现1次,要么不出现。 给定事件出现(1次)的概率与时间片段的长度t/n成正比。有:p = bt/n。按(1-1)式, 时间t内 给定事件 出现的概率的分布为 P(X = k) = n!/(k!(n-k)!)(bt/n) k (1-bt/n) (n-k) (1-2) P(X = k) = n!/(n k (n-k)!)(1-bt/n) -k ( bt) k /k!(1-bt/n) n = (n/n)(1-1/n)(1-2/n)...(1-( k- 1)/n) (1-bt/n) -k ( bt) k /k! (1-bt/n) n 当 n-无穷大 P(X = k) =(bt) k / k! e -bt (1-3) 这就是泊松分布。 (三)负指数分布 假设t时间内给定事件都不发生,要等待t时间后 给定事件才发生。那么, 给定事件在过了t时间后才发生的概率关于等待时间t的分布为: P(t )= P(X=0) = e- bt (1-4) 这就是负指数分布。
个人分类: 概率论|7781 次阅读|0 个评论
请张学文先生答疑
热度 1 冯向军 2017-7-18 10:48
请张学文先生答疑 美国归侨冯向军博士,2017年7月18日写于美丽家乡 张学文先生: 您好! 连日来,我有一个至今仍未释怀的重大疑惑,百思不得其解。今公开发文征求您的意见,也是想一并听取天下其他高人的意见。 问题: 当概率分布服从变量的统计平均值为常量,概率分布是不是不应该服从负指数分布而只应该服从标准负1次幂分布? 理由是当概率分布p1,p2,...pn 满 足 pi = C/xi , i = 1, 2, ...,n (1-1) 就有: pixi = C p1x1 + p2x2 + ...+pnxn = nC = 常量 (1-2) 既然(1-2)式是“约束条件”或 变量的统计平均值为常量是 “约束条件”,那么就要“以不变应万变”“管住所有的”,一旦实现了的分布(如(1-1)所示)满足 “约束条件” (如(1-2)所示),所有可能的分布都应该服从(1-2)式。 另一方面, 当概率分布p1,p2,...pn 满 足 pi = aexp(-bxi) , i = 1, 2, ...,n (1-3) 就有: piexp(bxi)= a p1exp(bx1) + p2exp(bx2) + ...+pnexp(bxn) = na = 常量 (1-2) 这也就是说当 “约束条件”是 变量的统计平均值为常量, 概率分布似乎应该且只应该服从 标准负1次幂分布 而不应该是《组成论》所讲的负指数分布。 难道约束条件反而约束不住实现了的最终分布??? 心中还有话。暂说这么多。 诚心敬请公开答疑。 此致 敬礼! 冯向军 =============================== 【备考】与张学文先生的友好交换意见: 张学文先生说 :我理解的你热心的二元,即在你认可的函数关系中的自变量仅有两个可能的取值。当我们在考虑连续变量的一般情况时,如果你小心地仅允许自变量取两个可能值。这就是一种对连续函数很粗略的近似。这样做需要很小心。例如你认为这是个连续函数而仅有两个离散值,那么通过这两个点的连续函数理论上有无穷多个。如果你即热心使用负指数,负幂函数这些连续函数。又仅在自变量取两个离散值的情况下分析它,就会出现一些用代数加法代替积分而引起的“怪事”。 冯向军答复:二元离散系统和多元离散系统是客观存在的。 二元离散系统和多元离散系统 服从幂律或负指数分布也是客观实际。一点都不比连续系统“低人一等”也是100%精确,绝对不是对连续系统的“粗略近似”。例如 : 在齐普夫定律(Zipf’s Law)中 令: pi = fi,xi = ri,i = 1,2,...,n 就有: pi * xi = C pi = C / xi 变量本来就是离散的。负1次标准幂律100%精确, 绝对不是对连续系统的“粗略近似”。
个人分类: 决定性概率论|1937 次阅读|9 个评论
发现一降水气候公式
热度 5 zhangxw 2015-1-13 13:05
发现( 20150113 ): R 平方 =0.99 的一个降水气候公式 张学文, 2015/1/13 昨天帮助檀成龙分析一些他提供的中国气候资料,不经意间想到统计一下中国各地不同的月平均降水量为不同值的出现次数的规律性。结果是喜出望外(不过也可以说在预料之中):它也符合我们过去一再关注的不同降水量笼罩面积符合负指数律。而让我特别高兴的是,这个从资料中归纳的经验公式的 R 平方值竟然高达 0.9902. 这几乎是我过去发现的经验公式中质量最高的! 下面给出对应的图,和简要说明,欢迎关注。 附带说一句:如果引用,请说明出处,我们可能另外就此形成文章。 资料年代 1971-2000 ,在全国选用的气象站数量 194 个,月降水量 r 是当地的对应月份平均值,单位是 0.1 毫米,共有样本数 2328 ,获得的公式是出现次数 n =2907exp(-0.0016 r ). 体现公式精度(质量好坏)的 R 2 值 =0.9902 。 即从中国国土任取一点,其月平均降水量为不同值的概率符合负指数型的概率密度分布函数。 关于降水量笼罩面积符合负指数分布问题,欢迎参考《熵气象学》等有关文章。 感谢檀成龙提供有关资料。 修订:图的标题中的b字应当是次数n。
个人分类: 气候公式选集|4163 次阅读|10 个评论
又发现4个有关降水量的负指数分布
热度 1 zhangxw 2012-7-1 17:05
又发现4个有关降水量的负指数分布
又发现 4 个有关降水量的负指数分布 张学文 ,2012/7/1 1. 在新疆 89 个气象站的 38 年的月降水量的数据基础上我们曾经整理(发现)每个“站 . 年”的降水量服从负指数分布, http://blog.sciencenet.cn/home.php?mod=spaceuid=2024do=blogid=583031 。现在进而发现不仅是年降水量如此,季降水量也是如此。即在 89 个不同地点的气象站中(混同统计),扣除无降水的次数后,不同的季降水量值的出现概率也都符合负指数分布。 下面给出包括无降水的情况的四季概率的数值、公式。其对应的图另外给出。 四季降水量的出现概率表: 季降水级别(毫米) 春季 夏季 秋季 冬季 0 0.034595 0.000296 0.059432 0.068598 0-20 0.391189 0.221762 0.426671 0.67741 20-40 0.19042 0.210526 0.206387 0.171496 40-60 0.148729 0.188646 0.138971 0.054997 60-80 0.088114 0.123891 0.087226 0.018628 80-100 0.054406 0.073625 0.044057 0.006209 100-120 0.031934 0.049083 0.020106 0.002365 120-140 0.023359 0.029568 0.012419 0 140-160 0.014784 0.020993 0.003253 0.000296 160-180 0.008279 0.018628 0.000887 0 180-200 0.007688 0.012419 0.000591 0 200-220 0.003844 0.011236 0 0 220-240 0.000887 0.005322 0 0 240-260 0.000887 0.007096 0 0 260-280 0.000591 0.005914 0 0 280-300 0.000296 0.005914 0 0 300-320 0 0.006209 0 0 320-340 0 0.002365 0 0 340-360 0 0.001183 0 0 360-380 0 0.002365 0 0 380-400 0 0.000591 0 0 400-420 0 0.000591 0 0 420-440 0 0.000591 0 0 440-460 0 0.000887 0 0 460-480 0 0 0 0 480-500 0 0.000296 0 0 2.1 春季 : 在春季任取一个“站·年”,其季降水量很符合负指数分布。 公式里 r , p 分别对应本季的降水量分档的上限和出现概率,本季的降水分档是以 20 毫米为单位 p =0.37755exp(-( r -20)/39.00904) 2.2 夏季: 在夏季任取一个“站·年”,其季降水量的概率很符合负指数分布。 公式是 r , p 分别对应本季的降水量分档的上限和出现概率,本季的降水分档是以 50 毫米为单位 公式: p =0.5463exp(-( r -50))/63.96169 2.2 秋季: 很符合负指数分布 公式是 r , p 分别对应本季的降水量分档的上限和出现概率,本季的降水分档是以 20 毫米为单位 公式: p =0.41814exp(-( r -20))/34.04094 2.2 冬季: 很符合负指数分布 公式是 r , p 分别对应本季的降水量分档的上限和出现概率,本季的降水分档是以 20 毫米为单位 公式: p =0.67655exp(-( r -20))/14.94703 看来我们发现的降水的“负指数分布家族”在扩大中。 欢迎延伸这个的发现,例如看看其他的省区,或者全国,或者外国是否也有这个规律性 … ,但是也请尊重这里提出的数据、发现与分析。即目前这些发现没有写成为文章,但它以博客的粗糙形式公布了。 注:春季:3-5月,夏季:6-8,秋季:9-11,冬季是12,1,2月 新疆不同气象站混同统计的四季降水量服从负指数分布
个人分类: 空中水科学|7786 次阅读|2 个评论
又一个负指数分布(1)
热度 1 zhangxw 2012-6-17 13:29
又一个负指数分布(1)
又一个负指数分布 (1) 张学文 ,2012/6/17 手头有新疆 89 个气象站的 38 年的每年年降水量资料 , 共 3382 个数据。这些气象站的这些年降水量数值有大有小,而关于其不同年降水量的资料在总的 3382 个数据中占有(站 . 年)数的百分比,我统计得出下表: 年降水量区间的上限 出现的频率( % ) 50 0.251331 100 0.199586 150 0.153755 200 0.127735 250 0.095506 300 0.057363 350 0.031047 400 0.026611 450 0.016263 500 0.014193 550 0.007983 600 0.007688 650 0.006209 700 0.003548 750 0.000591 800 0.000591 850 0 用 ORIGIN 软件分析发现它们很好地符合负指数分布函数 ( 见附图 ) 。其具体公式为 P =0.26213exp p 代表概率(站年数 /3382 ) , x 代表年降水量的值。 它们为什么有如此好的关系?全国的资料也是如此吗,其他的省区也如此? … 余下的问题后面分析。 新疆大多数的气象站的年降水量小,不同降水量的出现概率符合负指数分布
个人分类: 空中水科学|10391 次阅读|2 个评论
降水现象中服从负指数分布的一些变量
zhangxw 2012-5-25 16:44
降水现象中服从负指数分布的一些变量 张学文, 2012/5/25 我们已经在斩乱麻物理模型下对一些随机变量的出现概率服从负指数分布的理论认识做了简要说明 http://blog.sciencenet.cn/home.php?mod=spaceuid=2024do=blogid=574364 。这个思路在降水现象中有多侧面的体现。下面的表就是一个汇总。这个表取自 1994 年写的降水统计力学及其应用(讲义 - 马力,张学文)第 3 章,但是又补入了我昨天的两个猜想(它们有待实例证明) http://blog.sciencenet.cn/home.php?mod=spaceuid=2024do=blogid=574390 。 类 型 序 号 变量名称 分布问题 样本总体 约束条件 (不变量含义) 笼 罩 面 积 -1 我国各地的多年平均降水日数(或者各季) 不同降水日数所笼罩的国土面积服从负指数分布 同一时期的的全国各地的降水日数 我国降水日数的平均值固定 0 我国各地的多年平均降水小时数(或者各季) 不同降水小时数所笼罩的国土面积服从负指数分布 同一时期的的全国各地的降水小时数 我国降水小时数的平均值固定 粒 径 分 布 1 雨滴的半径 各种半径大小占有个数的多少 一场雨的大量雨滴 ? 2 雪花的线径 各种线径大小占有个数的多少 一场雪的大量雪花片 ? 3 霰的线径 各种线径大小占有个数的多少 一场霰的大量霰粒 ? 4 冰雹的质量 各种质量占有个数的多少 一场冰雹的大量冰雹粒 ? 笼 罩 面 积 分 布 5 过程降水量 各种降水量占有降水区域面积的多少 一场降水的降水区域 降水区域的面积平均雨量为有限值 6 瞬时降水量 各种降水量占有降水区域面积的多少 一场降水的某一瞬时的降水区域 降水区域的面积平均雨量为有限值 7 过程的总历时 各种历时长度占有降水区域面积的多少 一场降水的降水区域 降水区域的面积平均总历时为有限值 8 过程的平均降水强度 各种降水强度占有降水区域面积的多少 一场降水的降水区域 降水区域的面积平均降水强度为有限值 9 多年平均降水量 各种降水量占有研究区域的面积的多少 所研究的区域 所研究区域的多年平均年降水量为有限值 单 点 的 概 率 分 布 10 测站的一次降水中的降水强度 各种降水强度占有的历时的多少 测站一场降水的全部历时 一次降水的 平均降水强度为有限值 11 测站的一次降水中的降水量 各种降水量的出现概率 测站的一个气候不变的历史时期 平均过程降水量为有限值 12 测站的一次降水中的持续时间 各种降水持续时间的出现概率 测站的一个气候不变的历史时期 平均降水持续时间为有限值 13 测站的持续无降水的时间 各种无降水时间长度的出现概率 测站的一个气候不变的历史时期 平均无降水阶段的长度为有限值 这里讲的线径指把雪花融化为水滴以后所对应的水滴的半径。霰的线径含义相同 许焕斌等 , 雹云物理与防雹的原理和设计 , 北京 , 气象出版社 ,2006, 第 2 版 ,62 页
个人分类: 空中水科学|4539 次阅读|0 个评论
一个(两个?)猜想
zhangxw 2012-5-24 11:20
一个(两个?)猜想 张学文, 2012/5/24 依据类似斩乱麻模型的思路: http://blog.sciencenet.cn/blog-2024-574364.html ,我曾经为获得一次降水过程中不同降水量笼罩面积为负指数关系而高兴。后来马力以某区域的年平均降水量的地理分布为依据,分析几个地区的年降水量与其笼罩面积的关系,也发现它们服从负指数关系,即年平均降水量 r 越大,其笼罩面积 a 越小, r-a 是负指数函数。 现在我没有资料,不过我猜测,我国各地的年平均降水时数是不同的。而不同降水时数所分别笼罩的面积也服从负指数分布。 欢迎大家用资料来否定或者证实这个猜想。 似乎还可以猜想: 我国各地的年平均降水日数是不同的。而不同降水日数所分别笼罩的面积也服从负指数分布。 (注意降水时数是一段时期的总降水维持时间,而降水日数则大体代表了降水次数)
个人分类: 空中水科学|2927 次阅读|0 个评论
斩乱麻物理模型
热度 2 zhangxw 2012-5-24 10:28
斩乱麻物理模型 张学文, 2012/5/24 1. 破碎问题: l 有一条长 10 米的线,用刀任意的切割成为 N 段 ; 问,不同长度的线头各有多少? l 有个茶鸡蛋,蛋壳上有很多裂纹,从而形成了很多小面积 ; 问,不同的小面积各有多少? l 有一块 1 平方米的玻璃被摔碎了 ; 问,不同面积的玻璃各有的百分比可能是多少? l 喷壶里装着水,用力推喷壶活塞,药水就喷出很多小水滴 ; 问,不同大小的水滴各有多少? l 有 1 立方公里的水被某天气系统从空中任性地洒向 1 万平方公里的地面;问,获得不同降水量的面积各有多少? l 100 年中某地共下了 H 毫米的雨,它是分为 1 万次降水过程而落地的;问,不同降水量的降水过程各有多少? l 100 年中某地有 1 万次降水过程,它们共占用了 10 万小时;问,不同降水过程经历的时间各有多少? 以上这些看似不同的问题具有一定类似性。不妨把它们统称为“ 破碎问题 ”。它们在结构上大致有两个共同点:一是总量具有确定性(线绳的长度、气候不变 , 则总降水量也不变等等),另外一个特点就是具体每个过程的结局具有随机性。这里探讨这类破碎问题中的比较简单的一类, 斩乱麻模型 就是对它们的概括。 2. 斩乱麻模型的数值实验 设想有一段长度为 L 的线被任意地切割为很多段(类似斩乱麻)。于是获得一堆长短不齐的碎线头。现在问 , 不同长度的线头各有多少。具体做这个物理实验固然可以 , 但在电脑上进行对应的“ 数值实验 ”更方便。例如,打开一个空白的 excel 的工作簿,然后取 0-10000 之间的 9999 个随机数 , 就可以把长度为 10000 的线切成为 1 万段。然后统计不同长度的线段占的数量,这已经是答案了。 表 #.a 就是一个类似的实验结果。这个结果对应于线头长度的合计值(总长度)为 10000 ,于是各个线头长度的 平均值 等于 1 。 表 #.a 斩乱麻实验的一个实验结局 线头长度 x 出现次数 y 次数的自然对数 z 0-0.5 3954 8.282483 0.5-1 2369 7.770223 1-1.5 1418 7.257003 1.5-2 877 6.776507 2-2.5 559 6.326149 2.5-3 321 5.771441 3-3.5 213 5.361292 3.5-4 123 4.812184 4-4.5 67 4.204693 4.5-5 34 3.526361 5-5.5 21 3.044522 5.5-6 16 2.772589 6-6.5 11 2.397895 6.5-7 4 1.386294 7-7.5 7 1.94591 7.5-8 2 0.693147 8-8.5 1 0 8.5-9 1 0 9-9.5 2 0.693147 合计 10000 - 以线头长度与出现次数做直角坐标图,就看到随着线头长度增加,出现次数迅速减少的 图 #.a 。 图 #.a 斩乱麻实验的线头长度与出现次数的关系 (图请打开WORD版文稿) 斩乱麻模型.doc 3. 斩乱麻模型的理论分析 以上的数值实验可以进行多次,而每次获得的曲线的基本特征几乎是相同的。这个曲线实际对应着一个概率密度分布函数。而概率密度分布函数的一种积分对应着一个统计熵(信息论的熵)。做多次试验,就可以获得多个略有不同的概率分布函数,也就获得多个熵的值。但是在随机性很大的这些统计实验中,熵最大的结局是最容易出现的。于是我们就可以反过来考虑:在约束条件仅为一个总量不变的情况下,熵最大所对应的概率密度分布函数是什么?其答案是这个函数应当是负指数分布 , ] 。按照这个基于最大熵原理的分析。如果作为唯一的不变量的物理意义是代数平均值 a (或者合计值,它们是等价的),而具体各个线头长度变量的值以最任意的方式出现,那么不同变量值的概率密度分布函数就是如下形式的负指数分布: f ( x )=(1/ a )exp(- x/a ) ( #.a ) 这个负指数函数的形状与图 #.a 是十分一致的。这里的变量 x 仅能取正值(线头的长度不能小于零),而且变量取值小的情况出现的概率高,随着变量值加大,出现概率迅速减小。为了更直观地看到理论结果与实验结果的一致性,我们把公式 ( #.a ) 两边取自然对数,而有 ln f ( x )=ln(1/a)- x/a (#.b) 于是我们看到出现概率的对数与变量是直线关系。在图 #.b 上给出了斩乱麻实验中获得的不同线头长度 x 与出现次数 y 的自然对数 z 的关系,它们体现为一条直线。注意到出现次数与总次数 10000 的比值对应于理论上的概率,这与理论分析是一致的。 图 #.b 斩乱麻实验的不同线头长度与出现次数的自然对数的关系 现在进一步分析理论公式与实验获得的经验公式的一致性。在理论公式 #.b 中 f ( x ) 表示变量 x 出现于 x ± 0.5 的概率。而我们的数值实验中获得的出现次数,则仅是变量在 0.5 间隔中的对应值。所以出现次数的值乘以 2 ,才是与概率对应的在 10000 次试验中的出现次数。令 y 为 0.5 间隔中对应的实际出现次数(即图 #.a 的纵坐标),则 f ( x )=2y/10000=y/5000 令 ln y =z ,有 z=ln f ( x ) +ln5000, 注意到本数值试验中 a =1, 于是 公式 #.b 变成了 z=ln5000-x z=8.517-x ( #.c ) 即从理论上讲,做随机性切割 1 万段时不同长度 x 的出现次数 y 的对数 z 与 x 是直线关系是公式( #.c )。另外,在数值试验中 excel 软件帮助我们获得了图 #.b, 也获得一个拟合实际数据的经验公式,它是 z =8.512-0.9259 x ( #.d ) 显然公式 ( #.c ) 与 ( #.d ) 的外形是相同的,都是直线关系,它们的常数项仅在第 4 位上有 0.005 的出入,另外就是变量前面的系数,理论值 =1 ,而实验值 =0.9259. 这个差别达到了 7% 。略大了一些。但是从总体上看理论对应的是最理想的情况,而随机性实验则是围绕理论结果而必然有一些出入。 这样我们就看到斩乱麻模型的实验数据与理论结论的一致性。它告诉我们: 在一个“破碎问题”里面,如果仅存在一定不变量(总量不变,代数平均值不变)而各个破碎的单元(线头长度等)的形成具有任意性,那么不同大小的破碎单元的出现数量与其大小服从负指数函数关系。 在气象学中,我们持有各地的气候量(如多年平均的降水量等等)基本是不变量的观点在一级近似意义下是符合实际的。这种观点也使我们认为天气过程是形成气候的具有随机性的过程。于是推断一下天气过程的统计特征服从负指数分布是合理的猜想。自然这个猜想是否符合实验,需要用气象数据做验证。 如果验证的结果是很多地方,对应的天气统计特征确实符合负指数分布(不同地点负指数分布中的参数可以不同),我们就比较相信这种规律具有普遍意义,即普适性。 附带指出这里的斩乱麻模型与统计物理学中理想气体的分子动能服从负指数分布是一致的。那里的这种分布函数经常被称为波尔兹曼分布。波尔兹曼分布也是总能量限度情况下,能量如何分布在各个分子动能中的例子,它也是破碎问题的一个例子。 Fazlollah M.Reza, AN Introduction to Information Theory, McGRAW-HILL BOOK COMPANY, INC. New York, 278-282 张学文、马力,斩乱麻问题,数理统计与应用概率(北京) 1997 年, 12 月, 12 卷, 4 期, 315-321
个人分类: 空中水科学|4200 次阅读|5 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-20 18:53

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部