科学网

 找回密码
  注册

tag 标签: 最大熵

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

从百分比的平方和到幂律来源等等
热度 3 zhangxw 2014-11-9 12:59
从百分比的平方和到幂律来源等等 张学文 2014.11.09 注:以下内容我写于 2011.12.30 ,大概计划很大而随后没有跟进,而搁浅。现在权以此标题把此稿贴出,欢迎议论与发展 提要 : 探讨百分比们 ( 概率分布 ) 的平方和的最小值联系着有益的算法和结果。它与熵最大原理好有一比,并且是幂律形成的一个理论思路。 1. 比值们 身高达到 1.4米 的学生占 30% 。这里的 30% 是一个比值( 0.30 )。如果本班(以后称为群体)内各个身高的学生都被统计了。就存在着多个百分比。如 一个班有 45 个学生,身高为 1.4 、 1.5 、 1.6 的分别为 15 , 17 , 13 。那么我们有三个比值 15/45 、 17/45 、 13/45 。 这类群体我们会遇到很多(如不同温度占有的比值)。属于一个群体内的多个对应比值我们称为比值们,或者百分比们。而它们又联系着大量的所谓概率分布。显然群体内各个比值的代数和应当 =1. 1= ∑ (比值) = ∑ f i 从概率论角度看 , 比值们对应一个离散、完备的概率分布。 2. 比值的平方和 有了群体内不同身高的学生数,自然可以计算群体的学生平均身高。现在思想转个弯 , 以每个学生的身高所属于的 对应比值 来代替身高本身,自然也可以计算出 另外含义的平均值。它就是本群体内各比值的平均值 。根据文献 , ] ,而不难知道这些 比值的平均值恰好是比值的平方和 。所以一个群体内各个个体(如学生)属性(如学生身高)占有的比值的平方和具有特殊的意义。于是有 比值的平均值 = 比值平方和 m= ∑ f i 2 用概率语言说,就是离散的诸概率值的平方和就是概率的代数平均值。 3. 信息熵的类比 我们知道,概率(比值)的 几何 平均值的对数的负值 = 信息熵,而这里的比值平方和 = 比值的 代数 平均值。所以从平均值的角度看 , 比值的平方和与信息熵具有类似的身份。这使我们考虑:信息熵引出了那么多的有益知识,难道它的弟兄,比值平方和就不值得探讨探讨?下面就是我们的初步探讨。 4. 小试牛刀 一条长为 L 的绳子,它可以围出一个矩形来。设矩形的宽度 =x, 显然 x/L, 就是本问题中的一个比值,而长度显然 = ( L-2x ) /2, 长度对应的比值 = ( L-2x ) /2. (宽度、长度值现在直接对应群体内仅存的两个比值)是本问题中的另外一个比值。于是我们就有了本问题中的两个比值的平方和。现在求 比值的平方和最小 时的 x 。由于其平方和 ,m=x 2 +(L-2x) 2 /4, 通过令它对 x 的微分 =0 ,不难获得平方和最小时的 x 值 =0.25 ,于是这个平方和最小所要求的矩形应当是正方形。 这个结果说明 比值们的最小平方和 所对应的矩形是大家早就知道的相同边长情况下的正方形。“比值平方和最小”导致了面积最大。看来比值平方和最小是一个有利用价值的判断原则。 5. 另外一个例子 王彬的《熵与信息》一书中 133-139 页有个不同考试分数的学生人数问题。说分数有 3 种, 80 , 90 , 100 ,而且平均值是 90 分,求在信息熵最大的要求下不同分数的人数。结果是用最大熵求得应当是 80 、 90 、 100 分的学生各占 1/3 ,这意味着熵最大(最复杂)时,各类考试成绩的学生数量相等。 现在我们用不同分数的学生的比值的平方和最大分析它,看看结果如何。 设学生总人数是 N ,而三个档次的学生人数分别是 n1,n2,n3, 那么比值的平方和 m 就是 m=(n1/N) 2 +(n2/N) 2 +(n3/N) 2 , 现在求 m 的最小值,即分别求 m 对 n1,n2,n3, 的偏微分,并且令它们等于 0 ,考虑到三个 n 值的和 =N ,不难得到三个 n 值都是 N/3 ,这说明现在求比值最小平方和所获得的结果与最大熵方法获得的结果是相同的。这提示比值平方和最小与熵最大有相同的功能,它们都可以帮助你寻找一个比值的分布。而此比值的分布,也就是离散情况的概率分布。 6. 暂缓一步 我们已经看到一个群体内各个比值的平方和的最小值有一些特殊的价值。现在暂缓深入,而是初步理一下思路。 l 由于比值本身都是小于或者等于 1 的数,所以它们的平方和只能是大于 0 ,而小于 =1 的正数。其最大值 =1 l 平方和 不是个生疏的词, N 维矢量的各个分量的平方和对应矢量绝对值的平方 l 最小平方和 也不是生疏的词, 最小二乘法 就是它的重要应用。 l 所以发掘这种特殊平方和的特殊价值是值得的,比值的平方和会有新境界? 7. 转为连续变量的分析 百分比是孤立的数,百分比们是一串数,而且其和 =1 ,这些在概率论的视角下都是离散变量下的语言。现在我们把语言换为连续变量。 于是百分比们就变成了连续变化的所谓概率密度分布函数,而百分比们的平方和 m 就变成了概率密度分布函数 f(x) 的平方的积分, m= ∫ f(x) 2 dx 。于是老问题的新提法变成了这个积分的值最小有什么特别含义? 8. 泛函 m 的极值 … m 是一个数值。它的值依赖一个未知函数 f(x) ,于是数学上称为泛函数。研究它的极值就是所谓变分法的事。利用泛函处于极值这个要求,可以反求 f(x) 。一般的问题可以利用所谓欧拉方程去求 f(x) 。而在我们的这个平方和形式的积分情况下,它就简化为下面的等式 (dm/df)=0=2f(x) 于是我们初步获得了函数的平方的积分的最小值应当是函数值始终 =0 的这个似乎不合理的局面,但是,不要急 9. 关注约束条件! 上面我们勇敢地用了泛函、变分、欧拉方程等概念和技术,获得了连续的概率密度分布函数的平方和如果最小,它就应当 =0 ,但是概率密度是不可能 =0 的。概率密度本身对自变量的积分就应当 =1 ,所以它的平方和不可能 =0. 这使我们注意到求泛函极值时,必须补充进去一个约束,它就是未知函数本身的积分应当 =1 。此时所谓拉哥朗日乘子法就用上了。 10. 仅带一个约束时的概率分布函数 依拉哥朗日乘子法,我们要求的极值就成为 m1 , m1= ∫ f(x) 2 dx+ λ∫ f(x)dx ( 1 ) 这里的 λ 是一个待定常数。现在的问题是 f(x) 是什么函数可以使 m1 达到极值。 11. 用欧拉方程求解( 1 ) 原来我们仅要求平方和最小,现在补入了条件 λ∫ f(x)dx ,而它是常数,不影响求极值。可此时解欧拉方程,容易得到 f(x)=c ,即分布函数是不随 x 而变化的常数。或者说概率密度在平方和最小的要求下,它是一个常数。回顾我们对概率分布的认识,这就是指概率分布函数是所谓均匀分布。看,我们已经求得了一个分布函数了,它很简单,是常数! 12. 比比看 我们过去知道在信息熵最大的要求下,可以证明不提出其他要求仅是指出分布函数的积分 =1 时,该分布函数是均匀分布。现在我们回避了信息熵最大,使用了概率分布的平方和最小的要求,居然也获得了概率分布应当是均匀分布的结论。这是值得深思的。这也算新思路的初步成绩吧。 13. 再补一个约束条件试试看 上面是在仅要求分布函数的积分 =1 这个附加的合理要求时,平方和最小而获得了均匀分布的结果。现在再补入一个要求:变量的 n 次方的平均值为常数,看有什么结果。这个要求是数学表达自然是 ∫x n f(x)dx=c1, 于是我们求的极值就是 m2 达到最小,这里 m2= ∫ f(x) 2 dx+ λ∫ f(x)dx+ λ 1 ∫x n f(x)dx λ 1 是新补入的常数。 求 m2 对 f 的微分,并且让它 =0 ,则有 f(x)=-(1/2)( λ+λ 1 x n ) 显然,变量x 必须大于 0 ,而 λ应当=0, f(x)=-(1/2)( λ 1 x n ) 这个样子的概率密度分布我们不生疏,它就是时髦的所谓 幂律 了。 这样我们就在 最小平方和的要求下轻易地获得了时髦的幂律分布 ,它原来是满足最小平方和的一种分布函数! 14. 暂到此为止 我的初步分析到此为止。用这个思路还可以获得那些好处,获得那些新认识?我认为都值得继续探索。 15. 补充 关注“平方和的极值”固然是最近的事,但是概率分布的平方和具有特殊意义的事我在与冯向军讨论组成论时,就从他那里领会和认可了( 2004- )。后来他提示 tsallisentropy 我也知道一点。最近几天看有关的文章,我的分析大概属于他的 q=2 的情况。但是他是否看作最小二乘法,是否从特定的平均值思路分析、是否关注和分析了与我类似的问题,我目前不清楚。所以我的这些努力也可能是一种学习,也可能是探新。 张学文 2012/1/1 于乌鲁木齐 张学文,周少祥:空中水文学初探, 146 页,2010,气象出版社 张学文,个体通论第四章, http://blog.sciencenet.cn/blog-2024-351291.html
个人分类: 统计、概率、熵、信息、复杂性.1.|6065 次阅读|5 个评论
课堂点名和最大熵原理
热度 9 yunlongwang 2014-4-8 07:39
先说课堂点名的必要性。对于一个课讲得好的老师来说,似乎点名不点名都很有道理。不过楼主根据自己一边当学生一边当助教的感觉是,至少在本科课堂上,点名还是有必要的。 说到旷课的原因,至少有以下两种: 1. 理工科的课程,往往都比较抽象。总有一部分人陷入听不懂,不感兴趣,不想上课,更听不懂这样的怪圈。 2. 另一种恰恰相反,有些人觉得课堂内容似乎不难,反正自己看看书也就会了, 今天早上实在起不来了, 不去就不去了。(我大一大二经常犯这种二,线性代数期末远低于平均分,然而它却是我学过的最重要的课,还没有之一。) 我个人感觉,我在概率习题课上就算讲的口吐莲花,跟说单口相声一样,他们也不一定来。说白了,我讲的不是历史,也没那么多小故事来逗闷子。伯努利们的故事挺多,可也出场不了几次。我就算如同新东方老师一般能扯,概率论就是概率论,要学明白就是要费脑子。其他那些信号系统通信原理之类更难的课,不点名上座率更低呀。当然当然,不喜欢点名的老师也有道理,强扭的瓜不甜。 言归正传, 我觉得因为这两种原因旷课的同学,都需要一个强制机制帮助他们克服惰性。点名就不错。一个紧接着的问题就是,点名特别费时间,不可能每次都点,那怎么样来优化点名的策略呢?宽泛的说, 我们希望用更少的点名次数来达到尽量多的威慑力。 我们来比较一下两种点名方式: A. 随心情来,或者挑人少的时候点名。 B. 每次课都带个骰子,扔之,扔到 4 以上就点名。 我个人采用的是第二种办法,不过我们是做随堂测验,就一个题,我课前打印好,下课前五分钟发,五分钟后收卷。假设一学期有 18 次课,采用策略 A ,点名 6 次(为了比较,假设两种策略付出代价一样)。从学生角度考虑(我有经验,上过好多年学了),上周刚点过名,这周点名几率应该不大吧,那就不去啦。何也? 因为每次点名与否是相关的,我可以根据点名的历史来推断今天会不会点名,我也可以根据上课同学发给我短信知道今天上座率,上座率高我就直接去网吧了。 再看策略 B ,每次点名都是独立的,场外信息完全帮不上忙,点名的历史记录也不能提供信息。我是学生,我绝对怕呀。不过策略 B 的问题是有可能点名次数会超过 6 次。长远来看,平均值就是 6 次,大数定律嘛。 语言分析结束,后面分析一下硬币另一面的数学。学生眼中的点名,是一个伯努利随机向量:( A1, A2,..., A18 )。其中每一个元素都是一个 0 或 1 的随机变量(标量)。对于这样一个随机序列,我们约束其元素和的期望为 6 。可以证明,当每个元素都独立并且每个元素为 1 的概率是 1/3 的时候,该随机序列的信息熵最大【 1 】。也就意味着这个系统(信源)最复杂,最难以预测,难以捉摸。 有一个很符合直觉的道理是,我们不希望两次点名之间有关联,因为我们不希望别人可以通过发生过的一次点名来预测下一次的点名。 对应到信息论,我们希望互信息熵为零。 摇骰子的妙处就在于,既保证了独立,又保证了等概率。 实际上,本例中, 目标函数是最大化点名这个随机事件的信息熵(尽量多的威慑力),约束条件是随机序列的和的期望为 6 (固定的点名次数)。 扯点题外话:这么点名也不是我想出来的,是代课教授想出来的。学生后来叫我骰子王,我也就呵呵了。实际操作的时候呢,最好让学生选个志愿者,上讲台来摇骰子,现场直播,非常 high 。每次摇以前,我感觉我就是大庄家,一人跟一个班赌。挺有意思。 还有个更刺激的玩法,就是把点名时间也设成随机的,在电脑上设个随机闹钟,可以防止有些人到快下课了才来 。 我也碰见过无敌的,就是不来,扣分挂科都不在乎。那碰见这种物理免疫魔法免疫的大神,代课老师也没办法。 当然当然,要想成为一名好老师,最重要的还是好好备课。 点名这些都是些歪门邪道,愿博诸君一笑。 %%%%%%%正文结束%%%%%%%%%%%%%%%% 后面的是我稍微介绍一下信息量和信息熵的概念,方便读者阅读本文。都是我个人的理解,不一定对啊,说错了请告诉我。首先需要定义消息,我对消息的理解是,随机事件的结果。比如我们得到一组数据,很典型,实验结果是非确定的,否则就不做实验了。比如某班男生的平均身高,在我知道结果之前,对我来说这是随机的。我可以想象成有个上帝,它用某种方法决定了本班男生的身高,对于他来说,结果是确定的,但对于我来说,平均身高是随机的。一摞洗好的扑克牌,第一张是什么牌,对洗牌的人来说可能是确定的,但是至少,我把第一张牌的可能性建模成了一个随机试验的结果。不拉不拉不拉,关于随机的本质可以扯很多,有点哲学的复杂性,我就不多说了。 总之我理解的就是,对于未知的东西,观察者就把它建模成一个随机事件,观察者得到一个结果,那这个结果就是提供给观察者的消息了。 信息就是对于消息的抽象,有时候会混为一谈。比如一组关于某股票的时间序列。维基上说: Information is that which informs 。啊,定义不重要,理解就行。别问我消息和信息的区别,我也不知道。消息这个词可能是老师用来帮助学生理解的吧。 信息量就是说这个消息够不够猛料。概率越小,信息量越大。 我们先假设随机事件是离散的。 假设某个随机事件X 出现某种结果 的概率是 。那么“得到了这样的结果”这条消息的信息量就定义成: 显然,随机事件不可能只有一个结果(否则就成确定事件了),我们可以用信息熵这样一个概念来衡量某个随机事件的复杂程度。如果这个随机事件是一个信源,打个比方,把信源想象成一大堆小球,如果需要用若干个小盒子把这些小球全部装起来,信息熵告诉我们需要多少个小盒子,其中每个盒子对应一个码字【 2 】。请注意信息量也是随机变量,由随机事件的结果决定,于是随机变量X的信息熵可以被定义成信息量的期望: 在本例中 。 对于连续分布的随机变量,也有信息熵的定义。但是因为牵扯到积分收敛的问题,比较麻烦,我就不多说了。 本来只是说点名的,结果扯得太远了, 。有兴趣的读者可以搜一下“最大熵原理”,我觉得非常复杂,因为优化的变量是函数。本文只是提供了基于“最大熵原理”的一个小小例子。 【 1 】这个证明应该不难,虽然我没证,但是课本上有简化版的。第一步, Ai 之间肯定是相互独立的,因为不希望有互信息。第二步,任意其他分布的信息熵都小于均匀分布。 【 2 】这其实是香农第一定律: http://baike.baidu.com/view/497143.htm
7362 次阅读|24 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-29 02:42

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部