科学网

 找回密码
  注册

tag 标签: 最大熵原理

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

[转载]关于能量最低原理的误读——论“凭什么相信计算”之二(全文)
热度 2 mbchen 2018-6-21 19:41
【两年前曾经写过,但这次把全文补上。】 原载:化学通报, 2015 , 78 : 868 . 关于能量最低原理的误读 ——论“凭什么相信计算”之二 陈敏伯 (中国科学院上海有机化学研究所 上海 200032) 摘 要 不要把能量最低原理与核外电子填充规则混为一谈,后者仅仅是能量最低原理众多应用中的一例。体系“能量越低越稳定”的说法错在忘了它成立的前提:熵固定。Gibbs的说法才是能量最低原理的完整表述,它等价于Clausius的最大熵原理,两者各自有其成立的前提条件。由Gibbs能量最低原理可以导出核外电子的填充规则。宏观和微观世界只有一个能量最低原理。 关键词 能量最低原理,最大熵原理,电子填充规则,热力学 这个题目会令人诧异:最低能量原理是化学界最耳熟能详又最基本的原理,怎么还会误读呢?的确,能量和熵是物理学、化学中最基础的两个概念,可以说那是我们头脑中业已建立起来的知识大厦的奠基石。对最低能量原理这样的大原则倘若理解有问题,那就无法进一步讨论“凭什么相信计算”的问题。 §1 很多人以为的“能量最低原理” 学化学总是先从原子结构学起,理科化学系学生最早接受能量最低原理是在本科一年级学习多电子原子的核外电子排布的时候。从一年级的无机化学,到后来的结构化学,几乎所有的教科书、文献都这样说:“原子总是尽可能处于能量最低的状态。” 。“原子的核外电子排布遵循下面3个原则:(1)Pauli(不相容)原理……。(2)能量最低原理——在不违背Pauli原理的条件下,电子优先占据能量较低的原子轨道,使整个原子体系能量处于最低,这样的状态是原子的基态。(3)Hund规则……。” 。 直到化学系研究生课程,还是这么教,“能量越低越稳定”一说就明白,国内外都一样。久而久之,很多人以为能量最低原理就是核外电子填充规则,(Aufbau principle 或 building-up principle) 。需要说明:本文对电子填充规则的关心不是在原子中电子轨道能量高低顺序的问题,而是要提醒读者在填充电子时运用的能量最低原理不是该原理的完整表述。 不幸的是,正因为很多化学家把能量最低原理误以为就是核外电子填充规则,于是,实践中经常遇到困难,由此频频提出质疑,以为能量最低原理有局限性。有人说:“ 应该了解能量最低原理在有机化学理论解释中的局限(性),避免将能量最低原理当成万金油来滥用 ” 。近来,更有一本颇得好评的物理化学教科书专门有一节讨论“ 能量最低原理的局限性 ”。认为:“ 只有在基本能隙远远大于 k B T 时,能量最低原理才能使用 ”。结论是:“ 最低能量原理可能是对年轻化学家毒害最深的一个并不基本的概念。 ” 本着化学家再也不能容忍我们赖以思考的依据都来自有局限性的“原理”的观点,我赞赏以上质疑。尽管以上质疑把问题的源头搞错了,但这些质疑足以提醒人们问题是存在的。岂但存在,此类模棱两可、不堪一问且广为传播的化学原理实在太多,需要逐个正本清源。本文希望在重温能量最低原理的基础上,表达以下观点: 1)核外电子填充规则不是能量最低原理的完整表述,它仅仅是能量最低原理的众多应用实例之一。换言之,不能把核外电子填充规则误以为就是能量最低原理本身。 2)Gibbs的说法才是能量最低原理的完整表述 。能量最低原理是有其前提条件的。“能量越低越稳定”的说法不讲前提条件,当然会在应用中造成错误。 3)也不要误以为物质的宏观世界和微观世界分别遵守两个原理:宏观世界用最大熵原理,微观世界用能量最低原理,各自为“政”,没有联系。正如李政道先生所说:“物理学只有一个” ,化学作为分子和分子聚集体层次上的物理学也只有一个。宏观和微观世界更只有一个能量最低原理。 以下先介绍能量最低原理的Gibbs说法,然后将此应用到多电子原子的结构问题,结果将推导出核外电子填充规则。 § 2 Gibbs的能量最低原理 Clausius在1865年提出的最大熵原理(亦称熵增加原理)和Gibbs的能量最低原理都是热力学中的基本原理。它们都是在第二类永动机不可能成功的实验事实的基础上提出的,从而它们都是热力学的原理,即宏观世界的原理 。 Clausius的最大熵原理,也就是热力学第二定律,可完整表述为:对于孤立体系(即能量U、体积V和粒子数N固定的体系),体系会在其他未受约束的内部状态变量的驱使下趋于平衡,在趋向平衡的过程中体系的熵S不断增大,到达平衡态时熵将达到极大值 。(注:在本文讨论的范围内,能量 U 就是内能。) 与此对应,Gibbs对能量最低原理的表述为:熵 S 、体积 V 和粒子数 N 固定的体系,体系会在其他未受约束的内部状态变量的驱使下趋于平衡,在趋向平衡的过程中体系能量U不断降低,到达平衡态时能量将达到极小值。 物理学家L. Tisza和H.B. Callen曾经分别从两个不同角度证明最大熵原理与能量最低原理是严格等价的 。具体的证明可参见笔者在本刊去年第5期介绍热力学公理结构的文章 。 最大熵原理提供了判断不可逆过程方向(即体系自发变化的方向,也就是宏观体系趋向稳定的方向)的普遍准则。它的实验基础是第二类永动机不可能成功的事实。既然,Gibbs的能量最低原理与最大熵原理等价,那么能量最低原理也是判断不可逆过程方向或稳定性的普遍准则,它的实验基础也是第二类永动机不可能成功的事实。只不过两个原理各有自己成立的前提。最大熵原理的前提是体系的 U,V,N 不变,而能量最低原理的前提是体系的 S,V,N 不变。不讲前提(即约束条件)的最低能量原理是不存在的。至此,读者已经可以看出不讲前提的“能量越低越稳定”肯定是错误的。 事实上,对于封闭体系(即与环境没有物质交换、但可能有能量交换的体系)还有很多个判断不可逆过程方向的普遍准则(见表1),可以严格证明它们(包括最大熵原理和能量最低原理)互相等价,只是前提不同,即固定的宏观状态变量不同(文献 的第5、6章)。对于开放体系,还有巨势最低原理 (d W G ) T,V, m ≤ 0 ,其中巨势 W G ≡U-TS- μ N 。 §3 从能量最低原理导出电子填充规则 有人认为:上述热力学处理的是宏观体系,而核外电子的分布属于微观体系;宏观问题用最大熵原理,微观问题用能量最低原理,两者各管一段。这种把问题归结为微观和宏观的差别,以为把问题推给哲学就了事了。其实,这样做问题丝毫没有解决。割裂了宏观与微观的联系,也就无法回答一连串的问题,例如为什么微观体系应该用能量最低原理,而不是最大熵原理?能量最低原理到底是宏观规律还是微观规律? 微观体系和宏观体系的差别在哪里?那只能到沟通微观和宏观的物理原理中去找,即到统计力学中去找。两种体系的差别在于涉及的微观状态(即量子态)的总数 W 不同。两者之间的联系靠Boltzmann关于平衡态的熵公式 S = k B ln W , (1) 其中 k B 为Boltzmann常数。 讨论微观体系时,只是关注体系所处的一个微观状态。就如核外电子的填充问题是讨论核外电子的构型(configuration)。譬如当铍原子核外的电子填到 2s1构型之后,下一个电子是填入2s还是2p?或者,铍原子核外的电子构型是 2s2稳定还是 2s12p1稳定?一个电子构型是一个量子态【注:为简便计权且如此,不影响本文讨论结论】。 对于宏观体系,它的一个宏观状态涉及的量子态大约在 N Av ! 的数量级,其中 N Av 为Avogadro常数。宏观体系涉及的量子态的个数 , 一个巨大无比的数字。但根据式(1),可见宏观体系熵 S ≠ 0 ,也就是若要使得接受比较稳定性的两个宏观体系的熵维持相同,相当于使它们涉及的量子态总数 W 相同,那并不容易做到。反之,使两个不同的宏观体系在实验中都保持为孤立体系倒是容易做到的。因此对于宏观体系经常采用最大熵原理来比较它们的稳定性,即比较哪个方向是自发变化的方向。 这里出现了新问题:如何用属于宏观规律的能量最低原理来比较属于微观体系的两个电子构型稳定性呢?我们的说理体系中还没有现成的定律可以直接用到微观世界去。但是间接的办法还是有的:可以采用把微观体系构建成宏观体系的办法。例如将两个电子构型分别构建成两个理想晶体的办法,即用 N Av 个全部处于电子构型1状态的相同原子构建成理想晶体1。同样用 N Av 个全部处于电子构型2状态的相同原子构建成理想晶体2,设定两个晶体的几何结构完全相同(见图1)。因为后者属于宏观体系,于是就可以运用能量最低原理来比较这两个理想晶体的稳定性。 晶体是定域子体系,每个晶格处原子的微观状态数 W i = 1 。显然两个理想晶体的微观状态数相等,分别为 。 于是,根据式(1),两个理想晶体的熵相同,均为 S = k B ln W Xtal = 0 。满足S,V,N不变的前提,所以应该用能量最低原理(而不该用最大熵原理)来比较这两个理想晶体的稳定性。再从宏观进到微观,判断两个电子构型的稳定性。 有可能所有的微观体系不都能构建成理想晶体,但是总能构建成基态有简并度的晶体体系。只要比较的两个晶体体系结构相同就行。虽然,此时晶体的残余熵不为零,即微观状态数 W Xtal ≠ 1 ,但它肯定是一个确定的、相同的数。还能满足熵相同的前提。同样可以且应该用能量最低原理。又容易看出晶体的最低能量对应着其中单个原子的最低能量,也就是电子构型的最低能量。 以上,我们已经从Gibbs的能量最低原理出发,从宏观到微观运用到核外电子填充的实例中,导出电子填充规则的确应该是按照电子构型的能量由低到高依次填入,微观能量低的对应着稳定的(即宏观能量也低的)宏观体系。能量本无微观、宏观之分,这里只是权且借此表明思路出入宏观、微观的轨迹而已。 总之,Gibbs的说法才是能量最低原理的完整表述。核外电子填充规则仅仅是能量最低原理的众多应用实例中的一个。不能把核外电子填充规则误以为就是能量最低原理本身。 另外,根据同样的道理,也能自然地看到:在量子力学中应该用的是能量最低的变分原理,比较态与态的关系,由此寻找基态的能量和态矢。同样,在电子密度泛函理论中,在电子数N一定的约束条件下,也是用能量最低的变分原理,来寻找基态的电子密度 ρ( r ) (文献 的16.1节)。其理由是它们都可看做熵为零(即微观状态数为1)或绝对零度的情况。 当然,微观世界的问题并不都是绝对零度下的问题。在需要考虑温度的场合,就要从普通的量子力学进入有限温度的量子统计力学。前提不同了,采用的极值原理也不同:对于正则系综(即N,V,T恒定),须用Helmholtz自由能的极小化原理,求得平衡时体系中介观粒子的数密度 ρ( r ) ;对于巨正则系综,可以用巨势的最低原理 (d W G ) T,V, m ≤ 0 ,求得开放体系平衡时体系中介观粒子的数密度 ρ( r ) 。电子层次的密度泛函理论于是就进一步发展到可以适用于纳米或微米尺度体系的介观的密度泛函理论(文献 的16.2节)。回顾表1,它们都是在不同的前提下与最大熵原理或最低能量原理等价的极值原理。可见,Gibbs的说法在理论上达到最大范围的统一和自洽:无论微观还是宏观,无论零温度还是有限温度,无论经典还是量子,一个好的理论无非是对解释自然达到最大范围的统一和自洽而已。 所以,1949年Einstein曾经感慨道:“一个理论,如果它的前提越简单,而且能说明的各种类型的问题越多,适用的范围越广,那么它给人的印象就越深刻。因此,经典热力学给我留下了深刻的印象。经典热力学是具有普遍内容的唯一的物理理论,我深信,在其基本概念适用的范围内是绝不会被推翻的。” § 4 误读的根源 把能量最低原理误读为核外电子填充规则,其根源还是教材没有及时跟上。世界各国(不仅中国)化学系本科和研究生的教材中至今还没有把能量最低原理完整地交代给学生。化学系一年级肯定要先讲原子核外电子的排布。学生很快就接受了那个不讲前提条件的“能量越低越稳定”,立刻成为他全部知识的生长基点。此时学生还没有学到熵的概念,更难接受Boltzmann的熵公式,自然无法接受完整的能量最低原理。建议以后老师要提醒学生:严格的概念还在后面,过后会尽早地补上。可惜,拖欠时间太长,竟然忘了要还“债”,到化学系研究生还没补上。完整的最低能量原理目前在欧美各国要到理科物理系研究生的热力学课程中才教到,从60年代初至今,Herbert Callen教授写的书是这方面公认的必读名著(读Gibbs的原著不容易) 。 自然科学中确实有若干少数学科,需要逐级、反复深化才能学懂,它们强调的是知识的深度,而不是广度。但是恰恰就是这少数学科成为 科学这棵大树的主干 (P.-O. Löwdin语 )。物理化学就是其中之一。其他强调知识广度的学科,虽然它们数量很大、刊物的影响因子很高(不可排除其原因包括从业人数多得多、文章相对易懂、经济效益明显……等因素),但它们只是这棵大树的叶片。若缺乏大树主干的知识滋养,则叶片也必然发育不良,甚至畸形。 回顾历史,Gibbs最低能量原理发现至今已经超过百年,即使从Callen书的第一版算起至今也有55年,热力学已经被人以为是夕阳学科。可是,今天化学界对最低能量原理的误读竟然还那么普遍。这说明化学界的物理化学素养已到急需提高的时刻。最新版的《物理化学》名著,如P. Atkins(2014年第10版)、R.G. Mortimer(2008年第3版)、G.M. Barrow(2007年第5版)和Berry-Rice-Ross的(2000年第2版),虽然篇幅都已超过1000页,但还难以满足“中级”深度的需求。盼望出台一门“高等物理化学”的课程,追上时代步伐。近年来,如北大赵新生教授的《中级物理化学》(2010年)和奥地利J.K. Fink的《Physical Chemistry in Depth》(2009年),都反映了这种需求趋势和尝试,很值得称道。我期盼这股浪潮来得更大、更壮观,把化学界推上更高的理性台阶。 参考文献 戴安邦,尹敬执,严志弦,张青莲,《无机化学教程(上册)》,高等教育出版社,1958年,312页。 周公度,段连运,《结构化学基础》,第4版,北京大学出版社,2008年;第45页。 胡英等,《物理化学(中册)》,第4版,高等教育出版社,1999年;9.13节。 倪申宽,“关于‘能量最低原理’的剖析“,《安徽师大学报》,1986, (4), 44-48。 高静,“能量最低原理和核外电子排布”,《齐齐哈尔师院学报》,1993, 13(1): 54-61. 何冰晶,“能量最低原理在高分子化学教学中的应用探索”,《高分子通报》,2011, (12): 141. 章亚东,“能量最低原理在有机合成反应中的应用研究”,《郑州工业大学学报》, 2000, 21(3): 44-47. 洪宗国,“能量最低原理与化学教学”,《中国科教创新导刊》,2008, (11): 100。 彭笑刚,《物理化学讲义》,高等教育出版社,2012年;第3.2.1节,第89-90页。 Tisza, L., Generalized Thermodynamics , MIT Press, 1966; pp.38-47,129-133。 Callen, H.B., Thermodynamics and an Introduction to Thermostatistics , 2nd ed., John Wiley, New York, 1985; pp.131-137。 甘子钊教授为北京大学物理学丛书写的序中引用李政道教授的话,见彭桓武、徐锡申著《理论物理基础》,北京大学出版社,1998年,第8页。 陈敏伯,“热力学的公理体系:论‘凭什么相信计算’之一”,化学通报,2014, 76(5): 388-398. 陈敏伯,《统计力学:理论化学用书》,科学出版社,2012年;3.1.3节,第16章。 Calaprice, A., The Expanded Quotable Einstein , Princeton University Press, 2000, pp.262-263;中译文取自Kittel, C., 《热物理学》,张福初,梁民基译,人民教育出版社,1981年,第1页。 傅献彩等,《物理化学(上册)》,第5版,高等教育出版社,2005年;3.8节。 1985年5月15日瑞典诺贝尔物理学奖评判委员会委员、理论化学家P.-O. Löwdin教授应邀在北京科学会堂作的学术报告。笔者是他报告的现场口译,故印象很深。
8440 次阅读|5 个评论
最大信息熵原理违背最根本的因果规律
冯向军 2017-8-9 06:08
最大信息熵原理违背最根本的因果规律 美国归侨冯向军博士,2017年8月9日写于美丽家乡 一般而言,因果关系是复杂的,这是因为有个缘的问题。但是 最根本的因果关系或规律却十分简单:100%以果为因必得果,或者说100%以果地觉为因地心必修成正果。在 100%以果为因的修为中,果既是因又是缘,因缘具足,所以必得正果。例如把“因”分布pi唯一固定在“果”分布f(xi)上,这种修为就是 100%以果为因。按照 最根本的因果规律,必须是绝对 能够 修得正果或以 “果”分布f(xi)为最值分布或极值分布才正确。但是除了科学“新皇帝”最大发生概率原理外,包括最大信息熵原理和最大Tsallis广义熵原理在内的一切基于拉格朗日乘数法的其他极值原理在 把“因”分布pi唯一固定在“果”分布f(xi)上这种约束条件下,一般而言,居然都不能够 以 “果”分布f(xi)作为最值分布或极值分布。究其根本原因是因为 包括最大信息熵原理和最大Tsallis广义熵原理在内的一切基于拉格朗日乘数法的其他极值原理,其目标函数中均未包含发生概率P的对数log(P),因而不能为决定极值分布的拉格朗日算子的一阶偏导数贡献概率pi的倒数的线性组合 a + b/pi的缘故。因此, 除了科学“新皇帝”最大发生概率原理外,包括最大信息熵原理和最大Tsallis广义熵原理在内的一切基于拉格朗日乘数法的其他极值原理,一般而言,都是违背最根本的因果规律的。所以: 包括最大信息熵原理和最大Tsallis广义熵原理在内的一切基于拉格朗日乘数法的其他极值原理,一般而言,都不够资格作为按照因果律来决定概率分布的极值原理。 科学“新皇帝”最大发生概率原理则是迄今为止独一无二的够资格 作为按照因果律来决定概率分布的极值原理。 【定理】若把“因”分布pi固定为“果”分布f(xi),一般而言,最大信息熵原理不能把 “果”分布f(xi)作为令信息熵最大的最大值分布或极大值分布。 证明:假设把“因”分布pi固定在“果分布”f(xi)上,就有:pi = f(xi),i = 1,2,...,n。 又有: pi/f(xi) = 1, i = 1,2,...,n。 (1-1) p1/f(x1) + p2/f(x2) + ... + pn/f(xn) = 常数 = n (1-2) 命目标函数T为信息熵,就有: T = -plog(p1) -p2log(p2) - ...-pnlog(pn) (1-3) 根据柯尔莫哥洛夫概率的规范性,有: p1 + p2 + ... + pn = 1 (1-4) 命由目标函数T,(1-2)所表达的自洽约束条件以及(1-4)式所表达的自然约束条件所构成的拉格朗日算子为L,就有: L = -p1 log(p1) -p2log(p2) - ...-pnlog(pn) + + C1( p1 + p2 + ... + pn - 1) + + C2( p1/f(x1) + p2/f(x2) + ... + pn/f(xn) - n) 对拉格朗日算子L求一阶偏导数dL/dpi,并令之为零,就有: dL/dpi = -log(pi)-1 + C1 + C2/f(xi) = 0,i = 1,2,...,n。 pi = exp(-1+C1)*exp(C2/f(xi)) ,i = 1,2,...,n。 但是,一般而言: exp(-1+C1)*exp(C2/f(xi)) 不可能等于f(xi), i = 1,2,...,n。 因此 pi 既然等于exp(-1+C1)*exp(C2/f(xi)),一般而言就不可能等于“果”分布f(xi)。 这也就是说: 若把“因”分布pi固定为“果”分布f(xi),一般而言,最大信息熵原理不能把 “果”分布f(xi)作为令信息熵最大的最大值分布或极大值分布。 证毕。
个人分类: 决定性概率论|2940 次阅读|0 个评论
最大熵原理所导出的分布其实一般都是极度迷惑人的虚妄相想
冯向军 2017-8-4 09:59
最大熵原理所导出的分布其实一般都是极度迷惑人的虚妄相想 美国归侨冯向军博士,2017年8月4日写于美丽家乡 写出这篇文章,我才知道我的勇气有多大而我所面对的势力有多强。 我在不断进行旨在自我否定的思想上的沙盘演习, 不放过任何细节看看能否否定自己。 本文的宣告完成就是宣告《关于决定性事件的概率论》的再次飞跃。 目前我的一些证据包括: 拉格朗日乘数法的自洽性等于最大发生概率P而一般不等于最大信息熵, 最大似然原理(直接用发生概率的对数log(P)最大来确定已知分布的参数, 是距离最大发生概率原理最近的被公认的科学原理,而 最大发生概率原理则是 直接用发生概率的对数log(P)最大来确定自洽约束条件下的待定分布。 ), 自然语言处理中的最大概率分词法, 发生概率和广义熵同时最大原理, Tsallis广义熵让詹尼斯最大信息熵原理的重要预言彻底破产 从而把形形色色的最大 信息熵原理的祖师爷赶下神坛, 最大发生概率原理与海量大道之理吻合。 但这远远还不够!本文进行了更具基本性的探索! 我反问:假如信息熵最大就代表广义系统或广义集合的出现概率最大,那么为什么最大似然法不用信息熵作为似然函数来估计已知分布的参数呢? ...... 【摘要】在完全相同的约束条件下,一般都存在比最大熵原理所推导出来的分布发生概率大的分布。因此按照最大概率公理,光靠 最大熵原理所导出的分布一般都是不可能发生的虚妄相想。之所以说 最大熵原理所导出的分布 一般都是极度迷惑人的虚妄相想,那是因为分布本身真的发生了。因为这个缘故人们极易听信妖言惑众,以为所发生的分布真的是单凭熵最大的诱导而发生的。其实 所发生的分布实际上是在发生概率和熵同时最大的导引下外加一个自洽约束条件而真实不虚地发生的。好在单凭 最大熵原理所导出的分布一般都会露出不自洽的破绽,让人们认清 最大熵原理 的妖相有所真凭实据。 对于同一个事实,有正确的观念和虚妄的观念。本文旨在于观念上破迷开悟,弃邪显正。 【再探广义系统的发生概率】 假设广义系统G在n个两两相互垂直的广义方向A1,A2,...,An上有概率分布p1,p2,...,pn。因为 p1 + p2 +...+ pn = 1,所以 p1,p2,...,pn之间有一定的相关性。 不失一般性,总可以视: p1 = p(A1) p2 = p(A2/A1) p3 = p(A3/A1A2) ... pn = p(An/A1A2...An-1) 这其中,p(A1)是广义系统G在广义方向A1上发生的发生概率。p (A2/A1)是广义系统G在广义方向A1上发生的条件下在 广义方向A2上 的发生概率。 p(A3/A1A2)是广义系统G在广义方向A1和A2上同时发生的条件下在 广义方向A3上 的发生概率。 ... p(An/A1A2...An-1)是广义系统G在广义方向A1,A2,...,An-1上同时发生的条件下在 广义方向An上 的发生概率。 所以,不失一般性,总有 广义系统G在广义 方向A1,A2,...,An上同时发生的概率或 广义系统G的发生概率P满足: P = p(A1)*p(A2/A1)*p(A3/A1A2)*...*p(An/ A1A2...An-1) 或 广义系统G的发生概率P = p1*p2*...*pn (1-1) 【谁才是最基本的描述广义系统发生概率的极值目标函数?】 谁才是最基本的描述广义系统的发生概率的极值目标函数?是发生概率P的对数log(P)还是信息熵E? log(P) = log( p1*p2*...*pn) (1-2) 信息熵E = log(p1 -p1 p2 -p2 ...*pn -pn ) (1-3) 毫无疑问, 发生概率P的对数log(P)是比 信息熵E更为基本的 描述广义系统发生概率的极值目标函数。这是因为 发生概率P是直接描述 广义系统G在广义 方向A1,A2,...,An上同时发生的概率的重要系统参量。 如果连 广义系统G在广义 方向A1,A2,...,An上同时发生都不能实现,那么 广义系统G根本不可能发生,一切关于 广义系统的极值目标函数都毫无意义。因此 发生概率P的对数log(P)才是 最基本而又便于运算的描述广义系统发生概率P的极值目标函数。 【一切极值目标函数都必须包括发生概率P的对数log(P)】 因为一切 极值目标函数取最值或极值都必须以 广义系统 发生概率最大为前提,而 发生概率P的对数log(P)是最基本而又便于运算的描述广义系统发生概率的量,因此 一切极值目标函数都必须包括发生概率P的对数log(P)。之所以 一切极值目标函数都必须包括发生概率P的对数log(P)还因为只有这样才能保证基于拉格朗日乘数法的极值原理的自洽性。 【破迷开悟弃邪显正】 在完全相同的约束条件下,一般都存在比最大熵原理所推导出来的分布发生概率大的分布。因此按照最大概率公理,光靠 最大熵原理所导出的分布一般都是不可能发生的虚妄相想。之所以说 最大熵原理所导出的分布 一般都是极度迷惑人的虚妄相想,那是因为分布本身真的发生了。因为这个缘故人们极易听信妖言惑众,以为所发生的分布真的是单凭熵最大的诱导而发生的。其实 所发生的分布实际上是在发生概率和熵同时最大的导引下外加一个自洽约束条件而真实不虚地发生的。好在单凭 最大熵原理所导出的分布一般都会露出不自洽的破绽,让人们认清 最大熵原理 的妖相有所真凭实据。 对于同一个事实,有正确的观念和虚妄的观念。本文旨在于观念上破迷开悟,弃邪显正。
个人分类: 决定性概率论|2185 次阅读|0 个评论
从作为二项分布的概率分布来看最大熵原理对人们的严重误导
冯向军 2017-8-3 06:14
从作为二项分布的概率分布来看最大熵原理对人们的严重误导 美国归侨冯向军博士,2017年8月3日写于美丽家乡 自1957年首次问世以来【1】,各种基于 最大熵和拉格朗日乘数法的极值原理都在把某个广义熵作为目标函数,并在关于变量的某种统计平均值不变这种非自然约束条件下,以最大广义熵为目标来预言变量所服从的概率分布。 我业已证明,任何 变量x所服从的概率分布P 0 (x)均可视为二项分布的特殊形式,而这种 二项分布的特殊形式完全为变量间隔x内指定事件实际可能出现的总次数的 统计平均值所决定,与变量本身的统计平均值无关。例如时间间隔t后,下一个婴儿出生的概率分布完全由 时间间隔t内婴儿可能出生的总数 的 统计平均值所决定,而与时间t本身的 统计平均值无关。 任何 变量值xi所对应概率P 0 (xi)只与 变量值xi有关,与其他变量值无关,i = 1,2,...,n。 任何 变量值xi所对应概率P 0 (xi)完全由 变量间隔xi内指定事件实际可能出现的总次数的 统计平均值或 指定事件实际可能出现的频率 所决定,与变量本身的统计平均值无关。 因此 最大熵原理在观念上严重误导了人们。各种广义熵对于确定变量的概率分布似乎都是不必要的。把 任何 变量x所服从的概率分布P 0 (x)均视为二项分布的特殊形式,就不再需要用于决定 变量所服从的概率分布的形形色色的所谓广义熵。 把 任何 变量x所服从的概率分布P 0 (x)均视为二项分布的特殊形式 + 最大发生概率原理 + 自洽约束条件业已构成现代统计力学和热力学新世代的基本形态。 参考文献 【 1】 J aynes, E. T. (1957). Information Theory and Statistical Mechanics, Physical Review,Vol. 106,No. 4,620-630,May 15,1957. http://www.doc88.com/p-9942714807822.html
个人分类: 决定性概率论|2831 次阅读|0 个评论
一个思路:马太效应-幂律-熵最大原理…
热度 2 zhangxw 2013-11-17 21:24
一个思路:马太效应 - 幂律 - 熵最大原理 … 张学文 ,2013/11/17 今天李东风教授的一篇神奇的马太效应的博客被广泛关注和认同。 http://blog.sciencenet.cn/blog-729911-742399.html 。 马太效应作为一个社会现象,在非共产主义社会普遍存在,这是学者的一般看法和承认的事实。 作为社会现象的分析可以仅谈到此,也可以再深入一层分析。例如是否可以把它量化,如果量化,量化的具体对象是什么,如何收集量化的数据以及如何解释它 … 即从定性认识走向定量,再设法理论化,以致利用、改造它 … 我的一个认识如下,欢迎供大家说三道四。 马太效应体现可以表现在知名度等很多方面。它在财富视角下,就是一个有限的社会中少数人富有,而多数人很穷。因为财富可以用钞票数量计量,我们就以此讨论它的量化问题 … 于是我们可以问这个社会中,具有不同财富的人数各有多少,并且请统计局或者统计人员调查之。 于是我们获得一个财富为 x 者的人数 y 的关系。马太效应的量化大致体现为这个 x,y 的关系类似负指数函数或者现在时髦的所谓幂律(负的幂函数)。而 2-8 律是幂律现象前期的对这个现象的表达。 现在我们初步认可财富多的人数少,财富少的人数多,这个 x-y 为例如幂函数关系(如请统计局提供)。 这样我们的分析就从感性认识向数量化认识迈进了一步,并且获得了一个大家比较熟悉的函数关系。 Y=ax^(-m), 这里 a,m 是常数。 下一步我们问,为什么会是这样?!我的认识是这样的: 1. 在财富总量为有限值(等价于代数平均值不变)的情况下,如果它被 m 个人占有而不附加其他的约束,那么根据最大熵原理(我把它成为最复杂原理),财富的分配就符合负指数函数。这与有限长的绳子被随机地切割以后不同长度的线头符合负指数函数的数学证明思路一致。它在数学上对应变量的代数平均值为常数的假设下的熵最大。 2. 在财富总量为有限值的情况下,如果把前述的代数平均值为常数改为几何平均值为常数,那么相同的原理下数学推导出来的财富分配关系就不是负指数关系而是尾巴更长的幂律。这些在我写的组成论一书的 16-17 章里有说明,这里不细说了。 3. 财富分配不均匀会引发革命、动乱,于是一些理论家说我们应当搞一个太富的人和太穷的人都比较少的,中产阶级比较多的社会(曲线是两头小中间大)。这对应的 x,y 的关系类似与正态分布函数。这是不希望在发生革命的理论家的希望。这个希望在理论上有什么参考点呢? 4. 我的认识是:负指数分布对应于一群猴子去抢一袋花生米,幂律分布对应于社会(法律、政府 … )把“人”分等级,相对等级保持比例关系,这对应几何平均值不变下的自由竞争。但是 5. 但是,在代数平均值不变并且同时也要求几何平均值不变的情况下,在自由竞争(熵最大原理)下,这个社会反而成为类似正态分布的所谓 gamma 分布了。这大概是一个和谐社会。 6. 好了这里不能谈更多了,总之,我认为把最大熵原理配合不同的约束对于我们认识与马太效应有联系的社会现象是一个定量的、很有启发的思路,甚至为改造我们的社会,提供思路。
个人分类: 组成论|4500 次阅读|4 个评论
从最大熵原理统一认识主要的概率分布
zhangxw 2010-7-18 10:52
从最大熵原理统一认识主要的概率分布 张学文, 2010-7-18 1. 概率分布函数在统计学与概率论里占有主要地位。而被科学界重视、在统计学中经常用的概率分布函数大约就是 10 多种。早期出名的概率分布是正态、现在比较时髦的幂律分布,另外,负指数分布等也实例很多。 2. 目前教科书对于为什么经常出现这些分布的缘由并没有统一的说明。而很多实际工作者只要用自己的数据在科学界第一次证实它们符合某分布,一般就认为这是个不错的论文。更深的原因一般不涉及。 3. 80 年代我们发现负指数分布符合降水量的占有面积分布。 1992 年出版的《熵气象学》 http://zxw.idm.cn/content1.htm# 熵气象学 的附录则公布了我们收集大约 10 个分布函数。其特点是它们都是最大熵原理配合十分简单(合理)的假设的逻辑、数学推理的结果。即我们可以从最大熵原理的角度统一认识这些分布函数的形成原因(或者说存在背景)。 4. 在《组成论》一书里( http://zxw.idm.cn/ZCL/index.htm 2003 ,中国科学技术大学出版社),我们扩展、充实了以上的认识。并且把这个与热力学第二定律有联系,又不能说这是热力学的原理的原理称为最复杂原理,而热力学第二定律是它的特例。这样就理顺了一个认识链。 5. 下面以《组成论》书里 18 章最后一段作为本博客文章结尾。欢迎关注这个认识。 第十七和十八章介绍了十多种概率分布是如何从最复杂原理推导出来的。它们有的来自文献也有我们自己推导的。这个总体认识形成于 80 年代末,在 90 年代初期我们做了努力。当时马力同志负责了不少数学公式的推导工作,并且汇集到《熵气象学》一书中。这里汇集的认识又有进步和深化。另外 崔旭 博士(国外在读)也帮助做了一些工作。这里对马力同志早期的工作 和崔旭 博士的工作一并表示感谢。 收集更多的概率分布、全部用最复杂原理推导出来(也许不可能或者思路很笨)、给出每个分布的全部推导公式、给出其物理含义的一般说明、给出对应的应用事例、给出对应的数值模拟实验的步骤与说明、给出在电脑上的应用程序,这应当是一件非常有意义的工作。它应当由数学工作者、统计学工作者、电脑工作者联合完成,并且形成对应的报告、论文、专著、软件和光盘。笔者的本书是在这个方向做了努力,但是它与这个目标有距离。欢迎有兴趣的人士继续这个工作。 笔者也期待早日把这个认识统一写入统计学教科书,把对应软件汇入流行的统计软件功能中。
个人分类: 组成论|18265 次阅读|13 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-12 15:09

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部