《神秘又简单的幂律》科普书提纲 2011-2-16 初稿,张学文 1. 认识: 10 多年来,我逐步认识到外形简单的幂律,在社会现象和自然现象中有大量实例。幂律几乎成为很多学者喜欢玩的规律而又难以道出它的形成背景。有的研究者鼓吹不知道它形成的原因反而增加它的神秘性。在这个背景下,概况一下不同领域揭露的幂律本身就具有推进研究,引向统一认识的意义。大约在 1993 年,本人认识到最大信息熵原理加上变量的几何平均值不变的约束就可以从理论上推出幂律,幂律是与正态分布等著名概论分布并列的分布函数。在 2003 年出版的《组成论》的 17 章中,我以 3 节讨论幂律问题。该书出版以后在奇迹论坛和潜科学论坛等处就此开展过比较广泛的讨论。在讨论中也提出过编写一本小册子,专门介绍有关幂律的方方面面,成为一本比较专业的科普书的想法。近年来在科学网上不止一位学者提出把幂律列入概率论应当介绍的基本概率分布之一。而关心幂律的学者更多。我确实想写一本通俗的关于幂律的书,可个人能力不足。 2. 为了不让这些认识流失,这里我提出关于幂律小册子的一个可能的提纲。欢迎大家关注并且提出认识。我期待有人可以参与合著,完成其中的一部分。出版事宜我解决。拟议中的《神秘又简单的幂律分布》是中级科普书,大约 7 万字。 3. 《神秘又简单的幂律分布》提纲 l 横跨自然与社会的规律 l 财富在人群中的分布 l 英文字母的 zipf 律、文献数量的规律 l 幂律公式 n=a/xm l 分形、名次、网络 … 中的幂分布 l 幂律公式本身提供了什么信息 l 我能发现新幂律吗( 1 ) l 幂律分布的用途、成因 l 从确定性归结出来的成因 l 概率分布家族是幂律的朋友 l 熵最大原理给幂律的说明 l 让数值试验来佐证 l 在动态中幂律得以维持的秘密 l 我能发现新幂律吗( 2 ) l 幂律等待荣升 l 附录:从最大熵看概率分布
指数分布 过去,当通信运营商需要估计移动通信中占线的电话数量并优化资源配置、交通部门想要模拟交通流量的模式或事故发生频率、以及网络和街区零售业意欲改进仓储和服务设置时,人们往往用齐次泊松过程来描述这些问题。即人类行为发生的时间间隔服从负指数分布,事件发生的数量服从泊松分布。所以指数分布是大家都熟悉的一种分布,在不同坐标下的图形如下所示: 幂律分布 幂律分布实际上很早就被发现了,但是直到 Barabasi 在 Nature 上发了那篇开山之作后这种默默无闻的分布律一下子就火了起来,在随后的两三年中,现实生活中大量的幂律分布集中涌现,仿佛不说幂律就没人重视,文章就发不出来。幂律分布在双对数坐标下表现为直线形式,暗示事件发生的概率极不均匀,小观测值的事件大量发生而大观测值的事件虽然数量众多但是发生的概率却都非常的小,表现在时间间隔的分布上即长时间的静默和短时间的爆发交织共存。下图即引自 Barabasi 的那篇文献,幂律分布与指数分布下事件发生模式的区别可见一斑。 指数截断的幂律分布 实际上很多现实的分布规律都难以用单一的分布函数来拟合或者预测,而是者混合的,一种常见的混合分布即带有指数截断的幂律分布。这种分布我们在博客发布和商业订单中均有发现。如下图所示,两个分布分别可由包含一个幂律和两个幂律部分 的函数式 表示。 漂移幂率分布 漂移幂率 (shifted power-law) 也是一种综合了幂律与指数特征的分布形式,其中参数 可以控制分布在幂律 ( ) 与指数 ( ) 之间自由转换。示例如下: References: 1. Chang Hui, Su Beibei, Zhou Yueping, et al. Assortativity and act degree distribution of some collaboration networks . Physica A, 2007, 383: 687-702. 2. Wang Yongli, Zhou Tao, Shi Jianjun, et al. Empirical analysis of dependence between stations in Chinese railway network . Physica A, 2009, 388:2949-2955. 3. Wang Peng, Zhou Tao, Han Xiao-Pu, Wang Bing-Hong. Modeling correlated human dynamics. arXiv:1007.4440v3. 除了混合形式的分布还有分段形式的分布被观测到,如: 单峰分布 如图所示,作者在考察物流运输的各个环节后发现,时间间隔分布表现为 一种特殊的单峰形态特征:左半部分具有较小波峰且含有极大值,右半部分具有明显的重尾特征并可用幂律函数近似拟合。 Wang Qing, Guo Jin-Li. Human dynamics scaling characteristics for aerial inbound logistics operation. Physica A, 2010, 389:2127-2133. 双峰分布 如上图,作者统计了手机用户互发短消息的时间间隔后发现该分布表现为以上形式,幂律分布后跟着一个指数分布,作者称之为为双峰分布,因为该指数分布位于幂律拟合直线的上方,而不是指数截断那样在拟合直线的下方。个人认为这种说法并不准确,因为指数部分并没有峰值,所以谈不上双峰除非把坐标系逆时针旋转让拟合直线成为横坐标才会出现两个峰值点。 Ye Wu, Changsong Zhoud, Jinghua Xiao, et al. Evidence for a bimodal distribution in human communication. PNAS, 1013140107.