科学网

 找回密码
  注册

tag 标签: 幂律

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

关于地球上国土面积前80名的一个幂律
热度 4 zhangxw 2011-3-24 13:15
关于地球上国土面积前80名的一个幂律
关于地球上国土面积前 80 名的一个幂律 地球上的国家很多,在任何时刻我们总可以问这样一个符合我的《组成论》的问题:不同面积的国家各有多少。最近翟远征的博客文章就给出了对应的 172 个国家面积的原始数据。根据这个数据可以回答和分析上述问题。由于不同国家的面积可以相差好几个数量级。于是我就以面积(百万平方公里)的对数值做分界。获得了下面的表 面积的 对数值 具有该面积 的国家数量 -2 以下 0 -2 到 -1.5 2 -1.5 到 -1 7 -1 到 -0.5 3 -.5 到 0 5 0 到 0.5 23 0.5 到 1 27 1 到 1.5 37 1.5 到 2 39 2 到 2.5 22 2.5 到 3 6 3 到 3.5 1 以面积的对数为横坐标绘图,以国家数量为纵坐标做图,它们类似正态分布,但是偏差也明显(图略)。 可是如果仅取国土面积最大的前 80 名,单独分析,则国土面积的对数与名次的对数基本是直线关系。这等价于这两个变量的幂函数关系,即它们基本符合所谓幂律。下面是对应的图。 感谢翟远征在文章: http://bbs.sciencenet.cn/home.php?mod=spaceuid=238437do=blogid=424969 中 . 提供的数据 张学文分析于 2011-3-24 国土面积前80名的面积与名次基本符合幂律
个人分类: 幂律|4099 次阅读|9 个评论
《神秘又简单的幂律》科普书提纲
热度 3 zhangxw 2011-2-16 12:48
《神秘又简单的幂律》科普书提纲 2011-2-16 初稿,张学文 1. 认识: 10 多年来,我逐步认识到外形简单的幂律,在社会现象和自然现象中有大量实例。幂律几乎成为很多学者喜欢玩的规律而又难以道出它的形成背景。有的研究者鼓吹不知道它形成的原因反而增加它的神秘性。在这个背景下,概况一下不同领域揭露的幂律本身就具有推进研究,引向统一认识的意义。大约在 1993 年,本人认识到最大信息熵原理加上变量的几何平均值不变的约束就可以从理论上推出幂律,幂律是与正态分布等著名概论分布并列的分布函数。在 2003 年出版的《组成论》的 17 章中,我以 3 节讨论幂律问题。该书出版以后在奇迹论坛和潜科学论坛等处就此开展过比较广泛的讨论。在讨论中也提出过编写一本小册子,专门介绍有关幂律的方方面面,成为一本比较专业的科普书的想法。近年来在科学网上不止一位学者提出把幂律列入概率论应当介绍的基本概率分布之一。而关心幂律的学者更多。我确实想写一本通俗的关于幂律的书,可个人能力不足。 2. 为了不让这些认识流失,这里我提出关于幂律小册子的一个可能的提纲。欢迎大家关注并且提出认识。我期待有人可以参与合著,完成其中的一部分。出版事宜我解决。拟议中的《神秘又简单的幂律分布》是中级科普书,大约 7 万字。 3. 《神秘又简单的幂律分布》提纲 l 横跨自然与社会的规律 l 财富在人群中的分布 l 英文字母的 zipf 律、文献数量的规律 l 幂律公式 n=a/xm l 分形、名次、网络 … 中的幂分布 l 幂律公式本身提供了什么信息 l 我能发现新幂律吗( 1 ) l 幂律分布的用途、成因 l 从确定性归结出来的成因 l 概率分布家族是幂律的朋友 l 熵最大原理给幂律的说明 l 让数值试验来佐证 l 在动态中幂律得以维持的秘密 l 我能发现新幂律吗( 2 ) l 幂律等待荣升 l 附录:从最大熵看概率分布
个人分类: 幂律|7223 次阅读|13 个评论
对幂律成因的一种说明
热度 1 zhangxw 2011-2-1 13:08
对幂律成因的一种说明 本文是 2005 , 9 , 4 发表在奇迹论坛上的三篇连贯文章中的第 2 篇,刊出后数年有 5 万多的浏览量,有 60 多个跟贴,但是 2010 年该网站的有关论坛关闭了。另外由于我这个博客上也随手发了一些幂律现象,这里把我对幂律成因的简要认识补贴于此 -- 张学文 2011.2.1 1. 幂律成因 -- 斩乱麻问题、幂律成因与组成理论之二 --2005-9-4-- 张学文 斩乱麻问题是利用复杂程度最大(跳出热力学的熵原理)求一个函数的生动例子,现在利用类似思路研究为什么很多自然和社会现象中体现着 Zipf ,或者分型学说的创立者大力宣扬的幂分布(幂律分布)。 2. 大约 50 年前 G.K.Zipf 发现英文的文本中 a , the 等字母少的词出现的机会多,而字母多的词(如 Basketball )很少出现,他发现组成一个词用的字母的数量 n 与该词在文章中出现的概率 p 为负幂函数关系: p=c(n^a) , a 是个小于 0 的常数, c 是系数。 Zipf 热情地寻找这个规律在其他社会现象领域的实用个例,目前有专门讨论这个定律的网站。多数城市的人口比较少,少数城市人很多;多数网页看它的人数很少,少数网页很多人看,这里的城市数量与人口数量的关系,网页数量与看它的人数都满足幂律关系的。 3. 显然把幂函数的两边取对数,那么变量(如组成词的字母数)与其出现概率的对数恰好是线性关系,或者说在双对数坐标下,变量关系是一条直线。所以变量对数为直线关系就成为判定是否为幂律的简单依据。 4. B.B. Mandebort 倡导的分型几何学,他弄出来的美丽图案已经让人们承认他是一个新的分支的领袖了。其实, Mandebort 研究的所谓分型问题中包括了大量的幂律分布,其他人也在这种热情中又发现新的幂律。所以目前从自然科学里的原子核到社会现象,人们在非常广泛的领域里都发现幂律存在。 统计数学里经常介绍很多广为应用的概率分布函数,著名的如正态分布,那里对幂律的关注比较少,其实,幂律也是概率分布中的一种。鉴于在不同语言下发现了大量的事例,幂分布应当在概率论中占有比较重要的地位。 5. 为什么这些十分不同的现象都服从幂律,其共同的制约因素是什么?我也看过分析一些文章,不谈形成原因的文章多 ( 甚至说不知道原因反而体现这个分布的神秘性 ) ,理论分析文章少,而指明它们的共同原因的文章,我到目前依然没有看到(也可能我看的文章少)。 6. 大约在 15 年前,我们就收集和自己证明,很多概率分布函数都可以利用熵最大(复杂性最大)原理配合不同的约束而推导出来。《熵气象学》(气象出版社, 1992 )中就汇集了我们给出的多种概论分布所要求的约束条件。但是书里没有提幂分布。 7. 大约在 1991 年《熵气象学》交稿后我们发现用最大熵原理配合上 “ 变量的几何平均值为常数 ” 这个简单约束条件就很容易得到幂分布。它与斩乱麻的约束条件的差别很小,一个的变量的平均值为常数,一个是其几何平均值不变。可以说这个简单认识道出了幂分布的形成原因。 8. 遗憾的是这个认识我们一直没有写成文章。 1999 年我为网易的科技栏目写 “ 改造后的熵 ” ,就把这个认识公布到网上了。见诸书面文字则是 2003 年出版的组成论里比较系统地说明了这个认识。 9. 所以可以说:关于 Zipf 律、分型的自相似律、幂分布律的形成原因就是变量具有随机性(可以引用熵最大原理 — 最复杂的结局出现的概论最高),而且变量的几何平均值(对于与百分比的平均)不变,这么两条。它类似斩乱麻问题但是那里的约束是代数平均值不变。所以在我看来幂律形成的统一原因在熵原理那里是个已经解决的问题。有兴趣的同志可以到组成论的网页版 http://zxw.idm.cn/ZCL/index.htm 看其中的 17 章 .6-8 节 10. 略
个人分类: 幂律|4832 次阅读|1 个评论
科学网博客新的周浏览量基本符合幂律
热度 3 zhangxw 2011-1-31 17:07
科学网博客新的周浏览量基本符合幂律
科学网博客新的周浏览量基本符合幂律 张学文, 2011-1-31 科学网 2011 , 1,17 日改版,大家有不同意见,对访问量也有人质疑。现在我从新数据是否依然符合幂律的角度做了分析。供大家审核新数据是否不正常。 过去我曾经就这里的访问量等多个指标比较符合幂律的事有披露(请见我的博客的幂律文件夹)。今天我发现新数据,具体是指周访问量与名次顺序的关系,依然符合所谓的幂律。这体现在访问量的对数与名次的对数的关系(指前 100 名)比较集中在一条直线上 ( R 平方的值到达 0.9453 ) 。见附图。 我认为从这里看,新的访问量的规律性与过去数据的规律性是一致的。对此分布的其他解释,请参考我过去的博客,这里不赘述了。 科学网周访问量与名次基本符合幂律
个人分类: 幂律|3286 次阅读|4 个评论
关于生物量的幂律-回王德华老师的询问
热度 2 zhangxw 2011-1-29 13:01
关于生物量的幂律-回王德华老师的询问
关于生物量的幂律 - 回王德华老师的询问: 感谢王德华老师在其博客文章后面对对本人闲话的关注。下面就是对王老师所问的回答,希望获得指教。 我不是搞生态的,也不懂生物学。但是鉴于思想比较自由,就难免想得宽一些。 1992 年,长沙的“自然信息”杂志发表了我的“生物物种丰度分布律一文( 3 期, 35-38 页)。该文我没有电子版。它提出的核心问题是:地球上不同体重的生物数量 n 与该生物的体重 m 是否存在什么关系。 在这个粗糙的提法下,我去分析存活的生物体个体的体重与种群数量的宏观关系。我根据十分稀少的资料得出下表: 名称 体重 生物体重的对数 (划一为以克后取对数) 存活数量 存活数量的对数 兰鲸 10 吨 8 10 的三次方 3 大象 2.5 吨 6.4 10 的 5 次方 5 人 30 公斤 4.5 5*10 的 9 次方 9.7 鼠 125 克 2.1 1.2*10 的 10 次方 10.1 白蚁 2*10 负 5 次方克 -4.7 2.5*10 的 17 次方 17.4 细菌 10 的负 12 次方克 -12 10 的 24 次方 24 把取对数以后的 6 种生物的体重和数量关系点绘在坐标图上, 6 个点子几乎在一条直线上。这表明生物体重与其存活量服从幂律关系。考虑到它把体重跨度到达 20 个数量级的对象归到一起分析,获得这个关系,我是很高兴的。它也是我获得的第 1 个幂函数关系。 该文应当是 1991 年成文的, 1992 年我认识到变量(如体重)的几何平均值为固定值时,复杂程度最大(熵最大,是扩大的热力学第 2 定律)所对应的变量特征值与其存在数量的关系应当的幂律(如家庭的财富数量,与家庭数量),这些最后写在我的《组成论》书里( 2003 年中国科学技术对象出版社)。该书第 17 章的 6/7/8 三节讨论幂律(见 http://zxw.idm.cn 中组成论的 17 章),但是该书没有引我的这个工作。 我关于幂律的认识散见于我的科学网博客中的幂律栏目内。欢迎关注。张学文 2011.1.29
个人分类: 幂律|4230 次阅读|5 个评论
人类行为动力学中常见的标度律
热度 1 supermac 2011-1-2 22:21
指数分布 过去,当通信运营商需要估计移动通信中占线的电话数量并优化资源配置、交通部门想要模拟交通流量的模式或事故发生频率、以及网络和街区零售业意欲改进仓储和服务设置时,人们往往用齐次泊松过程来描述这些问题。即人类行为发生的时间间隔服从负指数分布,事件发生的数量服从泊松分布。所以指数分布是大家都熟悉的一种分布,在不同坐标下的图形如下所示: 幂律分布 幂律分布实际上很早就被发现了,但是直到 Barabasi 在 Nature 上发了那篇开山之作后这种默默无闻的分布律一下子就火了起来,在随后的两三年中,现实生活中大量的幂律分布集中涌现,仿佛不说幂律就没人重视,文章就发不出来。幂律分布在双对数坐标下表现为直线形式,暗示事件发生的概率极不均匀,小观测值的事件大量发生而大观测值的事件虽然数量众多但是发生的概率却都非常的小,表现在时间间隔的分布上即长时间的静默和短时间的爆发交织共存。下图即引自 Barabasi 的那篇文献,幂律分布与指数分布下事件发生模式的区别可见一斑。 指数截断的幂律分布 实际上很多现实的分布规律都难以用单一的分布函数来拟合或者预测,而是者混合的,一种常见的混合分布即带有指数截断的幂律分布。这种分布我们在博客发布和商业订单中均有发现。如下图所示,两个分布分别可由包含一个幂律和两个幂律部分 的函数式 表示。 漂移幂率分布 漂移幂率 (shifted power-law) 也是一种综合了幂律与指数特征的分布形式,其中参数 可以控制分布在幂律 ( ) 与指数 ( ) 之间自由转换。示例如下: References: 1. Chang Hui, Su Beibei, Zhou Yueping, et al. Assortativity and act degree distribution of some collaboration networks . Physica A, 2007, 383: 687-702. 2. Wang Yongli, Zhou Tao, Shi Jianjun, et al. Empirical analysis of dependence between stations in Chinese railway network . Physica A, 2009, 388:2949-2955. 3. Wang Peng, Zhou Tao, Han Xiao-Pu, Wang Bing-Hong. Modeling correlated human dynamics. arXiv:1007.4440v3. 除了混合形式的分布还有分段形式的分布被观测到,如: 单峰分布 如图所示,作者在考察物流运输的各个环节后发现,时间间隔分布表现为 一种特殊的单峰形态特征:左半部分具有较小波峰且含有极大值,右半部分具有明显的重尾特征并可用幂律函数近似拟合。 Wang Qing, Guo Jin-Li. Human dynamics scaling characteristics for aerial inbound logistics operation. Physica A, 2010, 389:2127-2133. 双峰分布 如上图,作者统计了手机用户互发短消息的时间间隔后发现该分布表现为以上形式,幂律分布后跟着一个指数分布,作者称之为为双峰分布,因为该指数分布位于幂律拟合直线的上方,而不是指数截断那样在拟合直线的下方。个人认为这种说法并不准确,因为指数部分并没有峰值,所以谈不上双峰除非把坐标系逆时针旋转让拟合直线成为横坐标才会出现两个峰值点。 Ye Wu, Changsong Zhoud, Jinghua Xiao, et al. Evidence for a bimodal distribution in human communication. PNAS, 1013140107.
个人分类: 科研资料|11393 次阅读|3 个评论
16届亚运会奖牌数量分布符合幂律
zhangxw 2010-11-27 22:36
16 届亚运会奖牌数量分布符合幂律 张学文, 2010.11.27 2010,11,27 日第 16 届亚运会已经顺利闭幕。各个代表团获得的奖牌数与其名次之间是什么关系?经过分析,认为它们符合所谓幂律关系,即这两个变量的对数(取 LOG 以后)形成的新变量应当基本在一条直线上。见附图。 Excel 软件计算出来的 R 平方的值是 0.8457 ,它比我计算的 15 届多哈亚运会的对应值 0.825 要更接近于 1 。这也许体现着亚运会的自由竞争体现的更明显。 本人过去指出过,幂律关系体现着一个系统内,在其几何平均值不变的情况下,体现了复杂程度的最大化(信息熵最大、最混乱)。关于这些更多的说明欢迎参考我的博客文章中的幂律部分 http://www.sciencenet.cn/m/user_index1.aspx?typeid=141380userid=2024 ,或者我写的《组成论》里的 17 章 http://zxw.idm.cn/ZCL/index.htm 。
个人分类: 幂律|3969 次阅读|0 个评论
科学网博客文章推荐数量与名次的关于基本符合幂律
zhangxw 2010-8-10 22:22
科学网博客文章推荐数量与名次的关于基本符合幂律 张学文,2010.8.10 科学网博客文章推荐数量与名次的关于基本符合幂律。资料是刘洋提供给大家的。我的分析类似过去就不多说了。还是看图吧。 欢迎参考 http://www.sciencenet.cn/m/user_content.aspx?id=2506
个人分类: 幂律|3586 次阅读|0 个评论
科学网博客文章评论量与名次的关系符合幂律(前300名)
zhangxw 2010-8-9 22:22
科学网博客文章评论量与名次的关系符合幂律(前 300 名) 张学文 2010.8.9 最近刘洋又公布了他辛苦的统计 http://www.sciencenet.cn/blog/user_content.aspx?id=351049 。我这个不做辛苦(实验)工作,又来吃现成的了:我在刘洋数据的基础上发现科学网博客文章评论量与名次的关系符合幂律(前 300 名,数据截止到 2010 年 8 月 8 日 )。有关的图附后。让我感到比较吃惊的是这个关系的 R 值居然高达 0.9947 (如此接近 =1 ),几乎是好得出奇!至于它为什么是幂律等问题欢迎参考我前面的类似文章。这里就不多说了。 附带指出,我也做了科学网博客单篇文章浏览量与名次的关系分析,它们也比较符合幂律公式。但是关系的质量没有这个好。尤其是前 10 名,偏差比较大。对应的图也附在本博客上,我就不多记述了。 感谢刘洋先生提供的有关数据。 欢迎参考 http://www.sciencenet.cn/m/user_content.aspx?id=2506
个人分类: 幂律|3812 次阅读|2 个评论
科学网博客名次与访问量为幂律关系
zhangxw 2010-7-16 18:37
科学网博客名次与访问量为幂律关系 张学文, 2010-7-16 十分感谢刘洋以科学网博客数据所做的大量统计分析工作。我下载了刘洋的原始数据 (2007-2010.6.18 期间的数据 ) 。这里仅依其中的访问量数据,重新按访问量大小排序。于是顺序,也就是访问量排名的名次,与访问量就存在对应的关系。即刘洋博客提供的数据可以分析访问量与名次的关系。 这个关系是什么函数? 其实, 2007 年我就利用类似数据分析过当时前 50 名的科学网博客访问量与名称是幂律(幂函数, power-law )关系 http://www.sciencenet.cn/m/user_content.aspx?id=12655 。现在数据更丰富了,这个关系依然存在? 附图是我做的分析:在双对数坐标下的直线,它等价于原变量(名次 - 访问量)为幂函数关系(最初的点子偏差比较大)。 即访问量与名次符合幂律。 今天就此我已经发了一篇类似博客,它结构类似,但是对象不同 http://www.sciencenet.cn/m/user_content.aspx?id=344494 ,所以大家可以比照着看。过多的话就不说了。
个人分类: 幂律|4661 次阅读|3 个评论
科学网博客名次与文章数为幂律关系
zhangxw 2010-7-16 11:45
科学网博客名次与文章数为幂律关系 张学文, 2010-7-16 十分感谢刘洋以科学网博客数据所做的大量统计分析工作 http://www.sciencenet.cn/blog/user_content.aspx?id=343985 。我下载了刘洋的原始数据 (2007-2010.6.18) 。这里仅依该数据 , 分析其中前 300 名博客的文章数量与名次的关系。发现它们符合所谓幂律关系(见图)。 利用 excel 获得的前 300 名的文章数 n 的对数(纵坐标)与名次数 m 的对数为很好的直线关系,其 R 平方的值达到 0.9937 (接近 1 )。公式是 logn=-0.7097logm+3.7851 经过简单变换,得 n=6096*m(^-0.7097) 即名次 n 与变量 m (文章数)是简单的幂函数关系 . 我们知道很多情况下的名次量与变量的关系,尤其是前若干名,都很接近幂律关系。如访问量与名次 http://www.sciencenet.cn/m/user_content.aspx?id=12655 , 500 强与名次 http://www.sciencenet.cn/m/user_content.aspx?id=6785 、体育比赛的名次与成绩等都是。 关于幂律的成因,本人有短文 http://www.qiji.cn/forum/ftopic2530.html 细致的说明在《组成论》里。
个人分类: 幂律|5459 次阅读|14 个评论
重新燃起对自然生命系统的好奇!
zjie 2010-3-5 00:04
作为我第一篇在科学网的博客,一直难以落笔。 作为一名70后,这是我第35个春秋的开始…… 小学时代开始接触娃娃电脑,中学时代对物理、数学、模型制作十分的狂热,参加了一些竞赛,本科读了计算机,之后去了电信行业。2000年前后揣着满腔热情开始创业,起起伏伏若干年至今。经历了很多,体验了很多。不知何时,突然重新撩起了对科学研究的兴趣和好奇心,突然震撼于冬日里树木枝杈的形状、震撼于嫩芽突破泥土的一刹那、震撼于没有外界的干扰下一个鸡蛋化学汤发育成小鸡并激活、震撼于自己手指关节在意识驱动下自如的活动…… 仿佛回到中学时,那时不知为什么买了那本《混沌学传奇》,还自己动手用BISIC语言编程实现了其中的一组方程,当参数变化,那种分崩、混乱的现象出现时,激动莫明!那是一种隐晦的直觉和神奇,里面的奥秘无以形容! 去年重新翻书柜,庆幸那本泛黄的《复杂》之书还在,再一次细细研读。10年前还感觉晦涩的内容,如今确突然让自己获得无法言语的共鸣!于是重新开始自己的第二次读书历程,继续少年时的好奇,遨游于生命、系统、大自然的美妙中…… 熵、混沌、分形、幂律、自相似、复杂、正反馈、太极阴阳…..仿佛有无形的手将他们串在一起…… 引述张嗣瀛院士的文章《复杂性科学,整体规律与定性研究》(2005)中结尾所写: 大千世界间何其相似乃尔!从一叶看宇宙!
个人分类: 科学体悟|4221 次阅读|2 个评论
29届奥运会金牌数与名次的幂律
zhangxw 2008-8-25 10:26
29届奥运会金牌数与名次的关系符合幂律 20080825,张学文 1.汶川地震后抢先发表有关学术论文是国外杂志。29届奥运会后抢先发表学术论文的是谁家?不知道。我这里凑热闹,在这里就29届奥运会的金牌数量与名次的关系提供一个统计分析图。 2.这个统计分析显示获得金牌的数量的对数与该国家(地区)占的排名名次的对数这两组数据比较符合直线关系。见图 3.这个关系与金牌数与名次呈幂函数关系是等价的。即29届奥运会金牌-名次关系比较符合幂律。 4.附带指出,我还分析过亚运会的类似数据,也符合幂律
个人分类: 幂律|7606 次阅读|1 个评论
个人文章平均浏览量与名次服从幂律
zhangxw 2008-8-13 18:33
个人文章平均浏览量与名次服从幂律 张学文 080813 最近科学时报网站博客编辑们选取了一个新的指标,个人博客文章的平均浏览量,并且给出了前 100 名的排序。它为分析问题提供了新角度。应当肯定、欢迎和感谢。 面对新概念(个人文章的平均浏览量)和对应的统计数据,大家自然有所思所得。由于我曾经指出过(总浏览量)与(名次)符合幂律, 刘全慧 教授得出类似的结论,并且补充了(一周浏览量)也是如此,现在我继续沿着过去关心的幂律问题分析了(个人博客文章的平均浏览量)与(名次)是什么关系。结果是:(个人博客文章的平均浏览量)与(该作者的名次)为幂函数关系(服从幂律)。这体现在把以上两个量取对数以后,新变量之间为线性关系,即在直角坐标系下二变量的点子基本在一条直线附近 ( 见图 ) 。 这是广泛存在的幂律关系的又一个实例。 关于幂律的成因,欢迎参考 http://www.qiji.cn/forum/ftopic2530.html 一文和那里的讨论。
个人分类: 幂律|4677 次阅读|0 个评论
关于“幂率成因”文章的...
zhangxw 2008-1-2 11:15
2008 新年第1天,我在奇迹论坛 http://www.qiji.cn/forum/ftopic2530.html 上的关于幂率成因的文章的累积浏览量超过了5万。这对我是个鼓励。我也在考虑是否应当就此写个小册子。 很多对象(包括社会现象)的统计特点符合幂率关系,这其中的道理确实值得我们用统一的眼光去认识...
个人分类: 幂律|4309 次阅读|1 个评论
科学时报博客访问量与名次基本符合幂律
zhangxw 2007-12-14 17:36
科学时报博客访问量与名次基本符合幂律 我曾经在本博客说明过,企业500强的名次符合幂率关系,如 http://www.sciencenet.cn/blog/user_content.aspx?id=7064 今天2007.12.14看到有人点了博客访问量前50名的名次与访问量的关系,我认为它也应当基本符合幂律,即,两组数据分别取对数以后,应当接近直线。 于是我补充下面的两张图(如果图看不到,请点击附录:博客访问量的幂律)。 我关于幂律问题的分析,欢迎访问下面地址 http://www.qiji.cn/forum/ftopic2530.html 下面是我过去用2007年7月科学时报博客总访问量数据做的图和2007-12-14做的图 下面是2007-12-14的数据做的图 张学文2007-12-14 博客访问量的幂律
个人分类: 幂律|4928 次阅读|5 个评论
中国2006纳税100强数据也符合幂函数关系
zhangxw 2007-9-8 19:53
中国2006纳税100强数据也符合幂函数关系 9月2日我们给出3个符合幂律的数据例子,今天(20070908)看到2006年中国纳税100强数据,其纳税金额的对数与名次的对数也是几乎在一条直线上。这是幂函数的又一例 。下面是对应的图。 关于幂律的某些分析,欢迎参考我在奇迹论坛上的言论 http://www.qiji.cn/forum/ftopic2530.html 。 (20070908,张学文)
个人分类: 幂律|5313 次阅读|0 个评论
2007年中国500强的数据几乎在一条直线上
zhangxw 2007-9-2 18:49
2007年公布的中国500强的数据几乎在一条直线上 (2007-9-2张学文) (名次函数3例--中国、世界500强,科学网博克浏览量) 最近2007年中国500强的数据公布(应当是2006年数据),我借机分析了营业额(成绩,y)与名次(x)的关系,并且做成logy-logx图。结果是它们很好的符合一条直线。 确实,世界上的统计五花八门,其中成绩(y)与名次(x)的关系是一类。而很多对象的y,x是幂函数关系,也就是y,x取对数以后,它们是直线关系。今天是又看到一例。 这里顺着公布它与另外2个名次函数(世界500强,博客浏览量)供思考。 问题:不同类型的名次函数为什么有类似的幂律形式? 关于幂律的某些分析,欢迎参考我在奇迹论坛上的言论 http://www.qiji.cn/forum/ftopic2530.html 。 (有关的图请敲3张图这个附件): 3张图
个人分类: 幂律|5621 次阅读|1 个评论
幂律成因
zhangxw 2007-5-28 10:14
幂律成因 --斩乱麻问题、幂律成因与组成理论之二--2005-9-4--张学文 ( 注:本篇2005,9,4到2005年年底在奇迹论坛被浏览5576次) 2007.5.28注:到目前,那里的访问量是27000的水平。 随贴发表的言论有97条,其中冯向军做了大量的考证,说明这个理论说明已经在国外被不同的学者从不同的侧面提出过。我的态度是不否认这些贡献,但是也不认为他们已经把问题得十分透了(以后会继续有这方面的文章发表),另外,那些文献在中国没有得到传播。而目前有近3万的浏览量说明我国的读者还是认为我这里是有新知识的。我估计我国每年发表的有关幂率的文章不少于100篇,但是都不谈原因,只谈事实。所以我认为我的论述依然是有价值的--2007.5.28) 斩乱麻问题是利用复杂程度最大(跳出热力学的熵原理)求一个函数的生动例子,现在利用类似思路研究为什么很多自然和社会现象中体现着Zipf,或者分型学说的创立者大力宣扬的幂分布。 大约50年前G.K.Zipf发现英文的文本中a,the等字母少的词出现的机会多,而字母多的词(如Basketball)很少出现,他发现组成一个词用的字母的数量n与该词在文章中出现的概率p为负幂函数关系:p=c(n^a),a是个小于0的常数,c是系数。Zipf热情地寻找这个规律在其他社会现象领域的实用个例,目前有专门讨论这个定律的网站。多数城市的人口比较少,少数城市人很多;多数网页看它的人数很少,少数网页很多人看,这里的城市数量与人口数量的关系,网页数量与看它的人数都满足幂律关系的。 显然把幂函数的两边取对数,那么变量(如组成词的字母数)与其出现概率的对数恰好是线性关系,或者说在双对数坐标下,变量关系是一条直线。所以变量对数为直线关系就成为判定是否为幂律的简单依据。 B.B. Mandebort倡导分型几何学,他弄出来的美丽图案已经让人们承认他是一个新的分支的领袖了。其实,Mandebort研究的所谓分型问题中包括了大量的幂律分布,其他人也在这种热情中又发现新的幂律。所以目前从自然科学里的原子核到社会现象,人们在非常广泛的领域里都发现幂律存在。 统计数学里经常介绍很多广为应用的概率分布函数,著名的如正态分布,那里对幂律的关注比较少,其实,幂律也是概率分布中的一种。鉴于在不同语言下发现了大量的事例,幂分布应当在概率论中占有比较重要的地位。 为什么这些十分不同的现象都服从幂律,其共同的制约因素是什么?我也看过分析一些文章,不谈形成原因的文章多(甚至说不知道原因反而体现这个分布的神秘性),理论分析文章少,而指明它们的共同原因的文章,我到目前依然没有看到(也可能我看的文章少)。 大约在15年前,我们就收集和自己证明,很多概率分布函数都可以利用熵最大(复杂性最大)原理配合不同的约束而推导出来。《熵气象学》(气象出版社,1992)中就汇集了我们给出的多种概论分布所要求的约束条件。但是书里没有提幂分布。 大约在1991年《熵气象学》交稿后我们发现用最大熵原理配合上变量的几何平均值为常数这个简单约束条件就很容易得到幂分布。它与斩乱麻的约束条件的差别很小,一个的变量的平均值为常数,一个是其几何平均值不变。可以说这个简单认识道出了幂分布的形成原因。 遗憾的是这个认识我们一直没有写成文章。1999年我为网易的科技栏目写改造后的熵,就把这个认识公布到网上了。见诸书面文字则是2003年出版的组成论里比较系统地说明了这个认识。 所以可以说:关于Zipf律、分型的自相似律、幂分布律的形成原因就是变量具有随机性(可以引用熵最大原理最复杂的结局出现的概论最高),而且变量的几何平均值(对于与百分比的平均)不变,这么两条。它类似斩乱麻问题但是那里的约束是代数平均值不变。所以在我看来幂律形成的统一原因在熵原理那里是个已经解决的问题。有兴趣的同志可以到组成论的网页版 2010.7.17注 http://zxw.idm.cn/ZCL/part3/C17b.htm#17.6分数维与幂分布(1) 。 这里一再提到组成论这本书,下一段再简单介绍这个关于组成问题的理论知识体系。
个人分类: 幂律|7576 次阅读|4 个评论
斩乱麻问题
zhangxw 2007-5-28 10:07
斩乱麻问题-- 斩乱麻问题、幂律成因与组成理论之一--2005-9-4--张学文 今年春发现奇迹网站的理念和内容都比较适合我的认识。就向这里投了些我的文章算参加活动。10天前我把关于个这个概念的讨论稿贴到这里,10天内居然有300次的阅读量。我感到这里学物理的比较多,年轻人多,是个值得关注和活动的地方。于是决定动笔写这个半介绍性的文章与大家交流。希望青年朋友喜欢(最好是继续做些工作)。 斩乱麻问题是我们10年前提出的问题、幂律就是50年前Zipf发现的负幂分布函数,也是分型创始人Mandebort大力宣扬的函数,它适用于大量的社会现象和自然现象中。组成理论是我提出的一个知识系统,(见中国科技大学2003年出版的组成论一书)。本文就把这3个知识点串联起来。 斩乱麻问题是这样一个简单问题:有一段长度为L的麻绳(如L=100米)。用一把快刀随机地砍上N刀(如N=9999刀),结果自然形成一堆(N+1段)麻线头(10000段)。问不同长度的线头各占多大的比例(的事件最容易出现)。 您打算如何解决这个问题的? 我们认为本问题不是求一个得数,而是求一个函数:长度(l)与具有该长度的线头的数量(n)的关系 。这个函数体现了N+1段线头是如何分布在不同长度范围(区间)内的。我们称为分布函数。 砍出来的线段都恰好具有相同的长度的事件固然可能出现,但是它出现的可能性太低了。随机的砍,必然容易出现有的长有的短的复杂局面。应当认为最复杂、最任意(熵最大)的局面(结局)是最容易出现的。 如果不同的分布函数对应(代表着)不同的复杂程度、任意程度、混乱程度(熵的数值),那么利用复杂程度最大(熵最大,类似求极值)就可以反求这个函数,那么我们的问题就有了解决的途径。 确实,我们在《组成论》(网页版:http://xjqxsc.idm.cn/zhangxw%20web/ZCL/index.htm ) 里就是用这个思路解决这个问题的。那里对这个问题的数学推导仅占1页纸面,它并不复杂。在解这个问题时我们利用了一个约束条件:各个线段的长度的合计值应当等于原长度L,这自然是合理的。它对应线段的长度的平均值为固定值。 利用上面方法得到的函数是个负指数函数,即多数的线段很短,特别长的比例非常少。这个函数联系着物理学中的玻耳兹曼分布,我们是用另外的思路分析了玻耳兹曼的分子能量分布。负指数分布是统计学中的著名分布,它有很多实用例子。斩乱麻问题是利用熵最大求负指数分布的生动例子。 下一短文沿这里的思路讨论幂律分布的形成原因。
个人分类: 统计、概率、熵、信息、复杂性.1.|4895 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-28 08:14

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部