科学网

 找回密码
  注册

tag 标签: 大数定律

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

超球面模型讲座(3-3)
TUGJAYZHAB 2010-5-21 01:26
超球面模型讲座( 3-3 ) 在( 3-1 )里,我们把 79*63 的股市数据,通过 “中心化” ,简缩、归纳成79-空间的三个点,3 支79-向量, 揭示了 79- 股市中 每支股票和 79 支股票所组成的市场共 80 个变量三个月的运动趋势和拐点。“中心化”所依据的理由是最基本的“代数平均”“几何形心”,既简单直观,又可靠实用,值得总结推广。 我们的 79*63 的股市数据是 “双下标数据” ,又称矩阵数据。其特点是:第一下标表示变量, i=1,2,3,…79 ,79个变量,79-向量,第二下标表示时间 k=1,2,3,…63,63个时间段 。类似这样的,可以用 “多元向量 - 时间系列” 表示的 “多变量-时间演替系统” 在现实中很多见。除了股市数据,其它还有国民经济数据,气象数据,多可以被认为是“多变量-时间演替系统”,数据多可以转化为 “多元向量 - 时间系列” ,可以用 我们这里介绍的方法去分析。对“多元向量-时间系列数据”,用“中心化”通过适当分组,计算组平均值,简化了数据,突出了趋势和拐点。这个在 “标量” 中很简单的方法,在扩展到“ 向量 ”后,却可以帮助我们解决一直很棘手的 “系统动态分析问题” 。这就验证了“超球面模型”的一个很重要的猜想 : “ 在低(一)维空间里无解的数学问题,可能在高(多)维空间有解 ” ,而且可以很简单。 当然,另外的一些多元数据分析问题就不这么简单了。象生态数据,我专业领域里的植被监测数据,草原定位站的多年观测数据,不但是多年的,多变量(植物种),而且是多样本的,一般被称为 “三下标数据” ,或 “三向数据” (而非三维数据): D (i,,j,k), 其 第 一下标表示变量, i=1,2,3,…m, m 个物种; 第二下标表示样本, j=1,2,3,…n, n 个样本; 第三下标表示时间 k=1,2,3,…o, o 次重复 。 面对多变量 - 多样本 - 多年重复的“三下标数据”, D (i,,j,k), 我们首先能想到的方法是,设法消掉第二下标,j,使其成为我们已经能把握的双下标的“ 多元向量-时间系列 ”, D (i,k) 。 消掉第二下标的 必要性 ,我们已经在( 3-1 )里讨论过了:动态分析的对象必须是质点,一个点,一支向量,而不能是多个点,多支向量。而 n 个样本是 m - 空间的 n 个点,所以有必要将这 n 个点“简缩”做一个点。 下面我们讨论消掉第二下标的 可能性 。当初我们之所以要取 n 个样,是因为 “大数定律” 告诉我们,只有随机地取多个样,我们的样本平均值才能比较好地逼近母体真值,才能用来代表母体。所以“大数定律”在要求我们多取样的同时,也“允许”,其实也“要求”我们用 n 个样本的平均值, n 个 m - 向量的 “形心向量” ,一支 m - 向量(一个点)来代表 n 支向量。 为了保证我们合并的样本都是合格的,都是属于“圈子”内的样本,我们一般先对样本做 分类 ,舍弃“外逸者”,而把合格的点分为若干类,以便保证动态分析的对象是一个实体,多维空间的一个点。时间上的分类(分段),我们在上面介绍过了。空间上的分类,我们用下面介绍的 聚类分析 。
个人分类: 第三讲|2367 次阅读|0 个评论
不确定性现象之一——统计规律
热度 1 lxj6309 2009-12-1 21:59
随机现象或统计规律是人们最熟悉的不确定性现象,但是,除了纯粹的数学定义,从来没有给出一个符合实质科学的定义。我认为,在数学和现实世界之间需要一个桥梁来连接,这个桥梁是公理性质的。如果不能认识到这一点,我们对概率论和数理统计学知识方法的应用就可能犯错误。 因为数学公式较多,所以,我把关于这部分的认识放在附件中。另 见 刘新建. 系统评价学,第四章.中国科学技术出版社,2007:28-33 链接: 统计规律
个人分类: 系统科学与系统工程学|5681 次阅读|1 个评论
大数定律(三)
zhouda1112 2009-6-9 00:06
作为结束,本次对于大数定律的讨论将从数学角度进行。 首先,数学最希望得到命题的充要条件,因为充要条件是对命题本身的一次等价刻画,是对命题内涵的重新认识。以下均假设X1,X2,...,Xn...代表独立同分布的随机变量序列, 强大数定律 等价 X1的一阶矩存在; 弱大数定律 等价 xP(|X1|x)收敛到0,当x趋近于正无穷。 由此也很容易看出,强大数定律蕴含了弱大数定律。具体内容大家可以查阅Durrett的教材第一章。定理的证明用到了截断技术。 另外,我们以强大数定律为例,X1+X2+...+Xn/n几乎处处收敛到E(X1)。把E(X1)移到左端通分之后,可以理解成 Xi-E(Xi)(i=1,2,3...)的算术平均值几乎处处收敛到0。我们换个角度看,可以把它理解成Xi-E(Xi)求和之后的增长速度不如n快。数学分析的一个重要内容就是寻找变量的阶。那么Xi-E(Xi)求和之后的阶应该是多大?除以这个阶以后,它在什么意义下收敛到非零量? 由此,引出了中心极限定理。中心极限定理告诉我们,这个阶应该是根号n的样子。
个人分类: 概率论问题讨论|6770 次阅读|0 个评论
大数定律(二)
zhouda1112 2009-5-28 21:35
上次提到,大数定律反映了大量微观随机会产生宏观稳定的这样一条朴素原则。回避了数学式的讲解。这次的讨论依旧会按照这样的模式。我计划在第三次的时候用数学的方式和观点去讨论大数定律。 这次引入一个新的概念ergodicity,遍历性。它有很深的物理背景,又是很多数学分支关心的话题。这里只是把它作为大数定律的某种推广供大家体会,不会深入发散。 遍历性源自于统计物理的遍历假设。下面的内容摘自百度百科 http://baike.baidu.com/view/692121.htm 系统的一个状态在相空间中有一个代表点P=(p,q),系统的运动就对应于点 P在相空间中的运动。如果系统是保守的,其总能量E便是常数,点P的运动就被限制在相空间中的等能面(称为能量面)H=E之上。   假如系统的自由度n非常大,例如在一定容器中气体分子的运动(宏观上微小的体积中仍含有大量的分子),如果与外界没有能量交换,就是一个保守的力学系统。这时 n=3N,N是分子的数目。因为人们无法去解如此巨大数目的哈密顿方程组,也无法实际地测得解方程时所必需的初始资料,所以不可能再用纯经典力学的方法来研究这样的系统。其实,系统中大量分子运动的综合作用才决定出系统的宏观性质。例如,气体的单个分子只是断续地冲撞容器壁,而大量分子冲撞的综合平均作用才形成了气体对器壁的稳定的压强。为了研究这类本质上是统计性质的运动规律,人们设想同时考虑都是含有N个粒子,处于同一外部条件之中并且具有同一哈密顿量,但微观状态不一样的一切可能的系统。这些系统在相空间中的代表点就不一样。这些宏观条件一样的一切可能的微观系统的全体称为系综(ensemble)。L.E.玻耳兹曼,特别是J.W.吉布斯建立了完整的统计系综方法,类比于流体力学中的刘维尔定理,证明了系综的概率分布守恒定理。如果用t(P)表示相点P 经过时间t之后在相空间中达到的点,那么t便是相空间的一个变换。所谓概率守恒,就是说t能使一定的概率测度保持不变。如果某系综相应的概率分布不显含时间,就称做稳定系综。统计力学基本假设之一是认为真实的平衡物理系统在某时刻的状态与其相应的稳定系综在相空间中的点有相同的概率。   但实验中的量测总要经历一段时间。即使宏观上很短的时间,从微观的角度来考察也是相当长的。例如,在0℃和1大气压下,1立方厘米体积中的气体分子每秒钟大约碰撞1029次,即使在10-6秒这样宏观很短的时间里,碰撞也达1023次。所以,宏观量测的物理量,都是一个微观相当长时间的平均值,可以认为就是。但这一(极限)平均值无法从微观的力学分析中推算出来,因为无法确定相轨道的初始数据。为了用微观的力学分析解释宏观的物理现象,统计力学中提出了以下基本原理(或 基本假设 ): 对于平衡物理系统,物理量在相空间中按概率测度的平均应等于这物理量沿一轨道的时间平均。   为了支持这一基本原理的引入,玻耳兹曼提出所谓遍历假设,认为一条相轨线可以跑遍(或者说充满)整个能量面。以后又有人提出准遍历假设,认为一条相轨线可以任意接近能量面上的任何一点。然而数学的研究指出,上述遍历假设不可能成立,而准遍历假设又不足以保证相平均=时间平均。因此,以后关于统计力学数学基础的研究,集中注意力于相平均=时间平均这一条件本身,把满足这一条件的系统称为是遍历的,或者称为是具有遍历性的。自20世纪30年代开始,以G.D.伯克霍夫、J.冯诺伊曼、.Я.辛钦和其他许多数学家的工作为标志,关于遍历性的研究形成了一个重要的数学分支。 我们回顾强大数定律的表述:X1,X2,...,Xn代表了独立同分布的随机变量,当X1的一阶矩存在时 X1+X2+...+Xn/n几乎处处收敛到E(X1)。 左端的算术平均可以理解成时间平均,右端的E(X1)代表了相平均(也可叫做空间平均)。所以大数定律是可以纳入到遍历理论的体系当中。即我们可以讲,独立系统满足基本假设。 熟悉马氏过程的朋友一定能联想到,类似地,当马氏链满足一定条件时,也能满足基本假设。姑且我们把满足这种假设的马氏链叫做遍历链。 所以对于大家最熟悉的随机过程,独立系统和马氏系统,在一定条件下都能够具备统计力学研究中期望看到的相平均=时间平均的基本假设。 至于还有怎样的过程或者系统能满足这样的假设,数学物理中有比较专门的研究。 我想跟大家分享的是,大数定律的表述简单而朴实,而这恰恰又能揭示本质的物理背景,联系多个学科分支。数学当然是充斥着技巧的艺术,但是好的数学研究多半是能归于简单而朴素的思考和观察。 下次,是介绍大数定律的第三篇,也是最后一篇,将从数学角度讨论大数定律。 但是我最想讲的话在这两次已经跟大家分享过了。
个人分类: 概率论问题讨论|6502 次阅读|0 个评论
大数定律(一)
zhouda1112 2009-5-24 20:29
大数定律严格的数学表述需要一些测度论的语言。根据其收敛性的不同,我们一般区分强大数律(SLLN)和弱大数律(WLLN)。 我不打算从这个角度来谈大数定律。理由一方面觉得要用数学的方式讲清楚得费一番工夫;另一方面,个人觉得对于大数定律更重要的在于理解,特别对于非概率专业的朋友,挖掘大数定律揭示了何种的自然规律才是更有意义的事情。 大致上讲,大数定律表达了这样一件事:将大量在微观上的随机运动作宏观的平均,这个宏观平均量会表现出某种确定性。之所以会这样,直观上可以理解成当观测的微观粒子足够多,随机扰动就会被average out。这是不难理解的,在生活中我们会遇到许许多多这样的经验。比如扔硬币,如果扔的次数很少,比如三、五次,这样统计一下出现正面的频率,会发现波动很大;但是当多次之后,比如100次,就会发现出现正面的频率大约在1/2上下徘徊。所以我们都能接受扔硬币出现正面的概率是1/2的说法。但大家必须明白,概率是无法测量的,只有频率是可以被测量的。所以正是大数定律告诉我们,用频率去推测概率是合理的。 几乎每本初等概率论的书都会在大数定律的部分讲解上面的内容。在教科书里,对于大数定律总会强调两件事:独立性和大量。个人不愿意把这两个词严格化,我更希望朋友们能模糊的去体味。独立性就是指系统中的个体运动尽量保持独立,不要太受其它个体的影响。如果不是这样,average out就不一定会起作用。 基于大数定律的启示,我们在处理实际问题的时候,可以有这样的倾向:如果我们面对的系统存在大量的粒子或个体,在处理系统动力学方面问题的时候,可以尝试忽略个体随机噪声的影响,而这种忽略不会对系统的整理行为分析带来太多误差。当然这只是一种方法倾向,严格起来还是得具体问题具体分析。 个人体会概率论最为诡异的地方在于真实的概率是不可观测。虽然在理论上,概率论有非常严格的公理体系和丰富的研究成果。但是在现实中,人们仍然会质疑概率论在哲学层面的意义。我的一些朋友,学法律,学中文,学生物等等,跟我交谈最多的就是概率本身的涵义。很遗憾,给出一个满意答复的难度不小。 但是我想一定程度上大数定律可以扮演这样的角色。
个人分类: 概率论问题讨论|11296 次阅读|2 个评论
预告:理解大数定律和中心极限定理
zhouda1112 2009-5-23 20:36
有朋友问到怎么理解大数定律和中心极限定理。虽然本人是概率论专业的研究生,但是我也不敢讲自己对这两个概念有多少深刻的理解。因为别看这两个概念在初等概率论的教材里仅仅是几十页的篇幅,用到的数学貌似也不太难,但是这两个概念反映了很广泛的自然规律,更联系了很多概率理论甚至是数学物理中的一些关键内容。 比如大数定律,可以理解成动力系统中遍历定理(ergodic theory)的特殊形式;也有数学家把大数定律理解成某种最优化问题(如06年Fields奖Andrei Okounkov); 而中心极限定理,揭示了高斯分布在自然界中的核心地位;同样,和中心极限定理并行的不变原理也揭示了布朗运动的中心角色。 本人希望在后面若干次博客中跟大家分享一下对这两大概念的理解。更希望大家能给出宝贵意见,大家一起学习。
个人分类: 概率论问题讨论|8373 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-2 19:27

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部