科学网

 找回密码
  注册

tag 标签: 分布函数

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

寻找全球统一的气候概率分布函数问题(1)
热度 1 zhangxw 2013-7-13 17:19
寻找全球统一的气候概率分布函数问题( 1 ) 张学文, 2013/7/13 ,注:本文论点如果引用,请注明出处! l 对于气象现象的统计学研究已经有近 100 年的历史了。气象现象的统计研究的一类典型问题是:气象变量 x 的概率密度分布函数 p ( x ) 是什么。对此类问题的经典答案是,某地的某某温度的概率分布符合例如正态分布等等。知道了这个问题的答案 , 也就知道了不同温度的出现的可能性。这在工程设计上联系着百年一遇、或者千年一遇的极端指标的认定。它是建筑的重要指标。 l 以上例子中的气象变量 x ,可以是温度、大气压力、风速、空气湿度、风向等多个自变量。而这里的“某某温度”本身也有很多注解。例如它是特指某一地点,例如北京,上海,而且是特指某种温度,例如是年平均温度、月平均温度、日平均温度,以致于它究竟是地面的百叶箱温度还是当地的某高度或者等压面上的温度等等。 l 所以某学者分析了,例如某城市的温度的概率密度分布函数,就可以有另外的学者分析地球上其他城市的温度概率分布函数。过去我国有 2000 多气象站,于是就有 2000 多篇关于温度的概率分布的文章等待分析。目前我们的气象站数量如果把自动气象站包括进去,则有数万到十万的数量级。单就一个平均温度的概率分布的文章就可以写上数万篇。在气象站数量不断增加的基础上,做这样的线性外推,应当上没有什么错误。 l 从理论上讲,地球表面上有无数个点,每个点的温度都可以做这种概率分布的分析。于是气象统计学的繁荣在期待无数篇温度概率分布的文章。但是这种考虑气象统计问题的思路显然有其局限性,以致重复性。而一个合理的期待是 统一考虑全球各个地点的温度的概率分布函数,而把当地地点用一个参变量 s 统一表示它 。这样就把不同地点的温度的概率分布函数问题统一为一个带参数的函数了。具体地说 l 如果过去我们用 p i ( T ) 去表示第 i 个气象站的温度T的概率分布,现在我们改以带有空间位置参数 s 的概率分布函数 p ( T , s ) 表示它,就可以概括全球的各个地点的温度的概率分布函数了。这里的空间位置参数我们特意用斜粗体的 s 表示。也就是说, s 本身是一个矢量,它包括该地点的经度、纬度以及海拔高度三个 分量 。这样全球各个地点的温度的概率分布函数都概括在这个函数 p ( T , s ) 中了。或者说你获得了这个函数,全球各地、各个高度上的温度的概率分布都统一到这个公式中了。 l 要获得广州的温度概率分布函数,你仅只利用广州的气象数据就够了。现在要用一个带空间位置参数的概率分布函数,那么从理论上讲,就需要把全球的气象站的气象资料都归入其中做分析。这可是给非常大的任务。 l 好在当代的计算机日益发达,好像超大的计算机反而找不到服务对象。所以在大型计算机没有事情做,在云计算日益时髦的今天,气象部门应当汇总全球的例如温度数据共同寻求这个带地理位置参数的温度概率分布函数 p ( T , s ) 。有了这个函数地球上的任何地点的任何高度的不同温度的出现概率都依靠它求得。那种为每个气象站的温度配一个概率分布函数的事,就成为历史了。于是气象统计就进入了一个新时代! l 所以,今天的统计气象研究应当由抱着单站气象资料做分析,逐步过渡到寻求全球统一的概率分布函数的新阶段。这其中的理论,数据困难应当很多。但是这个方向应当明确。 l 正确地提出问题比解决问题更重要,这是爱因斯坦的名言。我们今天应当看到这个问题,至于具体由谁牵头做这个事,是下一步的事。 l 本博客就写到此了。但是关于这个话题的讨论没有结束。下一次我们要在时间域在延伸这个思想,把作为矢量的时间也引入本问题内。
个人分类: 气候学|3759 次阅读|2 个评论
2013年_3月17日_第三周
liuhanace 2013-3-17 13:23
2013年_3月17日_第三周
本周工作的重点有两个。 1、将论文重新整理了一下,分门别类,得到了如下的一个列表。 2、通过Subspace clustering of uncertain data的启发,以及对Density-based clustering of uncertain data 这篇论文的重读,我发现了这篇论文中存在以下问题。 出现的问题1:只给出了距离密度函数和距离分布函数的定义,但是比没有给出计算的方法。 出现的问题2:然后它给出了求核心对象概率的计算问题。 出现的问题3:通过直接定义概率0.5即为可达点显得不合理,没有完全利用不确定性。 然后我给出了自己的初步解决方法如下图: 下周,我想在看看自己的想法到底有没价值,然后再进行再次深入的思考。
4 次阅读|0 个评论
随机变量
yunyue 2012-10-28 09:29
一、 随机变量,是对随机实验的结果进行量化,根据取值的不同,分为离散型随机变量和连续型随机变量。 一般从两方面研究随机变量,一是概率,概率密度、概率分布函数;二是统计特征(数学特征),如数学期望,方差 为了直观的理解,我们可以画一个横轴,取值1,2 ,3,…………N,表示第i次随机实验;再画一纵横,表示随机变量X的取值,为方便起见,设其为连续型随机变量; 那么我们就可以得到很多的离散点(x,y),x=1 2 3...;y为连续值 如果过纵轴某点x0,做一平行横轴的直线,可以使离散点均匀分布在这条直线的两端,那么x0就是随机变量的数学期望。 如果过纵轴某点x1,做一平行横轴的直线,直线穿过了m个点,那么随机变量取得x1的概率为m/N; 下面,用横轴表示随机变量X,纵轴表示概率,我们可以得到一条曲线,就是概率密度了。 而概率分布函数,是用来计算随机变量落在某个数值区间的概率。 二、 正态分布,又称高斯分布,现实中很多随机变量都服从这个分布。 它的概率密度曲线,是个对称型的倒钟形状,且对称线过数学期望值。 按一中表述,就是这个现像:越靠近过数学期望值的直线,离散点越密集;越远离,越稀少。这也符合现实中的现像。
3492 次阅读|0 个评论
[转载]PCA程序设计(Matlab)
hailuo0112 2012-3-5 17:16
把从混合信号中求出主分量(能量最大的成份)的方法称为主分量分析(PCA),而次分量(Minor Components,MCs)与主分量(Principal Components,PCs)相对,它是混合信号中能量最小的成分,被认为是不重要的或是噪声有关的信号,把确定次分量的方法称为次分量分析(MCA). PCA可以用于减少特征空间维数、确定变量的线性组合、选择最有用的变量、变量辨识、识别目标或是异常值分组等。主分量子空间提供了从高维数据到低维数据在均方误差意义下的数据压缩,它能最大程度地减少方差。 由于PCA实际计算中只涉及到输入数据概率密度分布函数(Pdf)的二阶特性(协方差矩阵),所以解出的各主分量只互相正交(不相关),但并不满足相互独立。而且信号的大部分重要特征往往包含在Pdf的高阶统计特性中,所以只有多变量观测数据是由高斯分布的源信号构成,PCA方法才有效。 非线性PCA(NLPCA)即将高阶累积量引入标准的PCA中,是由芬兰学者Karhunen和Oja首先提出并将其应用于ICA。它的可以完成对输入信号的盲分离。高阶累积量是以隐含的方式引入计算的,采用自适应迭代方法便于工程实现。标准的PCA基于信号的协方差矩阵仅能处理高斯信号,而NLPCA可以处理非高斯信号。 .................................................................................................................................................................................... 程序说明:y = pca(mixedsig),程序中mixedsig为 n*T 阶混合数据矩阵,n为信号个数,T为采样点数, y为 m*T 阶主分量矩阵。 程序设计步骤: 1、去均值 2、计算协方差矩阵及其特征值和特征向量 3、计算协方差矩阵的特征值大于阈值的个数 4、降序排列特征值 5、去掉较小的特征值 6、去掉较大的特征值(一般没有这一步) 7、合并选择的特征值 8、选择相应的特征值和特征向量 9、计算白化矩阵 10、提取主分量 程序代码 %程序说明:y = pca(mixedsig),程序中mixedsig为 n*T 阶混合数据矩阵,n为信号个数,T为采样点数 % y为 m*T 阶主分量矩阵。 function y = pca(mixedsig) if nargin == 0 error('You must supply the mixed data as input argument.'); end if length(size(mixedsig))2 error('Input data can not have more than two dimensions. '); end if any(any(isnan(mixedsig))) error('Input data contains NaN''s.'); end %——————————————去均值———————————— meanValue = mean(mixedsig')'; mixedsig = mixedsig - meanValue * ones(1,size(meanValue,2)); = size(mixedsig); oldDimension = Dim; fprintf('Number of signals: %d\n',Dim); fprintf('Number of samples: %d\n',NumofSampl); fprintf('Calculate PCA...'); firstEig = 1; lastEig = Dim; covarianceMatrix = cov(mixedsig',1); %计算协方差矩阵 = eig(covarianceMatrix); %计算协方差矩阵的特征值和特征向量 %———计算协方差矩阵的特征值大于阈值的个数lastEig——— rankTolerance = 1e-5; maxLastEig = sum(diag(D)) rankTolerance; lastEig = maxLastEig; %——————————降序排列特征值—————————— eigenvalues = flipud(sort(diag(D))); %—————————去掉较小的特征值—————————— if lastEig oldDimension lowerLimitValue = (eigenvalues(lastEig) + eigenvalues(lastEig + 1))/2; else lowerLimitValue = eigenvalues(oldDimension) - 1; end lowerColumns = diag(D) lowerLimitValue; %—————去掉较大的特征值(一般没有这一步)—————— if firstEig 1 higherLimitValue = (eigenvalues(firstEig - 1) + eigenvalues(firstEig))/2; else higherLimitValue = eigenvalues(1) + 1; end higherColumns = diag(D) higherLimitValue; %—————————合并选择的特征值—————————— selectedColumns =lowerColumns higherColumns; %—————————输出处理的结果信息————————— fprintf('Selected dimensions.\n',sum(selectedColumns)); fprintf('Smallest remaining (non-zero) eigenvalue \n',eigenvalues(lastEig)); fprintf('Largest remaining (non-zero) eigenvalue \n',eigenvalues(firstEig)); fprintf('Sum of removed eigenvalue \n',sum(diag(D) .* (~selectedColumns))); %———————选择相应的特征值和特征向量——————— E = selcol(E,selectedColumns); D = selcol(selcol(D,selectedColumns)',selectedColumns); %——————————计算白化矩阵——————————— whiteningMatrix = inv(sqrt(D)) * E'; dewhiteningMatrix = E * sqrt(D); %——————————提取主分量———————————— y = whiteningMatrix * mixedsig; %——————————行选择子程序——————————— function newMatrix = selcol(oldMatrix,maskVector) if size(maskVector,1)~ = size(oldMatrix,2) error('The mask vector and matrix are of uncompatible size.'); end numTaken = 0; for i = 1:size(maskVector,1) if maskVector(i,1) == 1 takingMask(1,numTaken + 1) == i; numTaken = numTaken + 1; end end newMatrix = oldMatrix(:,takingMask);
个人分类: 机器视觉|3398 次阅读|0 个评论
与水分循环有关的分布函数
热度 1 zhangxw 2012-2-14 10:29
与水分循环有关的分布函数 张学文,2012.2.14 (下面的具体文字取自张学文《组成论》第3篇206-207页,2003,中国科学技术大学出版社) 水分在大气中的循环是重要问题。为了研究它们。气候学研究中曾经提出过“水分循环系数”概念,用以描述当地的降水中区域内的水分占的比例。但是什么是区域内?如果把区域定为整个地球,水分循环系数应当等于 1 ,如果把区域定为 1 平方公里,估计水分循环系数应当等于 0 。有鉴于此,“水分循环系数”概念的用途就有很大的局限性。 有了分布函数概念以后,描述水分循环问题就方便多了 。我们可以从多角度描述大气中的水分循环特点。 有人问当地的降水是从那里来的,就可以这样定义一个 降水来源函数 ,它描述在当地的降水量中从不同地点(与当地的距离)蒸发的水分各占多大的百分比①。有人问当地蒸发的水分到那里去了,可以这样定义一个 蒸发去向函数 ,它描述当地蒸发的水分中在不同距离的地方变成了降水所占的百分比是多少②,见表 19.3 。 分析揭示蒸发的水分分子平均在大气中滞留 8 天就以降水的形式又回到了地面。这个数字对于认识水分循环确实非常重要,但是仅有这个平均值难以深入认识问题。利用分布函数概念思路就深入了一步,例如问:形成本地的降水量(一场雨或者一年的降水)中它们在空中滞留不同时间的水分各有多少?③。类似地也可以问:本地蒸发的水分中在空中滞留不同时间以后才降落的分别占了多大的比例(权重)?④。显然这又为水分循环研究引入了两个重要的分布函数。 表 19.3 与水分循环有关的分布函数 广义集合 个体名称 标志(变量)名称 分布函数要描述的问题 分布函数 我们给的名称 ① 当地的降水量(一场雨、一个阶段) 单位降水量 该水分的蒸发地点与降落点的距离 不同(来源)距离的降水量各有多少 ? 降水来源(水平)函数 ② 当地的蒸发量 单位蒸发量 该水分蒸发地点与降落地点的距离 不同(去向)距离的蒸发量各有多少 ? 蒸发去向(水平)函数 ③ 当地的降水量 单位降水量 该水分从蒸发到降落在空中滞留的时间 不同滞留时间的水分各有多少 ? 降水滞留时间函数 ④ 当地的蒸发量 单位蒸发量 该水分从蒸发降落在空中滞留的时间 不同滞留时间的水分各有多少 ? 蒸发滞留时间函数 ⑤ 当地大气中的含水量(气体) 单位含水量 水分所在的高度(气压) 不同高度(气压)上的水分各有多少 负指数 水气的垂直分布函数 ⑥ 当地的云 时间 当时有(无)云 有云与无云的概论各有多少 不同地点差别很大 云的有无的概率 ⑦ 当地的云 单位含水量 云所在的高度(气压) 不同高度(气压)上的云中水分各有多少 ? 云的含水量的垂直分布函数 ⑧ 某地的降水量 单位降水量 该水分从蒸发到降落前达到的最大高度 达到不同高度的水分然后变成降水的各有多少 ? 降水来源(垂直)函数 ⑨ 某地的蒸发量 单位蒸发量 该水分从蒸发到降落前达到的最大高度 达到不同高度的水分然后变成降水的各有多少 ? 蒸发去向(垂直)函数 在气象学中证实,空气几乎是时时保持静力平衡关系,即任何高度上的大气压力几乎总是与其上的大气质量形成的重力相等。但是对于水分(汽),它严重地偏离了关于水汽的静力关系。与此相关,我们应当研究不同高度(或者气压)上各有多少水分(气体状态)⑤。 与此类似,还可以问:不同高度(或者气压)上的有云的概率各有多少⑥以及如果有云,那么它的含水量是多少⑦。 蒸发到大气中的水分最终都是以雨雪的形式降落下来,但是进入大气以后作为气体状态的水分有的可以升到比较高的高度,有的则在比较低的地方就变成雨点而降落了。这自然又形成了下面的分布函数:某地降落的水分中来自不同高度(气压)的雨滴或者冰晶各有多少⑧。某地蒸发的水分中在不同高度(气压)变成雨雪而降落的各有多少⑨。 表 19.3 中列的这些分布函数大多数属于首次提出,而我们也没有来得及研究它们。这里列的 9类分布函数中的每个分布函数对于不同的地理位置对都可以有不同的具体的分布函数,所以它们实际代表了很多分布函数。根据对其他分布函数的研究,估计不同地点的相同类型的分布函数可能具有相同的公式类似但是公式中的参数因地点而不同。这些都等待人们研究。我们的任务主要是利用分布函数概念科学地提出气象问题。相信这些概念的明确会推进大气水分循环研究,并且对改进降水量的预告、认识、改造气候有帮助。
个人分类: 水分循环17|3537 次阅读|2 个评论
概率论的"分布函数"实为"整布函数"——兼论分布式水文模型
热度 2 hillside 2012-2-12 20:56
今天阅读丁裕国老师的《极端气候研究方法导论》。书中的基础部分介绍了分布函数的定义:我们考虑随机变量X的取值小于某一数值x的概率P(Xx),显然这个概率就是点x的函数。于是,可记为 F(x)=P(Xx)。这个函数F(x)就称为随机变量X的分布函数。当然,如果我们用 F(x)=P(X=x)来定义分布函数, 是否可行? 实践表明,后者对于描述随机变量的完整概率特征具有一定的局限性。 我对于“当然”很感兴趣。想必丁老师认为“分布函数”有些做作或别扭,并非天经地义。我也一直觉得“分布函数”有些勉强。我觉得与其称“分布”,不如说是“整布”。分布,隐含零碎布头等分割之意。实际定义的概率分布函数却更像一匹整布。我愿意将“分布函数”称为“整布函数”或“包裹函数”,可谓:拆零的不要,打包的带走。 水文学中近年分布式模型非常流行,其实分布式概念在计算机、气象等领域也非常风行。相对于水文分布式模型,是传统的集总式水文模型。如此一来,概率“分布函数”也可以称作“集总函数”。 此处再来看同书中对于概率密度函数的定义:设有连续型随机变量X的分布函数F(x),对其微商,可得 f(x)=dF(X)/dx。此式中的 f(x)通常称为分布函数的密度函数,又称为概率密度函数。由此,可用密度函数的积分表示分布函数F(x)。 如果将有些勉强的“分布函数”视作“整布函数”,那么所谓的密度函数其实更加接近真正意义上的分布函数。退一步说,将“分布函数”理解为“整布”后,它沿某个方向的分布称作密度就更容易理解了。 附: http://blog.sciencenet.cn/blog-40247-894989.html 函数与分布函数 曹广福 过去一直没有仔细推敲分布函数这个数学术语,从集合之间对应法则的角度看,称分布为分布函数似乎没什么错,但这与函数的本质属性真的一样吗? 函数概念的发展经过了很长的历史,最早给出较严格定义的是欧拉,他指出:“如果某些变量以某一种方式依赖于另一些变量,即当后面这些变量变化时,前面这些变量也随着变化,我们把前面的变量称为后面变量的函数。”这个定义清楚阐明了两个量之间存在着因果关系。后来,柯西给出了迄今为止仍在沿用的定义:“在某些变数间存在着一定的关系,当一经给定其中某一变数的值,其他变数的可随着而确定时,则将最初的变数叫自变量,其他各变数叫做函数。” 罗巴契夫斯基进一步提出函数的定义:“x的函数是这样的一个数,它对于每一个x都有确定的值并且随着x一起变化.函数值可以由解析式给出,也可以由一个条件给出,这个条件提供了一种寻求全部对应值的方法。函数的这种依赖关系可以存在,但仍然是未知的。” 狄里克雷认为怎样去建立x与y之间的对应关系是无关紧要的,所以他的定义是:“如果对于x的每一个值,y总有一个完全确定的值与之对应,则y是x的函数。”从欧拉的定义到狄利克雷的定义经过了八十多年的时间。 似乎有一种普遍认识:“两个量之间的对应法则是函数的本质属性。”集合论产生之后,函数更是看成了两个特殊集合之间的对应关系。随着现代数学的发展,函数的概念固然不仅仅限于数集与数集之间的对应关系,了解一点泛函分析的人不难清楚这一点。但有一点应该是显而易见的,函数真正的科学意义在于探索两个不同量之间存在的因果关系,这才是函数的本质属性。那么,集合与数集之间的对应关系是不是都可以看成函数呢?这涉及是否承认函数是因果关系的问题。经典函数的价值体现在哪里?它首先将两个变化着的量(未必是数量)数量化,即实际问题数学化,然后寻找这两个数量之间的内在关系或者叫因果关系,所以说因果关系是函数的本质属性。对应关系一定是因果关系吗?假如是,那么实际问题的量化过程算不算因果关系?我认为不是,实际问题的量化过程仅仅是同一问题的不同表述方式而非真正意义上的因果关系。当然,也许有人认为实际问题的量化本身就与该问题的状态有关,不同的状态对应不同的数量,从这个意义上说,他们之间自然有因果关系。但是这已经超越了函数本身的意义。例如,笛卡尔坐标的意义在于将空间内的点与数组相对应,直线上的点对应到实数,平面内的点对应到二元数组,三维空间内的点对应到三元数组,这样可以使得几何代数化,从而产生了解析几何。那么直线上的点与数之间的对应可以与函数类比吗?如果从集合之间对应法则的角度看,自然可以做类比,但如果从函数的内涵看,它与函数说的不是一回事。经典的函数是指将几何代数化之后空间内图形所对应坐标之间的依赖关系,即将图形的内在属性通过函数关系表示出来。换句话说,点对应到数或数组是从几何到代数化的过程,函数则是反应了不同量之间代数化后的因果关系,从这个意义上说,前者是架设几何与代数之间的桥梁,后者则是以代数方法寻找规律,两者完全不是一回事。 再来看概率,大家普遍将概率分布称为分布函数,之所以称它为分布函数正是基于集合之间映射的角度,分布正是随机变量到区间 之间的映射。在我看来,概率分布仅仅是将随机事件发生的可能性数量化,正如坐标系将几何代数化,这只是个量化过程,而非真正意义上的因果关系。不同随机变量之间的内在关系才是真正的因果关系,例如,儿子是否生病是个随机事件,母亲是否伤心也是个随机事件,这两个随机事件之间存在一定的因果关系,这种关系类似函数关系,可以与函数类比。把概率分布称之为分布函数没什么不可以,正如泛函分析中将空间到数域的映射称为泛函一样(它本来就相当于有限维空间内的坐标),但与经典的函数做类比似乎值得商榷,特别是对函数与概率都不那么熟悉的中学生而言很容易产生误导。
个人分类: 水文科学|4398 次阅读|4 个评论
中学时困扰我的几个物理问题(二)核反应的平衡
热度 2 qianlivan 2012-2-12 15:16
中学时觉得化学中的勒沙特列原理非常巧妙。这个原理反映了化学反应平衡的规律,就是向抵抗物质浓度变化的方向移动,浓度增大就减小浓度,浓度减小就增大浓度。反应平衡是化学中一个重要概念,一般可以用平衡常数描述反应的平衡。 后来又学了核反应(聚变、裂变、衰变),表面上看起来核反应和化学反应很类似, 但是我发现教科书上似乎没有考虑核反应的平衡, 核反应里似乎也没有类似化学反应的平衡常数。 这就成了又一个困扰我的问题。 前天忽然想起这个问题,到网上搜了一下,又经过思考, 我认识到核反应同样有逆反应,同样会有反应平衡的问题。 不过核反应不是溶液中的反应,一般来说光考虑浓度(数密度) 是不够的,还要考虑分布函数的问题。 对于核反应 0+1-2+3+ Q 0123 , 正反应和逆反应速率之间的关系可以表示为(Bahcall Fowler, 1970, ApJ, 161,119) P 0123 / P 3210 =( n 3 n 2 / n 1 n 0 )( g 0 g 1 / g 2 g 3 )( A 01 / A 23 )^3/2 exp(- Q 0123 /kT) 其中 Q 0123 是反应放出的能量,$n_i$ 是 反应物 、 产物的数密度,$g_i$ 是 统计权重 , $A_{01}$和$A_{23}$ 是反应前和反应后的核子数目 。 通常核反应放出的能量很大,在MeV的量级,1 eV相当于 $10^{4}$ K,1 MeV就相当于$10^{10}$ K。通常热核反应( 以氢聚变为氦为例)的温度是$10^{8}$ K, 所以上面式子中的指数因子大约是 $e^{-100}\sim 10^{-43}$ 。所以通常逆反应是不重要的, 也就不考虑反应平衡的问题了。 但是从上面的分析可以看出,“不用 考虑逆反应”的结论是基于指数因子很小, 而这是因为正反应放出的能量远大于热温度。如果这点不能满足, 那么逆反应是必须考虑的。
个人分类: 思考|10240 次阅读|2 个评论
与空中水有关的一些分布函数
热度 1 zhangxw 2012-1-27 16:17
与空中水有关的一些分布函数 张学文 ,2012/1/27 不同的某某某各有多少 , 是一种对概率分布类的函数的高度概括。空中水科学里有很多分析对象可以提炼为这种类型的问题。在 《 组成 论 》 19 章 205 页就给出了 16 个对应的分布函数问题。下面就是其表(对一些项目的说明略有修订)。 问题 个体单元 标志(变量)名称 分布函数要描述的问题 分布函数的公式类型 1 雨滴谱 每个雨滴 雨滴半径 不同半径的雨滴各有多少 负指数型 2 雪花谱 每个雪花 雪花半径(当量) 不同半径的雪花各有多少 负指数型 3 冰雹谱 每个冰雹 冰雹半径 不同半径的冰雹各有多少 负指数型 4 霰谱 每个霰粒 半径当量 不同半径的霰各有多少 负指数型 5 云滴谱 每个云滴 云滴半径 不同半径的云滴各有多少 瑞利分布型等 6 在某地域的一场雨(雪) 单位面积 降水量 不同雨量的降雨各有多少(面积) 负指数分布 7 在某地域的一场雨(雪) 单位面积 降水维持时间 不同维持时间的降雨各有多少(面积) 负指数分布 8 某个点的一场雨 单位时间 降水强度 不同降水强度的雨各维持了多少时间 负指数分布 9 某个地点的降水 一次降水 该降水过程的降水量 不同降水量的降水过程的出现概率是多少 负指数分布 10 某个地点的降水 一次降水 该降水过程的维持时间 不同的降水维持时间的降水过程的出现概率是多少 负指数分布 11 某个地点的降水 一次降水 雨量和维持时间(两维) 一场降水过程中不同降水量和维持时间各有大的概率 没有找到解析公式,但边缘分布为负指数 12 某个点的干旱阶段 一段无雨时间 该时段的历时长度 不同的干旱期(无雨期)各有多少 负指数分布 13 某个点的很长时段 月 月降水量 不同的月降水量各有多少次(概率) gamma 分布 14 某个点的很长时段 年 年降水量 不同的年降水量各有多少(概率) 年降水次数超过 30 次从 Gamma 转 为正态分布 15 在某地域的一场雨 单位面积 该降水过程的雨量和历时 不同雨量和不同降水历时占的面积各有多少(二元) 没有找到分布函数的解析式 16 某个点的很长时段(很多年) 年 某地每年的一日最大降水量 年的日最大降水量为不同值的出现概率 极值分布函数
个人分类: 空中水科学|3497 次阅读|1 个评论
谱模型--分布函数背后的理论1--提炼科学问题的重要视角(5)
热度 1 zhangxw 2011-12-30 12:54
谱模型 -- 分布函数背后的理论 1-- 提炼科学问题的重要视角( 5 ) 2011/12/30 前面提到在谱模型的思路下 , 可以把自己手头的数据资料 , 整理为一个含义是“不同的某某某各有多少”的关系。让 x 表示“某某某”,让 y 表示对应 x 的个体数量,那么 x,y 就构成一个清楚的函数关系( x 也可以是矢量,如不同身高、体重的学生)。把数据整理成为一个函数关系使你的工作向量化迈进一步,这是重要成绩。但是这样的成绩也许仅是经验性的概括(该方程是所谓经验方程),而说不出什么道理。于是要再提高就得有一些理论说明。 此时的粗浅工作可以是看看它是否符合某种大家熟悉的数学公式,如现在比较时髦的幂律公式等等。这些在电脑软件的帮助下,有时也很方便。是的,大家都谈幂律,我用新资料也发现一个幂律,你总得承认我取得了研究进展吧!过去,据说正态分布函数时髦,你的结果如果符合正态分布,人们愿意承认你的工作。 符合幂律也好,符合正态分布也好,它们都是概率分布中的特例。所以应当看到,概率分布簇(大约有 10 多种)概括着很多的谱模型的分布函数。不过,你的资料为什么符合这个概率分布模型而不是另外的?这需要说说道理吧! 我在《组成论》( http://zxw.idm.cn )书中归纳了一些概率分布的形成(得以体现)理由。它们的共同特点是 1. 该系统(你分析的那些数据)中具有随机性,所以应当满足信息熵最大(我称为复杂程度最大、最复杂,体现高概率的事情容易出现)原理。 2. 你研究的系统里包含了某些特有的总体约束。这类约束不同,就可以配合最大熵原理推导出不同的概率分布。 例如,你研究的某某某,其平均值应当具有保守性(不变化),那么配合最大熵就应当获得一个负指数分布。又如其平均值是指几何平均值,则其分布就是幂律 … 一些细节不好再展开了,欢迎有兴趣的读者自己看那里的解说。 总之,谱模型联系着不同的某某某各有多少的分布函数。它使你的大批资料数据可以整理为一个经验公式。而如何解释这个关系?随机性 - 最大熵原理 - 特有的约束条件可能帮助你把经验公式变成一种理论的具体化。 是的,从概率分布方面寻找与你获得的分布的理论外形一致和理由得当是重要环节,它可以概括很多情况。但这仅是比较体系的一种认识,而不是唯一的思考路径。 本段就说到此。余下的话下次再说。
3401 次阅读|2 个评论
“谱模型-分布函数”的其他例子--提炼科学问题的重要视角(4)
热度 2 zhangxw 2011-12-23 12:22
符合 “ 谱模型 - 分布函数”的其他例子 -- 提炼科学问题的重要视角( 4 ) 张学文,2011/12/23 在 (3) 中简单提到物理学和化学领域的或明或暗的体现着 “ 谱模型 - 分布函数”的例子。这些例子是物理学、化学里高手的精彩杰作。我们学习其思路,用到其他领域应当是可取的。 下面是我这个外行抓住这个思路,想到的例子,供大家参考,外推、类比。 研究中文的专家很多,可我外行。但是十多年前我提出在汉字的字库里(群体)不同笔画的汉子各有多少的问题。我抱着辞海去查汉字目录,结果数出了不同笔画的汉子各有多少。结果我以笔画为横坐标,以该笔画的汉字数量为纵坐标,把结果点绘上去,获得了一个中间突出两端低的曲线,很漂亮。我发现它们的关系符合对数正态函数。这在我的《组成论》和博客里有介绍。 不同笔画的日文、韩文如何?英文、俄文等拼音文字中,由不同数量字母组成的词各有多少?它们是否也有类似关系?我仅想到此而没有去统计,您不妨试试看 … 地球上大象体重很大而数量不多,蚂蚁或者细菌、病毒则是体重很小的生物而数量很多。我这个生态学外行问:不同体重的生物各有多少(全球,活着的)。 90 年代借着极少的数据我发现生物存活量与生物体重的关系符合所谓的幂律关系(生物链的十一律是其粗线条描述)。我文章发在一个小杂志上,默默无闻。而生态界是否把问题提到这个水平?我不清楚。我认为这是生态领域的重要问题。可我无力细致地去做了。后面的事需要生态学去做。 记得我还在博客中分析过不同面积的国家各有多少等类问题,一些读者也感到思路新鲜。 作为气象预报员我分析过很多的降水量图,在我有了这么谱模型 - 不同的某某某各有多少,以后我最感得意的一个思路就是分析不同降水量的笼罩面积各有多少。当我发现暴雨过程的雨量 - 面积关系符合负指数函数时,我非常高兴。我感到自己把统计物理学的模式用到气象学过去从来没有想到的地方了。 所以我相信理解了这个看问题的视角,就可以从一些人们过去从来没有想到的角度看待问题,而在自己手头有大量资料的基础上,沿着这个思路去统计资料。就可能获得新的函数关系,而且这个函数一般都具有很高的稳定性,即它可能是所谓普适的规律。 好了,在这个思路下,从资料中,在“不同的某某某各有多少”的引导下分析出满意结果的事,就谈到此。后面再谈由此发现的函数、规律背后可能存在的理论依据问题,这,下次再说吧。
个人分类: 组成论|3525 次阅读|4 个评论
物理、化学中的例子--提炼科学问题的重要视角(3)
zhangxw 2011-12-19 12:29
物理、化学中符合 “ 谱模型 - 分布函数”的例子 -- 提炼科学问题的重要视角( 3 ) 张学文, 2011/12/19 ( 1 )、( 2 )已经谈到 , 谱模型是一种观查问题、科学地提炼问题的一种视角。在这个视角下,面对一批资料数据,我们会以标志值(每个个体具有的量化特征(如身高、考试分数 … )为横坐标,以该群体内具有该标志值的个体的对应数量为纵坐标。而获得一个标志值 - 个体数量的对应关系。这个关系就是一个函数。我们把它称为分布函数:它表示了不同的标志值各有多少个的函数关系。 本段简单地说说物理学、化学中符合这个认识思路的例子。 光谱:其中的所谓黑体的辐射光谱是典型的,它给出了黑体辐射出去的辐射能中,具有不同波长(对应不同能量)的光子各有多少。其观测数据与理论公式的一致性是现代科学的重要个例。在原子物理学中对不同元素所发射的不同光谱的研究对认识原子结构起到了重要作用。 分子运动:我们感触的“热”其实是分子运动的快、慢。可相同温度下不同分子的运动速率并不相同。那么不同运动速率的分子各有多少?这就是分子速率分布律。理论家给出理论公式,实验家则去验证该公式的精准性。 在一定的系统内不同特征的电子、分子、光子的数量各有多少就是统计物理学经典的分布函数。 是的,物理学家依靠各个状态的出现概率相同的基本假设、依靠高概率的事情最可几(最容易出现)、依靠“熵最大”在对应的约束条件下推导出各种理论分布函数,堪称巧妙运用概率论的高手。这些成果不仅为观测的结果所证实,也被推广到远离统计物理学的领域(如语言)。学习、理解、借用统计物理学的思路去解决自己领域的问题是非常有潜力的。 在化学领域,符合谱模型的“不同的某某某各有多少问题”也具有重要或者说基础地位。某化学反应可以正向进行,也可以反方向进行。即可以由化合物 A,B, 生成化合物 C,D ,也可以由 C , D 生成 A , B 。人们进而问在一定的条件下,不同的化合物 A,B,C,D 各有多少?我知道化学中有个“质量作用定律“就回答这个问题,所以质量作用定律是化学意义下对不同的某某某各有多少的问题的一种答案。 其实,细想想,化学要研究不同的化合物(百万种),要给出每种化合物的分子式。分子式是什么,难道它不是在回答着一个普遍性的问题:本化合物(分子)中不同元素的原子各有多少(几个)?而这难道这不是我们提出“不同的某某某各有多少”的一批特例? 电子、中子、质子发现以后,物理 - 化学界忙着做一件事:找出每种化学元素(原子)的组成,即指出每个原子是由多少电子、中子、质子组成的。难道这不是我们的“不同的某某某各有多少”的又一批特例吗? 哲学家说当代西方的科学本质是所谓还原论。对还原论的狭义理解就是把研究对象(相对意义下的群体),分割为形状、性质、特征不同的多批个体。而“不同的某某某各有多少”恰好是回答还原论最关心的问题典型答案。所以与谱模型联系着的“不同的某某某各有多少”问题确实是科学领域的一个基础问题。
个人分类: 组成论|3649 次阅读|0 个评论
“谱模型”对应着“分布函数”--提炼科学问题的重要视角(2)
热度 2 zhangxw 2011-12-15 17:36
“ 谱模型 ” 对应着“分布函数” -- 提炼科学问题的重要视角( 2 ) 张学文, 2011/12/15 在谱模型( 1 )里我们指出了“谱”大致对应着在一个群体内就某种特征而作的一一展开,如菜谱对应着把各种菜(群体)一一列出(配上照片、价格 … ),人口 - 年龄谱里的谱把全部人口在年龄这个侧面一一列出等等。但是,我们在“谱模型”的名称下还强调了它对应着“函数关系”。也就是说,你用这个模型考虑问题,所收获的不仅是类似而不同的个体有哪些 ( 如不同年龄的人有哪些 ) ,而且是揭露了不同 ( 特征 ) 的个体与其占有的数量之间的关系,即客观规律!而这意味着你的科学研究可能提高了档次! 是呀,每年高考,我们关心自己熟悉的哪些学生的成绩,但是要从高考数据里提炼一个具有科学意义的问题,不妨研究“不同高考分数的学生各有多少”,而这个问题的答案就是一个函数。例如某城市有 1 万学生今年参加高考,我们单看每个学生的考试成绩是枯燥无味的事,但是把 1 万学生的成绩归结为下面的表,就比较有意思了。 分数档次 x1 x2 x3 x4 … 该档次的学生数 y1 y2 y3 y4 … 这个表给出每个高考成绩档次 x 的学生数量 y, 显然 , 各对 x,y 是一一对应的关系。如果以 x 为横坐标,以 y 为纵坐标,把这些离散的点点上去,就获得一个曲线。这个曲线自然就代表了一个函数了。好像 2010 年我就猜这个曲线可能符合所谓 GAMMA 曲线(欢迎证明或者否定): y= x n-1 exp(-ax) 。这说明拿着一摞高考成绩资料,我们可以恰当地整理出了一个函数关系 — 高考分数 y 与具有该分数的学生数量 x 的关系。 谱模型( 1 )里指出“不同的某某某各有多少”是针对一个群体(集合)来说的。哪里的某某某一般是指该群体中每个个体具有的某统一规定(统一关注)的标志的值(如高考分数、年龄 … ),而关于“各有多少”是指具有该标志值的个体的数量(具有该高考分数的学生数量)。 以标志值 x 为横坐标,以群体内据有该标志值的个体的数量为纵坐标 y ,就可以根据 x,y 的一一对应关系而绘出一条曲线来。这个曲线就是对你沿着谱模型思考问题的初步回报:你获得了一个 x,y 的关系、一个规律,而 excel 或者其他的软件还可以帮助你为这个来自调查的结果配一个合适的经验公式! 是的,你可以进行科学考察,从而获得一个新数据,或者一批数据。但是你把问题梳理为谱模型,则一个科学规律几乎就要到手了! “不同的某某某各有多少”是谱模型提问题的模式。在你具有了大量资料的基础上,以“某某某的各个值”为横坐标,以其对应的“个体数量”为纵坐标,就把大量的数据资料整理为一个曲线关系,而它就是一个函数关系,这个函数我们一般地称为分布函数,即具有不同特征值的个体是如何分布在这个群体中的。 分布函数是对“不同的某某某各有多少”式的提问的一般回答模式。 做学生时我们学过很多函数、公式,做工程师时我们准确地套用过很多函数、公式。做研究自然是以发现一个公式、关系、函数为荣。谱模型是一种思路,它不仅帮助你在大量的数据面前提炼如何看待它们的角度,而且沿着这个思路去整理数据,就可能获得一个函数、公式、关系、规律 … 这为科学研究出成果迈出了一步!“分布函数”是为这样获得的函数的统一名称。 好了,本段从谱模型提出问题逐步转入如何获得(在具有对应资料的前提下)该问题的答案,即分布函数。其他的话以后再说。
个人分类: 组成论|3425 次阅读|4 个评论
关于空中水的几个悬题(5)
热度 2 zhangxw 2011-11-23 16:36
关于空中水的几个悬题 (5) 张学文 ,2011/11/23 勤奋地参加水分循环是空中水的重要特征。而涉及水分循环过程也存在一些统计特征。这些特征中有的比较容易分析,有的则难以推求。我们这里以正确地提出问题为主,如何回答这些问题是大家以及另外场合要讨论的事。 下面把我在《组成论》( 2003 ,中国科学技术大学出版社) 19 章中给出的水分循环问题以表的形式列出。欢迎关注和推论。 与水分循环有关的分布函数问题 广义集合 个体名称 标志(变量)名称 分布函数要描述的问题 分布函数 我们给的名称 ① 当地的降水量(一场雨、一个阶段) 单位降水量 该水分的蒸发地点与降落点的距离 不同(来源)距离的降水量各有多少 ? 降水来源(水平)函数 ② 当地的蒸发量 单位蒸发量 该水分蒸发地点与降落地点的距离 不同(去向)距离的蒸发量各有多少 ? 蒸发去向(水平)函数 ③ 当地的降水量 单位降水量 该水分从蒸发到降落的相隔时间 不同滞留时间的水分各有多少 ? 降水滞留时间函数 ④ 当地的蒸发量 单位蒸发量 该水分从蒸发到降落的相隔时间 不同滞留时间的水分各有多少 ? 蒸发滞留时间函数 ⑤ 当地大气中的含水量(气体) 单位含水量 水分所在的高度(气压) 不同高度(气压)上的水分各有多少 负指数 水气的垂直分布函数 ⑥ 当地的云 时间 当时有(无)云 有云与无云的概论各有多少 不同地点差别很大 云的有无的概率 ⑦ 当地的云 单位含水量 云所在的高度(气压) 不同高度(气压)上的云中水分各有多少 ? 云的含水量的垂直分布函数 ⑧ 某地的降水量 单位降水量 该水分从蒸发到降落前达到的最大高度 达到不同高度的水分然后变成降水的各有多少 ? 降水来源(垂直)函数 ⑨ 某地的蒸发量 单位蒸发量 该水分从蒸发到降落前达到的最大高度 达到不同高度的水分然后变成降水的各有多少 ? 蒸发去向(垂直)函数
个人分类: 空中水科学|3193 次阅读|12 个评论
追风:ISI的思考
flamety 2011-9-24 15:57
引子:黑莓手机,加密过度无法监听 神经元编码规则,加密以去除干扰,典型isi频段差别。 ISI是形态决定还是化学通道决定,SP快慢决定峰值位置,——位置信息 分布函数的劈峰: 气体chotic,液体phasic, 晶体 tonic的SP 稳态模型,律动的吸引子?多稳态,多吸引子? brain like do LOG coding! “数字感”的收获 Dr. Eugene M. Izhikevich
1 次阅读|0 个评论
汉字笔画与数量的关系图
热度 4 zhangxw 2011-4-11 22:15
汉字笔画与数量的关系图
汉字笔画与数量的关系图 中国汉字历史悠久,其形态美等特点早为人知。其汉字数量与笔画的关系就构成了一个统计物理学所谓的分布函数。本人曾经发一博客 http://bbs.sciencenet.cn/home.php?mod=spaceuid=2024do=blogid=3605 给出其公式和说明。但是当时贴图没有成功。今天 2011.4.11 ,找到其图,并且成功贴于该博客文章中。特此说明。 这里也把这个图贴出、并且收于我的规律图册内。 再就是该图在网上流传后有研究者给出了比我的公式更符合实际的公式,他给了我,可惜我现在找不到了。这里也顺便告诉关心者。(如果这里的图没有打开,请看我的相册里规律图4,或者看我给的博客链接地址的文章) 汉字笔画与数量的关系图(理论,实际)
5599 次阅读|8 个评论
《神秘又简单的幂律》科普书提纲
热度 3 zhangxw 2011-2-16 12:48
《神秘又简单的幂律》科普书提纲 2011-2-16 初稿,张学文 1. 认识: 10 多年来,我逐步认识到外形简单的幂律,在社会现象和自然现象中有大量实例。幂律几乎成为很多学者喜欢玩的规律而又难以道出它的形成背景。有的研究者鼓吹不知道它形成的原因反而增加它的神秘性。在这个背景下,概况一下不同领域揭露的幂律本身就具有推进研究,引向统一认识的意义。大约在 1993 年,本人认识到最大信息熵原理加上变量的几何平均值不变的约束就可以从理论上推出幂律,幂律是与正态分布等著名概论分布并列的分布函数。在 2003 年出版的《组成论》的 17 章中,我以 3 节讨论幂律问题。该书出版以后在奇迹论坛和潜科学论坛等处就此开展过比较广泛的讨论。在讨论中也提出过编写一本小册子,专门介绍有关幂律的方方面面,成为一本比较专业的科普书的想法。近年来在科学网上不止一位学者提出把幂律列入概率论应当介绍的基本概率分布之一。而关心幂律的学者更多。我确实想写一本通俗的关于幂律的书,可个人能力不足。 2. 为了不让这些认识流失,这里我提出关于幂律小册子的一个可能的提纲。欢迎大家关注并且提出认识。我期待有人可以参与合著,完成其中的一部分。出版事宜我解决。拟议中的《神秘又简单的幂律分布》是中级科普书,大约 7 万字。 3. 《神秘又简单的幂律分布》提纲 l 横跨自然与社会的规律 l 财富在人群中的分布 l 英文字母的 zipf 律、文献数量的规律 l 幂律公式 n=a/xm l 分形、名次、网络 … 中的幂分布 l 幂律公式本身提供了什么信息 l 我能发现新幂律吗( 1 ) l 幂律分布的用途、成因 l 从确定性归结出来的成因 l 概率分布家族是幂律的朋友 l 熵最大原理给幂律的说明 l 让数值试验来佐证 l 在动态中幂律得以维持的秘密 l 我能发现新幂律吗( 2 ) l 幂律等待荣升 l 附录:从最大熵看概率分布
个人分类: 幂律|7262 次阅读|13 个评论
群体智慧与中心极限定理
hufeng 2010-12-31 14:37
英国科学家 Galton 曾记叙过这么一件事情。在 1907 年的时候,曾经在英国的一个集市上举行过一场猜重量的比赛。比赛的规则是猜一头牛的重量,谁猜得靠近真实的重量,谁就获胜,共有 787 人参加了比赛。可以想见,对于个人猜测,有些人猜得过高,有些人猜得低了,大部分人猜测的结果在离真实重量的正负几十磅内,少部分人的结果差得很离谱。可令人惊奇的是,如果把所有的答案平均起来,我把这个答案称之为群体猜测,其结果竟然只比牛的真实重量 1197 磅,相信吗?仅仅少了 1 磅( 450 克)。看来,群体猜测的结果要远远好于个人猜测。 在这儿需要说明一下,数学家一般用一个叫做分布函数的东西来描述人们猜测的结果。借用上面的例子,对于个人的猜测来说,比如猜 1220 磅附近的人有 8 个,占总人数的 1 %,猜 1160 磅附近的人数共有 5 个,占到 0.6 %。分布函数所描述的是猜测的结果以及猜到这个结果(附近)的人所占的比例。分布函数是一个应用非常广泛的概念,在日常生活中我们也常常遇到,也许没用到这个漂亮的名词。比如说,为了调查城市的交通状况,我们需要了解在马路上经常行驶的拖拉机的数量,小轿车的数量,大巴士的数量等等,然后算出各种车所占的比例。这个分布函数可以作为继续调查城市交通问题的一个基本数据。 对于上面猜体重这个例子,可以用数学上非常有名的中心极限定理来理解为什么群体猜测的结果好于个人猜测。为了理解这个群体猜测,请大家想象有很多场同样的比赛都在进行,因而可以产生很多个群体猜测。我们先做两个合理假定: 1 ,这 787 个人都是独立进行的猜测, 2 ,假定这些人的智商相差不大,或者说这些人的猜测结果遵循着相同的分布函数,比如说高斯分布。 高斯分布是数学中分布函数的重要一种,其特点是围绕着平均值左右对称,并且从平均值两边逐渐减小,到离开平均值一定距离后(这个一定的距离术语称为标准差),分布函数变得很小了。借用这个例子,平均值是牛的真实重量,猜测数值有些人过高,同样多的人过低,两者围绕着平均值是对称的。大部分人的猜测的重量都在离开真实重量的正负 30 磅内(标准差),如下左图。有了这两个假定,我们根据中心极限定理可以知道,群体猜测的分布是一个高斯分布,其平均值与个体猜测的平均值相同(在这儿即是牛的真实重量),但分布的标准差大大减小,是 磅,如下右图。这表明群体猜测的结果大部分都在平均值的正负 1 磅内,误差过大的猜测很少。中心极限定理告诉我们,如果参赛的人越多,这个群体猜测会越准确。 个人猜测 群体猜测 图例:两图的纵轴都是概率,横轴都是所猜的重量,其单位是磅,图中的曲线都是高斯分布曲线。其中,左图是个人猜测,其平均值是 1197 ,标准差是 30 ;右图是群体猜测,其平均值也是 1197 ,但标准差是 1 (注意比较两图的横坐标)。 在 2004 年,美国生物学家 Andrew M. Simons 把这个原理用到了动物群体迁徙时的方向选择上 。对于单个的动物来说,可能因为记忆不够准确,或是感觉器官的偏差,不可能 100 %正确的选择运动的方向,会有比较大的偏差。可是,如果动物群体采用上文中猜体重比赛用到的群体猜测的方法而确定群体运动的方向,会大大的减少这种偏差,从而提高群体迁徙的效率。 这是一个很漂亮的比喻,但是再仔细一想,这种理解有很大的困难。比如说这个理论的前提是个体都做出独立的选择,也就是说没有相互作用,但这样的个体首先会难以形成一个群体。而且,即使形成了群体,对整体运动方向的获得需要能够即时的掌握全局的信息,这对于动物个体来说也是太高的要求。 对群体智慧的理解还刚刚起步,但每到黄昏的时候,当成百上千只的鸟在空中进行盛大的空中表演的时候,这个来自亘古的疑问会成为科学家新的动力。 2010最后一天 悉尼大学生物学院 Many wrongs: the advantage of group navigation Andrew M. Simons Trends in Ecology and Evolution 19 453 (2004). 后记: 1,网友 dailiangren 认为我上篇文章《概率这个东西》中酒鬼散步的模型最终得到的高斯分布,可以由中心极限定理推导出来,确实如此(但这并非我上篇文章的主要内容),谢谢指出。 酒鬼的每一步的选择 +1 (向右)或 -1 (向左)都是独立的、相同的随机分布,因而可以用到中心极限定理。值得指出的是,酒鬼的最终位置是每一步位置的 和 (并非平均值),因而可以解释为什么酒鬼最终位置的高斯分布的标准差是随着时间 (每单位时间走一步)线性增长。 2,在上篇文章中贴过关于以前学习中心极限定理时的两个计算机实验,为方便网友,再贴一遍(上个版本有网友说有格式问题,这个略微修改了一下,不知好了没有)。 通过计算机数值计算结果学习中心极限定理
个人分类: 未分类|5047 次阅读|0 个评论
《个体通论》第4章个体集合、分布函数、运算、统计量
zhangxw 2010-12-19 13:20
个体通论 第 4 章个体集合、分布函数、运算、统计量 -- 同类个体们之二 张学文, 2010.12.19在个人网站公布 第4章全文 (2010版) 第4章群体和它的一些特征2012.doc (2012版) 下面是本章目录(不可以打开)和第1节内容 面对一些同类个体,不仅把它们合称为 个体集合 是方便的,而且在分析不同标志值的个体各有多少的基础上,可以自然地引入个体集合的 分布函数 概念。分布函数在各个科学分支里存在大量实例。 在此基础上,本章还讨论了个体集合的运算问题以及个体集合的的平均值、复杂程度等统计量。 欢迎您把这里谈到的概念、运算、统计等等运用到自己熟悉的领域中。 2010-9-27 立, 2010-12-16 完成 第 4 章个体集合、分布函数、运算、统计量 ... -- 同类个体们之二 ... 4.1. 个体集合概念 2010-11-29 4.2 个体集合的表示 ... 4.3 个体集合的分布函数 2010-11-1 . 4.4 个体集合分布函数的例子 2010-11-2 . 4.5 分布函数的字符多项式表示 ... 4.6 个体集合的运算 2010-11-11- 4.7 个体集合的某些特征量(参数) ... 4.8 本章小结 ... 第 4 章习题 ... 4.1. 个体集合概念 2010-11-29 我们从同类个体概念出发,在第 3 章讨论了“个体们”的“量化表示”问题。本章则对同类个体们做更细致的描述。我们把一批(一般认为是数量有限的、确定的)同类个体们合称为 个体集合 。 个体集合定义:若干个同类个体,如果就某一,或者多个标志,在某时刻其每个个体具有确定的标志值,就把这些个体们合称为个体集合。有时,明确了不同标志值的同类个体各有确定的数量,也认为这是一个明确的个体集合。 例如有 8 个苹果,我们知道某时刻(实际也包含了该时刻附近的小时间段)每个苹果的重量(每个苹果有唯一值,各个个体的值可以不同),它们就是一个明确的个体集合。这里苹果重量是“标志”的名称,每个苹果的重量的数值就是“标志值”(含重量的计量单位,如克)。 与此类似,全班同学(已知每个同学的体重时)、全国公民(已知每个公民的年龄、出生地时)、全岛上的生物个体(已知体重时)、太阳系的全部行星(已知公转一周需要的周期时)、所有的湖泊(已知面积、蓄水量时)等等都是个体集合的具体例子。 独立个体们的确实存在、这些个体属于同类(相对而言)、在某确定的时刻(附近),每个个体至少就某标志(至少是 1 个标志,也可能不止一个标志,如学生的体重、身高)都具有确定的标志值(不能一个个体在同时有两个或者多个标志值 , 这就是确切性),就是一个确切存在的 个体集合 。 同类个体与个体集合的含义似乎差不多。但确定的个体集合里所包括的个体的数量是确定的。同类个体概念里没有这种限定。另外,同类个体不关心每个个体的标志值是多少。但是个体集合则要求所有的个体就某一(或者多个)标志对象的各个标志值是确定(一般情况是确知的)的。 《组成论》 ] 里把 “个体集合”称为“广义集合”。其实,两者的含义是相同的。那里给出了大量的个体集合的事例。 由于个体集合的定义中包括了(确定了)有关的标志是什么,以及每个个体就该标志的具体取值是什么的信息,有时也把这种明确了个体及其标志值的集合称为个体 - 标志值 - 集合,或者为了简单,就简称为“个体集”。这些词在本书里通用。 个体集合不正面过问集合内各个个体的相互关系,也允许在另外的时刻,各个个体具有另外的标志值。 化学研究原子、分子的特征,生物学研究有生命的个体的特征,现代科学分类就是以研究对象(个体)的类似性而划分的。非同类个体是科学分科的标界。 数学里有集合概念。这里的“个体集合”类似集合的概念,又突出了以 个体 为元素的这个物理特点,它还涉及了标志 - 标志值概念,它是数学的集合概念向物理内容的靠拢。 张学文。组成论,合肥,中国科学技术大学出版社, 2003 , 11-18 页 第4章全文 2010版 第4章群体和它的一些特征2012.doc (2012版) 第4章群体和它的一些特征2012.doc 个体通论前言 第1章 第2章 第3章
个人分类: 个体通论|4380 次阅读|0 个评论
猜想:高考分数为不同值的学生数量符合gamma分布?
热度 2 zhangxw 2010-7-7 13:01
猜想:高考分数为不同值的学生数量符合gamma分布? 2010-7-7 ,张学文 前几天我提出随机变量的代数平均值与几何平均值的应用场合问题 http://www.sciencenet.cn/m/user_content.aspx?id=341374 ,认为这联系着该随机变量的数学性质(如样本值是否会 =0 ),以及该概率分布的形成背景的可能约束条件等。在这个博客短文中也分析到了学生高考的分数的分布函数是什么形状的问题。 我国近千万学生参加高考,我们自然获得了不同分数 v 的学生各有多少 n 的一个函数关系 n=f(v) 。而它对应(等价)一个概率密度分布函数。 我们应当知道这个函数是什么形状。不知道是否有人统计、研究过它。 我猜测,它应当符合 gamma 分布,第 2 个可能是正态。 为什么猜是 gamma, 理由是这个大样本数据系列应当体现复杂程度最大(信息熵最大),而可能存在的约束是(而且仅是)学生的分数的代数平均值以及几何平均值,同时都为常数。 欢迎有人验证,包括证实或者证伪。
个人分类: 统计、概率、熵、信息、复杂性.1.|6337 次阅读|2 个评论
大气科学难(重要)题之一:熵气象学问题(初稿)
zhangxw 2007-11-1 16:52
大气科学难(重要)题之一:熵气象学问题(初稿) 题目:熵气象与气象分布函数研究 对题目的说明: 1. 气象分布函数研究不仅包括过去研究的各种气象要素的概率分布函数、各种云、降水物的滴谱分布,也包括例如同一时刻的全球大气中不同压力(温度、湿度、风速、风向、位温、能量、角动量 )的空气各有多少,或者降水现象中不同深度的降水各占多少面积,不同强度的降水各占多少时间,无雨区占天气图的相对面积等大量新的函数。它们是认识大气特征的重要侧面。 2. 熵气象研究包括把上述各种分布函数与熵联系起来,再配合约束条件,利用最大熵原理,从理论上说明为什么大气变量符合这类分布函数,以及如何把它们与气象学的理论方程组联合起来求解大气的变化规律等 科学意义: 熵概念和热力学第二定律是自然科学的基本概念和基本规律。 20 世纪它们又与信息熵、分布函数、最大信息熵原理联系了起来。其应用领域又有新的扩充。 20 世纪的气象学把牛顿力学、热力学第 1 定律、气体状态方程、连续方程这 6 个方程联立起来用于气象状态的预报并且取得初步成功。但是也由于上述 6 个方程实际上涉及了风的 3 个分量( u , v , w )、压力 p 、温度 T 、密度 以及外界给予空气块的热量 Q 这 7 个变量(方程数量少于变量数量)。所以在具体使用时不得不做一些不大符合实际的假设(如绝热假设),从而使它预报能力受到限制。而这个方程组里并没有热力学第二定律的地位。鉴于热力学第二定律在自然科学中的基础地位,把它准确、有效、巧妙的用于气象学的理论园地,就可能是气象理论的新突破。 1991 年丑纪范院士为《熵气象学》(张学文,马力,气象出版社)而写的序言中认为: 这些全新的学术思想是非常值得重视的,这一方向性的有益探索无疑有着深远的意义 。 问题产生背景: 笔者在 60-70 年代做预报员时自学信息论、熵概念,结合气象问题写成《气象预告问题的信息分析》(科学出版社),这不仅把信息熵概念系统的引入天气、气候和天气预告领域,也使自己踏上了把 分布函数 - 熵 - 熵原理 用于气象学的不归路。 进展: 1981 年笔者在暴雨的维持时间、笼罩面积和深度研究中提炼出一类分布函数概念去概括它们,并且把统计力学中的玻尔兹曼统计引入气象学。而这与最大熵是一个问题的两种提法。在明确了用分布函数概念可以概括很多气象上的一般问题以后,在自然科学基金会的支持下开展的熵对气象要素分布的约束研究中我们写成《熵气象学》( 1992 ,与马力合作)一书,它提炼了大约 30 种气象上的分布函数,并且对一部分分布函数用最大熵原理给予理论说明。这使熵气象学研究迈出了最初的一步。丑纪范院士为 他们的钻研本身已足以使人振奋。使我们觉得在主导的思潮之外,依然可以另辟蹊径,独树一帜。 笔者退休以后对持续 20 多年的努力又做了概括, 2003 年写成《组成论》一书概括的气象分布函数已经扩展到大约 50 个。我们发表的有熵气象和分布函数的文章大约有 60 篇( http://xjqxsc.idm.cn/zhangxw%20web/index.htm )。 难点: 笔者认为本研究有理论难度(涉及统计力学、理论气象学、热力学、概率论知识在深层次上的融合)。鉴于我们已经迈出了第一步,如果进展顺利,就可能建立一个重要的科学分科。目前的核心环节是唤起学术界的重视、支持和组织适当的力量。笔者认为中国人有力量和条件创立这个研究领域。 提交者姓名:张学文(研究员) 单位:乌鲁木齐沙漠气象研究所,中国气象局, 830002 初稿写成时间: 2007-10-31
个人分类: (熵+统计)气象学|7404 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-24 05:31

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部