科学网

 找回密码
  注册

tag 标签: 随机变量

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

理解8844.43是常量究竟有多难?
yeses 2019-9-11 07:35
新概念测量误差理论之科普杂文 理解8844.43是常量究竟有多难? 武汉大学 叶晓明 似乎测量界有院士曾经说过,测量学家都是数学家,大概是说测量理论需要很好的数学功底吧。今天当然不是要去质疑这一观点,只是想起概率论中的一个常量概念,这个常量概念为什么在数学家面前却这么困难? 8844.43究竟是常量还是随机变量?应该毫无疑问,8844.43是常量。 现在,如果x=8844.43,那么,x是常量还是随机变量?答案当然也应该是,x是常量,好歹“=”号的意思是应该坚守的。 但是,2005年国家测绘局给出的珠峰高程的测量结果(测得值)是x=8844.43m,其精度σ(x)=±0.21m。因为σ(x)=±0.21m,所以x是随机变量不是常量。又因为x=8844.43m,所以σ(8844.43)=±0.21m,8844.43也是随机变量而不是常量。 我曾经跟不只一个数学家争论过 8844.43 是不是常量的问题。“从数学上讲, 8844.43 当然是常量,但从测量学理论的角度上讲就不是常量了。”“因为 8844.43 是很多测量结果的平均值,所以不是常量。”“因为 8844.43 是随机分布中的一个样本,所以不是常量。”“因为测量结果还有其他的可能取值, 8844.43 是测量结果,所以 8844.43 不是常量。”…… 啊啊,我也是醉了,这个 8844.43 是常量还是随机变量还真成了个问题。 什么是常量?什么是随机变量?难道测量学理论不是根基于数学?难道是平均值就不是常量?难道是随机分布中的样本就不是常量?难道 8844.43 还能有不等于 8844.43 的时候 ? …… 怎么辩论也没有用,反正数学家们就是不服: 8844.43 就不是常量! 8844.43 究竟是不是常量,看来真不是数学概念逻辑能说清楚的了。 或许某一天,某个大数学家突然说 8844.43 就是常量,于是大家就异口同声都认为 8844.43 是常量了。 ---- 我现在干着急根本没有用。 2019 9 11 于武汉大学 点击阅读其他近期杂文: 新概念测量误差理论寻求合作者 二种测量理论所诠释的方差概念之对比 请 H 教授来给误差归类 什么是“相同测量条件下重复测量”?
2766 次阅读|0 个评论
多元随机变量四大分布
jaydow 2015-9-29 19:52
一元随机变量四大分布 多元随机变量四大分布 正态分布 多元正态分布 卡方分布 Wishart分布 t分布 霍特林T2分布 F分布 威尔克斯 Λ分布
个人分类: 概率&统计|5621 次阅读|0 个评论
[请教] 相互独立的随机变量的方差计算
热度 5 zlyang 2014-10-14 15:18
相互独立的随机变量的方差计算 听说方差具有以下重要性质(假定以下所遇到的随机变量的方差存在): (1) 设 X 是 随机变量, C 是常数,则 D( CX )= C 2 D( X ) ,或写为 Var( CX ) = C 2 Var( X ) ; (2) 设 X , Y 是两个相互独立的随机变量,则有 D( X + Y )=D( X )+D( Y ) 或写为 Var( X + Y ) = Var( X )+ Var( Y ) 。 请教: ( 1 ) 这里的“相互独立”是什么意思? “相关系数 = 0 ”是“相互独立”吗? “互信息( mutual information ) =0 ”是“相互独立”吗? ( 2 ) 任意两个正态分布是“相互独立”的吗? ( 3 ) 一个正态分布,和一个“威布尔分布 Weibull distribution ”之间是“相互独立”的吗? (4) 一个正态分布,和一个“均匀分布”之间是“相互独立”的吗? (5) 一个正态分布,和一个“卡方分布”之间是“相互独立”的吗? (6) 一个均匀分布,和一个“ 均匀分布 ”之间是“相互独立”的吗? ———————————————————————————— 2006年 Thomas M. Cover, Joy A. Thomas 的 《Elements of Information Theory, 2nd Edition》 John Wiley Sons, Inc., http://as.wiley.com/WileyCDA/WileyTitle/productCd-0471241954.html ISBN: 978-0-471-24195-9 第252页截图: 感谢有关人员!感谢您的讲解!
18439 次阅读|15 个评论
实验数据分析中的相关系数与相关性
热度 2 odyssey 2014-4-28 11:24
导言 :前不久参加所里的本科毕设中期汇报会,期间一位学生提出:“一张XY二维图,如果我画在图上的是一条平行于X轴的横线,那说明Y值是不依赖于X的。不管X取什么值,Y都是这个值,怎么能说X和Y之间有关系呢?就算X轴取不同的参数,Y也是一样的值。只能说Y这个量自己的取值有规律,和X这个量一点关系都没有。” 当时略微做了一些评论,可能并没有阐述清楚,故在这里专门讨论一下这个问题。 摘要: 相关系数可用来衡量两个观测量之间的线性相关程度。相关系数本身也是一个随机变量,有一定的分布特征。当数据点位于一条平行于X轴的横线上时,相关系数没有意义。但具有这种特征的数据分布本身或许蕴含着一些重要的物理规律。 在数据分析工作中,会碰到各种各样的观测量:电压、电流、气压、体积、亮度、质量等等。观测量自身往往有一定的分布规律,还混杂着随机测量误差,在数学上可以当做一个随机变量。获得观测(实验)数据后,便要对其进行分析,一个简单实用的方法是将对应两个观测量的一系列数据点画在二维平面上,看看其分布有什么规律。一些分布是确定且相当有规律,背后通常隐藏着深刻的物理原理,例如黑体辐射谱,对其进行分析直接导致了量子概念的产生。由于物理现象的复杂性,再加上随机的测量误差,导致更多的分布较为弥散,没有很强的确定性,但对其运用相关分析同样能得出一些重要的结论。例如,哈勃对星系的距离和红移(退行速度)进行分析,发现距离越远,红移越大,纵使误差很大,也还是能够明确得出宇宙在膨胀的结论(哈勃定律)。 我们普遍使用由Pearson引入的相关系数 来定量判断两个观测量(随机变量)之间的线性相关程度。相关系数的具体计算公式为, (公式1) 其中 和 为两个不同的观测量, 是它们的平均值, 为各自的方差, 为两个观测量之间的相关系数。 图1:数据点的分布形状和对应的相关系数。 (图片来源 http://en.wikipedia.org/wiki/Correlation_and_dependence 。) 相关系数的一些特性可以从 图1 所列的示例看出来。第一排图形体现了数据点分布的弥散程度 和相关系数大小的关系。 数据的弥散度越小,线性度越高,相关系数的绝对值就越大;反之,数据的弥散度越大,相关系数就越接近于0。 第二排图形表 明完全线性的数据分布对应的相关系数的绝对值为1,与斜率无关。但是当数据点平行于X轴时,其相关系数是没有意义的(下面我们还会展开讨论。)。第三排图形说明即使数据点对应的相关系数为0,也不能说两个观测量之间没有关系,因为相关系数仅仅反映两个观测量之间的线性相关程度,而在现实世界中观测量之间更有可能是一种非线性关系。 利用公式1不难验证,对变量 或 作线性变换,相关系数的大小维持不变。同样一批数据,选择不同的显示比例尺,会有不同的视觉效果。例如Y方向的比例尺大,数据在这个方向就会被压缩,看起来相对集中些;选择小的比例尺,数据就被扩散开来,给人感觉数据似乎更加弥散,更加不相关了。实际上,不管选用什么样的比例尺,数据背后的相关系数没有发生变化。因此,我们在寻找数据的相关性时,不能过分依赖自己的直觉,还是要通过计算相关系数来判断。 相关系数本身也是一个随机变量 。我们假定有两个相互独立的观测量。理论上,这两个观测量对应的相关系数的期望值为0。然而对于实际测量据来说,由于数据量有限,相关系数在区间 之间有一个分布。蒙卡模拟表明这些分布近似为高斯型函数。数据量越大,分布函数越倾向于向0集中( 见图2 )。当数据量比较小时(例如样本量 ),即使是高的相关系数(例如0.8)也不见得观测量之间存在很强的相关性;而数据量比较大时(例如样本量 ),很小的相关系数(例如0.2)也可能说明观测量之间存在着显著的相关性。严谨的做法是用假设检验来定量判断相关的显著性。 图2:相关系数的分布。两个互相独立的随机变量都满足泊松分布( )。在不同样 本量(N=10/100/1000)条件下,通过10万次蒙卡模拟,获得对应的相关系数分布图。 最后我们试着来回答那位学生的提问。当数据聚集于一条平行X轴的横线时(类似 图1 正中央示例的情形),变量 的标准差为0,此时计算相关系数已经没有意义。由于测量误差的存在,实测数据不会严格分布在一条直线上,而是在该直线上下波动,因而相关系数会接近于0。但在该情形下,我们能说变量 和 没有关系没有吗?不见得! 我们用理想气体的物理特性来说明。理想气体的状态方程为: (公式2) 其中 为压强, 为体积, 为质量, 为温度, 为一个常数。若固定质量和温度,那么气体的压强和体积成反比。此时,我们去画压强(X轴)和温度(Y轴)数据的散点图,就会发现其分布近似平行X轴,压强和温度似乎毫无关系。让我们改变实验条件,将质量和体积限定在某一个固定值,再去画压强和温度的散点图时,将会发现他们之间存在明显的线性关系。 当出现数据分布平行于X轴(或Y轴)的情况时,我们首先要想一想:在实验中是不是由于设置的原因(在天文观测中对应的是仪器的选择效应),使得某个观测量被限定在一个特别小的区间内?正如上面所提到的理想气体实验。若不是,那么恭喜你,你的这批观测数据或许具有重要的科学价值!因为这样的现象意味着该观测量存在一个特殊状态:例如,当温度下降到某一水平时,一些物体可以进入超导状态,电阻恒定为0,并且不再随温度的继续下降而变化;天文中,当白矮星吸积质量达到钱德拉塞卡极限时,可以引发Ia型超新星爆发,这个质量也是一个恒定的量。 这些特殊状态背后的物理原理值得去深究! 参考文献: http://en.wikipedia.org/wiki/Correlation_and_dependence 谢明文,《关于协方差、相关系数与相关性的关系》,数理统计与管理,23卷第3期,2004年5月
个人分类: 科研心得|22507 次阅读|6 个评论
学习学习贝叶斯网(3)
热度 1 Babituo 2014-1-1 13:18
上次学习到贝叶斯网的接点表示的是随机变量,是,对随机的捕获一个样本的取值为某个值的事件,这个“事件发生”的表征。贝叶斯网的边则表示这些随机变量之间的关系。 到底这些“关系”是什么含义呢? 抓个俘虏来审问一下,就知道了。 比如,人的饮食习惯中包括:抽烟,喝酒,吃饭。而人生病的种类,比如有,肺病,胃病和肝病这三种。 我们可以考察一群人 (样本 空间 ) 的抽烟,喝酒,吃饭的习惯,假设考察“抽烟"这个“属性”,可以取“很多,多,一般,不多,很少,不抽”这些取值的某一个。那么,对某一个不确定的人(样本)来说,“抽烟很多”就是一个“随机变量”所表征的一个事件。因为,抽到的是另一个人的话,那个人又可能“抽烟很少”。 同理,“抽到的一个人得肺病”,也就是另一个“随机变量”所表征的一个事件。 很显然,我们能够理解,根据一个人抽烟的习惯取值的情况,我们可以推断他得肺病的取值的情况。如果抽到的是一个抽烟很多的人,那么,这个人得肺病的可能性就很大。 当然,这是一种我们主观上的认为,也是有实事数据为支持的的一种因果关系的推断。 这个因果推断的关系,就是随机变量之间的关系。 俘虏抓到并审问完毕,贝叶斯网所说的随机变量关系的含义是不同的随机事件会发生之间的因果关系。 所以,理解贝叶斯网的意思很简单,就是:不同的随机事件发生之间的因果关系的表示网络。 当然,这么理解贝叶斯网只是定性的理解,如果到此为止的话,这个网络就不会有“贝叶斯”的名字了。 这个网络得名“贝叶斯”的原因,一定是贝叶斯这个人用这个网络,做了一件特别的事。 这件事是什么呢?就是对 不同的随机事件发生之间的因果关系进行了定量的计算。 什么事情一旦要追究定量关系了,就不得了了。何况还是随机事件之间,带有主观色彩的因果推断。 这就自然地引出了概率等一系列可计算的概念了。 待续...
个人分类: 信息探索|3384 次阅读|1 个评论
随机变量和、差、积、商的概率密度函数
sanshiphy 2012-9-28 17:01
问题:设有两随机变量X和Y,其联合概率密度函数为f(x,y),求:X+Y、X-Y、XY、X/Y的概率密度函数。本帖给出了相应解答,供参考(参看附件)。 附件: pdf
个人分类: 学习笔记|31626 次阅读|0 个评论
无偿征集连续性随机变量期望题的答案
loong21 2012-2-20 07:42
问题描述: 斯图加特飞机场离斯图加特市中心很近,并且位于其市内交通(S-Bahn)网络内。其中,有两条线经过斯图加特飞机场站Flughafen:S2,S3. S2 和S3都是每隔半小时一班,二者之间有一个固定的时间间隔T(斯图加特城市S bahn线的情况是T=10分钟)。 现在的问题是: 假设小八路从飞机场以随机的概率走到S bahn Flughafen站台,她平均要等多久,才能坐上S Bahn线回家? 固定的时间T会对这个期望值有影响吗? 答案形式: 先提供最终答案,如果答案正确,Kalmanfans将联系你,要求提供求证过程。 截止日期:2013.01.04 (点击此图可放大)图中的A点,就是斯图飞机场,也是我的A点。
个人分类: 留学德国|5353 次阅读|0 个评论
灾害预防性措施一则
yanghualei 2010-8-27 09:38
预防性措施为:当不能确定灾害是否发生时,但发生了会造成巨大危害时还是应该采取措施预防性的。确定的灾难只产生于事态发展的过程中; 故宁可一万个不发生,也不要一个发生, 因为人类在地球上出现是小概率,消失也可能是个小概率(此就蕴含在可能发生的当中) 生态学中的一个涉及细菌繁殖、生存空间与时间的关系的实验, 当细菌意识到生存空间拮据即必然发生时,已经太晚了; 在看下初速度为零的滑坡和自由落体,越靠近地面加速度越快,说明灾难开始时候并不太显著,初始的微小差异经过后来的逐步累积生成灾难, 而所谓的突变也是外部诱因所致,内部逐渐加强 建议对灾害的并发症,不但短时间跟踪,更应该长时间观测,因为其活动的时间域比较长 ; 看下音叉,振动后好久才停下来,即使音叉停了,但其激发的空气波,还在传播 建议:学者应该学着预期和调控灾害,就像改变小行星轨道一样,别老作事后诸葛亮。 也许有人会说:发展也许是坚守,因为环境在变,人类老是比环境慢一拍啊;若等待其发生,需求创造供给,环境比人类慢几拍 这样在等的过程中已经送命,就来不及等到环境去协调人那时候了 最后强调一点:现在的问题不是单一某个学科能够解决了的,需要协同各个学科的思维, 维纳说过:假如生物学发展的一个障碍是由于数学引致,那么十个不懂生物学教授和一个生物学教授的贡献是一样大的, 即要提倡系统科学,系统思维,发展交叉和横断学科。 在这胡扯那么多,实际上在继续上升,自己也不清楚便陷入诡辩逻辑, 世界是个随机变量,生活是个随机过程,行为是在随机游走; 因为现实中很多事情都是无法考证且不确定的, 有些东西存在,但不知道;有些东西知道,却无法证明;真人类的不懈追求,但何为对,何为错,有时候真的难以分辨,混沌状态未尝不是一门哲学
个人分类: 生活随笔|3024 次阅读|1 个评论
超球面模型讲座(4-1) “或随机变量”
TUGJAYZHAB 2010-6-3 07:40
超球面模型讲座( 4-1 )“ 或随机变量” 请不要皱眉头。这里的“或”的意思是:“或许是,也或许不是” 随机变量 ,还没有定论,还有待讨论的意思。 我用“或”字来代替 “非” , “假” ,是避免得罪统计爱好者,因为我自己不是很懂统计,不很懂“随机变量”。对于自己不很懂的东西,断言人家“不是”,或“假”,是很不妥的。可我开博的目的是要以股市数据,或植被数据为实验材料,与大家探讨如何做 系统动态分析 , 趋势分析 ,所以我不能接受“ 股市数据,植被数据是随机变量 ”的成见。既不想说“随机变量”,又不能说“假随机变量”,做个变通,暂称其为“或随机变量”。 在本人博客,我把股票市场的股票,植被的植物作为“或随机变量”,通过处理,使其转化为 确定性变量 ,以便可以进入“趋势分析”。 使“或随机变量”转化为“确定性变量”的过程,暂且称之为“非随机化”。“非随机化”的手法是可以存在的证据之一是 自除 。即使它是货真价实的随机变量,除以它自己,就变成常数一,不但是 确定性变量 ,而且是 常量 。 所以,随机变量除随机变量,是可以得到确定性变量的。理由可能是两个随机性互相抵消掉了吧。 但是,“常量一”带不来变化,是不能进入分析的。 我们把“或随机变量”除以多个“或随机变量的和”试试。 把“股票价格”除以股市所有股票价格的“ 向量和(模,向量长度, SSS )”: Y (i) ’=Y (i) / |Y| = Y (i) / √ ∑ Y (i) 2 , i =1,2,... m 上式里, m- 向量 Y 表示 m 支股票组成的股票市场。 Y (i) 表示市场中的第i支股票。 |Y| 表示股票市场的向量长度(模)。 Y' 表示股票市场在 单位超球面 上的投影。 上式称市场向量标准化。它使市场向量长度等于一,把多维空间中代表股票市场的点投影到 单位超球面 上,所以是 超球面模型 的招牌公式。 关于导出数据标准化,向超球面投影的思路,过程,可参考另一篇博文: 系统监测和趋势分析的数学工具 http://www.sciencenet.cn/m/user_content.aspx?id=276225
个人分类: 第四讲|2746 次阅读|2 个评论
启发大家发现一些很难发现的局限
wangyong77 2009-3-13 20:41
这篇文章指出,概率论中,忽视了概率本身往往也是随机变量,假如大家以此类推,会发现更多的问题,许多问题变得异常复杂起来。 我们经常把随机的数当作确定的数,而把多重随机的数当作随机变量,或者是确定的数,这样必然具有很大的局限性。 以此类推,可能现实中更多的东西是随机的,比如某个理论它也不是绝对正确的,可能此时符合理论a,彼时符合理论b,等等,当然这把问题都弄得复杂起来了。在比如,我们建立的一些模型,可能此时符合模型a,彼时b,在比如采用的方法,可能也是随机变量,采用的运算符号,也可能是此时加,彼时减,当然还可能是更加抽象的运算,一次推下去。可能一切都是不牢靠的了,以前许多东西要重新开始考虑了。 论概率的相对性 摘要: 指出了现有概率论的局限性,它没有认识到概率的如下特点:首先,先验概率和后验概率的划分不是绝对的,先验概率本身也是条件概率;其次,概率未必绝对是固定的,可能是随机变量;还有,概率是随着已知条件的增加而进化的。最后,概率是复杂相关的。同时分析了概率论在应用中的一些问题。 关键词: 概率论;相对性;条件概率;信息论 引言 目前的概率理论并非可以解决所有的概率问题。比如对事件的概率,可能不同的条件,或者不同的人会给出不同的概率,那么应当如何来综合和折衷,概率论并没有解决。这些问题没有得到研究源于概率论本身具有局限性,目前的概率论是以柯尔莫哥洛夫(kolmogorov)公理系统为基础的 。该公理系统具有一定的局限性,比如菲纳特和熊大国等学者指出了该公理系统的一些缺点和不足 。而笔者在研究中发现,概率论本身在许多时候也是有前提的,并不能解决所有的概率问题,而其中有一个根源在于概率值完全可能是随机变量,而不是一个固定的值。 概率论的局限性分析 目前的概率论中,没有考虑到条件是多种多样的,比如一般在指定一个条件B的情况下会给出事件A的条件概率值P(A|B),但是有时候条件概率值P(A|B)往往是未知的,而且可能还是随机变量,而不是我们想象中的确定的值。一旦条件概率是未知的时候,我们解决多个条件下的概率问题就无能为力了,比如已知P(B) ,但是P(A|B) 未知,则可能无法求解P(AB)。概率是用来描述随机现象的,但是概率本身也可能是随机变量,但是我们的概率表述中往往是给出一个定值,这造成许多概率的理论应用中,都把概率当作一种固定值来考虑,进而会有许多局限性。我们从一下几个角度来分析概率论的局限性和概率的相对性: 首先,概率论中,把先验概率和后验概率绝然分开。实际上,这种先后都是相对的。比如先验概率也是在某种情况下才能得出的,有一定的已知条件,否则概率的来源就没有基础,当然已知先验概率的分布本身也可以看成是一种条件,这个条件可以表述为:已知各种可能值的先验概率分布分别是多少。此外,还存在多个条件的情况,这样的情况下,它们的先后关系是可以互换的。假如我们对一个事件一无所知,那么它有几种可能的取值都不知道,别说这些取值各自对应的概率了,可见,我们得出的先验概率也是基于已知的条件的,先验概率也是一种条件概率。认识到概率是相对于相应的各种形式的条件的性质有助于在分析中有意识地、仔细地去认定每一个存在的条件,将不同的条件区分开,而不是混为一谈,从而能够有效区分相应的各种概率。实际上有时候由于条件的隐蔽性,往往不能充分认识到许多条件的存在。 其次,有些条件下,概率并不是固定的,概率虽然是描述随机不确定性的,但是,概率本身也未必是确定的、恒定的,它也可能是一个随机变量。现实中不确定的事件往往比确定的多。概率也有自己的随机不确定性,好比导数也有自己的导数,多阶导数等。举一个例子来说明概率的不确定性:对某事做实验,得到了它各种结果(可能值)发生的概率,但是实验的结果与理论上的概率绝大多数情况下是有差别的。如果我们对此事及其结果发生的其他的情况一无所知,但是仅仅知道实验的结果,这样的情况下,我们只有权宜地采用一个不是很可靠的概率,我们以此为条件,则可以得出事件可能结果发生的理论上的概率是一个以实验得出的概率(或者接近该概率)为中心的一个随机的分布。这说明在某些条件下概率是不确定的。再比如,当我们以不可靠的方式得到某事发生的各自可能的概率分布的时候,理论上的真实概率依然是以这个概率为中心的一个随机分布,此时概率并不是确定的,我们可以看到增加了一重随机不确定性。有时候容易产生概率是定值的看法可能是源于:把某种概率是定值的情况作为基本的前提,然后认定概率是不变的,比如抛硬币的正反概率(不考虑硬币正反不同造成的影响)。有时候,还会有不区分条件的变化,把此条件的概率当作彼条件下的概率,从而导致错误。认识到这种概率的随机性,有助于我们摆脱传统概率论的框架,不再把随机的值当作确定的值,把未知的值当作已知的值。现实中,我们得到的条件和信息往往不是绝对可靠的,则真实的概率具有一定的随机性,我们用这些条件和信息得到的概率来取代真实的概率是具有一定相对性的,或者说是不可靠的。许多情况下,可以得出概率的平均值,那么我们是否知道概率的平均值就可以了呢?我们可以在举例说明:还是实验的例子, A和B对相同的某事做实验,都各自得到了它各种结果(可能值)发生的概率,但是他们得出的概率恰好一样,其中A只做了10次实验,而B做了一万次,虽然他们得到的各种取值(结果)的概率一样,而且我们根据他们各自的结果都可以判断某事的各种可能的概率是围绕在他们两个的结果附近分布的。但是,B的结果平均情况下更加可靠,在这种情况下,它的结果会更加靠近真实的概率(我们假设某事各种取值的概率是确定的)。可见,知道概率的概率分布特征,即事物的双重不确定性,对结果的可靠性分析有价值。还可以举一个例子, 有人因为对抛硬币的正反情况一无所知,所以,他干脆猜测是抛硬币后落地的正反的平均概率是相等的,这样公平一些。而有人根据硬币的对称性(基本可以认为是对称的),从理论上分析得出硬币正反的结果平均概率是相等的,而另外有人根据自己 100次实验的结果(恰好是等概率的)而认定硬币正反的平均概率是相等的。虽然此时他们认定的平均概率都相等,但是其意义显然完全不一样。 再次,概率是随着已知条件的增加而进化的,概率值是相对于我们的已知条件的。波普尔和达尔文都有进化的思想,概率也是根据条件来进化的。已知条件越多,概率就越可靠。另外,好比人对事件的了解往往是从未知到已知的,对某事发生的概率的了解大多数情况下也是不确定到确定的。比如抛硬币的概率,如果对于当时的情况不了解,根据硬币的基本对称性,我们可以认为正反概率都是 0.5,但是如果知道了抛硬币中的所有决定因素,则其正反是确定的,在抛硬币的过程中,所有的作用力、初始的速度和位置、地板的情况等因素将可以决定硬币的正反,当然可能我们的已知的条件有限,尚不能知道所有的决定性因素,这样的条件下其概率可能也可以得出一个概率。大多数情况下,我们知道的条件都是不完备的,在这些条件下概率可能是随机变量(如上面实验的例子),也可能是固定的值。假如我们不能得到更加完备的条件,但是要去求完备条件下的概率,则此时不能不权宜地依靠条件不完备的情况下得出的概率,此时的概率至少会增加一重随机不确定性,则此时的概率可能是多重随机、双重随机、或者是随机变量。对事件的了解从不确定到最后确定,是因为已知的条件发生了改变,概率随着条件发生了改变。认识到这种逐步进化的相对性,有助于我们更加深入理解并且应用概率论,认识到从未知到已知,从不确定到确定的改变本身也是一种概率的演化。现实中,我们往往知道事件的片面的条件,所以得到的概率也是片面的,相对于我们的不完备的已知条件而言的。 最后,现实中的概率比目前概率理论中复杂得多,影响因素错综复杂,比如关于股市涨跌的概率具有多方面的复杂性。第一,假如有人根据股市的现在状况,包括股民的心态,总结出了股市的动态概率的规律,一旦有人了解到此规律,并且充分利用此规律来炒股的时候,股市的规律将会变化,比如如果大家只是简单从众,可能股市涨的时候就更涨,跌的时候更跌,一旦到跌的时候,就很惨,但是如果通过研究发现股市物极必反的规律,大家就会规避,在涨到一定程度就收手,这样股市的规律就会改变了,从而相应的概率就会改变。第二,还是从股市来说,如果大家都是不了解其他股民的决策,特别是以后的决策,可能就会分析股市的涨跌,如此可以得出股市的一个涨跌概率,但是如果了解其他股民未来的决策,就会根据相应的决策来决定自己的最优决策,从而此时的股市涨跌概率将会改变。第三,由于股市的变化是取决于众多不确定性因素,包括股民和上市公司的运作情况,而且这些情况互相影响和作用,股市的涨跌概率也是一个多重不确定的量。以上方面可以说明概率的复杂性。但是由于概率理论没有考虑足够复杂的问题,一些公式,比如全概率公式、 bayes公式,都是把条件概率作为已知的,固定的值来看待,这往往带来一定的局限性,从而,生硬死板地应用这些公式,导致一些问题。 从以上的一些分析也可以看出,条件本身也是多样化的,而且它们对于概率值的制约也是多样化的,不能简简单单用条件概率来表示。比如,条件还可以是实验结果、定理、规律、知识、常识、语言的翻译转换方法、语法、编码的方式、信息的可靠性等,这些都可能不能完全地决定某个概率是一个确定的值,而仅仅是制约它,或者给出一个大致的概率分布,特别是当涉及到语义的时候,编码方式、语法、定义等这些往往是公认的、基础性的,隐含的条件,由于它们的公认性,所以具有隐蔽性,往往不以为是一种条件。但是这些条件往往本身可能具有歧义和不可靠性,这会使得概率值更加复杂,具有多重的随机性,如果不能认识到这些条件的存在,并且认识到其可能带来的多重随机不确定性,就可能得出一些悖论。再比如,如果我们用一种方法得到某一事物发生的概率是固定的值 P,但是,我们根据研究发现,这一个方法并不是可靠的,那么真实的概率值可能是在P的附近波动。还有我们从某人那里得到了一个信息,但是从更加可信的途径得到这个人的不是绝对信息的可靠的,则相应的信息表达会更加复杂。 概率论在应用中的一些问题 传统的概率论虽然没有明确说明是一种绝对概率论,但是由于理论的不完善,没有充分认识到概率论的相对性,无论是在理论上,还是在应用中,往往不觉陷入一种绝对的概率论的思路中,它没有认识到大多数情况下概率是介于确定和完全未知之间的,因此可能具有随机性,乃至多重随机性。一旦考虑概率的随机不确定,概率论的许多公式就可能需要修改,或者必须增加概率是确定值得前提条件,因为许多公式实际上是将概率当作固定的值对待的。 概率论的一个重要的应用领域是信息论。信息论中,利用概率论的时候,也往往利用以前概率论的模型。假如概率是不确定的,这信息论的一些公式就无法进行计算。上面我们提到了,当一个消息不可靠的时候,它的概率可能是随机变量。香农很难得地认识到了事件的不确定性,但是没有注意到到概率本身也可能是不确定的。比如如果这个信息是不可靠的,那么可能它的概率不是一个定值,而是一个随机变量,也可以说,香农的随机不确定性的本身也是有随机不确定性的。实际上目前的超熵理论,也是在研究这个问题,超熵就是熵的熵,更加通俗地说是随机不确定性的随机不确定性。不过还不能确定概率的不确定性用超熵来表示就是正确的 。 问题的展望和推广 从概率的表达的局限性我们可以看到,概率值可能远远不是固定的值,也不是单纯的随机变量可以表达的,假如无限重的随机性都考虑进去,将是无法表达的,而且也不便于进行许多研究的,目前概率论的这种简化带来了便利,但是也带来了很大的局限性,限制了各种数和值的自由度。除了概率的值,可能许多的值和变量,也是具有多重随机不确定性的。以此类推,可能现实中更多的东西是随机的,比如某个理论它也不是绝对正确的,可能此时符合理论a,彼时符合理论b等等,当然这把问题都弄得复杂起来了。再比如,我们建立的一些模型,可能此时符合模型a,符合模型b,再比如采用的方法,可能也是随机的,采用的运算符号,也可能是此时加,彼时减,当然还可能是更加抽象的运算,以此推下去,可能许多我们当作是确定的对象都是不牢靠的了,以前许多东西要重新审视其局限性。进一步这一问题也启示我们,当我们用很简单、规范、形式化的数学方法来表示、描述和解决问题的时候,可能会砍去问题的许多自由度,或者对问题进行五花大绑,限制了它的适用范围,而且有时候往往很难被发现,不仅仅是变量和概率值,还包括模型、理论、采用的运算等其他更加复杂的对象,都可能有多重的不确定性。可见我们既要看到简化问题带来的便利,但是绝对不能忽视和忘记它带来的局限性 。 结束语 概率的这种随机性是广泛存在的,现实中,我们往往是在不可靠和不完全的情况下得出的概率,可能得到的概率是相对的,与真实概率有差距,而有时候不得不权宜地参考这些相对正确的概率。研究概率这种相对性,有助于解决许多现实问题。本文分析了这种概率的相对性,但仅仅是抛砖引玉,针对这类问题还有大量的新问题尚需要研究,比如关于信息的可靠性和信息的完备性相关的理论研究。。这两类的问题除了在概率统计领域广泛存在,而且在其他的领域,特别是信息技术领域有着广泛的应用。本文提出的相对性问题不仅仅利于概率论理论发展,还利于促进其他的应用性学科发展完善。
个人分类: 学术研究|3931 次阅读|5 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-2 20:57

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部