今日研读了“大数据时代”,深受启发,大数据是一个划时代的里程碑,他的出现突破了目前人类认知的边界,使人类的思维认知上升了一个维度,正如望远镜和显微镜都在两个方向上极大扩展了人类视野,他们都开启了人类文明爆发式发展的大门。在这本书中阐述的大数据时代对人类思维的社会发展的新变革中,可以延伸出一个逻辑推论,那就是“上帝是不掷骰子的”! 没错,这是一个完全的决定论观点,与量子理论主张的“一切都是概率”相对立。从书中对于大数据时代一些新赋予的技术来看,大数据首先反应了所分析数据的完全性,即分析是基于所分析对象方方面面的具有复杂性多样性的所有数据。其次,大数据分析不追求传统统计学分析的精确性,而具有相当程度的容错性。另外,“预测”能力是大数据的核心价值所在,其在多个领域的神预测能力已经得到广泛认可,如预测预测流感爆发,预测飞机票价等等。从这几点可以看出,大数据就是基于一个完全性的数据而进行的概率性统计,从中预测出可能发生的事件要发生的概率,从而指导人们生活中的决定。从大量例证可以看出,许多基于大数据开发的软件预测准确率是极高的,在许多商业行为上,几乎可以作为人们做决定的可靠工具。那么,这不就是经典物理中通过掌握系统中所有变量后,是可以准备无误的判断出系统接下来的发展轨迹,那么上帝就不是掷骰子的了,未来要发生的事件理论上是可被预知的?! 有人可能会说,大数据预测出来一件事是否发生应该是一个概率而已,它之所以准确预测是因为概率非常大。比如书中一个小例子:对于输入纠错的大数据算法,软件能够将“ teh ”自动识别并纠正为“ the ”。这也是在大数据分析了 N 亿个数据后得出的正确结论(这里我想输入 teh 都需要我手动修改好几次,因为 word 自动给我变成 the 了 ~ 囧),软件判断这里的相关性估计非常大,概率大于 N 个 9 了。这里有个问题,如果真的是所有的输入“ teh ”的人都其实想输入“ the ”,那为什么概率不是 1 呢,也就是 100% ?因为不是所有人都想被纠正,比如我在这里真的是想输入 teh 的( teh 本身是有意义的,大家可以 google ),但是也被自动纠正过来了,那这个时候就是一个错误预测,对于我这个少数事件的发生,这个预测就是不准确的,因此正确预测的概率不可能是 1 ,总是有小概率事件发生的。那么问题来了,对于小概率事件本身来说,它是百分之百发生的,那么我们有可能可以预测它吗?学习概率论的时候我们知道,在抽签的时候,当你已经知道前面抽签人的结果后,你抽中大奖的概率是立马会发生变化,这是因为判断抽中大奖概率的环境发生了变化,也就是预测时多了一个维度的信息,将这个信息考虑进去后,系统预测的概率就会变化。这就是说,大数据分析在判断一个时间发生的概率的时候,当增加更多数量、更多种类的数据,预测的成功率是会加强的(这正是大数据的优势),那么当这个信息增量达到极限,大数据不是就可以真正实现预测未来了吗(包括小概率事件)?! 书中阐述的大数据的一大特点是要有容错性,因为不可能所有的数据都花时间去达到精确,大数据分析带来的好处能甩开这一点点错误带来的问题好几条街,因此可以忽略不计,这一点在追逐时效性的领域中是毋庸置疑的。但如果我们就是要较真,就是要达到完美会怎么样呢?就像书中宣称的那样,过去采用小量样本分析法分析问题是因为彼时的技术条件限制的一种妥协,那么谁又知道这个大数据的容错性会不会也是受限于当前技术条件的某些限制而不得已而提出的呢?也许这一点点的错误一旦被重视并且解决,那么将来会出现一个现在想象不到的另一番天地,那就是准备预测任何事件(包括任何极小概率事件),只要我们能够获得并处理的信息总量足够多,当然还包括正确有效的数据处理方法!理论上讲,按照大数据技术继续发展下去,是可以预测到任何将要发生的未来事件!这样看来,上帝就是不掷骰子的,任何未来的事件都是可以准确预测的了,包括任何现在看起来是无法预测的小概率事件(比如准确预测地震,但这需要的信息及信息的处理量是十分庞大的)。 上帝到底是不是掷骰子的呢?像书中说的一样,也许大数据会将人类对于自身和世界的认识带入一个全新的“打破神和人”的境界。
我们都知道,买彩票是件不合算的事,因为回报的期望值是负的。也就是说,如果你玩很多很多次的话,最终肯定是输钱的。但为什么还有那么多人买彩票呢?反之,有些事如同负面的“中彩”,如几年前的金融危机,就是很多小概率事件的“杰作”。那么这样的事情,为何那么多风险控制专家却无法避免呢? 《反脆弱》( Antifragile: Things that gain from disorder by NassimNicholas Taleb, 2012 )这本书为认识这类现象提供了一个新的视角。作者塔列伯 (Nassim Nicholas Taleb) 以 2007 年的《黑天鹅》( The Black Swan: The impact of the Highly Improbable )一书而出名。今天“黑天鹅”已经成为“小概率,大影响”事件的专有名词。在《黑天鹅》一书中,作者指出很多现代的系统,包括政治,金融系统或公路,电力,网路等,都面对着具有不确定性的环境。而通常应对不确定性的方法是通过几率分析和统计来预测和优化系统的平均性能。塔列伯指出,这样设计出的系统在“黑天鹅”事件面前往往会崩溃。原因是小概率事件往往是没有先例的,它对系统的影响也很难估计。所以当“黑天鹅”事件发生时,系统的反应会超出人们的预料而导致灾难。系统的这种弱点被称为脆弱性( fragility )。 在《反脆弱》这本书里,塔列伯进一步发展了这个思路。他的目标不仅是克服脆弱性而生存下来,而且要从不确定中得益,这就是反脆弱( anti-fragility )的含义。“反脆弱”就是要把“不确定性”从敌人变为朋友。要理解这本书的脉络,我们可以从三个概念入手:小概率,非线性和反脆弱。 在继续介绍本书内容前,我先要声明:这本书应该被看作哲学而不是科学。也就是说,它提供了一个视角和理念,而不是普适的方法和定理。下面要讲到的概念,策略等都有局限的应用范围,而且都只是考量的一个片面。书中的很多陈述(包括我要介绍的原则和事例)都有推敲的空间。后面我还要讲到本书的缺点和问题。但首先,我把它的基本观念以自己的理解介绍一下。我认为,如果我们批判地吸收这些智慧,对开阔思路还是很有帮助的。 一般具有不确定性的事物中,各种可能的事件都有一定的发生几率。所以我们能用统计的方法来应对不确定性。但是,如果有些事件发生的几率非常小的话,我们对它的认识也就非常少。首先,可能有些事件从来没发生过,我们根本没有任何经验去知道它会不会发生,怎样发生。例如全球变暖问题。它究竟会带来多大灾难?我们无法基于经验来预见。第二,即使发生几率是确定的,但由于几率非常小,其中的不确定性(或称涨落)就非常大。例如大台风,我们说“百年一遇”就是说的几率。但如果几年都遇到大台风也不奇怪,这就是涨落。第三,人脑先天就缺乏直观理解小概率事件的能力。这也是进化的结果:要是老担心小概率事件(如遭雷击,大地震)的话,人就没法活了。所以对小概率事件的重要性,人们通常是估计不足。如果这些小概率事件会带来大影响的话,我们的认知限制就严重影响了我们的预见能力了。 另外还有一类事件,其实不是小概率,但在我们的经验之外,所以我们也无法预见。设想一下一只火鸡,它整天受着主人的照顾过着无忧无虑的生活。他一定觉得主人很爱它,周围环境也很和平,明天发生大灾难的可能性几乎是零。但有一天,它就上了屠宰场了。(这个比喻实际来自于哲学家罗素,但本书中似乎没有说明出处。)人类社会也是一样。有些灾难其实是迟早要发生的,但发生前人们总有意无意地忽略它。 对未来的预计之困难,除了小概率事件的原因外,还有一个因素,那就是非线性。一般地说,我们分析不确定系统时关注某些参数的统计分布。而对系统的评估就看这些参数的平均值。但实际上,真正对我们有影响的是这些参数的某一个函数。如果这个函数是非线性的话,那么它的平均值就不仅取决于参数的平均值,还取决于参数变化的情况。例如,对一座大桥进行力学分析,我们往往把应力作为参数,但真正关心的是材料的破坏。而应力较小时没有任何坏影响,但超过一定阈值后就会带来材料破坏。所以即使应力的平均值很低,但如果变动范围太大的话仍然不安全。当然工程上这类问题很多,人们也有适当的解决方法。但在生活其它方面,这种“非线性”关系就往往被忽略了。例如,当系统能力接近其极限的时候,稍有负荷的增加就会导致超过极限而崩溃。这时负荷与稳定性之间就是非线性关系。高速公路就是这样的系统。平时通车速度与车辆的数量关系不大。但当车辆数量接近负荷极限时,稍有扰动(如小事故或施工)就会引起严重拥堵。而现代的“高效率”观念让很多系统运行在接近极限的状态,就导致了更高的“脆弱性”。这类系统的行为对扰动很敏感,因而也很难预测。另一个例子是尺度的影响。对一个公司来说,如果尺度增加一倍而运作方式不变,按理说利润也该增加一倍。但当尺度大到一定地步时,公司的一举一动会影响到整个市场,这时的环境也就完全不同了。所以尺度与利润之间也是非线性关系。当然从环境角度看也一样。一个市场有一家大公司还是十家小公司,货物供给的平均值是一样的。但一家大公司带来的“脆弱度”却会高很多,因为它的错误会影响到整个市场的供应。 非线性还有一个表现,就是非对称。有些不确定性对我们的利和害在一端是有限的,而另一端是无限的。例如,我们开车旅行,路上会有不少不确定因素。但所有这些很少会缩短我们的旅行时间,而有些事会大大加长旅行时间。所以我们面临的正负风险是不同的。一个复杂的物流系统也是如此:意外事件不会让运行更顺利,而可能造成很大的干扰。也有相反的例子。比如投资一家创业公司的话,可能的损失限于投资的数量。但万一那公司成了下一个苹果,谷歌的话,得益就几乎是无限的了。 由于小概率事件往往伴随着大大偏离平均值的现象,所以在这些现象中非线性也特别厉害。例如,金融市场波动使得银行有亏有赚,这是很正常的事。但是如果市场发生巨大波动(小概率事件),使得很多银行遭受巨大亏损而面临倒闭(亏损与公司生存的非线性关系),那就是大问题了。小概率和非线性“狼狈为奸”,使得对某些系统的预测不是很困难,而是本质上不可能。 如何与“不确定性”化敌为友?(下) http://blog.sciencenet.cn/blog-309766-737619.html