张江敏
理解数字
2021-1-17 10:07
阅读:4750

计算方法课以kepler运动的演示结束。课程结束在高潮。

今年提前一周结课,有些话没来得及讲。

计算方法给人的印象是就是要获得数字。其实不然。牛人Hamming曾说,the purprose of computation is not numbers, but insight. 我们很多时候关心的不是数字本身,而是背后的规律。计算很多时候是理论家的实验。有门专门的数学分支叫实验数学(这也是一个数学杂志的名字),这门学科有悠久的历史。当年哥德巴赫就是在纸上做实验,从而发现任意大于等于6的偶数都可以写成两个奇素数之和的。

很多时候计算本身是容易做的,但是得到的数字不一定有意义。

比如我们听说盖茨的身价是500亿美元。这个数字大概是这么算的,盖茨持有微软1亿股,而每股是500美元,所以简单的乘法就是500亿美元。这个数字有大的意义?鄙人我如果持有微软100股,然后每股现在价格是500美元,那么我完全可以在今天卖掉这100股,在银行卡上进账50000美元。但是盖茨可以这样干吗?盖茨是大股东,他如果试图把他的1亿股卖掉,市场不一定能够在短期内找到这么多买家,而市场一旦发现盖茨在大规模抛售股票,微软的股价就下来了。他前100万股也许可以以500美元每股的价格卖出,之后的股票就只能以400美元甚至更低的价格出售。这就有点类似微积分,小股东如我出售500股,是对函数作个小的微分,线性近似是好的,而大股东如盖茨出售1亿股,是对函数在大范围内作差,线性近似不成立。

类似这种欠考虑的乘法,生活中也常见欠考虑的除法。

中国的学者品热衷于讨论影响因子。影响因子就是一个简单的除法得到的数字,一个平均值。

一堆数字的平均值一定有意义吗?有多大的意义?

如果是一个很窄的分布,平均值确实是个好东西,平均值就能很好的刻画这个分布。但是如果是一个很宽的分布,平均值就不一定有意义。数学上,如lorentz分布f= 1/(1+x^2)的平均值甚至都不存在。

一个期刊上的文章的被引次数很可能是个类似lorentz分布这样的长尾分布,大部分引用来自个别高引文章。

很多年前,中国高铁没起来前,鄙人曾见人讨论中国铁路发展之不足。当时他用的理由是,中国人均铁路长度还没有一支香烟长。拿中国人口去除中国铁路里程,你是可以得到一个长度,但是这个长度有任何意义吗?铁路是否发达,应该是看居民利用铁路出行是否方便,而方便否应该看最近的铁路站点有多远。至少2000年时,离我家最近的火车站是汉口火车站,离我家4个小时的客车。这当然就不方便。相比之下,同时期德国随便一个小镇都有火车站,老百姓都是坐公交车去火车站的。所以真正应该做的计算是,拿铁路里程去除国土面积,这样会得到一个距离,也就是一般人离铁路线的大致距离,然后用这个距离去跟一般交通工具能够很方便地达到的距离去比。2000年时,中国铁路里程6万公里,平均距离160公里,远超公交车能够达到的距离,而德国同期铁路里程4万公里,平均距离8.5公里。

另外一种常见的产生无意义数字的做法是随意外推。

我们课上重点讲的是内插,外推没介绍。内插与外推有本质不同,内插往往是安全的,而外推往往是危险的。

有一年计算方法补考,一道题是已知张江敏12岁,13岁,15岁时的身高,推测其在14岁,20岁,35岁时的身高。8个学生里,7个都推测张江敏在35岁时身高945cm。只有一个说人的身高在20岁后基本不变,之前的抛物线拟合公式失效。

类似的外推比比皆是,比如通过中国过去20年的gdp增幅推测20年后中国的gdp规模。事实上,国家的发展跟人的生长发育一样,其所处的内外环境是变化的,在不同的阶段会有不同的驱动力和制约因素,过去的趋势不可能持续到太远的将来。

鄙人经常坐公交车跨过闽江。在江中心有非常平坦的小岛,而两岸的河滩也很平坦。这不由得让人试图由小岛和河滩的形状推测河床的形状及河水的深度。为此鄙人还曾咨询过专家,问这种做法是否可取。答案是否定的。水面以上与水面以下的情况差别很大,不能由水面以上的情况外推水面以下的情况。

转载本文请联系原作者获取授权,同时请注明本文来自张江敏科学网博客。

链接地址:https://m.sciencenet.cn/blog-100379-1267589.html?mobile=1

收藏

分享到:

当前推荐数:8
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?