complexityworld分享 http://blog.sciencenet.cn/u/pb00011127

博文

城市交通行为的统计物理分析(Bazzani小组的三篇论文笔记) 精选

已有 30622 次阅读 2013-7-26 21:18 |个人分类:生活点滴|系统分类:科研笔记|关键词:学者| 论文, 统计

最近读了意大利博洛尼亚大学Armando Bazzani小组的三篇论文,分别是2010年在J. Stat. Mech. P05001发表的论文“Statistical Laws in Urban Mobility from Microscopic GPS data in thearea of Florence”,2012年在IJMPC 23, 1250061发表的论文“Towards a statistical physics of human mobility”以及今年5arXiv:1305.1836的论文“Entropic measures of individual mobility patterns”。

 

这个小组分析了意大利车辆的GPS数据(大约覆盖意大利所有车辆中的2%),主要报道了在佛罗伦萨和艾米利亚两个城市的结果。他们一直试图建立从微观动力学到宏观统计规律的统计力学模型,这也是我们希望得到的。我对该小组以前关注不够,客观地讲,他们的整体研究能力和我们相比还有一些差距,但是这次把原来粗浅看过的三篇论文集中起来阅读后,感觉获益匪浅——甚至可以说,我们一些自认为原创性的想法,其萌芽或者相似观点在Bazzani小组的一些研究论文中多少提及,让我们惭愧!

 

Bazzani小组强调了三个标度律:每天车辆行驶的总行程是指数分布的,每天车辆活动的次数(发动机停止超过一定时间就被认为分隔了两次活动)分布也是指数,停车时间的分布满足Benford定律(幂指数为1的幂律)——Benford定律有特别的物理意义,可以参考2001年在Physica A上的著名论文“Explaining the uneven distribution of numbers in nature: The Laws ofBenford and Zipf”。

 

相比而言,一般研究小组更强调单次行程距离的分布。而在Bazzani等人的工作中,他们认为每天行驶的总行程指数分布来自于Boltzerman统计,利用最大熵原理可以推出。这个观点是他们在2012年提出的,闫小勇在2010年就已经提出了类似的观点,并在2011年《电子科技大学学报》的一篇论文中给出了系统阐述。和Bazzani不同的是,我们分析的数据集更多一些,总成本约束下不同形式的成本和位移的关系,并且我们针对的是单次行程,而Bazzani小组针对的是总行程。我阅读Bazzani文章后很惊讶(因为以前小勇的观点没有在英文期刊上发表过),也专门修改了我们的论文,并对Bazzani小组的观点进行了强调。在这个基础上,他们认为单次行程距离的分布可以直接从每天车辆行驶总行程分布和每天车辆活动次数共同导出——从分布中得到总行程和活动数,然后将几次活动均匀分布在总行程中。例如一天总行程100km,一共有4个活动,就在一条长度为100km的直线上均匀随机点3个点,分成4段。这里很强的假设了活动长度之间是没有记忆的,不同车辆之间也没有相互作用!这种简单模型,尽管没有在微观上得到验证,但是宏观统计效果惊人的好——注意,尽管如此,依然不能证明其微观上架设的正确性!!不过,仅就车辆市内行驶而言,我个人比较认可Bazzani小组的思路。

 

Bazzani小组还有很多观点也和我们不谋而合,有一定的参考价值。譬如他们也注意到了在应用Fano不等式算可预测性的时候,如果用柯尔莫洛夫(第二)熵,Lempel-Ziv算法误差很大——去过的地点越少,序列越长,误差越小!不过,对于Lempel-Ziv算法存在的定量化缺陷以及改进,Bazzani小组并没有涉及。Bazzani小组也注意到了人类行为的周期性是可预测性的主要来源,他们指出,以每个五分钟为区段,每次都猜测个体会出现在他历史上出现最多的地方,这样预测的精确性就可以达到80%左右。还有一个有趣的数字值得注意,就是即便只考虑用户转移地点的数据(用户会长期呆在一个地方,从而使得下一地点可预测性很高,但是预测方法可能只是简单的“用户还会出现在上一次出现的地方”),可预测性也高达66%71%

 

总体来说,我觉得Bazzani小组的工作是有深度的。如果说有缺陷,我觉得有以下三点:(1)数据太单一了,很多他们的理解,我们只在车载GPS数据上看到,其他数据都不存在,这一点不利于揭示不同数据集的特征;(2)个体层面微观的假设还是要用个体层面的Null Model来验证,不能看从宏观到宏观的统计规律能不能再现——这个在方法论上存在缺陷;(3)他们的系统恰恰是应用Lempel-Ziv算法不太合适的系统,所以趋势可信,定量的指标价值很小。

 



https://m.sciencenet.cn/blog-3075-711514.html

上一篇:百分点获得1000万美元B轮融资
下一篇:百分点战略全景

21 王子洋 陈儒军 陆泽橼 刘淼 曹聪 褚昭明 罗春元 陈学雷 马剑 王国强 李泽波 长龙 龚凯 黄富强 李宇斌 范深 赵凤光 陈筝 王少华 yunmu rosejump

该博文允许注册用户评论 请点击登录 评论 (11 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-26 11:36

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部