随园厚学分享 http://blog.sciencenet.cn/u/gothere 计算语言学博士 希望在这里留下学术的足迹

博文

大数据时代的分析工具——揭示社会活动规律的网络科学

已有 2046 次阅读 2021-10-22 16:24 |个人分类:Computational Linguistics|系统分类:科研笔记

大数据如海啸一般地进入我们的世界,数据不断的暴增,手机存储不够用,电脑硬盘不够了,网盘满了,服务器满了!无数的人在创作数据、产生数据,数据与我们息息相关。在这个高度信息化、数据化的世界,我们能否借助数据来发现世界更多的规律?用计算机大数据技术研究天文学、生物学等等都取得了许多重要成果。而今天最重要的人类活动被记录了下来!我们能否窥见人类社会背后的指挥棒?能够遇见每个人的未来?什么时候能够成功?什么时候失败?巴拉巴西的这四本书都是力作!!

不是普通的教材,不是科研论文,而是方法论的哲思与数学建模分析的文学写作。文字中充满了探索的激情!

image.png(图片来自京东图书介绍网页)


PS:一向后知后觉的我,才读完网络科学大牛巴拉巴西的中文版。虽然十年前就读了一些复杂网络的书,几年前就听到他的大名,甚至还去过他的实验室,却没有读过他的书和论文。要想知道梨子的味道,还得自己尝尝。十年前,我的导师就让我关注复杂网络,可是我读了一些之后,觉得很有趣,却一直不解该如何用。首先,小世界理论是有意思,但知道小世界又能怎么样呢?如果说幂律分布很重要,齐夫定律也好、长尾分布也好,不已经说明问题了吗?如果说纽节点很重要,可是图论里也有关节点啊?如果说寻找子图、支撑树、最大流等问题,图论里也有。那么,复杂网络到底有什么价值?


image.png


可是越来越多的人都在关心复杂网络,研究复杂网络,这套书的翻译出版也很说明问题。

在一口气读完四本书之后,我找到了一些答案。以下是推荐阅读的顺序:


《链接 linked》,主要提出了复杂网络对于图论的发展,互联网、病毒传播、网络的成长,实际上都不再平均数,甚至是无敌于天下的正态分布所能解释。小众的尖峰在开头、大众长尾的幂律分布更能解释枢纽节点的重要性,网络的动态生长过程,呈现出马太效应,富者更富。在众多的文科和理科领域,复杂网络对于数据分布、数据动态发展的概率分布建模,大大推进了人们的认识。


《成功的公式Formula》,主要讲了如何优中选优。作为评委,优中选差很容易,但优中选优的时候往往倾向于保守。评分的标准也往往在后半段才能稳定,所以对后出场表演者有利。被选中的成功者往往具备一定的运气。但是作者不将就,还是将个人能力作为成功的先决条件。在大量的统计中证明,那些申请但没有被常青藤录取的学生,也大都可以取得不错的工作成就。第三,根据网络成长的马太效应,越早成功则收益越大,而且能够从成功走向更大的成功。不过,作者还是补充了一个前提,想连续成功,必须有保持优秀状态的能力。


《Network science(网络科学)》, Barabasi用通俗的语言,丰富的案例,全面介绍了复杂网络的前世今生,深入浅出地给出了复杂网络的诸多数学特性和计算公式,课后练习充足。是学生入门的不二选择。


《爆发Burst》主要讲社会行为的模式不是泊松分布,而是幂律分布。人们明明有时间,为什么有拖延症?如何才能提高效率?在Deadline到来之前,为何会爆发出惊人的能量?作者提出要列出计划,一件件地按紧急度来完成。不过这本的写作框架过于特殊,和小说进行交叉叙述。可以说是文体学的一种创新。


问题1:为什么很多人找巴拉巴西合作?因为他可以分析大数据,找出其中的脉络。

过去的数据库是矩阵模式,通过关联分析方法,寻找里面的规律。巴拉巴西则直接观察网络结构本身的特性。

2:为什么复杂网络90年代以前不火?因为以前计算机存储能力、运算能力不足,做不了大数据分析。

3:为什么很多论文都是证明某个数据集具备无标度网络特性?这个是不太明白的。具备某种特性本身没有多大意义,而是应写明具备特性后能对实践有什么意义。

4:语言的复杂网络该如何研究?也许是下一篇笔记的主题吧,满满的都是刘海涛教授的成果。





 




https://m.sciencenet.cn/blog-39714-1308747.html

上一篇:什么是Critical Thinking 批判性思维?
下一篇:沉痛悼念俞士汶先生

1 张学文

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-29 19:51

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部