科学网

 找回密码
  注册

tag 标签: 链路预测

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

基于朴素bayes模型区分链路预测中共同邻居的不同作用
热度 7 ZhangQM 2011-11-13 19:56
最近接收了一篇文章,是我与我们实验室的刘震副教授、瑞士弗里堡大学的吕琳媛博士以及周涛教授合作,发表在《欧洲物理快报》上,名为“Link prediction in complex networks: A local naive Bayes model ”。 琳媛为通讯作者,刘震老师为第一作者。 链路预测是网络数据挖掘中最基本的问题,从指导系统生物学实验到在线社交网络朋友推荐等多方面有广泛应用。共同邻居方法假设两个节点对拥有的共同邻居越多它们越倾向于链接,这一方法在很多实证网络中都证明是有效的。我们认为不同的共同邻居对于节点对产生链接的贡献应该是不同的,比如人们都会有一些共同朋友,但不同朋友的纽带能力不尽相同,因此,虽然有些人拥有相同数目的共同朋友,但他们之间被介绍成为朋友的可能性也差异甚大;而传统共同邻居方法的缺陷就在于没有对不同共同邻居的作用加以区分。 基于此,我们提出了一种基于共同邻居的朴素 Bayes 模型,这个模型定义了一个角色函数可以较准确地揭示不同共同邻居的作用。在对美国航空网络的实证分析中,通过对比共同邻居算法的预测结果,一些拥有很多共同机场但却没有直接航线的城市就被挖掘出来了。这些航空港的共同机场大多是 Hub 节点,而 Hub 节点在联系美国东西海岸航空线路中起到了的关键作用,但由于距离因素,两岸的节点并不会产生直接航线。此 Bayes 模型利用了 Hub 节点的这一特性捕捉到了影响航空网建立的距离因素。这项结果对于“利用链路预测方法帮助理解网络演化的驱动机制”提供了一个有力的支持。 文章全文链接到 http://blog.sciencenet.cn/home.php?mod=spaceuid=329471do=blogid=507628 即可下载
4523 次阅读|17 个评论
[转载]共同益友 vs. 共同损友 - 链路预测中的贝叶斯推断 [EPL 2011]
热度 4 babyann519 2011-11-13 19:28
刚刚与成都电子科技大学的两位老师和一位博士生合作 发表论文“复杂网路中的链路预测:一种局部朴素 Bayes 模型”。 刘震副教授为第一作者,张千明博士为第二作者,周涛教授为第四作者 。 链路预测是网络数据挖掘中最基本的问题,从指导系统生物学实验到在线社交网络朋友推荐等多方面有广泛应用。共同邻居方法假设两个节点对拥有的共同邻居越多它们越倾向于链接,这一方法在很多实证网络中都证明是有效的。文章认为不同的共同邻居对于节点对产生链接的贡献应该是不同的,比如两个人的共同朋友可能很多,但这些朋友可能是益友或者是损友,它们各自对于促进这二人成为朋友的作用(影响力)应该是不同的;而传统共同邻居方法的缺陷在于没有对不同共同邻居的作用进行区分。 基于此,我们提出了一种局部朴素 Bayes 模型,这个模型定义了一个角色函数可以较准确地揭示不同共同邻居的作用。在对美国航空网络的实证分析中发现,有些机场之间虽然共同邻居很多,但由于这些共同邻居大多数都是 Hub 节点,根据角色函数计算可以得出这些共同邻居机场倾向于抑制机场之间形成链接,因此这些机场之间不会形成直航航线而是建立与 Hub 机场链接的中转航线,这恰恰符合这些机场的实际航线建立情况。因此相对于共同邻居方法,局部朴素 Bayes 模型的确可以更好地刻画美国航空网络的网络特征。 我们提出的思路和方法在如食物链网络等其他网络中也得到了证实。 尤其在食物链网络中效果非常明显,AUC最高可提高14.5%,而top-100的Precision最高可以提高31.5%! 论文信息: Zhen Liu, Qian-Ming Zhang, Linyuan Lü and Tao Zhou,Link prediction in complex networks: A local nave Bayes model , EPL 96 (2011) 48007. 全文可通过链接 http://iopscience.iop.org/0295-5075/96/4/48007 获取 PDF下载: Link prediction in complex networks A local naive Bayes model.pdf
个人分类: 科研工作|3789 次阅读|12 个评论
[转载]zz链路预测
热度 1 joylin 2011-10-29 00:46
zz地址: http://hi.baidu.com/wang550549731/blog/item/33bd13da158ca5ca572c84a7.html 通过网络可以很好的描述许多复杂的系统,其中网络的节点代表个体或代理,网络中的链接表示节点之间的关系或交互作用 。近来,复杂网络中的链路预测日益受到计算机科学家 和物理学家的关注 。链路预测旨在依赖已有的链接和节点的属性来估计两个节点之间链路存在的可能性。例如,传统的信息检索可以看作是对文字和文档之间链接的预测 ,而为用户推荐项目的过程可以被视为一种在用户—项目对分网络中的链路预测问题 。链路预测问题可分为两种:一种是对未知链接存在性的预测,如食物链,蛋白质之间相互作用的网络和新陈代谢网络;另一种是对可变化的网络中将来可能出现的链接的预测,如在线社交网络。对于前一种来说,依靠已知的链接来进行预测,将注意力集中在最有可能存在的链接,而不是盲目的对所有可能链接进行检测,这样会减少实验花费。对于后一种来说,链路预测可以基于当前的网络结构预测哪些现在尚未结交的用户“应该是朋友”,并将此结论作为“朋友推荐”发送给用户。如果预测足够准确,显然有助于提高相关网站在用户心目中的地位,从而提高用户对该网站的喜爱程度。
个人分类: 科研笔记|2569 次阅读|2 个评论
利用链路预测推断网络演化机制
babyann519 2011-6-13 14:37
以往研究网络演化机制的常用方法是直接建立演化模型推测影响网络演化的因素。这类主流建模方法的基本思路是 , 对基于某些因素构建出的网络分析其统计特征 , 如果具有和真实网络接近的统计性质 , 那么就认为这些因素对网络的结构影响显著 , 也即这些因素是网络演化的重要机制 。 但是 , 由于刻画网络特征的统计量众多, 分别由不同因素驱动的演化模型很难全面符合所有统计量的特征 , 有些满足其中一部分,有些满足另外一部分,因此很难客观的定量化的比较哪些模型更能刻画网络特征,哪些才是影响网络演化的主导因素 , 以及这些主导因素在网络演化过程中分别起到了多大的作用等。 链路预测其本质是挖掘网络产生连边的原因和驱动力。实际上 , 一个演化模型原则上都可以对应于一种链路预测的算法。因此 , 借助链路预测的理论框架和评价方法可以定量化地对不同演化模型所对应的链路预测算法进行评价 , 从而间接地对演化模型的表现进行定量比较。该文首先介绍基于节点接近性的链路预测方法 , 然后讨论利用链路预测推测网络演化机制的基本框架。最后以中国城市航空网络为例验证此方法的有效性。研究结果发现,在影响航空网络的四个外在因素,人口,距离, GDP 和第三产业产值中,以第三产业为驱动的模型能够产生最佳效果。这些结论与偏相关分析和因果分析的结论一致。实际上 , 在所有的外部因素中 , 只有以第三产业为驱动因素的模型可以再现航空网独特的双段幂律分布 . 可以看到,链路预测方法具有的优势使其有望为分析网络演化机制提供一个简单统一且较为公平的比较平台 , 量化比较各种不同机制对于真实生长行为的预测能力,从而推动复杂网络演化模型的理论研究。在这个方向上,希望本文能够起到抛砖引玉的作用,期待今后更多的研究成果。 论文信息: 刘宏鲲,吕琳媛,周涛,利用链路预测推断网络演化机制,中国科学 : 物理学力学 天文学 , 2011, 41: 816–823 Liu H K, L ü L Y, Zhou T. Uncovering the network evolution mechanism by link prediction (in Chinese). Sci Sin Phys Mech Astron, 2011, 41: 816–823, doi: 10.1360/132010-922 全文链接: http://phys.scichina.com:8083/sciG/CN/article/showZhaiYao.do?id=503681 相关链接: http://blog.sciencenet.cn/home.php?mod=spaceuid=3075do=blogid=454604
5478 次阅读|0 个评论
第一届全国大学生数据挖掘邀请赛开放注册——推荐系统相关
热度 9 babyann519 2011-3-19 11:21
中国的第一届“Kaggle”大赛~~ 本届竞赛的主题为交友网站的会员推荐算法研究,面向国内所有高校和研究所的在校学生(本科、硕士、博士)。 组织单位:中国科技大学与人民大学统计学院筹备本届竞赛。 开放注册,网址为 http://www.statmodelingcompetition.com/ ——————————————   Amazon 的数百万图书, Netflix 的10万部电影,淘宝的8亿件在线商品,以及数以亿万计用户的资料和行为记录……互联网公司最近十年的迅猛发展伴随着海量数据的积累。然而,在线用户常常面对过多的选择而显得无所适从。心理学研究证实这类情境下的用户有时做出放弃交易的决定,从而造成大量潜在的用户流失。统计技术的发展能够为在线服务商提供更有效的推荐算法,在帮助用户走出 信息过载 困境、改善用户体验的同时,还能够挖掘商品 长尾 、提升企业价值。在今天,用户不再局限于通过搜索引擎来寻找感兴趣的信息,推荐系统无所不在地为我们发现自己的潜在需求。   推荐在社交网络中的应用同样受到业界重视。本届统计建模竞赛由上海花千树信息科技有限公司赞助,由 中国科学技术大学管理学院 、 中国人民大学统计学院 、 统计之都 (COS)网站联合举办。目标是为某个以婚恋为目的的大型交友网站提供会员推荐的智能算法,改善会员推荐的精度,增加网站黏度。 ◎ 奖项设置 本科生组: 非本科生组: 一等奖一名,10000元/队 一等奖一名,10000元/队 二等奖一名,5000元/队 二等奖一名,5000元/队 三等奖三名,2000元/队 三等奖三名,2000元/队 入围奖三名,500元/队 入围奖三名,500元/队   为保证公平,本科生组和非本科生组将分别进行评审和排名。成员中包含至少一位非本科生的队伍将划分在非本科生组中进行评比。非本科生组的模型需至少达到本科生组入围奖模型的效果时,才能获奖。为确保算法的真实有效性,未最终提交论文和源代码的队伍,不能获得该项奖励。答辩名单确定后,外地答辩队伍的差旅费用由竞赛委员会承担(每队限一人)。答辩地点另行通知。
7191 次阅读|14 个评论
如何计算和判断网络中的缺失结点?(链路预测补运算)
热度 6 yizhenzhong 2011-1-28 23:20
链路预测在知道全部结点或者部分连接信息的条件下可以对网路中缺失的连接作出预测或者说判别。但我现在遇到了一个有着实际应用背景的预测或者说是计算问题,但不是预测网路中的缺失连接,而是找出网络中缺失的结点。我翻看了一些文献,都没有找到很好的方法,希望复杂网络论坛的大牛们给我指点一二。 背景描述:我目前在做的是人才网络的研究。其中一个课题需要对海外科技人才的引进岗位进行测算,我的基本路径是把海外科技人才引进中的岗位测算转化为一个知识超网络(以研究者和研究者的知识元为结点)中薄弱和缺失知识结点的计算和判别问题。薄弱结点的判别我使用的大连理工于洋的办法:计算专有知识、共有知识等。(这个方法不大好用,遭到很多质疑,但已是目前能找到的最好的办法了,你有别的好方法的话,能告诉我一声吗?O(∩_∩)O)。最关键也是最困难的是缺失知识结点的计算和判别,这里的缺失结点更准确的说法应该是组织当中(如人才引进单位)缺失但组织需要的知识结点,不是简单的网络对比可以获得答案的。如果知道了一个知识超网络中薄弱和缺失的知识结点,就可以把这些数据作为海外科技人才引进岗位设置的知识要素依据。很早以前的打算是用链路预测具有的缺失链接预测能力去找答案的,但现在看来,链路预测只能去找出网络中缺失的链接,不能找出缺失的结点。如果用链路预测能找出网络中缺失但本来应该具有的结点是不是现在链路预测的的补运算呢?\(^o^)/~。。。 问题一:有能直接在超网络中计算和判别缺失结点的方法吗? 问题二:超网络不行的话,简单网络呢? 问题三:我的研究对象都是比较大型的实际网络,真有这种办法的话,大型网络中的结点计算冗余度如何降低?计算精度如何保证? 后记:把请教和一些思考写在下面。 1、小可给了我一个文献,提供了一个基于网络角色(role-role)的研究思路,但我还没太想明白怎么用。 2、海生说,可以尝试性的用渗流来做,理由是既然渗流可以判断网络去掉结点后的情况,也许可以用来判断缺失结点。但渗流实在太物理了,就算是可以,我也会无力去完成。 3、难道只有网络中的缺失链接对复杂网络研究有意义,而缺失结点的判别就没有研究价值? 4、科学图谱倒是提供了知识计量包括引文及专利计量的很多工具,但是现在还没看出可以用作缺失结点计算的路径和方法。今天查看了很多这方面的资料,慢慢找吧! 5、感谢小可、海生、周涛三位老师提供的思路和点评! 6、看了一天的科学地图文献,发现利用科学地图可以找出某一研究领域内的薄弱和空白,虽然不能像知识超网络那样计算获得具体的知识结点,但如果可以做到比较清晰的找出某一研究领域内的薄弱或空白领域,也可以基本上满足我的研究需要。只不过计算的结果没有原来预想的超网络条件下那么详细了。目前看来,只能先用科学地图的办法了。 7、感谢王晓光和刘盛博二位老师,提供了基于结构洞测算的缺失链接和结点的计算思路。如果把结构洞的测算看做是对网络未来增长方式的测算(包括链接和节点两个方面),那结构洞的测算对缺失结点的判别就非常有用了。 8、王晓光老师在回复中提到了薄弱和缺失结点判别的标准问题,这是个原来我忽略的问题。粗略想来,是不是可以拿美国的相同领域的知识网络作参照对象和比较的标准,毕竟美国现在是我国科技追赶的主要目标。还要仔细可虑一下这个问题。 9、从不同老师对这个问题的解答,可以看出同样是在做复杂网络方面的研究或者是以复杂网络为工具做研究,来自物理和社会网络两个方向的知识和工具还是有很大的区别。看到刘泽渊老师《科学知识图谱》一书(第20页)中有一个表达这种差别的网络图。作为应用研究者,还是要注意来自这两个不同方面的知识营养,兼容并包才行。 最后,要过年了,预祝所有复杂网络圈子里的成员新年快乐!万事如意! 祝大家新年里文章一投一个中,想申报啥基金都能成!!! 祝福方老师,这一年您为复杂网络圈子的发展辛苦了。过年了,祝您春节快乐!越活跃年轻!
个人分类: 研究微博|2749 次阅读|11 个评论
链路预测:三阶路径VS二阶路径
热度 2 ZhangQM 2010-11-29 22:35
这个想法已经出现了好久,可是一直没有进展,前一段时间涛哥终于说要找我说一说这个事情,最后却只有鸡肋的下场写篇博文吧!涛哥如是说。 话说,有一天我看了 2004 年的一篇文章《 The Link Prediction Problem for Social Networks 》,文中提出:小世界效应说明很多长度为 2 的节点对之间没有发生合作关系,作者发现有许多路径长度大于 2 的节点对之间发生了合作关系。统计如下表: astro-ph cond-mat gr-qc hep-ph hep-th Pairs at distance two 33862 5145 935 37687 7545 New collaborations at distance two 1533 190 68 945 335 New collaborations 5751 1150 400 3294 1576 对此,我想到了 Katz 和 Local Path(LP) 这两个方法。但由于对 Katz 进行修改比较复杂,只试验了 LP 算法。本来, LP 算法定义为 S=A 2 + A 3 , 取 0.001 ,而在此基于上表,将其改成了 S= A 2 + A 3 , 取 0.001 (记为 invLP ),然后在 US_air 、 Political Blogs ( PB )、 Net Science ( NS )、 C.elegans 中进行了计算,发现 LP1 在 PB 网络中提高非常明显,而在 NS 网络中降低的却非常多(原因在于它的特殊网络结构)。 惊讶之余,涛哥令我统计网络中每条边所在最小环的阶数,如下图所示。(为了能看的清楚,故用红色,刺到您的眼睛还请见谅。横坐标标记为 2 表示:若某条边所在最小环的阶数大于 8 或者不存在于任何一个环中,则这条边所在的最小环的阶数被标记为 2 ) 当出现如 Grid 和 INT 这两种网络所示的情况时,基于共同邻居的方法就会失效。其实这是由于这两个网络中鲜有三角形存在,所以基于共同邻居的方法才会失效。我感觉这有点脱离了 invLP 的意义。于是我统计了网络中每条边的两个端点之间二阶路径及三阶路径的数目,发现在上面六个数据中, C.elegans 、 PB 和 USair 三个网络中, 三阶路径的数目都远远多于二阶路径的数目 ,尤其在 PB 网络中,三阶路径数目是二阶路径数目的数百倍甚至会上千倍,如此一来,三阶路径在 LP 中起到的作用就很大了。可是,直到目前,不曾想通这个工作能否进行下去多找一些网络做下试验? 哎,鸡肋啊鸡肋,食之无味,弃之可惜 姑且先放在这里吧
个人分类: 未分类|5776 次阅读|7 个评论
链路预测的工作新思路
halcon 2010-11-3 01:47
今天中午Imperial College London商学院的一个博士生Tore Opsahl给我们做一个报告。他并非研究链路预测的,但是却启发了我的研究思路。他关注的是在线社会网络的交流模式,因此报告的题目是Communication in a Facebook-like Community,这篇论文刚刚挂在arXiv上,下载地址是:arxiv:1010.2141. 他的研究思路这样的,利用Facebook中的用户配置文件(留下了很多用户的信息,例如年龄,性别,学校等等信息)考察社会网络中的通讯到底和什么因素相关。用的方法很简单:Logistic回归。抽取数百万条用户的朋友数据,如果一个人加另外一个人为好友,则可以根据这个信息建立一条有向边。根据边的存在与否,利用Logistic做二元回归,即观察有朋友关系和没有朋友关系与哪些因素相关。利用独立变量回归发现,我们倾向与我们同龄,异性,有一些共同朋友的人通讯。进一步用多元回归发现其实我们是愿意与我们具有相同学历,Reinforcement和Reciprocity(sorry这两个因素我没太理解)的人交流。 其实方法和结论都蛮有意思的。也是我喜欢的研究方法将网络中的故事读出来,而并非把所有的故事都抽象成枯燥的点和边。该工作其实严格地讲属于链路预测的范畴,但是讲出的故事,得到的信息比单纯的链路存在与否要丰满许多。不仅知道了交流的存在与否,而且符合哪些特征的人更倾向于交流。但是该工作也有很大的缺陷。第一,Logistic回归的时候输入变量之间的相关性没有检验。也就是说很多因素,例如学历,年龄,学校之间的相关性忽略了。另外,我觉得更为有意思的新加入系统的节点倾向与谁交流没有回答。新加入节点的行为模式对于提高网站的知名度非常重要,没有做这个分析有点可惜了。另外时间序列因素没有考虑到也有些不解。
个人分类: 未分类|4230 次阅读|1 个评论
《复杂性科学专栏》--- 复杂网络链路预测中文综述
热度 2 babyann519 2010-10-19 04:58
摘要: 网络中的链路预测是指如何通过已知的网络结构等信息预测网络中尚未产生连边的两个节点之间产生连接的可能性。预测那些已经存在但尚未被发现的连接实际上是一种数据挖掘的过程,而对于未来可能产生的连边的预测则与网络的演化相关。传统的方法是基于马尔科夫链或者机器学习的,往往考虑节点的属性特征。该类方法虽然能够得到较高的预测精度,但是由于计算的复杂度以及非普适性的参数使其应用范围受到限制。另一类方法是基于网络结构的最大似然估计,该类方法也有计算复杂度高的问题。相比上述两种方法,基于网络结构相似性的方法更加简单。通过在多个实际网络中的实验发现,基于相似性的方法能够得到很好的预测效果,并且网络的拓扑结构性质能够帮助选择合适的相似性指标。该文综述并比较了若干有代表性的链路预测方法,展望了若干重要的开放性问题。 复杂网络链路预测
个人分类: 未分类|5984 次阅读|7 个评论
复杂网络观察:链路预测的研究现状及展望
热度 4 babyann519 2010-4-30 23:47
复杂网络链路预测的研究现状及展望 吕琳媛 前言: 做链路预测这个方向有一年多的时间了,有一些收获和体会。一直想写一个综述进行总结,总是希望这个综述尽可能的包括更多更全面的信息,但是新的思想和结果源源不断的涌现,所谓的综述也就无限期的搁置了下来。前不久刚刚和伟平合作发表了一篇关于利用网络局部随机游走进行链路预测的文章,借此文发表之动力,总结一下链路预测这个方向的研究进展以及展望。希望该文能对那些正奋战在这个方向上和希望在此领域有所建树的科研工作者有所帮助和启迪。 (本文中所提到的具体的技术方法以及实验结果将在另一篇中文综述中详细介绍。) 1 .链路预测及其研究意义 网络中的链路预测(Link Prediction)是指如何通过已知的网络节点以及网络结构等信息预测网络中尚未产生连边的两个节点之间产生链接的可能性 。这种预测既包含了对未知链接(exist yet unknown links)的预测也包含了对未来链接(future links)的预测。该问题的研究在理论和应用两个方面都具有重要的意义和价值。 近年来,随着网络科学的快速发展,其理论上的成果为链路预测搭建了一个研究的平台,使得链路预测的研究与网络的结构与演化紧密联系起来。因此,对于预测的结果更能够从理论的角度进行解释。这也是我们相比计算机专业的人研究链路预测的优势所在。与此同时,链路预测的研究也可以从理论上帮助我们认识复杂网络演化的机制。针对同一个或者同一类网络,很多模型都提供了可能的网络演化机制 。由于刻画网络结构特征的统计量非常多,很难比较不同的机制孰优孰劣。链路预测机制有望为演化网络提供一个简单统一且较为公平的比较平台,从而大大推动复杂网络演化模型的理论研究。另外,如何刻画网络中节点的相似性也是一个重大的理论问题 ,这个问题和网络聚类等应用息息相关 。类似地,相似性的度量指标数不胜数,只有能够快速准确地评估某种相似性定义是否能够很好刻画一个给定网络节点间的关系,才能进一步研究网络特征对相似性指标选择的影响。在这个方面,链路预测可以起到核心技术的作用。链路预测问题本身也带来了有趣且有重要价值的理论问题,也就是通过构造网络系综并藉此利用最大似然估计的方法进行链路预测的可能性和可行性研究。这方面的研究对于链路预测本身以及复杂网络研究的理论基础的建立和完善,可以起到推动和借鉴的作用。 链路预测研究不仅具有如上所述的理论价值,其更重要的意义还是体现在应用方面。很多生物网络,例如蛋白质相互作用网络和新陈代谢网络,节点之间是否存在链接,或者说是否存在相互作用关系,是需要通过大量实验结果进行推断的。我们已知的实验结果仅仅揭示了巨大网络的冰山一角。仅以蛋白质相互作用网络为例,酵母菌蛋白质之间80%的相互作用不为我们所知 ,而对于人类自身,我们知道的仅有可怜的0.3% 。由于揭示这类网络中隐而未现的链接需要耗费高额的实验成本。那么如果能够事先在已知网络结构的基础上设计出足够精确的链路预测算法,再利用预测的结果指导试验,就有可能提高实验的成功率从而降低试验成本并加快揭开这类网络真实面目的步伐!实际上,社会网络分析中也会遇到数据不全的问题,这时候链路预测同样可以作为准确分析社会网络结构的有力的辅助工具 。除了帮助分析数据缺失的网络,链路预测算法还可以用于分析演化网络,即对未来的预测。举例来说,近几年在线社交网络发展非常迅速 ,链路预测可以基于当前的网络结构去预测哪些现在尚未结交的用户应该是朋友,并将此结果作为朋友推荐发送给用户:如果预测足够准确,显然有助于提高相关网站在用户心目中的地位,从而提高用户对该网站的忠诚度。另外,链路预测的思想和方法,还可以用于在已知部分节点类型的网络(partially labeled networks)中预测未标签节点的类型这可以用于判断一篇学术论文的类型 或者判断一个手机用户是否产生了切换运营商(例如从移动到联通)的念头 。最近在一篇关于链路预测的工作中提到了不仅可以预测所谓的缺失链接还可以预测网络中的错误链接 ,这对于网络重组和结构功能优化有重要的应用价值。例如在很多构建生物网络的实验中存在暧昧不清甚至自相矛盾的数据 ,我们就有可能应用链路预测的方法对其进行纠正。 2 .研究现状 链路预测作为数据挖掘领域的研究方向之一在计算机领域已有一些早期的研究。他们的研究思路和方法主要基于马尔科夫链和机器学习。Sarukkai 应用马尔科夫链进行网络的链路预测和路径分析。之后Zhu等人 将基于马尔科夫链的预测方法扩展到了自适应性网站(adaptive web sites)的预测中。此外,Popescul和Ungar 提出一个回归模型在文献引用网络中预测科学文献的引用关系。他们的方法不仅用到了引文网络的信息还有作者信息,期刊信息以及文章内容等外部信息。应用节点属性的预测方法还有很多,例如OMadadhain等人 利用网络的拓扑结构信息以及节点的属性建立了一个局部的条件概率模型来进行预测。Lin 基于节点的属性定义了节点间的相似性,可以直接用来进行链路预测。虽然应用节点属性等外部信息的确可以得到很好的预测效果,但是很多情况下这些信息的获得是非常困难的,甚至是不可能的。比如很多在线系统的用户信息都是保密的。另外即使获得了节点的属性信息也很难保证信息的可靠性,即这些属性是否反映了节点的真实情况,例如在线社交网络中很多用户的注册信息都是虚假的。更进一步,在能够得到节点属性的精确信息的情况下,如何鉴别出哪些信息对网络的链路预测是有用的,哪些信息是没用的仍然是个问题。因此与节点属性信息相比较,已观察到的网络结构或者用户的历史信息更容易获得也是更可靠的。 近几年,基于节点相似性的链路预测方法受到了广泛的关注。此方法的一个重要前提假设就是两个节点之间相似性(或者相近性)越大,它们之间存在链接的可能性就越大。因此如何定义节点的相似性就成为该方法的一个核心问题。尽管这个框架非常简单,但是相似性定义本身内涵丰富,它既可以是非常简单的共同邻居的个数,也可以是包含了复杂数学物理内容的诸如随机游走的平均通讯时间 或者是基于图论的矩阵森林方法 。因此这个简单的框架事实上提供了无穷无尽的可能性。Liben-Nowell和Kleinberg 提出了基于网络拓扑结构的相似性定义方法,并将这些指标分为基于节点和基于路径的两类,并分析了若干指标对社会合作网络中链路预测的效果。他们发现,在仅考虑节点邻居信息的若干指标中,Adamic-Adar参数 表现最好。周涛、吕琳媛和张翼成 在6种不同网络中比较了9种已知的基于局部信息的相似性指标在链路预测中的效果,并提出了两种新指标:资源分配指标(resource allocation index)和局部路径指标(local path index)。研究发现,新提出来的这两种指标具有明显好于包括Adamic-Adar参数在内的9中已知指标的预测能力。最近其他小组的研究结果显示,新提出来的相似性指标在进行群落划分 和含权网络权重设置 的时候也比原有指标好。吕琳媛、金慈航和周涛 进一步在噪音强度以及网络密度可控的网络模型中细致分析了局部路径指标的性能,发现这个指标在网络的平均最短路径较小的时候具有与依赖于网络全局结构信息的指标,例如Katz参数 ,可匹敌的预测能力,甚至在噪声较大的情况下可以比Katz参数预测的更加准确。另外,由于局部路径指标仅仅考虑了网络的局部信息,其计算量远远小于基于全局信息的指标,特别是在网络规模较大且稀疏的情况下,局部路径指标在计算复杂度上的优势更加明显,因此其应用前景相当可观。最近,刘伟平和吕琳媛 提出了两种基于网络局部随机游走的相似性指标,通过与其他五种相似性指标的比较,发现有限步的随机游走可以给出比全局收敛后的预测精度更好的结果,而最优的游走步数受到网络平均距离的强烈影响。此外,在五种网络上的比较结果显示该方法比08年Nature 上提出的基于网络层次结构的预测方法准确度更高。另外,Huang等人的实验结果显示 ,在得到节点间的直接相似性后,利用协同过滤技术对相似性指标进行一轮加权处理,一般而言可以得到更好的结果。这一方法已广泛应用于推荐算法的设计上,并得到了成功。实际上,个性化推荐可以看作是链路预测的一个子问题。 链路预测另一类方法是基于最大似然估计的。Clauset, Moore和Newman 认为很多网络的连接可以看作某种内在的层次结构的反映,基于此,他们提出了一种最大似然估计的算法进行链路预测,这种方法在处理具有明显层次组织的网络,如恐怖袭击网络和草原食物链,具有较好的精确度。但是,由于每次预测要生成很多个样本网络,因此其计算复杂度非常高,只能处理规模不太大的网络。Guimera和Sales-Pardo 假设我们观察到的网络是一个随机分块模型(Stochastic Block Model) 的一次实现,在该模型中节点被分为若干集合,两个节点间连接的概率只和相应的集合有关。他们所提出的基于随机分块模型的链路预测方法,可以得到比Clauset, Moore和Newman更好的结果。以此同时,该方法不仅可以预测缺失边,还可以预测网络的错误链接,例如纠正蛋白质相互作用网络中的错误链接。 另外一个需要特别注意的趋势,是随着一些原来从事复杂网络研究的学者对链路预测问题的关注,很多复杂网络,特别是社会网络分析中遇到的理论与方法被应用到链路预测中。例如吕琳媛和周涛 发现在针对某些含权网络进行链路预测的时候,权重很小的边反而起到了比高权重边更大的作用,这与社会网络研究中广为人知的弱连接理论 有深刻的关联。Leskovec, Huttenlocher和Kleinberg 则注意到了近期社交平衡理论的定量化研究成果 ,并在此启发下设计了可以预测网络中的正负(友敌)链接的算法。 链路预测最近两年受到了比较多的关注,很可能得益于Clauset, Moore和Newman在08年发表的《自然》论文 ,以及Redner在《自然》上的评论文章 。弗里堡小组较早地认识到链路预测问题的重要价值,并开展了一系列的工作。同时,通过大力的宣传国内对这个方向已经开始有一些关注。 湘潭大学胡柯小组 利用链路预测方法预测人类蛋白质相互作用网络中的致病基因,也得到了不错的精度。最近胡柯小组及青岛理工大学许小可与弗里堡小组就有向网络的链路预测问题和社会平衡理论应用于链路预测的问题展开了紧密合作。 3 .前沿趋势分析及展望 我们注意到一方面受阻于网络节点外在属性在获取上的难度,另一方面受益于复杂网络研究的快速发展,链路预测问题的主要研究热点逐渐从依赖于节点属性的方法转移到只利用网络结构信息的方法上 。显然,后者在理论上也更优美简洁。不过,这个方面的研究主要集中在社会网络上,对于大量算法在各种不同网络中的预测能力的系统分析的总结尚欠。另外,目前还没有算法性能和网络结构特征之间关系的较深入的研究。对于比较复杂的网络,例如含权网络、有向网络和多部分网络的讨论虽然有 ,但非常少,也不系统。相关的研究应该是近几年该方向的主流。 网络系综理论以及与之关联的网络熵的概念以及最大似然估计方法有望推动形成复杂网络的统计力学理论基础 。这方面研究存在的一个问题是熵的精确计算复杂性非常大 ,对于大规模网络而言往往不能实现。最近的一些链路预测算法 已经应用了网络系综和最大似然的概念,但是这些算法计算复杂性很大,精确性也不是很高 ,例如文献 的方法目前只能处理数千节点的网络,且其预测效果对于不具有明确层次结构的网络并不好 。我们认为以下两个问题应该是目前国际上相关研究小组比较关注的:一是如何以网络系综理论为基础,建立网络链路预测的理论框架,并产生对实际预测有指导作用的理论结论,例如通过对网络结构的统计分析估算可预测的极限,指导选择不同的预测方法等等;二是如何设计高效的算法来处理大规模网络的链路预测问题。 最近十年,复杂网络研究在很多科学分支,包括物理、生物、计算机等等掀起高潮 ,其中相当一部分研究立足于揭示网络演化的内在驱动因素。仅以无标度网络(scale-free networks)为例 ,已经报道的可以产生幂律度分布的机制就包括了富者愈富(rich-get-richer)机制 ,好者变富(good-get-richer)机制 ,优化设计(optimal design)驱动 ,哈密顿动力学(Hamiltonian dynamics)驱动 ,聚生(merging and regeneration)机制 ,稳定性限制(stability constraints)驱动 ,等等。可是,由于刻画网络结构特征的统计指标非常多,很难比较和判定什么样的机制能够更好再现真实网络的生长特性。利用链路预测有望建立简单的比较平台,能够在知道目标网络演化情况的基础上量化比较各种不同机制对于真实生长行为的预测能力,从而可以大大推动复杂网络演化机制的相关研究。Guimera和Sales-Pardo在09年的PNAS中已经提到网络重建(network reconstruction)的问题,表达了相近的思想,但是这方面的研究尚未见详细的报道。 尽管有论文讨论了如何将链路预测的方法和思想与一些应用问题,例如部分标号网络的节点类型预测 与信息推荐问题 ,相联系的可能性与方法,但是,目前尚缺乏对于大规模真实数据在应用层面的深入分析和研究。这方面的研究不仅仅具有实用价值,而且有助于揭示链路预测这个问题本身存在的优势与局限性。 综上所述可概括为以下五个方面: 1) 丰富和提高现有相似性预测的算法,特别是针对有向网络、含权网络、多部分网络、含异质边的网络等较复杂的情形,提出新的相似性指标; 2) 对已知算法的性能进行深入细致的分析,揭示算法性能和网络结构特征之间的关系,希望得到各种算法在不同网络中的可预测性极限; 3) 利用网络系综和最大似然估计的思想和技术,建立基于相似性框架的链路预测的理论基础; 4) 基于链路预测的思想,建立可以针对给定演化轨迹的目标网络后评价不同演化机制的平台; 5) 实现有代表性的链路预测的应用研究,并开展自适应性的快速算法研究以实现在巨大规模的实际系统中的应用。 致谢: 感谢周涛在本文撰写过程中提供的帮助。 参考文献 L. Getoor, C. P. Diehl, Link Mining: A Survey , ACM SIGKDD Explorations Newsletter 7 (2005) 3. R. Albert, A.-L. Barabasi, Statisrical Mechanics of Complex Networks , Rev. Mod. Phys. 74 (2002) 47. S. N. Dorogovtsev, J. F. F.Mendes, Evolution of networks , Adv. Phys. 51 (2002) 1079. E. A. Leicht, P. Holme, M. E. J. Newman, Vertex similarity in networks , Phys. Rev. E 73 (2006) 026120. Y. Pan, D.-H. Li, J.-G. Liu, J.-Z. Liang, Detecting community structure in complex networks via node similarity , Physica A (to be published). H. Yu, et al. , High-quality binary protein interaction map of the yeast interactome network , Science 322 (2008) 104. M. P. H. Stumpf, T. Thorne, E. de Silva, R. Stewart, H. J. An, M. Lappe, C. Wiuf, Estimating the size of the human interactome , Proc. Natl. Sci. Acad. U.S.A. 105 (2008) 6959. L. A. N. Amaral, A truer measure of our ignorance , Proc. Natl. Sci. Acad. U.S.A. 105 (2008) 6795. L. Schafer, J. W. Graham, Missing data: Our view of the state of the art , Psychol. Methods 7 (2002) 147. G. Kossinets, Effects of missing data in social networks , Social Networks 28 (2006) 247. R. Kumar, J. Novak, A. Tomkins, Structure and evolution of online social networks , Proc. ACM SIGKDD 2006, ACM Press, New York, 2006, p. 611. B. Gallagher, H. Tong, T. Eliassi-Rad, C. Falousos, Using ghost edges for classification in sparselylabelednetworks , Proc. ACM SIGKDD 2008, ACM Press, New York, 2008, p. 256. K. Dasgupta, R. Singh, B. Viswanathan, D. Chakraborty, S. Mukherjea, A. A. Nanavati, A. Joshi, Social Ties and their Relevance to Churn in Mobile Telecom Networks , Proc. EDBT08, ACM Press, New York, 2008, p. 668. R. Guimera, M. Sales-Pardo, Missing and spurious interactions and the reconstruction of complex networks , Proc. Natl. Sci. Acad. U.S.A. 106 (2009) 22073. C. von Mering, R. Krause, B. Snel, M. Cornell, S. G. Oliver, S. Field, P. Bork, Comparative assessment of large-scale data sets of protein-protein interactions , Nature 417 (2002) 399. R. R. Sarukkai, Link prediction and path analysis using markov chains , Computer Networks 33 (2000) 377. J. Zhu, J. Hong, J. G. Hughes, Using markov chains for link prediction in adaptive web sites , Lect. Notes Comput. Sci. 2311 (2002) 22. A. Popescul, L. Ungar, Statistical relational learning for link prediction , Proc. Workshop on Learning Statistical Models from Relational Data, ACM Press, New York, 2003, p. 81. J. OMadadhain, J. Hutchins, P. Smyth, Prediction and ranking algorithms for even-based network data , Proc. ACM SIGKDD 2005, ACM Press, New York, 2005. D. Lin, An information-theoretic definition of similarity , Proc. 15 th Intl. Conf. Machine Learning, Morgan Kaufman Publishers, San Francisco, 1998. F. Fouss, A. Pirotte, J.-M. Renders, M. Saerens, Random-walk computation of similarities between nodes of a graph with application to collaborative recommendation , IEEE Trans. Knowl. Data. Eng. 19 (2007) 355. P. Chebotarev, E. Shamis, The matrix-forest theorem and measuring relations in small social groups , Automat. Remote Contr. 58 (1997) 1505. D. Liben-Nowell, J. Kleinberg, The Link-Prediction Problem for Social Networks , J. Am. Soc. Inform. Sci. Technol. 58 (2007) 1019. L. A. Adamic, E. Adar, Friends and neighbors on the web , Social Networks 25 (2003) 211. T. Zhou, L. L , Y.-C. Zhang, Predicting missing links via local information , Eur. Phys. J. B 71 (2009) 623. Y.-L. Wang, T. Zhou, J.-J. Shi, J. Wang, D.-R. He, Emipirical analysis of dependence between stations in Chinese railway network , Physica A 388 (2009) 2949. L. L , C.-H. Jin, T. Zhou, Similarity index based on local paths for link prediction of complex networks , Phys. Rev.E 80 (2009) 046122. L. Katz, A new status index derived from sociometric analysis , Psychometrika 18 (1953) 39. W.-P. Liu, L. L , Link Prediction Based on Local Random Walk , Europhys. Lett.89 (2010) 58007. Z. Huang, X. Li, H. Chen, Link prediction approach to collaborative filtering , Proc. 5 th ACM/IEEE-CS Joint Conf. Digital Libraries, ACM Press, New York, 2005. A. Clauset, C. Moore, M. E. J. Newman, Hierarchical structure and the prediction of missing links in networks , Nature 453 (2008) 98. P. W. Holland, K. B. Laskey, S. Leinhard, Stochastic blockmodels: First steps , Social Networks 5 (1983) 109. L. L , T. Zhou, Link Prediction in Weighted Networks: The Role of Weak Ties , Europhys. Lett. 89 (2010) 18001. M. S. Granovetter, The strength of weak ties , Am. J. Sociology 78 (1973) 1360. J. Leskovec, D. Huttenlocher, J. Kleinberg, Predicting Positive and Negative Links in Online Social Networks , Proc. WWW 2010, ACM, New York, 2010. T. Antal, P. Krapivsky, S. Redner, Dynamics of social balance on networks , Phys. Rev. E 72 (2005) 036121. S. Marvel, S. Strogatz, J. Kleinberg, Energy landscape of social balance , Phys. Rev. Lett. 103 (2009) 198701. S. Redner, Teasing out the missing links , Nature 453 (2008) 47. Q.-M. Zhang, M.-S. Shang, L. L, Similarity-based classification in partial labeled networks , arXiv: 1003.0837. L. Zhang, K. Hu, Y. Tang, Predicting disease-related genes by topological similarity in human protein-protein interaction network , Cent. Eur. J. Phys. (to be published). T. Murata, S. Moriyasu, Link prediction of social networks based on weighted proximity measures , Proc. IEEE/WIC/ACM Intl. Conf. Web Intelligence, ACM Press, New York, 2007. G. Bianconi, Entropy of network ensembles , Phys. Rev. E 79 (2009) 036114. K. Anand, G. Bianconi, Entropy measures for networks: Toward an information theory of complex topologies , Phys. Rev. E 80 (2009) 045102. G. Bianconi, P. Pin, M. Marsili, Assessing the relevance of node features for network structure , Proc. Natl. Acad. Sci. U.S.A. 106 (2009) 11433. J. Li, B.-H. Wang, W.-X. Wang, T. Zhou, Network Entropy Based on Topology Configuration and Its Computation to Random Networks , Chin. Phys. Lett. 25 (2008) 4177. A.-L. Barabasi, Scale-Free Networks: A Decade and Beyond , Science 325 (2009) 412. G. Caldarelli, Scale-Free Networks: Complex webs in nature and technology , Oxford Press, New York, 2007. A.-L. Barabasi, R. Albert, Emergence of scaling in random networks, Science 286 (1999) 509. D. Garlaschelli, A. Capocci, G. Caldarelli, Self-organized network evolution coupled to extremal dynamics, Nat. Phys. 3 (2007) 813. S. Valverde, R. F. Cancho, R. V. Sole, Scale-free networks from optimal design, Europhys. Lett. 60 (2002) 512. M. Baiesi, S. S. Manna, Scale-free networks from a Hamiltonian dynamics, Phys. Rev. E 68 (2003) 047103. B. J. Kim, A. Trusina, P. Minnhagen, K. Sneppen, Self organized scale-free networks from merging and regeneration , Eur. Phys. J. B 43 (2005) 369. J. I. Perotti, O. V. Billoni, F. A. Tamarit, D. R. Chialvo, S. A. Cannas, Emergent self-organized complex network topology out of stability constraints , Phys. Rev. Lett. 103 (2009) 108701. P. Sen, G. Namata, M. Bilgic, L. Getoor, B. Gallagher, T. Eliassi-Rad, Collective classification in network data, AI Magazine 29 (2008) 93. T. Zhou, Statistical Mechanics of Information Systems: Information Filtering on Complex Networks , Ph. D. Thesis, University of Fribourg, 2010. 另附PDF供下载 复杂网络链路预测研究现状与展望
个人分类: 未分类|25229 次阅读|33 个评论
社交平衡理论在链路预测上的应用
yangfanman 2010-1-18 22:01
社交平衡理论最早是认知心理学的概念,后来相关的概念通过图论的语言被表达出来,从此以后社交平衡理论的研究就从认知过程拓展到网络的结构演化过程中。 社交平衡理论不是什么高深莫测的理论,实际上小到我们的日常生活,大到国家和国家之间的关系到处都能看到它的影子。该理论主要有如下的观点: 1. 日常生活中人们偏好于平衡的友谊关系。 (1)人们喜欢相互性(具有互惠性)的友谊关系。 比如说P把O当朋友,那么他内心也会倾向于O把他当朋友;此时O也有压力考虑是否将P当成自己的朋友。 (2)人们也倾向于希望朋友的朋友是朋友。 如果P和O是朋友,O和X是朋友,那么P和X之间很有可能也是朋友关系,这就是复杂网络领域大家都知道的传递性,甚至很有可能像吴晔说的,此时O会充当P和X两人认识的媒介。实际上大家自己想想我们自己在社会上的交往情况,好多时候不都是这样慢慢认识更多的朋友嘛。 对于只有正向连接的社会网络,社交平衡一般就包括上面所说的链接的相互性和传递性两个方面。 2. 有的时候人与人或国家之间之间既有友好关系、也有敌对关系,此时表征人与人(或国与国)之间的关系就有两种连接:正连接和负连接一起构成符号社会网络。 此时三人组的平衡关系就有四种,我们用大众的语言简单描述一下就为: (1)朋友的朋友是朋友 或者为 (2)朋友的敌人是敌人 (3)敌人的朋友是敌人 (4)敌人的敌人是朋友,我们使用实线表示正连接(信任、喜欢、友好等正向情感),虚线表示负连接(不信任、厌恶、敌对等负向情感),那么这几种关系可如下图表示: 大家自己用上面的图比划一下,相信上面的人际关系我们都是能接受的,但如果遇到这么样的场合,你就比较尴尬了:比如你最要好朋友的最要好朋友是你的敌人(如下图所示),这个时候你和你的朋友都会感到不舒服了。 3. 正向上面所讲的,当人们卷入到不平衡关系当中时,人会产生不舒服的感觉,产生情绪上的压力,促使人们会采取行动把不平衡的关系改变变成平衡的关系。平衡关系的构建有好几种可能性,一种是自己的朋友改变态度,使三角关系由不平衡到平衡(如下图左侧);第二种就是朋友不改变态度,自己改变态度,中断了这份友谊,使关系由不平衡到平衡(如下图中间);另外也有可能自己在朋友的影响下改变了对敌人的看法,从此和他成为朋友(如下图右侧)。总而言之,社会网络的演化过程都是倾向于由不平衡的社交关系变成平衡的关系。 说了这么多,总算把社交平衡理论的大概情况简单介绍完了,那现在的问题就是如何使用该理论进行链路预测了。如果简单的按照社会平衡理论进行链路预测,比如说我们按照如下的规律进行预测, 估计大家都崩溃了,因为这样预测的精确度会相当低,那么怎么既使用了社交平衡理论,又能取得较高的预测精度呢,最近正在琢磨这个问题。现在已经有思路了,不过等写完自然科学基金申请书以后再向大家汇报吧。 通过这些博文写作,我感觉到链路预测确实是个很有趣的科学问题,希望今年我也能在这上面做点工作。欢迎大家对我这一系列有关链路预测的idea多提宝贵意见和建议,让我进一步完善这些不成熟的想法 。 其他对链路预测感兴趣的同志们,要向吕琳媛、周涛和胡柯学习学习,不要自己偷偷的闷声发大财,有时间上来冒个泡,这个新方向貌似人很少,大家一起搞搞吧。
个人分类: 时效网络|7593 次阅读|5 个评论
复杂网络领域的两条研究思路
yangfanman 2010-1-18 15:56
最近一直在关注有关链路预测的问题,在科学网上通过 周涛: http://www.sciencenet.cn/u/pb00011127/ 吕琳媛: http://www.sciencenet.cn/u/babyann519/ 胡柯: http://www.sciencenet.cn/u/complexity/ 的博客让我受益匪浅。现在到了的互联网时代,科学研究交流的形式也真的发生了变化,科学网博客已经变成大家学术交流的平台,抱怨没有好导师的学生也可以在互联网上找到很多高手来指导自己。 记得周涛和吕琳媛各有一篇博文,讲的是他们关注链路预测问题的原因,这里我也想讲一下我关注这个问题的心路历程,由此引出复杂网络领域可能可以采用的两条研究思路。 实际上一开始我并没有关注链路预测,而是在看的Energy Landscape of Social Balance, (Phys. Rev. Lett., 103:198701, 2009.)这篇论文的时候顺道看了看结构平衡理论。我发现结构平衡这个经典的社会网络理论实际上和社会网络的演化联系紧密,可以预测哪些节点之间有可能产生(或断开)连边,因此就开始关心社会网络的链路预测问题。 在阅读和理解这个经典理论时,我发现好些公认的经典社会理论的实际验证工作都是在几十年以前使用很小的数据集、人工收集数据完成的,几十个节点、上百个实际数据的收集在当年已经很难了,而我们目前在线社会网络的节点数都是几万、几十万甚至更多,而且当年和现在的社会情况已经发生了翻天覆地的变化,因此感觉有两个问题值得我们去探索 (1) 在新数据的情况下这些老的理论还正确吗?创新的思路是用新数据来研究老问题,老理论,如果新结果满足以前的经典理论,那么我们做的算一个中规中矩的工作;要是新结果推翻了经典理论,那么恭喜你,你捡到宝贝了。Watt是这方面的高手,他深挖至今的小世界网络算是一个例子吧: Social Search in Small-World Experiments ( http://www.cam.cornell.edu/~sharad/papers/social-search.pdf ) 。 (2) 另外经过十年的积累,复杂网络研究领域已经有了很多新问题,这些经典理论是否对于研究这些新问题有帮助呢?是不是现在的新问题转化一下就可以使用旧理论来解决呢?创新的思路就是使用经典理论来解决这些新的科学问题。使用这个思路研究复杂网络新问题的研究很多,近的来说,吕琳媛和周涛的文章中提到了弱链接的强作用,他们在链路预测中也提到了社会网络的结构对等理论,他们在这些经典的社会网络理论中吸取营养来解决链路预测问题。稍远一点,2001年左右的将网络攻击问题转化成渗流问题来研究算是这方面经典的案例吧。
个人分类: 时效网络|6103 次阅读|3 个评论
性质越相似的节点越倾向于链接吗?
yangfanman 2010-1-16 15:13
今天浏览了吕琳媛的一篇新的链路预测论文Link Prediction Based on Local Random Walk( http://arxiv1.library.cornell.edu/abs/1001.2467?context=physics.soc-ph ),我发现性质相似的节点 倾向于连接是他们一系列工作中基本的假设,从预测结果看,这个假设可能是对的,因为基于这个假设的预测结果还不错的 。但为什么这种相似性假设是正确的呢?还真得花点脑筋才能想清楚。 对于社会网络,我能理解也比较认同相似的节点倾向于连接这种现象,因为如果将节点的相似性定义为共同邻居的有关信 息,那么人与人朋友关系的传递特性确实有助于形成这样的结构,另外社会网络节点间的同配性连接、明显的社团结构让 人也都觉得这种假设是对的。 我搞不清楚也没有理解好的是异配性网络中性质越相似的节点是否也越倾向于链接。异配性网络中度低节点倾向于连接 度高节点、那是否就是说在异配性网络中度低节点和度高节点相似呢?如果相似性是从共同邻居节点的角度来理解好 像不应该是这样的,因为度低节点的邻居是度高节点,度高节点的邻居又是度低节点,也就是说,异配网络中度低节 点和度高节点的共同邻居不会多。但是别忘了没有多少共同邻居的度低节点和度高节点在网络中却又有很多链接存在。 经过了上面像绕口令似的一系列分析后,我有些困惑了,为什么相似性假设能够预测异配性网络(如USAir: r= -0.208和 C.elegans:r= -0.163)中的链路呢? 后记:虽然留言中周涛和吕琳媛指点了一下,可我还是没有整明白。我理解结构对等性只是强调了节点在整个网络中角色和地位,并没有暗示两个结构对等(或倾向于对等)的节点之间会倾向于连接呀! 图一:结构对等 图二 :规则对等
个人分类: 时效网络|5868 次阅读|5 个评论
弱连接在链路预测中的作用
babyann519 2010-1-14 23:15
含权网络的链路预测是一个较重要的方向,但是现在还没有系统的研究工作。我们的工作 将三种局部算法Common Neighbors, Adamic-Adar和Resource Allocation拓展为含权形式。结果发现在链路预测中也存在weak ties的效应 。在有些网络,例如航空网络,科学家合作网中,弱连接表现出了比强连接更加重要的作用,也就是说给原来权重较低的边赋予较大的权重,而原来权重大的边赋予较小的权重(redistribution),用新的权重会得到更好的预测效果。但是在C.elegans这个线虫的神经网络中,就不存在这个效应,结果恰恰相反,只有更加强调强连接,弱化弱连接才能得到更好的预测结果(strong ties)。我们应用motif分析的方法从定性上解释了这种差异的原因。但是还不能进行定量化的描述。含权网络的预测方法研究还具有很大的拓展空间。其实在考虑含时算法的时候,如果将时间作为权重加到边上,那么实际上就变成了含权网络。同样的网络结构,不同的含权方式在实际预测中起到的作用也可能不一样。要搞清这些问题还需要更加深入细致的研究工作。 Role of weak ties
个人分类: 未分类|7283 次阅读|5 个评论
使用模体检测的方式进行链路预测可行吗?
yangfanman 2010-1-8 17:37
上回博文链路预测上的通用和特殊算法 http://www.sciencenet.cn/m/user_content.aspx?id=284972 讲 到想使用每种复杂网络的结构特征来进行链路预测。也谈到自己这方面有一点粗浅的想法,下面就向大家汇报一下,也许有点幼稚了。 周涛和吕琳媛他们在进行预测的时候使用的是节点的相似性质,这个方法的好处是可以使用复杂网络的局域特征 ,效率应该比较高。但是利用节点相似性无论采用哪种方法进行预测时,隐含着一个观点就是性质越相似的节 点越应该相互连接,我总觉得这种假设不一定正确(瞎猜的,我总是感觉这一点对于社会网络应该是正确的 ,所谓的物以类聚,人以群分;但是对于其他网络不一定对)。写博文的时候我又想到很多网络都具有社团结构,社团结构内部节点相互连接的可能性很大,而且这些节点的相似度也应该很高,因此越相似的节 点越应该相互连接也很可能是对的。但如果像有些网络中边表示的是dissimilar,那么这种方法是不是就没有办法预测了。 不过从他们那里我学到一点,就是使用复杂网络的局域特性进行比较准确的链路预测是可能的,因此我就想复杂网路的局域特性还有哪些,自然而然就想到了比较熟悉的模体(motif)。模体就是指复杂网络中比较小的块结构,一般的应用就是检测复杂网络中某种类型的小结构出现的频次是否比原网络随机置乱后出现的多,进而找出该网络的某种演化或结构特征。但是如下图所示,图A模体出现的多,并不代表出现图B的情况时我们就可以说节点1和2应该连接(如c所示),因为图A这种模式出现频次的高低不但取决于节点1和2是否连接,也取决于图B这种模式出现的频次,直接使用传统的模体来进行预测肯定是不行的。 不过上面的分析倒是给了我们一条思路,可以看看整个复杂网络中在模体B(此时不管节点1和2是否连接都算该模体)存在的前提下模体A出现概率,实际上就是看看该条件概率是不是大于50%来决定是否预测1和2之间是否连接。 我感觉这个想法可能会好用。另外在预测的时候也可以将几种模体和反模体联合在一起使用,比如使用下图中的模体A1和A2一起来预测1和2之间是否存在连接。
个人分类: 时效网络|4406 次阅读|2 个评论
链路预测上的通用和特殊算法
yangfanman 2010-1-7 11:40
首先声明一下,链路预测这个问题上我是个井底之蛙,就读了一片文献就上来冒泡了,请各位老大多批评。 最近读了Missing and spurious interactions and the reconstruction of complex networks. Guimera, R, Sales-Pardo, M. Proc. Natl. Acad. Sci. U. S. A这篇论文( http://www.pnas.org/content/early/2009/12/11/0908366106.abstract ),还有科学网上几篇周涛他们使用节点的相似特性进行链路预测的博文,我发现大家在研究链路预测问题的时候,都是系统性的针对于一系列网络进行预测,一般文章里面也强调了算法的广泛适用性,根据某类网络特点进行预测的好像不多(很可能有,但是我没看到)。 现在的工作是否可以理解为大家在开发通用性的链路预测算法,这有点像计算机行业里面的问题,比如说开发一个数据压缩算法,因为我们的电脑里面有文本、有电影、有照片、有数据,那么比较好的压缩算法就是虽然某一类型文件的压缩效率不是最高,但是基本上每种数据的压缩效果都不错,最终达到一种总体上的最优。通用算法应该是更侧重于数据挖掘或机器学习方面,这方面CS业的人搞比较合适,我隐约觉得感觉好的算法不一定需要理解每一种复杂网络的特点作为基础?? 但是对复杂网络上的链路预测而言,固然我们需要这样通用性的算法(可以作为benchmark),但我觉得更可以花些力气搞搞某一类型网络的链路预测问题,比如说针对单纯在线社会网络的链路预测、单纯针对基因调控网络的链路预测。 一方面是这样做应该可以提到预测的准确性。不同类型网络具有不同的特点,开发通用算法的时候就不能使用某种类型网络的特点来对算法进行优化。研究通用算法的时候,每种网络的结构特点和演化规律很难用一种方法统一起来,这时候算法能否挖掘出各种网络的共性是非常重要的。分开预测的好处是我们可以研究每种类型网络的特点或演化规律,将这些统计规律作为先验知识应用到预测算法中去,这样就会提高预测精度。和我们的电脑里面各种类型文件都有不同,研究基因的他们只关注基因网络,而社会科学家只关心社会网络,他们之间几乎没有的交集,所以我们这么做是可行的。 另一方面也有助于我们理解了链路预测中的一些本质问题,现在的预测算法主要是在描述怎么做性能才好,给大家讲为什么的工作还比较少。比如说为什么有些网络使用各种算法的预测精度都比较高,有些比较低?又比如说一个网络中有多少信息是可以预测出来的,有多少信息是没办法预测的?虽然这样的问题很大,但是我觉得通过研究网络结构的特点,然后将结构特点和预测算法里面用到的信息进行对照可能是一个比较可行的方法。研究某一类型网络的特点和链路预测算法的相关性是一个很好的出发点, 它有助于回答为什么A预测算法比B预测算法好,什么样的网络结构下D算法的预测性能要比C算法好。 最近读了一些社会网络的论文,最直观的感觉就是现在的工作好像把网络演化的规律和链路预测给分开了,如果研究的是演化网络的话,实际上这应该算是同一个问题吧? 比如说社会网络你将某些节点去掉,然后推测某些链接是否存在,我的感觉和我们知道t时刻某社会网络的情况来预测t+i时刻网络的情况几乎是一样的。 通过社会网络的演化规律来预测社会网络的链路,最近这方面有点想法,留个尾巴下次再写吧。
个人分类: 时效网络|6511 次阅读|3 个评论
有向链路预测精度的分析
complexity 2010-1-2 00:49
经过一段时间的努力,终于迎来了一个元旦这样一个不长不短的假期,顺便把计算结果总结了一下,开始做些分析,记录一些尚不成熟的思考: 在统计了几个真实有向网络的的结构性质之后,并计算了这些有向网络的十一个基于局域信息的链路预测算法的精度,由于有向网络的效率(efficiency)相对于无向网络的要低,GSCC要小很多,因此导致基于优先吸引(PA)的相似度测量的算法在许多真实有向网络中的预测精度要高很多。尤其是对于有向无环网络,例如citation network,和互惠性极低的foodweb,PA的算法的精度是最高的。不过,对于WWW和POL-BLOGS这两个性质相似的网络,以及神经网络(celegans),周涛和吕琳媛提出的LP和RA的精度则是最高的,可能源于LP和RA能够有效地消除简并态,LP能够放宽局域性的限制。 基于上述分析,在有向网络,考虑到一方面要放宽共有邻居算法的过于局域化的限制,另一方面也要尽可能地消除简并态,我们并结合有向网络的一些特别的性质,我们把共有邻居算法拓展到有向网络中后,考虑了对称相似度和非对称相似度两个部分的结合,提出了基于共有邻居的一般化的有向网络链路预测算法,虽然算法精度较大幅度地超过了以前的基于局域信息的算法,不过这个算法是一个参数依赖的算法,虽然都优于前面的一些算法,但精度提升的幅度依赖于对称相似度和非对称相似度所占的权重,在实际应用中实现是有困难的。 在文章还没有完成也不知将来结果会怎么样的的情况下,就想感谢了,不管怎么样,借助这篇博文,感谢一下吧。 首先感谢周涛和吕琳媛等前辈的工作,在他们的文献中给出的非常深入的分析给我们许多的启示。他们的豁达而包容的心态给也是值得学习的。 其次也非常感谢NEWMMAN为我们提供了几个有向网络的数据和对有向网络结构性质的一些评述。
个人分类: 未分类|6159 次阅读|8 个评论
基于相似性的链路预测算法总结
babyann519 2009-12-17 23:37
做链路预测有一年时间了,有一些收获和体会,本想在年底前写一篇综述,由于事情太多一拖再拖,稀稀松松的目前也只完成了1/3,真是惭愧惭愧!在此附上一个关于Link Prediction的PPT,里面几乎包扩了我所有相关工作的内容。还有总结了到目前为止最全的21种相似性定义,供大家参考。 On Link Prediction_Linyuan Lu
个人分类: 未分类|8177 次阅读|5 个评论
有向网络的链路预测,我又开始乱想了
complexity 2009-12-17 03:34
关于有向网络的性质与建模,还在茫然中,却读着文献的同时又开始乱想了,不管怎么样,还是先把它记录下来 1、最近在做有向网络的一些性质,在阅读文献的过程,看到了周涛和吕琳媛做的最近发表的关于链路预测的三篇文章(PRE,EPL和EPJB),研究考虑了节点的相似度,那么对于有向网络的链路预测,很可能有一些借鉴,可以把节点相似度的概念拓展到有向网络的情况,预测精度会有什么差异?结合有向网络的一些性质,不知道算法针对有向网络的是否可以做些改进? 2、我们最近在CEJP上发表了一篇关于利用网络节点的拓扑学相似度的方法预测人类PPI网络的致病基因的文章,预测的精度和算法的复杂度都比较高,文章经历了很长时间才出来。而周涛和吕琳琳媛的文章里提供了一种比较好的算法,预测链路精度和算法复杂度都达到了一个很好的平衡,看来我们可以借助这一算法来预测致病基因,虽然两者的目的不同:周和吕的主要是去预测链路;而我们主要是去预测节点(基因),或许还是有可借鉴之处的。 CEJP
个人分类: 未分类|5854 次阅读|4 个评论
关于网络中的链路预测
babyann519 2009-12-6 04:34
几天前,涛兄写了一篇关于为什么研究链路预测的博文,从三个方面阐述了研究链路预测的意义和价值。这里我想从另外一些方面谈一谈复杂网络的链路预测。其实链路预测(link prediction)作为数据挖掘(data mining)的一个研究方向已经不是什么新问题了,尤其是对搞计算机的人来说(CS)。他们提出了一系列基于马尔科夫链以及机器学的方法和概率模型。在实际应用中已经能够得到很好的预测效果。这使得这些方法在工程上得到很多应用。但是从科学研究的角度看虽然CS的算法精度高,但是没有更多的insight。看CS的文献你会发现他们常常将不同的算法组合起来已得到更好的精度,但是很难解释出精度提高的原因(我本人看的文献有限,这里谨代表个人观点),并且很难说出为什么这个网络用这种方法好,而那个网络用这种方法不好。这些问题对谁来说都是很难回答的,CS也好PH也好,但正是这些问题的存在使得研究LP变得更加有意义。试想如果我们可以做到在预测前根据目标网络的拓扑结构以及统计性质选择相应的算法已得到较好的预测结果,这在实际应用中将节省多少时间和计算的成本。不仅如此,如涛兄所说,在研究这个问题的过程中也会对于我们理解网络的演化机制有所帮助。 我们当前对于LP的研究是基于节点相似性的。这种相似性可以根据节点的属性进行定义。例如,如果两个人具有相同的年龄,性别,职业,兴趣,等等,我们说他俩很像。但是在实际应用中这些节点的真实属性信息很难获得。比如在线友谊网络中,一个用户的注册信息是可以编造的,比如一个老男人为了能够找到更多的年轻mm朋友可以假装为一个年轻小帅哥。另外,就算获得了真实信息,我们也会遇到另外一个问题:在预测中我们应该选择哪些属性,以及他们在衡量相似性的时候所占的比例如何确定。另外一种定义相似性的算法是完全基于网络结构的。它可以进一步分为基于节点的和基于路径的。基于节点的一共有十种,包括:common neighbors,Salton,Sorensen,Adamic-Adar,Jaccard,HPI,HDI,LHN-I,Preferential Attachment和我们提出的Resource Allocation。他们都可以看作是基于局部信息的指标。关于这十种指标的定义以及表现的比较可参见文章(EPJB 71,623,2009)。基于路径的有三种,包括我们提出的Local path指标以及Katz和LHN-II(PRE 73,026120,2006)。Local path算法是在CN的基础上考虑了次级邻居的算法,可以算是一种半local的算法。而Katz和LHN-II都是基于网络全局信息的。在文章(PRE 80,046122,2009)中,我们比较了三种算法CN(考虑长度为2路径),LP(考虑长度为2和3的路径)和Katz(考虑所有路径)。结果显示,LP作为一种半local算法具有较低的计算复杂度,同时可以达到较好的预测精度。除了上述两类定义外,还有一类相似性是基于网络上的随机游走的,可参见(IEEE Trans. Knowl. Data. Eng. 19,355,2007)。此外,还有一些比较复杂的定义,例如基于矩阵森林理论的方法,可传递的相似性定义(PRE 80,017101,2009)以及基于网络层次结构的方法(Nature 453,98,2008)。 到目前为止,虽然已经有一些关于链路预测的研究,但是对这个问题还没有一个很清楚的图景。很多问题尚存在。比如,含权网络的预测。我们做了一些较初步的工作(见附件),发现权重在预测的时候并不好把握。在有些网络中,如航空网络和科学家合作网,我们发现了链路预测的弱连接效应,即小权边起到更重要的作用。但对于为什么有些网络有weak ties效应而有些没有,我们还不能给出很好的解释。除了含权网络的问题之外,还有一个重要的问题就是time。对于sampling的网络,如食物链网络和蛋白质相互作用网络,对他们的预测更倾向于一种知识挖掘。而对于随时间演化的网络,时间因素是很重要的,不可忽略。最简单的方法是我们可以根据时间给网络的边赋予一定的权重,然后这个问题就又回到含权网络的预测了。 总之,链路预测有意义,有前景,值得关注! The role of weak ties in link prediction EPL accepted 涛兄博文地址: http://www.sciencenet.cn/m/user_content.aspx?id=275710
个人分类: 未分类|14217 次阅读|12 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-28 04:21

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部