科学网—标签 - 微博预测

相关帖子	版块	作者	回复/查看	最后发表

2012 WISE 帕福斯(Paphos) Web信息会议点滴

热度 4 Liweigang 2012-12-2 16:01

28 日晚上匆匆赶到位于塞浦路斯的旅游名城帕福斯 (Paphos) ，参加第 13 国际 Web 信息系统工程会议 (The 13th International Conference on Web Information System Engineering) 。其实会议已开了一天，但实在是太忙了，出发开会的功课都没做。这不，到了酒店安顿下来已是晚上 11 点了。马上睡觉是不可能的，因为第二天要演讲，幻灯片还要再优化一下。上午是巴塞罗那雅虎副主管 Ricardo Baeza-Yates 博士的大会演讲，断然不能错过。这位智利学者在国际 Web技术业内颇有名气， WWW2013 的里约会议，他是Regular Paper的分会主席，明年南京的14届 WISE 会议，他也是 Co 主席。私下交流时，他说 2013 年还要创办 IEEE Big Data 会议，老外就是这么能折腾。下午 3 时 15 分，开始 2012 WISE 新浪微博大赛分会，由华东师范大学的 Weining Qian 博士主持。我们的学生 Juarez 首先登场开讲，他介绍的是微博转发预测。 Juarez很优秀，当年本科毕业时，Facebook 总部已招来让他去美工作，月薪6千，但他舍不得巴西的女朋友，就留下来读研。我们团队获微博海量数据查询性能分析 (T1) 项目的数据规模冠军，第一作者博士生 Edans 到纽约公干，就由本博出马介绍。为了方便听众尽快了解我们的工作，演讲分三个层次：粉丝模型 (Follow model) 的理论、微博查询优化技术和大数据处理性能测试结果。为便于科学网博友了解，本文试着上传我们参加 WISE 的两个竞赛项目的幻灯片 PDF 文档。接着是人民大学的研究生 Qun Zhao 同学的演讲，他们是做微博预测的，工作很细致，对数据分析很到位。该项目第一名 (Championship on T2) 澳洲昆士兰大学团队的 Li Xue 老师亲自上台，采用 4 个模型，动用 4 位博士生和 3 位博士资源，真是精英齐聚，无往而不胜。微博海量数据查询性能分析 (T1) 项目的并列第一名是来自清华大学的研究生 Ze Tang 同学，他的介绍也很是引人，在具体数据处理方面，动了不少脑子。中科大团队因签证问题、北卡罗来纳大学夏洛特分校团队因其它原因未能到会，但他们的热情很高，分别发来演讲视频，在大会介绍。这个塞浦路斯还真的对国人“双规”：要求大家在规定时间规定地点到达和离开这个美丽的小岛。一位朋友因为航班时间稍多一点，硬是“被”要求先到机场隔离区等上几个小时，再登机出境。两天的会议，认识几位在网络信息技术方面的著名华人，如澳洲维多利亚大学的 Zhang Yanchun 博士和复旦大学的王晓阳博士等。 ZSHuang 老师是会议第二论文集的主编之一，亲自带着太太到会，很温馨。特别是 29 日晚上塞浦路斯特色的会议晚宴上，老张的舞跳得很High， Li Xue 老师的歌唱得很好，几位 77 、 78 级的朋友相聚畅谈，感慨万分。周六和澳洲的 Zhang Xiuzhen 博士一起，远旅塞浦路斯首都尼科西 (Nicosia ) 。期间自然遇到不少风情轶事，不过心情指数遗憾万千，只是暂时没时间好好整理博文，就这篇小文章，还是利用在拉纳卡 (Larnaca) 机场候机时间，赶写这么一些。下一站是到希腊的雅典对 NTUA 的三日访问，以后有空慢慢介绍。遗憾的是，本博暂时不能上传照片，戴了相机没带附件，容笔者回巴西后慢慢整理。注：因为时间和机场网络原因，两个演讲文件还没上传好，等安定下来再说，致歉。

个人分类: 社交网络|4225 次阅读|7 个评论

对微博分布泊松过程表征的补充，答周涛博主

热度 3 Liweigang 2012-6-10 22:37

科学网周涛博主对小作《社会事件相关的微博分布特性》发来评论： “ D. Sornette 的 PRL 和 PNAS~~ 就是分析这个问题 ~~ ” 。十分感谢。笔者看了周涛博主以前的博文：《人类动力学研究较有代表性的 40 篇文献》等，很是不错，看得出博主潜心读书，认真研究的精神和成就。该博文里面介绍的文章中有： R. Crane, D. Sornette, Robust dynamic classes revealed by measuring the response function of a social system ， PNAS 105 (2008) 15649 。由于时间原因，只是看了看摘要，等找到原文再细细阅读。不过从摘要里看出，他们研究对 YouTube 视频的访问现象，可归纳为 Poisson 过程。 R. Crane, D. Sornette, 的工作的确很是超前，会使对社交网络的研究有理论依据和参考作用。微博是个新事物，尤其是新浪微博的流行，也只是 2009 年来的事情。而社交网络理论研究远远跟不上社会实践。 Carnegie Mellon University Silicon Valley 的 Jiang Zhu 和北京交大的Fei Xiong 等2011年在研究社交网络，特别是利用推特平台对大灾难信息预测一文( Statistically Modeling the Effectiveness of Disaster Information in Social Media ) ，对 Twitter中的信息转发预测时，也使用泊松分布过程来分析 Tweet 和 Retweet。此文引用了加州大学洛杉矶分校 Ka Cheung Sia 等 2007 年 ICWSM 的对 RSS 信息反馈监控一文 ( Mon itoring RSS Feeds based on User Browsing Pattern ) , 使用泊松分布过程来分析点击模式。不过，笔者团队从新浪微博 2009 年来的海量数据中研究微博分布特征。正是觉得泊松过程难以反映微博的一些分布现象。如小作中列出的本 · 拉登之死的消息在新浪微博上出现的强脉冲现象，以及新浪微博对房价讨论的正态分布现象等。显然易见，这都是不能简单使用泊松过程来描述的。如果仅是画出微博数量的分布图，也许就是在科学网让大家看看热闹。但实质上会直接影响微博转发预测质量。这一些，笔者会在以后的博文中进一步阐述。特别是深入研究一些特定函数如脉冲型、三角或梯形、正态型和泼松型分布等对微博转发预测的影响。欢迎同行共同探讨。再次感谢周涛博主发来的珍贵资料和友好讨论。相关文章连接：社会事件相关的微博分布特性人类动力学研究较有代表性的 40 篇文献 Robust dynamic classes revealed by measuring the response function of a social system Statistically Modeling the Effectiveness of Disaster Information in Social Media Mon itoring RSS Feeds based on User Browsing Pattern

个人分类: 社交网络|7795 次阅读|5 个评论

微博研究系列：Mining微博 Feeling小米

热度 1 Liweigang 2012-5-17 07:44

面对新浪微博近 13GB 的客户关系数据和 62GB 的微博信息数据，发现知识的数据挖掘第一镐往哪儿挖 (Mining) ？也许受到《 Can you feel it？》的感染，笔者从新浪用户热议小米手机得到启发，对小米和米聊有点感觉 (Feeling) 。这不，笔者团队在分析新浪微博客户关系和微博转发预测时发现天机若干，不妨与大家分享一二。据百度百科介绍：小米手机是小米公司研发的一款高性能发烧级智能手机。小米M1 于 2011 年 8 月 16 日发布，售价 1999 元，采用线上销售模式，是世界上首款双核 1.5GHz 的智能手机。小米公司在新浪微博开户，目前已有 121 百万余粉丝，累计播发 1995 个微博。 5 月 15 日发布的介绍《小米青春版》微博，竟引来网友 2 百余万转发， 78 万热议。同时小米公司网站专设米聊论坛，一篇热贴，动罕 2 万余浏览。人气旺旺，形势逼人。图 1 显示小米公司的新浪微博截图。图 1 小米公司的新浪微博拥有 121 万余粉丝数据挖掘使用相关计算和智能模型，发现海量数据个中奥妙。在对涉及小米手机有关议题的微博研究中，发现微博在一周间的分布规律。小米发烧友大都是上班族，他们周二至周六多发微博，热议小米；周日和周一或杂事缠身，或稍微休息。图 2 显示新浪微博一周七天内的分布情况。计算出的数字是 2011 年 8 月 16 日，小米正式面世前 13 周的平均值。例如，此 13 个周二有关小米的微博平均数达 1030 个。而周日的同比数为 778 个，相比之下，下降 25% 。图 2 热议小米手机微博数在一周七天的内分布有关小米手机的微博此分布现象值得重视。究其原因不外有二： 1) 小米产品的消息发布大都在工作日间，公司主要头头在新浪发表微博也主要在上班之时； 2) 发烧小米的网友主要是朝九晚六的上班族，他们在周二至周五更有时间和精力来秀秀掌中小米，玩玩新款米聊。此现象引发的网络效果更是有趣。新浪微博的海量数据含金藏银，数据挖掘意义非凡。而小米公司食髓知味，深喑粉丝活动周期，不妨招惹发烧友们上班时热火朝天说小米，周末则心平气和陪家人。某日米聊穿越了微博，网友莫怪笔者Feeling的错！相关博文：微博研究系列：北京 KDD 盛会腾讯微博大赛微博研究系列：科学网微博三问微博研究系列：奇妙的微博转发和互粉

个人分类: 社交网络|7916 次阅读|2 个评论

微博研究系列：北京KDD盛会腾讯微博大赛

热度 2 Liweigang 2012-5-11 06:09

2012 年注定是微博纵深发展的技术年。 8 月 12-16 日北京将举办《国际知识发现和数据挖掘年会 - Knowledge Discovery and Data Mining, KDD 2012 》 , 腾讯微博先声夺机与 ACM KDD Cup 联手，将推出本年度数据挖掘竞赛项目的优胜者。这也是中国微博走向世界的一次漂亮 “ 转身 ” ，意义重大。同时， KDD Cup 是全球计算机、电子、数学和统计等专业同行学术交流的一个国际舞台，专家云集，高手如林。特别是腾讯派出强有力技术团队辅助赛事，并设 5K 美元的“巨额”头奖。到目前为止，已有 636 个团队报名， 760 个竞赛者参与。由于竞赛结果在线展示，参赛者摩拳擦掌，旁观者翘首以待，气氛十分激烈，参见图 1 的 5 月 10 日的赛板排行。本文介绍 KDD Cup 2012 的第一个竞赛项目 : 预测用户对腾讯微博管理系统推荐对象的关注 (Predict which users (or information sources) one user might follow in Tencent Weibo) 。由于微博机制研究是个新的领域，加上 KDD 是著名的国际学术会议，对此项活动的描述都是英文文本，即使从事这方面的国内研究人员也会在参赛时遇到不少问题。笔者以研究札记形式，用中文具体介绍：竞赛目的、微博术语、数据文档、报告格式、精度评价和竞赛方式等内容。为腾讯微博大赛造势，为国内参赛人员提供方便。 1. 预测微博用户对系统推荐对象的关注预测用户对腾讯微博管理系统推荐对象或资源的关注度，即是否被用户接受。这里讲的推荐对象是腾讯微博的特殊用户，例如名人影星、机构组织、商品服务和会议活动等信息资源。出于种种原因，腾讯微博管理系统会向众多热情粉丝， 3 . 2 亿腾讯微博注册用户，推荐这些对象。而腾讯微博和相关机构非常想知道哪些对象被关注、被哪些用户关注等等。图 1 KDD Cup 2012 腾讯微博预测竞赛在线排行榜前 5 名， 5 月 10 日 2 . 腾讯微博基本术语为了便于参赛者理解和表达，腾讯微博技术团队和 ACM KDD Cup ( 以下简称竞赛主办方 ) 推出微博若干术语的英文表述。这些术语也是对腾讯微博机制的解释，笔者基本上遵循这些定义，同时也提出一些修改建议。对象 (Item) ：腾讯微博的特殊用户，会是名人影星、机构组织、商品服务和会议活动等信息资源。腾讯微博管理系统将这些对象推荐给广大用户，例如放到用户页面醒目地方等。本次竞赛，主办方专门列出对象介绍数据文件，大约有 6 千多位，下节将专门介绍这些数据。微博短信 (Tweet 或 Weet): 中文微博起码有三个意思，一种短信式在线社交网络平台的意思，如腾讯微博和网易微博等；第二是指微博短息，如在系统里发 1 40 个字以内的短信；第三嘛，就是新浪微博的域名。微博的这些中文表述，大家都能理解。但竞赛组织者把微博短信的英文表述为 Tweet ，即借用西方著名在线社交网络推特 (Twitter) 内微博短信的专用名词。为了避免混乱，本文建议使用 Weet 来作为国内微博短信的英文表述。微博转发 (Retweet 或 Reweet): 微博用户可以转发另一用户的微博短信。在推特，微博转发表生动地表述为 Retweet 。在这次大赛，主办方仍借用 Retweet 来表达腾讯微博的转发。本文建议使用 Reweet 来作为腾讯等国内微博短信转发的英文表述。评论 (Comment): 微博用户可以评论一个微博短信。该评论将保留在发博者平台内这条微博的后面。微博评论不会随微博短信被其他用户转发。被关注 / 关注者 (Followee/follower): 如果用户 B 被用户 A 关注， B 是被关注者， A 是 B 的关注者，中文习惯上称 A 是 B 的粉丝。 B 发出和转发的微博都会传播给其粉丝。笔者认为，对微博短信和转发的英文描述 Weet 和 Reweet 是有意义的。例如成龙先生分别在推特 (Twitter) 和腾讯微博开户。用中文可以说：某日成龙在推特发 3 个微博、转发 2 个；在腾讯发 2 个微博、转发 3 个。用英文可以说： Jakie Chen sent 3 tweets and retweeted 2. He also sent 2 weets and reweeted 3 in Tencent Weibo. 3 . 数据文档说明为便于参赛团队研究腾讯微博，竞赛主办方推出一系列数据文件。主要有：训练数据集、测试数据集和用户信息文件组三套数据资料。其中信息文件组有：用户基本资料、对象分类资料、用户行为记录、用户间关系和用户关键词等 5 个文件。这些附加文件，如用户档案中的年龄、性别和兴趣等反映了他们的关注特性。用户关注演变和对象分类目录等资料，都可为参赛者提供参照，开发思路。这些数据资料是腾讯微博精心准备和公开发表的微博机制研究素材。其中包括上百万个用户和几千个对象的丰富信息，是各团队建立预测模型的最佳机遇。出于保护个人隐私的原因，主办方对所有用户名 (ID) 进行技术处理，由随机数代替。微博涉及到的资料、姓名、分类和关键词等所有中文内容，都采取随机数字串进行编码。这样可以免去理解中文参赛者的语言优势。 3 . 1 训练和测试数据文件训练数据集的文件名为 rec_log_train.txt ，内有 2 个 GB 的数据。测试数据集的文件名为 rec_log_test.txt ，有近 1 个 GB 的数据。两个文件的格式均为 : (UserId)\t(ItemId)\t(Result)\t(Unix-timestamp) 。表 1 列出的 4 行数据取自测试数据集。其中第 1 列为用户编号 (UserId) 。第 2 列为对象编号 (ItemId) ，对象实际上是腾讯微博系统的推荐用户。所以，有的用户编码可能出现在第 1 列，也可能出现在第 2 列。第 3 列为关注结果 (Result) ，如果用户接受系统推荐，此值为 1 ；不接受推荐，此值为 -1 。接受推荐的表述方法有关注、微博转发和评论微博等等。第四列为用户的关注对象的历史时间记录，表 1 显示的是测试文件列出的时间。表 1 训练和测试数据文件实例用户编号 (UserId) 对象编号 (ItemId) 关注结果 (Result) 时间 (Unix-timestamp) 1525431 1771958 1 或 -1 1321027200 1587150 1774422 1 或 -1 1321027200 1587150 1774934 1 或 -1 1321027200 2064344 1505267 1 或 -1 1321027200 为避免博文过长，博客版暂略以下小节： 3 . 2 用户基本资料文件； 3 . 3 对象分类数据文件； 3.4 用户动作数据文件； 3.5 用户关系数据文件； 3.6 用户关键词数据文件。敬请原谅。 4. 报告、评价和竞赛 4.1 提交预测报告大赛主办方提供测试数据文件名为 (rec_log_test.txt) ，预测建模和方法不限，参赛者可将自己的预测结果填入该文件的 result 字段： 1 为用户接收推荐对象， -1 为不接收推荐。上交预测报告时应转换为 *.csv 文件。主办方建议两种格式，含和不含用户，表 7 格式是包含用户。表 7 提交预测报告文件格式用户编码 (UserId) 接受的推荐对象编号 (ItemId) ，最多 3 个 100018 1774717 1774505 218438 100020 1606574 1774684 100025 1458847 655717 1774797 100030 1606609 1606574 1774532 表 7 中第 1 列为用户编号 (UserId) ，循序严格按测试数据文件中的用户循序。第 2 列为接受的推荐对象编号 (ItemId) ，每行最多 3 个对象，循序严格按测试数据文件中的用户对应的推荐对象循序，各对象编号间用空格分开。 4.2 结果评价主办方采用通用的信息检索评价理论和方法评价预测结果。为便于读者了解评估方法，首先定义相关概念。本节内容参考资料为。 1）样本分类：用户接受推荐对象，类别为正例，取值 1 ，假设有 P 个用户取该类样本；用户不接受推荐对象，类别为负例，取值 -1 ，假设有 N 个用户取该类样本。 2）参赛模型对正例预测： TP 个用户接受推荐，取值为 1 的正例，同时被参赛模型正确预测为正例； FN 个用户接受推荐，但被模型错误预测为负例；有 P=TP+FN 。 3）参赛模型对负例预测： FP 个用户不接受推荐，取值为 0 的负例，但被参赛模型错误预测为正例； TN 个用户不接受推荐，被参赛模型正确预测为负例；有 N=FP+TN 。 4）召回率 (Recall rate) ：参赛模型正确预测出用户接受推荐数与所有实际用户接受推荐数之比， Rr = TP/(TP+FN) 。召回率反映了模型正确预测的正例与实际正例样本的比例。 5）精确度 (Precision rate) ：参赛模型正确预测出用户接受推荐数与参赛模型预测出所有用户接受推荐数之比， Pr = TP/(TP+FP) 。精确度反映了模型正确预测的正例与模型预测所有正例样本的比例。 6）单一用户预测平均精确度 (Average Precision) ：参赛模型对单一用户接受推荐预测结果的评价，应同时考虑召回率和精确度。此综合参数的具体计算公式为： AP = ∑ Pr(i)∆Rr(i) ， i = 1,2,...n 。式中， n 为用户接受推荐对象数，本次竞赛 n 取值 3 ； Pr(i) 为预测用户接受对象 i 的精确度； ∆Rr(i) 为预测用户接受对象 i-1 到 i 时召回率变化值。 7）全体用户预测平均精确度 (mean Average Precision) ：参赛模型全体用户接受推荐预测结果的评价，为单一用户预测平均精确度在全部用户样本集的平均值。具体计算公式为： mAP = ∑ AP(j)/M ， j = 1,2,...M 。式中， M 为用户总数。在上述概念定义的基础上，通过若干例子来说明平均精确度的具体计算。 8）如果系统推荐 5 个对象给 A 用户， A 接受 1 、 3 和 4 号对象，则参赛模型对该用户接受对象的预测平均精确度为： AP = (1/1+2/3)/3 ≈ 0.56 。 9）如果系统推荐 4 个对象给 B 用户， B 接受 1 、 2 和 4 号对象，则参赛模型对该用户接受对象的预测平均精确度为： AP = (1/1+2/2)/3 ≈ 0.67 。 10）如果系统推荐 3 个对象给 C 用户， C 接受 1 和 3 号对象，则参赛模型对该用户接受对象的预测平均精确度为： AP = (1/1+2/3)/2 ≈ 0.83 。 11）参赛模型对用户 A 、 B 和 C 三个用户接受对象的预测平均精确度为： mAP = (0.56+0.67+0.83)/3 ≈ 0.69 。 4.3 在线竞争 KDD Cup 的竞赛是在 Kaggle 平台上实现的，在参赛者提交预测报告后， Kaggle 的演示板会很快给出预测平均精度和排行名次。图 1 显示 5 月 10 日竞赛演示板的前 5 名参赛者的评估结果。这种在线竞赛的方式，很是刺激，但并不时最终赛结果。因为主办者目前只是比较 53% 的预测结果，给出预测平均精度。在 6 月 1 日竞赛结束时，主办方会对各参赛者的结果进行 100% 的评估，给出最终预测平均精度和排行榜。前三名分别获得 5 、 3 和 1 千美元的奖励。 5. 结语本文详细介绍 KDD Cup 2012 的第一个竞赛项目 : 预测用户对腾讯微博管理系统推荐对象或资源的被关注度。文中主要参考主办方的网站，介绍参赛的基本资料和笔者的一些体会。特别是第二节有关微博的术语定义和第四节预测精度评估，反映出笔者的个人意见。如果读者要参加竞赛，建议以主办者的原文说明为准。作为本学期给研究生，《人工智能课》中介绍 KDD 一课的讲义。写作时参考 KDD Cup 2012 竞赛规则原文和星语心愿 ~ 的中文翻译。笔者带领团队参加这项活动，主要是让学生们准备数据、学习方法和研究模型，为毕业论文研究提供案例。同时，对类似 ACM KDD 这些高端学术活动有个认识和体会。在以后的博文中，将进一步介绍笔者团队参加该项目的研究方法和结果，以及本届竞赛的第二个项目：基于用户信息和查询内容预测对广告的点击率 ( Predict the click-through rate of ads given the query and user information ) ，敬请读者稍候。相关博文：微博研究系列：科学网微博三问微博研究系列：奇妙的微博转发和互粉参考资料 KDD 2012 ， ACM SIGKDD ， Knowledge Discovery and Data Mining conference, August 12-16 ， Beijing ， China 。 http://kdd2012.sigkdd.org/ KDD Cup 2012 ， ACM SIGKDD ， Knowledge Discovery and Data Mining conference, August 12-16 ， Beijing ， China 。 http://www.kddcup2012.org/c/kddcup2012-track1 Information retrieval ， Wikipedia ， http://en.wikipedia.org/wiki/Information_retrieval 。 Zhu, Mu ， Recall, Precision and Average Precision ， 2004 。 http://sas.uwaterloo.ca/stats_navigation/techreports/04WorkingPapers/2004-09.pdf 星语心愿 ~ ，数据挖掘竞赛主题一：预测围脖的潜在关注者（腾讯赞助），博客园， 2012 。 http://www.cnblogs.com/aloe/archive/2012/03/17/2403017.html

个人分类: 社交网络|6993 次阅读|5 个评论

帐号		自动登录	找回密码
密码			注册

关闭安全验证

标签: 微博预测

相关帖子

相关日志

关闭 安全验证

标签: 微博预测

相关帖子

相关日志

关闭安全验证