UPDATE:立委愚人节北京讲演时间地点已经确认,感谢中文信息学会孙教授的邀请和安排,也感谢董振东前辈教授的建议和推举: The loacation is : Room 334, 3rd floor, building 5 Institute of Software, Chinese Academy of Sciences, No. Zhongguancun South 4th Street 10:00~12:00 It's better you take the subway. And the nearest subway station of line 13 is 知春路 虽然在四月一日路过北平,但不是愚人节玩笑 :=), 具体地点和活动细节待确认后随时update Sentiment Mining from Chinese Social Media in Big Data Age by Wei Li, Ph.D. Computational Linguistics In this information age of big data, social media such as WeiBo (Micro-Blog, or Chinese twitter) is more and more influential. The popularity of mobile devices such as smart phones makes it possible for anyone to share his/her observation, experiences, opinions and sentiments any time anywhere in the social network such as WeiXin (or WeChat). The social media big data from WeiBo, WeiXin, Customer Review sites, Blogs and Forums are like a gold mine of intelligence, yet to be mined. They are in the form of natural language (Chinese in this case) and contain intelligence of public opinions and consumer sentiments on any topics, brands and products. Automated sentiment mining via Natural Language Processing (NLP) is a must-do if we (or businesses) do not want to be overwhelmed by the information overload. Dr. Li's talk will present the design philosophy behind such a sentiment mining system which he has designed and led the team to develop. He will first discuss the value and scope of NLP in sentiment extraction and mining, pros and cons between the rule based system and learning based classification, and different levels of sentiment mining in response to the various information needs. He will then demonstrate a list of real life Chinese social media hot topics as mined by the system to show the value and future of big data and NLP, in areas like automatic survey and social media listening and monitoring for consumer insights. 大数据时代中文社会媒体的舆情挖掘 李维 博士 随着大数据时代的到来,社会媒体(譬如 微博)的影响力日益增强。智能手机等移动设备的普及,使得普罗百姓的见闻、意见和情绪可以随时随地传达(譬如利用微信)。微博、微信、博客、论坛这些社会媒体大数据好像一座座富含情报的金山,等待我们去挖掘。在大数据面前,如果不想被信息爆炸淹没,就必然需要使用自动手段,尤其是可以用来自动抽取挖掘舆情的自然语言技术。 李博士的报告基于他主持开发的客户舆情自动抽取挖掘系统。报告分两大部分。第一部分阐述自然语言技术在舆情抽取中的应用范围,比较统计分类方法与规则系统方法的利弊,以及舆情分析的层级体系。第二部分通过一系列社会媒体热点话题的实例,展示大数据挖掘的价值和前景。 Dear Prof, Li, ...... the title and abstract of your talk in Chinese or English. And a simple cv of you. How about 10:00~12:00am ? About Dr, Li A hands-on computational linguist with nearly 30 years of professional experience in Natural Language Processing (NLP), Dr. Li has a track record of making NLP work robust. He has built three large-scale NLP systems, all transformed into real-life, globally distributed products. He is now Chief Scientist for a fast-growing Silicon Valley company which serves global Fortune 500 companies for consumer insights and social media monitoring. 【相关活动: 台北学术讲演谈中文语法分析 】 【置顶:立委科学网博客NLP博文一览(定期更新版)】
ABSTRACT Brand Passion Index (BPI) is used to help us make an informed decision in our on-going purchase of a new washer. Using our own product, we generated two BPIs, one to compare the major washer brands in the US market and the other to compare front loading vs. top loading. With the collective consumer insights in mind, we have narrowed our choices to front loading Maytag or LG. This is a live case of big data win.. 最近决定要购买一套最新洗衣机烘干机,不求最贵,务求最好。领导清洗老洗衣机不胜其烦(也不老,才用了两年),说这次一定要看准品牌买,绝不上当。两年前的洗衣机是人送的杂牌,不是自选的,没有品牌选择的过程。结果,虽然衣服洗出来确实很干净,但问题也不少。除了噪音颇大外,还存在难以容忍的缺陷:门圈藏污纳垢,似有霉变,难于清洗,于是想到,淘汰他个,一了百了。 于是请教老友,有竭力推荐 Maytag 品牌者,尽数其洗衣有如神功,安静、省水、无损,洗衣干净透亮,比当年浣女棒槌槌出来的还牛。隔在以前,有这样可信老友的竭力推荐,我直接下单买了就是,可如今不同了,信息社会,还是多听听多比较,才能确保心安(to make an informed decision)。洗衣机不大不小,每日相伴,基本功能大同小异,但是买错了也不好退回去,只有像以前一样将就用,一用就是n年,烦不烦。 有道是,书上得来终觉浅,口碑虽好量太少,只有一二老友而已。 (老友的推荐可以加权,一句顶10句,或100句,但是还有千百万的品牌舆情在,至少也该综合一下情报不是?) 咋办? 求助大数据(BIG data)。 大数据里面有的是“口碑”,散落在社会媒体各处。人的本性之一就是说话,古今中外概莫能外。家庭主妇为最,唠叨是其生存的方式和重要理由(之一):甭管是喜爱还是抱怨,不说就会憋死。前信息时代,唠叨也就唠叨了,说出的话,与泼出的水一样,gone with wind,随风蒸发,毫无价值。如今不同了,有社会媒体和智能手机,甭管你多婆婆妈妈,围脖也好,Facebook也罢,都有档案在,均可以转化为宝贵的情报,关键是要有挖掘的功力。 人是不行的,但机器人如 NLP (Natural Language Processing)是可以的,不信咱们拿它来挖挖看,现场演示一下我学(行)了一辈子的 NLP 如何帮助领导尚在进行中的决策,来一个活生生的技术改变世界和你我的示范。 第一步,领导要先了解一下洗衣机主要品牌的社会总体评价及其比较。没问题,我们独家NLP技术支持的系统,就有这个功能,可以随时生成任何产业的【多品牌舆情图】。只要把几个美国市场的品牌送进去,图表就出来了。 上图依据海量挖掘的 社会媒体口碑(数据见下),对 美国家电市场洗衣品牌排座次,关注度、褒贬度以及热情度三维并列、二维展示,不仅一目了然,而且也颇性感养眼,不是? 从上面的图示我(你)们看到了什么? 有说看到了科学的力量,那你是科学主义者。说看到了技术的力量,那你就是又一个立委。领导看到的既不是科学也不是技术,而是恍然大悟:眼前一亮,原来如此;再接再厉,继续挖掘。 领导说,不怪老友推荐 Maytag,你看Maytag 位于舆情图最左边,说明喜欢它的客户都很粉它,大概与苹果迷喜爱爱疯类似,说明该品牌一定有迷人之处。但褒贬指数 Maytag 却不是最高,在它之上的还有 LG,虽然不如喜欢 Maytag 那么狂热,但LG综合品质显然独占鳌头。这有点儿意外。 领导继续说,更加意外的是,没想到 Whirlpool 的客户评价这么低,差不多落到了 GE 的档次。昨天去家电中心,售货员还说 Maytag 就是 Whirlpool,一回事,都是 Whirlpool 公司所产,没想到二者在客户心目中的地位完全不同。所以,作为决策的第一步,Whirlpool 已经出局,绝对不听售货员的推荐买它。( 后来与老友印证了这两个品牌的关系,原来 Maytag 就好比丰田产的豪华档凌志,而 Whirlpool 则是大众档 Camry 或经济档 Corrolla,完全不在一个层次。) 第三个启发是,北美专业洗衣店使用最广泛的 Kenmore 品牌,评价也不高,只比三星略强,因此也差不多出局了。店员跟我们说的是,Kenmore 品牌洗衣机其实是 LG 产的(就如 Maytag 是 Whirlpool 所产一样),但是舆情却把二者明显分开了。 初步决定在 Maytag 和 LG 中再做挑选。需要进一步的证据,功能细节及其评价。 得,进一步挖掘,自家的工具不要钱,eating my own dog food,不用白不用。当然,这要等下回分解了。 【相关篇什】 《大数据时代的购物策略:洗衣机寻购记(2)》 《大数据时代的购物策略:洗衣机寻购记(3)》 洗衣机的“东西”观 【置顶:立委科学网博客NLP博文一览(定期更新版)】
美国的枪支管制自从上次小学校园惨案以后,再度提上日程,也成为社会媒体的热门话题。 有朋友要做这个课题,希望我帮助利用我们产品去挖掘社会媒体的网民呼声以及统计数据。结果出来以后,发现反对枪支管制的人还是多于支持管制的人,感觉很失望。 就我个人而言,我是恨透了美国的枪支泛滥,生活没有安全感。惨案后不久,有人在网络上征集签名提交给白宫网站,要求加强 枪支管制,我自然欣然参与。奥巴马连任后,开始把枪支管制和移民改革作为优先任务。他指派副总统拜登负责枪支管制事宜,白宫也想借助民意促成一些管制法令的通过。于是,我的电子邮箱,不时会收到从白宫发来的总统和副总统签字的信件,鼓励我们发出更大的呼声,形势似乎不错。 实际上,这条路还很长、很长。 以前以为,反对管制的主要是美国步枪协会和枪支制造销售商,现在发现美国社会普罗百姓对于枪支管制持怀疑反对的人也很不少。普遍流行的一个似是而非的观点是,枪不杀人,人杀人。没有枪,刀也杀人,石头也杀人,甚至拳头也杀人。如果这个道理成立的话,禁止核武器就完全没有理由了。人很多时候不是理性动物,高效杀人武器握在人手里就是个定时炸弹。 美国很多优点,是个比较理想的移民国家,但枪支泛滥是其为数不多的致命缺点之一。一黑遮百美,就凭枪支泛滥这一条,我劝尚在做美国梦的后生在最终决定移民前三思而行。在日本、新加坡的都市深夜(在我记忆中的祖国,也基本如此),甚至半夜也可以看到年轻女性行走在大街上,并没有恐惧感。这种事情在美国是不可思议的。 好了,不多说了,说起来烦死人。 还是面对现实吧。看下列从英文社会媒体挖掘出来的数据吧。 on gun control 日期: 02/05/2013 18:04:58 1. it is talked about most in the last 2-3 months ( 康州惨剧,总统掉眼泪之后引发的大讨论 ) 2. there was quite some discussion between July-Auguest last year (应该是 上次的 蝙蝠侠 恶性枪击事件引发的 ) 3. not a hot topic in other times So let us first focus on the last 3 months Gun Control topic 3-months summary 1. mentions: 1,409,922 2. impressions: 938,597,694 (we call social media reach, roughly eye-balls on this topic) 3. comments: 1,006,548 4. net sentiment: -21% (more people dislike gun control than support gun control, a REAL surprise to me) 5. positive mentions: 40,876 6. negative mentions: 62,199 Word Clouds of Top Terms and Top Attributes on Gun Control 支持和反对GC的主要理由,数据来源,主要作者,男女比例,Sample data 你看,反对枪支管制的最大理由是影响了守法公民的权利(这是宪法 第二 修正案所保障的:据说当年的宪法是怕政府暴政,所以要藏枪于民,人民在忍无可忍的时候,可以组成民兵,有个揭竿而起,造反有理的选项,听上去几乎就是列宁主义者的设计,吸收了 马列主义暴力革命的精髓。如今这条理由早已不适应时代了,谁要是相信美国会出现引发暴力革命并可以以暴力革命来摆平的暴政,那是红卫兵思维,脑筋有问题。最多也就是占领华尔街运动,和平请愿为主 )。你没事玩枪干嘛?即便打猎,当今社会提倡动物保护主义,你也无处可打啊。唯一拿得上台面的理由是自卫和阻遏。可是,一个社会倚仗个人武装来自卫,不是很滑稽可笑么。 其他的理由,正方反方大多针锋相对:支持管制者认为这样可以有效减少恶性事件 (effective solution / work well / reduce crime and violence) 和 拯救生命 (save life),反对者坚持说这根本不是解决途径(no solution / not solve anything / pointless / impossible / ineffective),也不能减少犯罪 (not reduce crime / not stop gun violence / not lower gun death), 甚至有说枪支管制反而会增加暴力犯罪 (increase violent crime),当然还有认为这个有缺陷的政策 (flawed policy) 是非法的 (illegal)。这些观点究竟得到多少认真研究此问题的专家数据的支持,不得而知。更多的情形是,多数人是屁股决定脑袋,先有自己的观点,然后选择性看待和解读数据。 The first sample sounds like sarcastic, not really supporting gun control per se . Not sure. Anyway, sarcasm remains difficult to decode (sometimes even human has difficulty). The second is a popular voice against gun control. 【置顶:立委科学网博客NLP博文一览(定期更新版)】
【Brand Passion Index 3: international fast food brands in China market face challenges】 Chinese Social Media Mining: Brand Passion Index for international fast food brands McDonald's, Pizza Hut, KFC and Yoshinoya in China. Fairly negative. The golden time when McDonald's and KFC first entered China market is gone with wind. In this country known for taste and delicacy , they face customers who are difficult to satisfy and severe competition from the inexpensive Chinese food from inside China. 从现在开始,【社媒挖掘】专栏打算每周至少发布一次以【品牌形象图】为主的社会媒体的自动调查报告,选取不同领域大众热议的流行品牌。大数据时代已经来临,社会媒体对我们日常生活以及企业发展的影响越来越大,利用自然语言技术深度挖掘社会媒体的舆论和情绪势在必行。否则企业和客户都会淹没在大数据的海洋中,盲人摸象,坐井观天:企业维护品牌形象很难,消费者选取品牌也会无所适从。我们这个系列同时可以作为语言技术展示的一个窗口。 今天要挖掘的 topic 是快餐行业的国际知名品牌。且看看它们在中国的口碑和形象如何。 所选的四家快餐品牌是麦当劳、肯德基、必胜客和吉野家。上图显示,肯德基最为人们热议(buzz),超过麦当劳。这一点与美国有鲜明对比,肯德基在美国本土根本 无法与快餐的航空母舰麦当劳相提并论,肯德基 现在只是一个小土豆,一度几乎破产(后来经过关并,与 Taco Bell 合营,以及自身改革,局面才有好转:改革包括在传统过分油腻的炸鸡之上,增加了口味也相当不错的 grilled chicken)。但这四家快餐店只有必胜客的形象还算正面,处于褒贬议论的中线上。其他三家均在中线之下,表明客户的抱怨多于喜爱。在舆论强度的轴上,麦当劳刚好在中线上,表明讨厌它咒骂它的人都不少,其他两家(肯德基和吉野家)尽管总体形象也是负面的,但大家抱怨的强度不烈。必胜客呢,虽然总体形象不错,却与吉野家一样处于情绪强度的最左边,说明喜欢它和抱怨它也都不激烈。下面是褒贬情绪的词云之一,绿褒红贬,没有什么大起大落: 更进一步,客户到底喜欢他们什么,又抱怨什么呢?我们把前三家快餐的前 15 项褒贬的缘由挖掘图示如下: 曾几何时,以国际餐饮大王麦当劳为代表的西方快餐店纷纷进军中国市场,后来东洋的吉野家也步其后尘,想分一杯羹。当年国门乍开,国人对西洋东洋的东西甚觉新鲜,清洁卫生规范快捷的外来快餐店在东土大受欢迎,一时门庭若市。还记得肯德基在北京刚开张的时候,我和领导全家拥进去吃肯德基的那种大快朵颐的开心。感觉上,那是我一辈子吃到的最美味的鸡(也奇怪了,后来来美国发现,肯德基味道大不如印象,老觉得是鸡原料不如东土的缘故)。岳母大人吃的很开心,说:这鸡比爷爷做得不差(领导家爷爷是北京名厨,在部机关掌厨,常为部长服务)。然而,中国毕竟是舌尖上的中国,中国人对吃最挑剔,最讲究。在食这一块儿,要想长期扎下去赚钱,与本土的各种经济便餐以及农家小菜竞争,其实并不容易。外来快餐,首先是价格上没有优势,其次是口味太单调。从上图也可以看出,老百姓对这些外来餐饮不满多於喜爱。 【数据来源】自动民调的数据来自中文世界社会媒体过往一年的档案,简体文档三亿五千万。 大约有一亿论坛帖子来自百度(贴吧等),两千多万来自搜狐,两千五百万来自天涯论坛。 【立委名言:技术改变世界,数据影响生活】 【置顶:立委科学网博客NLP博文一览(定期更新版)】
一个偶然的系统测试,暴露出百度与“哪里有小姐”身影相随。这个发现在朋友间立即引起轩然大波,有称妙的(way to go, u r onto sth),有调侃的(曰:百度本来就源自“众里寻她千百度”嘛),有怀疑的( the results are not faked? )。阴谋论者伊妹儿我,指责此云有侮辱百度之嫌。 我跟老友说:我没有结论。有牢骚的话也是借题发挥(讽刺据传是平西王当年以扫黄为名打压挤走谷歌,为百度开道),不是正经“结论”,不足采信。但是我有数据,怎么解读这个数据见仁见智。要想发现背后的真相,还需要一番深入调查的功夫。 先谈数据: 百度在所调查的一年跨度的社会媒体统计中共出现近 227 万次,其中“哪里有小姐”与它共现 50 万次,是关联度最高的 term (占据与其共现的 top 100 关联词语之首,share:22%),这就是词云出来的背景数据: 什么是词云呢? A word cloud displays the frequently occurring terms surfacing from a topic's text. 从一年到半年、三个月、一个月、一周、一日,永远是小姐为主题,邪门了 是不是百度上的某种广告,这么黏糊,百度甩也甩不开。竞价排名惹的祸? 请看六个月 的词云数据图: 三个月 的词云数据图: 一个月 的词云数据图: 一周的词云数据图: 一天 的词云数据图: 再看对同样的社会媒体同样的一年时段的“谷歌”的调查结果 谷歌 出现的总次数远不如 百度,只有 73万4千,但也足够多 到可以观察其关联词了 Let US Drill down: 百度小姐的真相在这里 是什么样的推手把 小姐 与 百度快照 弄得满世界都是 日期: 12/14/2012 17:40:43 一定是有人编制了程序,到各网站(包括宠物网站)张贴小姐的广告及其百度快照。 Drill down 发现很多链接,Spam 一样,点了链接进去大多已经失效了,大概已经被网管删除。 大概是删不胜删。 最后在百度直接做了一下“哪里有小姐”的搜索,果然是东土最响亮的广告词。 最后在百度直接做了一下“哪里有小姐”的搜索,果然是东土最响亮的广告词。 前一篇博文: 社会媒体测试知名品牌百度,有惊人发现 【置顶:立委科学网博客NLP博文一览(定期更新版)】
Different social images and social media sentiments for Ma Yingjiu, Taiwan President, and Chen Shuibian, Taiwan former president. 不同的社会媒体评价,截然不同的民间形象,台湾现总统马英九 vs 台湾前总统陈水扁,社会媒体自动分析的初步结果凸显二者的不同形象和风格。 (1) 高频情绪性词的词频分析的对照图示 (2) 高频褒贬描述性词的词频分析的对照图示 相关篇什: 研究发现,国人爱说反话:夸奖的背后藏着冷笑 【置顶:立委科学网博客NLP博文一览(定期更新版)】
拖了这么久,中文系统的初步试验终于开始 日期: 09/06/2012 21:04:35 本来核心系统的开发最难,最耗时间 ,结果在真实生活中,工程架构、存贮和搞定content这些纯技术性操作性环节往往也会成为时间瓶颈,怪也不怪。 这次试验只有海外twitter和百度贴吧天涯论坛等来源的半年数据,但做出的分析也蛮有意思。 I did a test on comparing Google and Baidu for side-by-side view of likes, dislikes, net sentiments, sources, etc. They make sense, even with such limited data. So to summarize the different opinions of these two search giants from social media in Chinese : 1. Google's net sentiment is very high, around 70 while Baidu's net sentiment is only 35: 谷歌社会评价度高出百度整整一倍! 2. most striking likes for Google are Cooperative, Innovation, Updated, Optimized and Robust. The likes for Baidu are optimized, updated, and new. The dislikes of Google are Monopoly, abandoning Android, cannot open it (that is in fact not a problem of Google, it is Chinese Great Wall's problem). The dislikes of Baidu are unstable, drop, and misleading. There are also a few obvious bugs too, like very easy misclassified as dislikes. 【置顶:立委科学网博客NLP博文一览(定期更新版)】
粗粗看了一下最近6个几度、6期的Government Information Quarterly(GIQ,政府信息季刊)上的文章,最近一期12篇文章有3篇讨论Social Media(社会媒体)在电子政务服务中的应用;所有6期近80篇文章中有1/5讨论体制问题对电子政务的影响;所有6期近80篇文章中有近一半讨论电子政务服务。