科学网

 找回密码
  注册

tag 标签: 社会媒体

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

广而告之:科学网“双百”博主立委四月一日在北京演讲大数据挖掘
热度 11 liwei999 2013-3-20 19:57
UPDATE:立委愚人节北京讲演时间地点已经确认,感谢中文信息学会孙教授的邀请和安排,也感谢董振东前辈教授的建议和推举: The loacation is : Room 334, 3rd floor, building 5 Institute of Software, Chinese Academy of Sciences, No. Zhongguancun South 4th Street 10:00~12:00 It's better you take the subway. And the nearest subway station of line 13 is 知春路 虽然在四月一日路过北平,但不是愚人节玩笑 :=), 具体地点和活动细节待确认后随时update Sentiment Mining from Chinese Social Media in Big Data Age by Wei Li, Ph.D. Computational Linguistics In this information age of big data, social media such as WeiBo (Micro-Blog, or Chinese twitter) is more and more influential. The popularity of mobile devices such as smart phones makes it possible for anyone to share his/her observation, experiences, opinions and sentiments any time anywhere in the social network such as WeiXin (or WeChat). The social media big data from WeiBo, WeiXin, Customer Review sites, Blogs and Forums are like a gold mine of intelligence, yet to be mined. They are in the form of natural language (Chinese in this case) and contain intelligence of public opinions and consumer sentiments on any topics, brands and products. Automated sentiment mining via Natural Language Processing (NLP) is a must-do if we (or businesses) do not want to be overwhelmed by the information overload. Dr. Li's talk will present the design philosophy behind such a sentiment mining system which he has designed and led the team to develop. He will first discuss the value and scope of NLP in sentiment extraction and mining, pros and cons between the rule based system and learning based classification, and different levels of sentiment mining in response to the various information needs. He will then demonstrate a list of real life Chinese social media hot topics as mined by the system to show the value and future of big data and NLP, in areas like automatic survey and social media listening and monitoring for consumer insights. 大数据时代中文社会媒体的舆情挖掘 李维 博士 随着大数据时代的到来,社会媒体(譬如 微博)的影响力日益增强。智能手机等移动设备的普及,使得普罗百姓的见闻、意见和情绪可以随时随地传达(譬如利用微信)。微博、微信、博客、论坛这些社会媒体大数据好像一座座富含情报的金山,等待我们去挖掘。在大数据面前,如果不想被信息爆炸淹没,就必然需要使用自动手段,尤其是可以用来自动抽取挖掘舆情的自然语言技术。 李博士的报告基于他主持开发的客户舆情自动抽取挖掘系统。报告分两大部分。第一部分阐述自然语言技术在舆情抽取中的应用范围,比较统计分类方法与规则系统方法的利弊,以及舆情分析的层级体系。第二部分通过一系列社会媒体热点话题的实例,展示大数据挖掘的价值和前景。 Dear Prof, Li, ...... the title and abstract of your talk in Chinese or English. And a simple cv of you. How about 10:00~12:00am ? About Dr, Li A hands-on computational linguist with nearly 30 years of professional experience in Natural Language Processing (NLP), Dr. Li has a track record of making NLP work robust. He has built three large-scale NLP systems, all transformed into real-life, globally distributed products. He is now Chief Scientist for a fast-growing Silicon Valley company which serves global Fortune 500 companies for consumer insights and social media monitoring. 【相关活动: 台北学术讲演谈中文语法分析 】 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|4962 次阅读|24 个评论
【社媒挖掘:“剩女”问题】
热度 9 liwei999 2013-3-4 16:00
【社媒挖掘:“剩女”问题】
今天科网的主题有点儿出乎预料(补记:其实也不奇怪,原来三八节眼看到了,真是老糊涂了),提到 外电报道中国的所谓剩女问题 。于是想到做一个自动社会调查,看看有什么新发现或启发。 我很讨厌剩女这个词,不仅仅是对大龄女青年有贬义的问题,而是汉语的造词法太过透明,造出这词对女同胞简直有侮辱之嫌。谁无姐妹,谁能保证自己的姐妹在转型期巨变的中国,就运气那么好,爱情婚姻就那么顺利。如果自己的姐妹一不留神就大龄了,非己所愿地单着,心疼还心疼不过来。看到这样扎眼的字眼,是不是恨不得去为姐妹决斗,废了这词。 然而,语言就是如此,剩女已经成为热词n多年了,它反映的社会问题是我们躲不开的。人类社会走到今天,男婚女嫁的自然关系变得越来越复杂。虽然婚姻的性爱基础不变,但从物质和精神上看,都是相互越来越挑剔。可是男女性别带来的心理差异以及男女客观社会地位的差异,使得现代社会(不仅限于中国)比古代更加注重男才(财)女貌,为此才(财)男宁愿下娶,可是女性的心理及其社会压力总是不能下嫁,结果造成了高学历大龄女青年与低学历男光棍的双重挤压,成为巨大的社会问题。这件事的尴尬在于,剩女和剩男处于社会的两极,虽然都躁动不安,向往婚姻,却天差地别,无法成双。 我们还是看看社会媒体中的议论吧。 最突出的一点是,很多人认为剩女问题是一个 伪问题 。我想这不是否认社会问题的存在,而是强调此问题不是剩不剩的问题,而是具有更深更复杂的社会成因。 高学历 (hence 高收入者 )果然与剩女紧密相连:这不但印证了我们每日所见的现实状况,而且指明了问题的主要社会原因:女方追求高学历的代价往往是耽误了自己的终身大事。在古代就没有这个问题,女子无才便是德,一般女子及其家庭对女子的教育都不很重视,社会对女子的期望也多在相夫教子、三从四德上,并不很在乎女子的才学。那样的环境下,一个长相平平的女子一般也会早早嫁给一个人家,根本等不到大龄的那一天。如今的时代,男女平等了,女性的自我意识和社会抱负也相应增长,于是越是聪明的女子,越不甘落后。可是,现代社会男性的择偶标准却依然停留在以前的观念上,依然是重貌(年轻水灵)重德远胜重才。其结果可想而知。 有意思的是,社会媒体对于“剩女”优缺点的调查其实是针对两个不同的概念。优点方面大多说的是“剩女”本人,因为这些所谓剩女其实资质才学都很不错,除了年龄偏大相貌平平外,剩女自身集中了相当多的优点,如下所示: 可是,当调查剩女的缺点时,社会媒体的指向却有所改变,议论的对象从剩女这个群体,大体转移到了社会。无论定性为 伪问题 也好,还是议论 造成剩女 的社会因素,主要着眼点都不仅仅是这个群体本身的问题。 没有时间 是忙于学业和工作的剩女的主要问题之一,但实际上也是社会使然:现代社会竞争日趋激烈,时间在学历和奋斗中很容易飞逝。就算忙里偷闲约会几次,恋爱几段,稍有差池,转眼30仍滞于婚姻殿堂以外自然不在少数(至于人为什么要结婚,独身也应该成为一种生活方式,那是另一个话题,以后再论:其实,西方社会的剩女似乎并没有中国的婚姻压力大,因此选择独身,收养子女的大有人在)。 这次匆匆的调查,没有什么惊人的发现,所反映的社会情绪,与我们平时的印象基本吻合。不过,看到这些舆情图示,还是有一种警示,感到一种沉沉的压力。问题是存在的、突出的、伤神伤心的,可是解决问题的方案却不甚了了。似乎也没有什么灵丹妙药医治这个现代社会的顽疾。 【数据来源】自动民调的数据来自中文世界社会媒体过往一年的档案,简体文档三亿五千万。 大约有一亿论坛帖子来自百度(贴吧等),两千多万来自搜狐,两千五百万来自天涯论坛。 科网今日主题: BBC关注中国“剩女”问题引社会热评 【“剩女”的去向和出路(1)】 【“剩女”的去向和出路(2)】 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 社媒挖掘|16762 次阅读|13 个评论
《大数据时代的购物策略:洗衣机寻购记(1)》
热度 8 liwei999 2013-2-25 21:07
ABSTRACT Brand Passion Index (BPI) is used to help us make an informed decision in our on-going purchase of a new washer. Using our own product, we generated two BPIs, one to compare the major washer brands in the US market and the other to compare front loading vs. top loading. With the collective consumer insights in mind, we have narrowed our choices to front loading Maytag or LG. This is a live case of big data win.. 最近决定要购买一套最新洗衣机烘干机,不求最贵,务求最好。领导清洗老洗衣机不胜其烦(也不老,才用了两年),说这次一定要看准品牌买,绝不上当。两年前的洗衣机是人送的杂牌,不是自选的,没有品牌选择的过程。结果,虽然衣服洗出来确实很干净,但问题也不少。除了噪音颇大外,还存在难以容忍的缺陷:门圈藏污纳垢,似有霉变,难于清洗,于是想到,淘汰他个,一了百了。 于是请教老友,有竭力推荐 Maytag 品牌者,尽数其洗衣有如神功,安静、省水、无损,洗衣干净透亮,比当年浣女棒槌槌出来的还牛。隔在以前,有这样可信老友的竭力推荐,我直接下单买了就是,可如今不同了,信息社会,还是多听听多比较,才能确保心安(to make an informed decision)。洗衣机不大不小,每日相伴,基本功能大同小异,但是买错了也不好退回去,只有像以前一样将就用,一用就是n年,烦不烦。 有道是,书上得来终觉浅,口碑虽好量太少,只有一二老友而已。 (老友的推荐可以加权,一句顶10句,或100句,但是还有千百万的品牌舆情在,至少也该综合一下情报不是?) 咋办? 求助大数据(BIG data)。 大数据里面有的是“口碑”,散落在社会媒体各处。人的本性之一就是说话,古今中外概莫能外。家庭主妇为最,唠叨是其生存的方式和重要理由(之一):甭管是喜爱还是抱怨,不说就会憋死。前信息时代,唠叨也就唠叨了,说出的话,与泼出的水一样,gone with wind,随风蒸发,毫无价值。如今不同了,有社会媒体和智能手机,甭管你多婆婆妈妈,围脖也好,Facebook也罢,都有档案在,均可以转化为宝贵的情报,关键是要有挖掘的功力。 人是不行的,但机器人如 NLP (Natural Language Processing)是可以的,不信咱们拿它来挖挖看,现场演示一下我学(行)了一辈子的 NLP 如何帮助领导尚在进行中的决策,来一个活生生的技术改变世界和你我的示范。 第一步,领导要先了解一下洗衣机主要品牌的社会总体评价及其比较。没问题,我们独家NLP技术支持的系统,就有这个功能,可以随时生成任何产业的【多品牌舆情图】。只要把几个美国市场的品牌送进去,图表就出来了。 上图依据海量挖掘的 社会媒体口碑(数据见下),对 美国家电市场洗衣品牌排座次,关注度、褒贬度以及热情度三维并列、二维展示,不仅一目了然,而且也颇性感养眼,不是? 从上面的图示我(你)们看到了什么? 有说看到了科学的力量,那你是科学主义者。说看到了技术的力量,那你就是又一个立委。领导看到的既不是科学也不是技术,而是恍然大悟:眼前一亮,原来如此;再接再厉,继续挖掘。 领导说,不怪老友推荐 Maytag,你看Maytag 位于舆情图最左边,说明喜欢它的客户都很粉它,大概与苹果迷喜爱爱疯类似,说明该品牌一定有迷人之处。但褒贬指数 Maytag 却不是最高,在它之上的还有 LG,虽然不如喜欢 Maytag 那么狂热,但LG综合品质显然独占鳌头。这有点儿意外。 领导继续说,更加意外的是,没想到 Whirlpool 的客户评价这么低,差不多落到了 GE 的档次。昨天去家电中心,售货员还说 Maytag 就是 Whirlpool,一回事,都是 Whirlpool 公司所产,没想到二者在客户心目中的地位完全不同。所以,作为决策的第一步,Whirlpool 已经出局,绝对不听售货员的推荐买它。( 后来与老友印证了这两个品牌的关系,原来 Maytag 就好比丰田产的豪华档凌志,而 Whirlpool 则是大众档 Camry 或经济档 Corrolla,完全不在一个层次。) 第三个启发是,北美专业洗衣店使用最广泛的 Kenmore 品牌,评价也不高,只比三星略强,因此也差不多出局了。店员跟我们说的是,Kenmore 品牌洗衣机其实是 LG 产的(就如 Maytag 是 Whirlpool 所产一样),但是舆情却把二者明显分开了。 初步决定在 Maytag 和 LG 中再做挑选。需要进一步的证据,功能细节及其评价。 得,进一步挖掘,自家的工具不要钱,eating my own dog food,不用白不用。当然,这要等下回分解了。 【相关篇什】 《大数据时代的购物策略:洗衣机寻购记(2)》 《大数据时代的购物策略:洗衣机寻购记(3)》 洗衣机的“东西”观 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 社媒挖掘|14197 次阅读|14 个评论
【社媒挖掘:社会媒体眼中的李开复老师】
热度 5 liwei999 2013-2-19 17:55
【社媒挖掘:社会媒体眼中的李开复老师】
据说李开复老师最近又成了社会媒体的热点,好象是发了什么帖子批评政府对企业的干涉,被禁声了,因此引起网友的强烈反弹。毕竟是具有几千万粉丝的网络巨星。 我对这具体事件兴趣不大,但是对开复老师很仰慕,也在微博上一直追随关注他。于是想到去挖掘一下作为知名公众人物的开复老师的社会媒体舆论。不查不知道,一查心一跳,连开复这样的导师也毁誉参半(褒贬净情绪指数为 -3,说明贬多于褒),可见是树大招风。 李开复老师是IT业的大英雄,他在苹果、微软和谷歌三大公司的穿梭传奇激励过无数青年学子。我接触过开复老师身边的一些助手和学生,他们也都很折服老师的学识和远见。 开复老师一向给人以谦谦君子的儒雅导师印象,可到了网上,一样会受到很多指责批评,我觉得与他平时比较高调有关:东方传统,高调总是不怎么讨喜。 开复老师不甘寂寞,拥抱新潮流,在社会媒体热络的现在,开复老师是身体力行的弄潮儿。这样的新潮导师大概难免遭遇批评。 我们来看看抽取提炼出来的网上舆情吧。 从网民好恶来看,批评他的声音显然盖过了赞誉。赞扬他的话语大多是套话,肯定的是他的地位(知名人士/首席执行官/导师)。可是,批评他的声音却具体得多(当然也不排除恶意造谣、谩骂和攻击)。 特别是最后这张好恶(likes/dislikes)理由对比图,主调是贬,红呼呼一片谴责之声,是不是有些令人吃惊?开复老师到底怎么得罪网民了,还是中国文化的酱缸性质容不下张扬一点的英雄? 搞不懂。 【数据来源】自动民调的数据来自中文世界社会媒体过往一年的档案,简体文档三亿五千万。 大约有一亿论坛帖子来自百度(贴吧等),两千多万来自搜狐,两千五百万来自天涯论坛。 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 社媒挖掘|6099 次阅读|6 个评论
【舆情挖掘:2013央视春晚播后】
热度 3 liwei999 2013-2-15 04:50
【舆情挖掘:2013央视春晚播后】
春晚全球直播已经一周了,想到该做一次播放以后的舆情调查,看看今年的春晚到底效果如何。年三十播放之前,立委做过一次这样的 自动调查 ,有兴趣的网友可以做个比照。 总体而言,这次春晚反应似乎不错,网友的净情绪(net sentiment,即热度)从播放前的50略微上升到52,说明2013春晚并没有像以前很多次春晚一样,播放后立即带来正不压反的负面情绪大泛滥,似乎摆脱了往年的看前期许过高,看后破口大骂的怪圈。 喜欢 春晚的呼声远远高过 吐槽 或抱怨。 请看播放一周来的舆情晴雨表: 请细看这个随时间记录的舆情 trends 曲线(我把它叫做 晴雨表)。二月八日(对不起,本系统还是alpha试运行,日期显示有些欧化的怪:8-2月 instead of 2月8日;另外最近调试发现,净情绪指标一直相当可靠,但是热情强度指标有个 bug,使得晴雨表的部分强度展示为0,不足采信:请暂时忽略为0的热情强度)是春晚直播的日子,播放后的24小时,网友的情绪走低,大概是部分网友的习惯性反弹,总觉得春晚不如预期的精彩,媒体此前炒得也太热,普罗百姓中急性子着急要发牢骚。可是此后不久,舆情逐渐上升稳定下来,较好的正面呼声远远压倒了负面情绪,说明多数观众还是持欣赏态度的。 就我个人观 感 而言(我前后断续看了三遍,看得比较仔细,也很放松,反正流浪海外的人过年也没国内那么多热闹要赶),我与多数网友有同感,这次春晚相当成功。不说舞台美工的赏心悦目,不说央视春晚的宏大气势,多数节目都有自己的看点,真正的败笔为数很小,等我有空详细道来。咱们还是先看大众怎样看这次春晚的优点缺点吧。 下面是网友热议的2013央视春晚的亮点和败笔(likes dislikes ): 【立委名言:you air your voice, we listen】 【相关篇什】 【 舆情挖掘:年三十挖一挖央视春晚 】 【 立委科普:舆情分类系统的挑战 】 【 立委 科普:舆情挖掘的背后 】 科学网 —《 立委 随笔:2008 春晚 》 - 李维的博文 《 立委点评:春晚:一年一大餐,不吃想得慌,吃了气鼓胀 》 立委 点评: 春晚 :一年一大餐,不吃想得慌,吃了口更馋 - 科学网 —博客 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 社媒挖掘|6722 次阅读|7 个评论
【社媒挖掘:美国的枪支管制任重道远】
热度 9 liwei999 2013-2-6 09:39
【社媒挖掘:美国的枪支管制任重道远】
美国的枪支管制自从上次小学校园惨案以后,再度提上日程,也成为社会媒体的热门话题。 有朋友要做这个课题,希望我帮助利用我们产品去挖掘社会媒体的网民呼声以及统计数据。结果出来以后,发现反对枪支管制的人还是多于支持管制的人,感觉很失望。 就我个人而言,我是恨透了美国的枪支泛滥,生活没有安全感。惨案后不久,有人在网络上征集签名提交给白宫网站,要求加强 枪支管制,我自然欣然参与。奥巴马连任后,开始把枪支管制和移民改革作为优先任务。他指派副总统拜登负责枪支管制事宜,白宫也想借助民意促成一些管制法令的通过。于是,我的电子邮箱,不时会收到从白宫发来的总统和副总统签字的信件,鼓励我们发出更大的呼声,形势似乎不错。 实际上,这条路还很长、很长。 以前以为,反对管制的主要是美国步枪协会和枪支制造销售商,现在发现美国社会普罗百姓对于枪支管制持怀疑反对的人也很不少。普遍流行的一个似是而非的观点是,枪不杀人,人杀人。没有枪,刀也杀人,石头也杀人,甚至拳头也杀人。如果这个道理成立的话,禁止核武器就完全没有理由了。人很多时候不是理性动物,高效杀人武器握在人手里就是个定时炸弹。 美国很多优点,是个比较理想的移民国家,但枪支泛滥是其为数不多的致命缺点之一。一黑遮百美,就凭枪支泛滥这一条,我劝尚在做美国梦的后生在最终决定移民前三思而行。在日本、新加坡的都市深夜(在我记忆中的祖国,也基本如此),甚至半夜也可以看到年轻女性行走在大街上,并没有恐惧感。这种事情在美国是不可思议的。 好了,不多说了,说起来烦死人。 还是面对现实吧。看下列从英文社会媒体挖掘出来的数据吧。 on gun control 日期: 02/05/2013 18:04:58 1. it is talked about most in the last 2-3 months ( 康州惨剧,总统掉眼泪之后引发的大讨论 ) 2. there was quite some discussion between July-Auguest last year (应该是 上次的 蝙蝠侠 恶性枪击事件引发的 ) 3. not a hot topic in other times So let us first focus on the last 3 months Gun Control topic 3-months summary 1. mentions: 1,409,922 2. impressions: 938,597,694 (we call social media reach, roughly eye-balls on this topic) 3. comments: 1,006,548 4. net sentiment: -21% (more people dislike gun control than support gun control, a REAL surprise to me) 5. positive mentions: 40,876 6. negative mentions: 62,199 Word Clouds of Top Terms and Top Attributes on Gun Control 支持和反对GC的主要理由,数据来源,主要作者,男女比例,Sample data 你看,反对枪支管制的最大理由是影响了守法公民的权利(这是宪法 第二 修正案所保障的:据说当年的宪法是怕政府暴政,所以要藏枪于民,人民在忍无可忍的时候,可以组成民兵,有个揭竿而起,造反有理的选项,听上去几乎就是列宁主义者的设计,吸收了 马列主义暴力革命的精髓。如今这条理由早已不适应时代了,谁要是相信美国会出现引发暴力革命并可以以暴力革命来摆平的暴政,那是红卫兵思维,脑筋有问题。最多也就是占领华尔街运动,和平请愿为主 )。你没事玩枪干嘛?即便打猎,当今社会提倡动物保护主义,你也无处可打啊。唯一拿得上台面的理由是自卫和阻遏。可是,一个社会倚仗个人武装来自卫,不是很滑稽可笑么。 其他的理由,正方反方大多针锋相对:支持管制者认为这样可以有效减少恶性事件 (effective solution / work well / reduce crime and violence) 和 拯救生命 (save life),反对者坚持说这根本不是解决途径(no solution / not solve anything / pointless / impossible / ineffective),也不能减少犯罪 (not reduce crime / not stop gun violence / not lower gun death), 甚至有说枪支管制反而会增加暴力犯罪 (increase violent crime),当然还有认为这个有缺陷的政策 (flawed policy) 是非法的 (illegal)。这些观点究竟得到多少认真研究此问题的专家数据的支持,不得而知。更多的情形是,多数人是屁股决定脑袋,先有自己的观点,然后选择性看待和解读数据。 The first sample sounds like sarcastic, not really supporting gun control per se . Not sure. Anyway, sarcasm remains difficult to decode (sometimes even human has difficulty). The second is a popular voice against gun control. 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 社媒挖掘|8610 次阅读|15 个评论
【社媒挖掘:外来快餐店风光不再】
热度 7 liwei999 2013-2-2 08:57
【社媒挖掘:外来快餐店风光不再】
【Brand Passion Index 3: international fast food brands in China market face challenges】 Chinese Social Media Mining: Brand Passion Index for international fast food brands McDonald's, Pizza Hut, KFC and Yoshinoya in China. Fairly negative. The golden time when McDonald's and KFC first entered China market is gone with wind. In this country known for taste and delicacy , they face customers who are difficult to satisfy and severe competition from the inexpensive Chinese food from inside China. 从现在开始,【社媒挖掘】专栏打算每周至少发布一次以【品牌形象图】为主的社会媒体的自动调查报告,选取不同领域大众热议的流行品牌。大数据时代已经来临,社会媒体对我们日常生活以及企业发展的影响越来越大,利用自然语言技术深度挖掘社会媒体的舆论和情绪势在必行。否则企业和客户都会淹没在大数据的海洋中,盲人摸象,坐井观天:企业维护品牌形象很难,消费者选取品牌也会无所适从。我们这个系列同时可以作为语言技术展示的一个窗口。 今天要挖掘的 topic 是快餐行业的国际知名品牌。且看看它们在中国的口碑和形象如何。 所选的四家快餐品牌是麦当劳、肯德基、必胜客和吉野家。上图显示,肯德基最为人们热议(buzz),超过麦当劳。这一点与美国有鲜明对比,肯德基在美国本土根本 无法与快餐的航空母舰麦当劳相提并论,肯德基 现在只是一个小土豆,一度几乎破产(后来经过关并,与 Taco Bell 合营,以及自身改革,局面才有好转:改革包括在传统过分油腻的炸鸡之上,增加了口味也相当不错的 grilled chicken)。但这四家快餐店只有必胜客的形象还算正面,处于褒贬议论的中线上。其他三家均在中线之下,表明客户的抱怨多于喜爱。在舆论强度的轴上,麦当劳刚好在中线上,表明讨厌它咒骂它的人都不少,其他两家(肯德基和吉野家)尽管总体形象也是负面的,但大家抱怨的强度不烈。必胜客呢,虽然总体形象不错,却与吉野家一样处于情绪强度的最左边,说明喜欢它和抱怨它也都不激烈。下面是褒贬情绪的词云之一,绿褒红贬,没有什么大起大落: 更进一步,客户到底喜欢他们什么,又抱怨什么呢?我们把前三家快餐的前 15 项褒贬的缘由挖掘图示如下: 曾几何时,以国际餐饮大王麦当劳为代表的西方快餐店纷纷进军中国市场,后来东洋的吉野家也步其后尘,想分一杯羹。当年国门乍开,国人对西洋东洋的东西甚觉新鲜,清洁卫生规范快捷的外来快餐店在东土大受欢迎,一时门庭若市。还记得肯德基在北京刚开张的时候,我和领导全家拥进去吃肯德基的那种大快朵颐的开心。感觉上,那是我一辈子吃到的最美味的鸡(也奇怪了,后来来美国发现,肯德基味道大不如印象,老觉得是鸡原料不如东土的缘故)。岳母大人吃的很开心,说:这鸡比爷爷做得不差(领导家爷爷是北京名厨,在部机关掌厨,常为部长服务)。然而,中国毕竟是舌尖上的中国,中国人对吃最挑剔,最讲究。在食这一块儿,要想长期扎下去赚钱,与本土的各种经济便餐以及农家小菜竞争,其实并不容易。外来快餐,首先是价格上没有优势,其次是口味太单调。从上图也可以看出,老百姓对这些外来餐饮不满多於喜爱。 【数据来源】自动民调的数据来自中文世界社会媒体过往一年的档案,简体文档三亿五千万。 大约有一亿论坛帖子来自百度(贴吧等),两千多万来自搜狐,两千五百万来自天涯论坛。 【立委名言:技术改变世界,数据影响生活】 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 社媒挖掘|8882 次阅读|14 个评论
新年新打算:【社媒挖掘】专栏开张大吉
热度 2 liwei999 2012-12-30 04:37
新年新打算:【社媒挖掘】专栏开张大吉
社会媒体印象(词云) 【立委按】我有一位很谈得来的同事,美国名校高材生,也曾是我的老板之一。六年多前是他不懈地紧追,每日一电,诚心可鉴,使我下决心加入了这家创业公司。他为人谦逊心细,对客户温情有加,我们没事儿聊天经常谈起产品的新想法。他最常说的话之一就是,eat your own dog food. 意思是,对于一个热衷高技术的人,对于自己开发的产品要有充分的信心,无论在开发过程中还有多少不完善、不尽如人意的地方,首先自己要时时刻刻的想到使用它,积累第一手的实际操作经验。如果自己的产品自己都不愿意用,这样的产品还有什么前途呢?圣诞已过,新年新打算,特开辟专栏【 社媒挖掘 】,利用自己主持开发中的中文社会媒体舆情挖掘系统追踪社会热点话题。特此通告,敬请垂注。所有话题的数据情报全部为电脑自动抽取整合,用的 是我们独家语言技术, 无任何人工干预 (of course, 对所挖数据情报的解说自然是主观的:不同的人对同样的世界的认识角度和理解不可能相同,也因此世界才变得多维、多层次,有新意)。除非特别说明,目前的数据源来自中文世界社会媒体过往一年的档案,繁体约五千五百万文档,简体文档高达三亿五千万。 大约有一亿论坛帖子来自百度(贴吧等),两千多万来自搜狐,两千五百万来自天涯论坛。 数据总量的70%为论坛的帖子,15% 来自博客。比较遗憾的是,社会媒体中影响最大的微博数据由于技术性原因暂时还未进入分析和索引。 【社媒挖掘专栏】网址在: http://blog.sciencenet.cn/home.php?mod=spaceuid=362400do=blogclassid=161685view=me 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 社媒挖掘|5134 次阅读|4 个评论
新鲜出炉:2012 热点话题五大盘点之四【三星vs苹果】
热度 1 liwei999 2012-12-29 15:11
新鲜出炉:2012 热点话题五大盘点之四【三星vs苹果】
【四】 三星和苹果,谁主沉浮? 做了N年的苹果饭,从乔布斯二进宫把苹果从 几乎破产边缘挽救出来那时候就开始,不知道给苹果贡献了了多少银子,单 iPod 就买了一两打,自用送礼加更新。 开始注意三星还是前不久的事情,苹果诉讼三星侵权的官司闹得沸沸扬扬,以苹果胜诉结束(于是它乘胜追击,企图在美国全面禁止三星手机,终因剥夺用户的选择权而败诉)。三星不服,网上有很多搞笑的三星取笑苹果的段子。 于是开始注意敢于与苹果叫板的三星。Mall 里面离苹果专卖店不远有三星临时设的铺子,展示其手机和平板。不试不知道,一试吓一跳。有些地方感觉比苹果还好。莫非 20 年河东河西,走上坡的三星,some day 要取代苹果? 一直以为苹果是打不败的巨无霸,其市值今年一度超过了微软和谷歌的总和。据报道,单 iPhone 一项的营销收入就赛过微软所有产品之和,包括每机必备的视窗和Office,包括企业软件,还包括最终挽救了微软帝国的游戏。 苹果把微软远远抛在后面(除了游戏以外)。谷歌似乎也无力抗衡它,虽然开放平台的 Android 装机量比封闭的 iOS 越来越大。从现在的态势看,只有三星有可能拿下苹果,或者稳拉第二小提琴。 于是,今天测试我们刚开发的中文系统,我就想看看究竟社会媒体对二者的评价和反应如何。 先看这些喜欢和讨厌的的大体比例:左图是品牌在社会媒体中的关联词云,右图是喜欢/讨厌的表述及其程度(字体越大,表述越多)。 所有图示中的颜色是:红贬绿褒,无论主观情绪还是客观理由。 情绪上,三星不让苹果。虽然二者褒贬各半,但三星的绿色也很耀眼。 再看人们为什么 喜欢/讨厌 苹果/三星? 从理由上看,专利官司输了是最大的不利因素,而喜欢三星的最大理由是其“标准的显示器”。而苹果还是长于“新”字,令人意外的是“便宜”居然成为其风行的一个理由。(以前还以为,三星是以便宜取胜苹果。) 这次测试的社交媒体数据跨度一年,苹果有 195 万个例证,三星有 108 万。苹果的褒贬指数(大体是褒减去贬后的一个指标,Net Sentiment)为 39%,落后于三星的褒贬指数 53% 不少。二者的热度(passion intensity)不相上下,苹果为27,三星26. 总的印象是,后来者可畏,三星不可小觑。 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 社媒挖掘|4924 次阅读|1 个评论
圣诞社媒印象: 简体世界狂欢,繁體世界分享。
liwei999 2012-12-26 05:27
圣诞社媒印象: 简体世界狂欢,繁體世界分享。
狂欢 vs. 分享 狂欢也应该,劳苦一年了。 不过,当然是分享高出狂欢一头。 狂欢没有问题,狂到找哪里有小姐就有些过了。 大众心理里,圣诞节的 pros and cons 呢? 商品社会嘛,离不开打折! 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 社媒挖掘|4127 次阅读|0 个评论
尝试揭秘百度的“哪里有小姐”: 小姐年年讲、月月讲、天天讲?
liwei999 2012-12-14 15:41
尝试揭秘百度的“哪里有小姐”: 小姐年年讲、月月讲、天天讲?
一个偶然的系统测试,暴露出百度与“哪里有小姐”身影相随。这个发现在朋友间立即引起轩然大波,有称妙的(way to go, u r onto sth),有调侃的(曰:百度本来就源自“众里寻她千百度”嘛),有怀疑的( the results are not faked? )。阴谋论者伊妹儿我,指责此云有侮辱百度之嫌。 我跟老友说:我没有结论。有牢骚的话也是借题发挥(讽刺据传是平西王当年以扫黄为名打压挤走谷歌,为百度开道),不是正经“结论”,不足采信。但是我有数据,怎么解读这个数据见仁见智。要想发现背后的真相,还需要一番深入调查的功夫。 先谈数据: 百度在所调查的一年跨度的社会媒体统计中共出现近 227 万次,其中“哪里有小姐”与它共现 50 万次,是关联度最高的 term (占据与其共现的 top 100 关联词语之首,share:22%),这就是词云出来的背景数据: 什么是词云呢? A word cloud displays the frequently occurring terms surfacing from a topic's text. 从一年到半年、三个月、一个月、一周、一日,永远是小姐为主题,邪门了 是不是百度上的某种广告,这么黏糊,百度甩也甩不开。竞价排名惹的祸? 请看六个月 的词云数据图: 三个月 的词云数据图: 一个月 的词云数据图: 一周的词云数据图: 一天 的词云数据图: 再看对同样的社会媒体同样的一年时段的“谷歌”的调查结果 谷歌 出现的总次数远不如 百度,只有 73万4千,但也足够多 到可以观察其关联词了 Let US Drill down: 百度小姐的真相在这里 是什么样的推手把 小姐 与 百度快照 弄得满世界都是 日期: 12/14/2012 17:40:43 一定是有人编制了程序,到各网站(包括宠物网站)张贴小姐的广告及其百度快照。 Drill down 发现很多链接,Spam 一样,点了链接进去大多已经失效了,大概已经被网管删除。 大概是删不胜删。 最后在百度直接做了一下“哪里有小姐”的搜索,果然是东土最响亮的广告词。 最后在百度直接做了一下“哪里有小姐”的搜索,果然是东土最响亮的广告词。 前一篇博文: 社会媒体测试知名品牌百度,有惊人发现 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 社媒挖掘|8461 次阅读|0 个评论
社会媒体测试知名品牌百度,有惊人发现
热度 2 liwei999 2012-12-13 08:54
社会媒体测试知名品牌百度,有惊人发现
今天测试知名品牌百度的TagCloud,有惊人发现 日期: 12/12/2012 18:51:14 在简体字的world里面,与百度最紧密关联的词语是: 哪里有小姐 在繁体字的 world,最关联的词是 美元 不知怎么就想起了 Google 被赶出中国前对谷歌的指责:说 Google 太黄了。 黄得过百度么? A follow-up post at: 小姐年年讲、月月讲、天天讲? 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 社媒挖掘|4351 次阅读|3 个评论
【『科学』预测:A-股 看好】
热度 1 liwei999 2012-12-4 13:37
【『科学』预测:A-股 看好】
有什么大众话题想要测试我的中文系统么? 作者: 立委 日期: 12/03/2012 17:40:25 RE: 老李,你这玩意儿能不能用来炒股啊?要是能预测股票走向,哪怕一点点,就牛大了。 能啊。见图: 自动舆情监测分析表明:A-股 看好 哎!!! 那谁谁,还不进场!据说外资已经陆续到位抄底了呢。股市应该不久会反弹。 【免责声明】 舆情检测虽然大数据,很客观,无人为干扰,但是过去和现在的舆情不能成为未来预测的保证。有网友听信陪钱,概不负责。 但有听信而赚钱者,务请捐款1/10至:大数据NLP立委基金,c/o 通天塔委员会 @ 牛市。 【立委名言】总统人气犹可预测,况股市走向乎? 想起前不久总统竞选辩论来。两位总统候选人比着对中国强硬。这是美国政客惯用的竞选伎俩。由于种种原因,起飞中的中国在美国选民中隐隐成为某种威胁,对中国强硬有利于吸引选票。在野总统候选人打中国牌比较有利,因为他不必顾忌对中国现实贸易的相互依赖和利害关系。于是,罗姆尼一直批评奥巴马对中国太软弱,宣称他一旦当选,就立即宣布中国是汇率操纵国,列入操纵者黑名单意味着贸易制裁的强硬态度。奥巴马反守为攻,辩论中告诉听众,千万不要相信罗姆尼的口头激进。他指着罗姆尼说:他对中国最不可能强硬,因为亿万家财的罗姆尼有大笔投资在中国呢。罗姆尼急了,反驳说,你奥巴马回去查查你自己的退休基金的流向,我担保里面有中国概念股,这么说你也有中国投资,因此影响你对中国的政策,笑话嘛。 确实,资本唯利是图。投资理财的美国资本顾问,一个个猴精,一方面不断唱衰中国,一方面绝不会放过中国经济这块蛋糕。一边把中国概念股系列弄得垃圾似的,一方面又不失时机进来抄底。总统候选人怎么可能摘得清呢。 【相关】 到底社媒曲线与股市曲线有没有、有多少相关度? 转载]ZT:牛津大学王宁博士:大数据与有限理性 舆情挖掘用于股市房市预测靠谱么? 【舆情挖掘:房市总体看好】 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 社媒挖掘|4306 次阅读|1 个评论
社会媒体舆情自动分析:马英九 vs 陈水扁
liwei999 2012-9-29 16:51
Different social images and social media sentiments for Ma Yingjiu, Taiwan President, and Chen Shuibian, Taiwan former president. 不同的社会媒体评价,截然不同的民间形象,台湾现总统马英九 vs 台湾前总统陈水扁,社会媒体自动分析的初步结果凸显二者的不同形象和风格。 (1) 高频情绪性词的词频分析的对照图示 (2) 高频褒贬描述性词的词频分析的对照图示 相关篇什: 研究发现,国人爱说反话:夸奖的背后藏着冷笑 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 社媒挖掘|4966 次阅读|0 个评论
舆情自动分析表明,谷歌的社会评价度高出百度一倍
liwei999 2012-9-8 20:32
拖了这么久,中文系统的初步试验终于开始 日期: 09/06/2012 21:04:35 本来核心系统的开发最难,最耗时间 ,结果在真实生活中,工程架构、存贮和搞定content这些纯技术性操作性环节往往也会成为时间瓶颈,怪也不怪。 这次试验只有海外twitter和百度贴吧天涯论坛等来源的半年数据,但做出的分析也蛮有意思。 I did a test on comparing Google and Baidu for side-by-side view of likes, dislikes, net sentiments, sources, etc. They make sense, even with such limited data. So to summarize the different opinions of these two search giants from social media in Chinese : 1. Google's net sentiment is very high, around 70 while Baidu's net sentiment is only 35: 谷歌社会评价度高出百度整整一倍! 2. most striking likes for Google are Cooperative, Innovation, Updated, Optimized and Robust. The likes for Baidu are optimized, updated, and new. The dislikes of Google are Monopoly, abandoning Android, cannot open it (that is in fact not a problem of Google, it is Chinese Great Wall's problem). The dislikes of Baidu are unstable, drop, and misleading. There are also a few obvious bugs too, like very easy misclassified as dislikes. 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 社媒挖掘|7593 次阅读|0 个评论
方韩大战的舆情自动分析:小方的评价比韩少差太多了
热度 1 liwei999 2012-9-8 20:11
非常初步的有限范围试验表明,方韩大战(其实也没有真大战过, 基本是小方的单方面攻击 ,从代笔到身高,无所不用其极,加上双方粉丝的大打出手)的舆情自动分析结果是:小方的评价比韩少差太多了。这次试验的数据来源主要是 Twitter,天涯论坛、百度贴吧等,时间跨度大约半年,今年四月到九月。整个过程全自动,没有参杂任何人工干预,比较的结论对于进入视野的数据应该是客观的。因为即便系统有缺陷,那对于所比双方及其数据也是一视同仁(黑)的。 国内最火的新浪微博、腾讯微信等暂时 out of reach,很遗憾。 小方评价比韩寒低太多了 作者: 立委 日期: 09/06/2012 21:21:27 所谓 net sentiment 大体上就是正面评价减去负面 评价的一个指标,小方是大负数,零下41度,小韩略大于零,毁誉参半。哈哈 再看各位的褒贬评价语的分布。 MD, 要是新浪微薄能算进来就好了 Download 方寒大战高频情绪性词的词频分析 日期: 09/20/2012 17:48:03 骂小方的前15高频情绪性用词的词频分析发现“不正常”高居首位: (方)不正常 (16.9%) 不喜欢 (方) (14.3%) 反对(方) (13.0%) (方)更烂 (9.1%) (方)讨厌 (7.8%) 难 (6.5%) 不支持(方) (5.2%) (方)果然够下贱 (3.9%) 骂韩少的前15高频情绪性用词的词频分析:第一位是“差”,第二位是“骗子” (韩)差 (20.0%) (韩)骗子 (17.9%) (韩)不尊重 (14.3%) 不相信(韩) (8.6%) 不喜欢(韩) (5.7%) (韩)造假 (5.0%) 问: 你的机器看得懂谁是撒旦海珊吗? 能,社会评价度低于零下70度是人民公敌,天怒人怨,等价于撒旦 。:=) 小方还好,才零下41度。 系统里面有一个对译词表 台湾译名与大陆译名不一致的在这里统一: 萨达姆:撒旦海珊 // Saddam Hussein 萨芬:沙芬 // Marat Safin 舒马赫:舒麥加 舒馬克 // Michael Schumacher 迈克尔:米高 麥克 // Michael Schumacher 斯大林:史達林 史太林 // Stalin 托洛茨基:托洛斯基 // Trotsky ...... 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 社媒挖掘|8413 次阅读|1 个评论
研究发现,国人爱说反话:夸奖的背后藏着嘲讽
热度 1 liwei999 2012-9-8 19:45
研究发现,国人爱说反话:夸奖的背后藏着嘲讽
国人爱说反话:夸奖的背后藏着冷笑,社会媒体尤其如此 作者: 立委 (*) 日期: 09/07/2012 15:42:32 大陆政客属于敏感词,这里不表。以台湾政客为例, 譬如说陈水扁是“中国最清廉的总统”,就明显是反话。 It is interesting to find that many positive comments about A Bian are sarcastic. In this test, the positive comments (likes) of Ma Yingjiu seem to be indeed positive. BUT 下面这段文字骂马英九,可是却以赞美的假言。 机器处理起来,很烦人。 define a topic for馬英九, most negatives are correct, but positives and neutrals are bad. Here are some sample sentences: • 馬總統干的好! 明天油價95一次漲3.1元,5月漲電費,那6月就改換漲水費吧~最好是行、衣、住、行全來給他大漲,這樣他的荷包才能賺的飽飽的,趁這四年好好大賺一筆,四年做滿後就能安心的退休去了~ • 不好意思我家連張機票錢都買不起,請問哪個國家接受偷渡過去打工的啊?? 馬總統介紹一下好咩? 還參加救國團? • 喜歡聼好話是人性,不是馬英九特別,問題出在奉承拍馬的人,而這種人會越來越多,官位越來越大,馬英九用人和作風要負責任。 • 廢物 ! 一次漲足又變成漲三次 ? 徵證所稅又變成三前提 ? 馬英九這麼喜歡當小三是怎樣 ? 政策到底搞定了嗎? 沒搞定就到處亂放話, 就是最標準的隨地便溺污染國家, 也是廢物政府的最大特徵 • 馬英九是該好好的從H5N2 美牛瘦肉精 都更案法條到現在的油電雙漲 解釋一番 最好是在就職言說時,公開對全國人民說清楚 • 一點都不覺得王建民救了馬英九一命。 馬英九又沒有任何危險,他一個月後才要開始第二個四年,想到這裡他應該又爽到做起伏地挺身來了。 • 那馬英九選前應該講清楚啊 選後汽油每公升漲30元也ok啊.. 重點是選前都凍漲 選後拼命漲... • 馬英九幹得好 漲吧 反正台灣人就是奴才命啦 沒路用的卡小 才在按回報封鎖別人 • 她馬的愛台灣的馬英九 原來是這樣愛台灣喔 國營企業一直提高薪水 卻在哭夭虧錢 真是的送你一個字 按 • 看到臉書上部份人的留言,真的覺得,嗯,原來真的有人相信馬英九是很有能力,只是有人在扯後腿之類的,喔幹,我好想在他面前大吼「你是哪隻眼睛看到的啊?」 • RT @4F 馬英九說,美牛通過後,國人不想吃,可以不吃,不必買,不會有事。 那麻煩一下,大麻也請來開放進口一下謝謝 • 馬總統用了一些蛋頭學者(博士) 蛋頭=豬頭. 因為沒事找事且弄到天怒人怨,怨聲載道! • 呵,戈巴契夫頭髮最多,海珊最愛和平,賓拉登不愛打仗,陳水扁最清廉,馬英九最有GUTS... • @octw 若說馬英九是有勇氣遠見的改革者,那真是天大的笑話。 1992年一群人台北火車站前靜坐五天,要求總統直選。 當時的總統,憑藉這股力道直接改成總統直選,而當時的法務部長,反對總統直選,要求維持現狀由國大選出。 那屆總統是李登輝,任法務部長是馬英九。 (via @aoi) • 王聖人:要馬英九『對的事』就勇敢做,不管別人罵! 台灣人:認同,『目前馬英九最對的事就是下台』。 马英九和陈水扁在社会媒体上的高频情绪性词的词频分析展示了二者截然不同的 民间形象: more 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 社媒挖掘|6457 次阅读|1 个评论
让别人了解比让别人认可更重要,不管是社会媒体还是科学传播
热度 2 cgh 2012-8-19 07:49
让别人了解比让别人认可更重,不管是社会媒体还是科学传播 各国国内媒体毫无疑问都会受到价值导向,各国也都限制外国媒体宣传尺度。虽然各国使馆的基本使命是为本国公民和侨民提供服务,但是各国使馆都是平等的对外宣传窗口,有效利用这个窗口让驻在国人民了解本国,应该是各国使馆的一个基本使命。 为什么美国总统候选人通过讨好以色列国来笼络犹太裔,而通过往死里整中国去笼络普通美国老百姓?犹太裔在美国的政治经济中地位很高,而普通美国人基本只能靠华盛顿邮报、纽约时报等关于中国的负面报道来了解中国。看看中国驻美使馆的英文网页和美国驻华使馆的中文网页,感觉还是有很多需要改进的地方。 国内的科学研究界很多人的最高境界是得到外国人的认可,而不是为国家的进步做了多少贡献,而评价为国家做的贡献的指标也在很大程度上是发了多少被外国人认可的文章。实实在在的成果拿出来让人去应用和了解了,自然都会被认可吧。 当看到《 nature 》和中国科学家很多精英在为叶诗文的奥运成绩“斗争”的时候,感觉很悲哀啊。中国人太需要别人的认可了,感觉像一群奴才在主子面前抱怨主子冤枉自己了。最终是一个被主子选为奴才头人的去安慰了一群奴才(我和许多不识时务的人一样,看不出来哪有真诚道歉)。我们不知道这群奴才和那个奴才头儿是不是以后还能得到主子的善待。 为什么不是换一种方式去平等、科学地表达自己呢?科学是可以质疑的,很多文章有 comment on “……”的对应形式的质疑文章啊。用其他的期刊(哪怕是中国人自己办的洋文刊物)同样可以去表达我们的观点,去严谨地回应。这中间的差别恐怕只是得不到《 nature 》的认可而已吧。我想,如果后人在查阅这一文章的时候看到还有十篇对它批评的文章,效果会比《 nature 》后面粘的那点随时风吹都能掉的 note 要精彩得多吧。 目前的国内办刊与发文基本成了这样一种不健康模式:国内的“大牛们”把自己认为牛的文章都拿到国外去申请外国人的认可去了,国内的“牛刊”只能死皮赖脸“改善稿源”,偶尔得到宠幸,大多刊登的是“牛人们”团体下“牛后们”的练武之作或者是中文版的“牛作”。跟牛没关的基本是去“牛刊”那里碰运气,偶尔中举以为自己也牛了。当然,很多有志向的“小牛”,直接也去申请外国人的认可去了,一旦成功也就“真牛了”。那些二流、中文刊物基本成了对“牛起来”失去雄心和兴趣的“慢牛们”聊以慰藉的地方,他们当中有些人还是觉得需要做一点对得起自己饭碗的事情的。 不知道中国的所谓“大牛们”将他们的大作都发表在《科学通报》、《中国科学》这样刊物的洋文版面,是不是他们去国外开会交流时外国人就拒绝去了解了呢? 不可否认,国内的“大牛们”一点也不比外国人差,也很容易得到外国人认可,但是为什么非得自降身份求别人认可呢?当然像《 nature 》这样的早就瞅准了这一点,正在窃喜呢。 这一点,还得从大飞机项目和北斗系统中吸取教训,经过沉痛的教训才明白自己需要自己的东西啊!别人是乐意看到你被栓死在那的。中国人需要波音和空客之外自己的大飞机,中国人需要 GPS 、 glonass 和伽利略之外自己的导航系统,为什么中国人就不能有《 nature 》《 science 》之外自己的明刊,而去做别人的奴才? 怀着希望别人认可的态度去让人了解,总会别人利用的;尊重别人的判断让别人去了解才是更重要的。
个人分类: 杂谈|3577 次阅读|2 个评论
社会媒体、政府体制与电子政务服务
huguangwei 2012-4-18 12:25
粗粗看了一下最近6个几度、6期的Government Information Quarterly(GIQ,政府信息季刊)上的文章,最近一期12篇文章有3篇讨论Social Media(社会媒体)在电子政务服务中的应用;所有6期近80篇文章中有1/5讨论体制问题对电子政务的影响;所有6期近80篇文章中有近一半讨论电子政务服务。
个人分类: 研海拾贝|3493 次阅读|0 个评论
社会媒体(围脖啦)火了,信息泛滥成灾,技术跟上了么?
热度 1 liwei999 2011-11-22 14:23
“三好”立委要做“三有”系统 面对呈指数增长的海量信息,人类面对信息获取的困境。唯一的出路是依靠电脑,其核心的技术是语言处理(NLP)。这不是王婆卖瓜,而是客观形势。 就说社会媒体对产品和服务的评价吧,每时每刻,无数用户的抱怨和赞美不断出现在网上,这些客户对产品的评价情报对于企业加强产品功能和研发新产品,具有很高的应用价值。可是怎么获取这些淹没在语言海洋中的情报呢? 出路就是:1 自动分析; 2. 自动抽取。这就是我们正在做而且已经取得amazing效果的工作。 社会媒体的特点是什么?概括来说,就是:1. 不断翻新的海量信息源;2. 满是不规范的字词和表达法。这就要求研发的系统,首先必须具有 scalability,其次是分析系统的 robustness,在这两者的基础上,如果再能做到有 depth,则更佳。深度分析的优势在于能够支持应用层面的以不变应万变。因为应用层面的变数大,不同的客户、不同的产品对于信息的关注点不同,所以抽取这些信息应该越简单越好,最好能做到象目前运用搜索引擎或数据库查询那样立等可取。要做到这一点,就需要一定的语言分析深度来支持。Parser 和 Extractor 的简单道理就是:parsing 越深,extraction 则浅;parsing 越浅,则extraction 就不得不繁复。总之,工作量是基本恒定的,分析偷懒了,抽取就要遭罪,反之亦然。问题不仅仅是偷懒的问题,问题往往出在研发者的能力身上。要一个系统既有 scalability,robustness,还要有 depth,不是一件容易的事儿。很多人信息抽取做得很辛苦,那是因为分析深入不下去。 笔者的目标就是,拼命也要做一个这样的 “三有” 系统。英语和欧洲语言的三有可以说已经做到了。现在面对的挑战是中文处理上的“三有”(突然想起当年拼命也要做“三好”学生的劲头来)。 耳边响起了林副主席关于系统开发的谆谆教导: 带着问题做,活做活用,做用结合,急用先做,立竿见影,在‘用’字上狠下功夫。 还是先看看语言数据吧。什么叫社会媒体的语言,它与规范语言(譬如新华社新闻)有什么不同。下面的从网络上摘取的客户评价的 random samples 可以给读者一个初步印象(这是断过词的samples): strong sentiments on Chinese social media 日期: 11/21/2011 16:53:36 IKEA 宜家 豆瓣小站 做 的 很 有 调性, 尤其 是 近期 的 电影 里 的 宜家 - 你的 梦想 空间 活动 短短 一 周 吸引 了 几千 粉丝 参与, 上传 作品 都 很 精致 有 想法 . 宜家家居 餐厅, 宜家 瑞典 食品屋, 和 宜家 小吃吧 的 各色美食 : 瑞典 肉圆, 烟熏 三文鱼, 中东 小米 三文鱼, 芝士 焗鳕鱼, 烟熏 鸡 胸 意粉, 当然 也 少 不了 元甜筒 冰淇淋 和 热狗, 丰富 美味 同样 值得 期待! @宜家家居IKEA 我 等 到 现在 还 没有 拿 到 我的 图纸 哟 ... 测量 的 员工 和 主管 倒是 很 热心 的 帮忙 询问, 倒是 你们 自己的 设计师, 投诉 到 主管 也 没有 一 句 当面 的 道歉 哦 . 宜家家居 意式烟熏 鸭胸饭, 跟 以前 的 奥尔良 鸡腿饭 比较, 虽然 价格 是 鸡腿饭 的 二倍 还 多, 但是 味道 物有所值 . 宜家 的 服务 很 贴心, 购物 清单 和 铅笔 方便 记 住 自己 要 买 的 东西; 深蓝色 的 纸张 是 商场 导航 图; 下面 挂 着 纸 做 的 简易 尺子, 方便 顾客 量 尺寸 . 我 在 这里:#宜家家居# 这里 可 真 热闹, 睡觉 的 画画 的 照相 的 吃饭 的 推 着 婴儿车 的 坐 着 轮椅 的 五花八门 做 什么 都 有 ! 我 在 宜家 家居 IKEA ( 四元桥店 ) . 一 来 家居店 就 会 有 想 把 家里 的 东西 全 都 扔 了 重新 装 的 冲动 . @宜家家居IKEA : 好 有 感染力 的 笑容, 在 电脑 前 看 到 让 人 不禁 一起 微笑 . 希望 以后 你 会 一直 在 宜家 找 到 快乐, 逛 的 开心 . @宜家家居IKEA / 这个 是 忠实 的 宜家 粉丝 了 / 我们的 宜家 简约 风格 住宅 Surprise !!!! 原来 接到 的 电话 是 真的, 非常 感谢 @宜家家居IKEA, 今天 收到 您们 送 的 幸运 奖品 了, 谢谢 ! :)爱 喔 . 虽然 只是 宜家家居 的 快餐厅, 但是 做 的 东西 真的 很 好吃 !! ! 最 喜欢 牛肉 饭 配 低卡 可乐, 虽然 很多 人 都 不 喜 可乐 . 上海 东方 航空 公司, 我 一共 托运 了 2 件 行李, 你 给 我 丢 了 一 件, 至今 仍然 没有 找到, 在 英国 买 的 东西 都 被 你 给 整 没 了 . 凌晨 1:20 东方 航空 给 我 加拿大 的 手机 打 越洋 电话 说 我 回 南方 的 那趟 飞机 航班 取消 . 我 觉得 国内 的 客户 服务 的 效率 实在是 高, 负责 通知 到底 的 精神 果然 敬业 . 东方 航空 的 飞行员 太 给力 了, 这 一路 各种 转弯 啊, 害 我 替 旁边 的 阿拉伯 大哥 担心 一路, 怕 他 胃里 的 羊肉 和 馕 溢 出来 啊 . 东方 航空 机长 在 飞机 起飞 前 30 分钟, 就 拒绝 乘客 登 机 实在是 没有 道理 . 一 个 小 机场, 乘客 寥寥无几, 岂 能 在 起飞 前 半 小时 关闭 电脑, 这 套 服务 完全 是 毫无道理 . @东方航空 95530 也 忒 难 打 了, 天亮 打 到 天黑, 累计 n 小时, 愣 是 对不起, 坐席 正 忙 . 我 在 萧山 机场 被 告知 飞机 要 晚点 半 小时, 不 喜欢 东方 航空 坑爹 的 东方 航空 啊, 上次 是 取消 这次 又 给 我 晚点, 再 上次 又 改签 ... 乃 跟 我 有 仇 吗 ? 为啥 这 东方 航空 公司 网站 经常性 地 打 不 开, 老是 搞 得 黑客 热爱 他们的 航班 似 的 ... 严重 表扬 @东方航空 . 又 一 次 被 早餐 惊喜 到, 竟然 是 荷叶 饼 夹 肉沫 炒鸡蛋 + 黑米粥 我 是 真 不 想 说 联想 电脑 坏 话, 但 确实 太 不 争气 了, 上 周三 刚 买 的 19 寸 一体机, 这才用了几天啊, 就出毛病了 . 联想 电脑 真是 垃圾, 但 更 垃圾 的 是 要 5 年 才能 更换, 这 是 电子 设备 啊, 怎么 跟 铁锹 榔头 一样 折旧 ? ? ? ? ? ? 地球 人 已经 阻挡 不了 中国 人 了, 连 日剧 里 都 用 联想 电脑, 那 是 多么 奢侈 的 事情 啊, 都 不 用 买 东芝 了 . 联想 电脑 很 结实 啊, 上次 看 到 一 只 小强, 没有 称手 的 工具, 我 就 把 手提 扔 了 出去, 小强 死 了, 电脑 完好无损 ! 联想 电脑 现在 越 来 越 烂 了, 还 变 得 和 小 日本 一样 狡猾, 一 过 保质 期 就 坏 ! 如果 说 我 对 星巴克 有 什么 最 感 骄傲 的 成就, 那 就 是 公司 里 员工 自信 与 互信 的 氛围 . 够乱吧。这样的语言可以自动分析和抽取么? 答案是肯定的。 当然也要看系统。也就是看人。 等有空再接着说怎么对付这样的语言 monster。 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|6773 次阅读|1 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-23 09:08

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部