科学网

 找回密码
  注册
科学网 标签 社会媒体 相关日志

tag 标签: 社会媒体

相关日志

【大数据舆情挖掘:希拉里川普看图说话】
热度 1 liwei999 2016-10-23 17:54
大数据舆情挖掘,看图说话。 先看近一个月来在社会媒体上的希拉里和川普的品牌形象对比图: 看点三: 1 川普的 buzz 大过 希拉里一倍多,川普是话题中心(圈的大小表明热议度) 2. 普罗对川普比对希拉里,情绪更趋激烈:表现在 Y 轴的 passion intensity 上 3. 两人总体都不讨人喜欢,川普更加让人厌恶,表现在 x 轴上的 Net Sentiment(也就是褒贬对比的度量)。两人都在冰点之下,社会媒体的形象不佳。 如果我们要自动调查过去一个月时间的趋向和形象消长,可以考虑把数据分割为两段或三段来看此消彼长,先一分为二来看图: 看到了吧,过去一个月,随着总统大选辩论和丑闻的揭示和宣传,川普的媒体形象显著恶化,表现在舆情圈圈从右(x轴上的右是评价度高 love like,左边是评价度低 hate dislike)向左的位移。本来评价度clearly比希拉里要好,终于比希拉里差了。同时,希拉里的社会媒体形象有所改善,圈圈在从左向右位移。两个人始终都是冰点以下,吐槽多于赞美,但是就在一个月前,还是喜妈更不受待见: 不是民众更喜欢老川,而是普罗更厌恶喜妈 。 这个品牌对比图示表达了四维信息: 1. net sentiment 评价度 x 轴 2. passion intensity 舆情烈度 y 轴 3. buzz 圈圈的大小,是热议度 4. 一分为二的两个圈是时间的粗线条切割的维度 在二维的图纸上,要表达四维的信息,的确不是很容易。 要是嫌第四维时间太粗线条,咱们一分为三看看: 三个圈,浓度的深浅表达的是时间的远近。当短短的一个月的时间,被一分为三的时候,我们看到了什么趋向呢?请注意颜色的深浅,对应的是时间的远近。我们看到,喜妈的三个圈圈是左下角到右上(还是visualization设计不到家,不同品牌应该用不同的颜色区分才好)。原来喜妈的评价是先好,后坏,最后回到中间。而老川在同一个时间点,是先中,后略好,最后跌入深渊。 以上是利用我们自创的品牌对比图(有美国专利的)来看候选人的形象消长。 社会媒体数据的来源呢?Twitter 为主: 这是一个月来的舆情总结: 的确是大数据了,一个月的随机的社会媒体数据样本里面,两人的 mentions 就有近两亿,眼球数共计高达3万6千亿。川普占7成,喜妈才三成。川普跟冰冰类似,都是话题之王。 总体社会评价,川普零下20%,喜妈零下18%。 下面是有关川普的社煤数据选摘: Bill Clinton disgraced the office with the very behavior you find appalling in Trump. In closing, yes, maybe Trump does suffer from a severe case of CWS. Instead, in this alternate NY Times universe, Trump’s campaign was falling apart. Russian media often praise Trump for his business acumen. This letter is the reason why Trump is so popular Trump won I'm proud of Trump for taking a stand for what's right. Kudos to Trump for speaking THE TRUTH! Trump won I’m glad I’m too tired to write Trump/Putin fuckfic. #trump won Trump is the reason Trump will lose this election. Trump is blamed for inciting violence. Breaking that system was the reason people wanted Trump. I hate Donald Trump for ruining my party. 32201754 Trump is literally blamed by Clinton supporters for being too friendly with Russia. Another heated moment came when Trump delivered an aside in reponse to a Clinton one-liner. @dka_gannongal I think Donald Trump is a hoax created by the Chinese.... Skeptical_Inquirer The drawing makes Trump look too normal. I'm proud of Donald Trump for answering that honestly! Donald grossing me out with his mouth features @smerconish @realdonaldtrump Controlling his sniffles seems to have left Trump extraordinarily exhausted Trump all the way people trump trump trump Trump wins Think that posting crap on BB is making Trump look ridiculous. I was proud of Trump for making America great again tonight. MIL is FURIOUS at Trump for betraying her! @realdonaldTrump Trump Cartel Trump Cartel America is already great, thanks to President Obama. Kudos to Mr Trump for providing the jobs!! The main reason to vote for Trump is JOBS! Yes donal trump has angered many of us with his WORDS. Trump pissed off a lot of Canadians with his wall comments. Losing this election will make Trump the biggest loser the world has ever seen. Billy Bush's career is merely collateral damage caused by Trump's wrenching migration. So blame Donald for opening that door. The most important reason I am voting for Trump is Clinton is a crook. Trump has been criticized for being overly complimentary of Putin. Kudos to Trump for reaching out to Latinos with some Spanish. Those statements make Trump's latest moment even creepier. I'm mad at FBN for parroting the anti-Trump talking points. Kudos to Trump for ignoring Barack today @realDonaldTrump Trump has been criticized for being overly complimentary of Putin. OT How Donald Trump's rhetoric has turned his precious brand toxic via The Independent. It's these kinds of remarks that make Trump supporters look like incredible idiots. Trump is blamed for inciting ethnic tensions. Trump is the only reason the GOP is competitive in this race. Its why Republicans are furious at Trump for saying the voting process is rigged. Billy Bush’s career is merely collateral damage caused by Trump’s wrenching migration. Donald Trump is the dumbest, worst presidential candidate your country has EVER produced. I am so disappointed in Colby Keller for supporting Trump. Billy Bush’s career is merely collateral damage caused by Trump’s wrenching migration. In swing states, Trump continues to struggle. Trump wins Co-host Jedediah Bila agreed, saying that the move makes Trump look desperate. Trump wins Trump attacks Clinton for being bisexual! TRUMP win Pence also praised Trump for apologizing following the tape’s disclosure. In swing states, Trump continues to struggle. the reason Trump is so dangerous to the establishment is he is unapologetically alpha. 关于希拉里的社会媒体样本数据摘选: Hillary deserves worse than jail. Congratulations to Hillary her campaign staff for wining three Presidential debates. I HATE @chicanochamberofcommerce FOR INTRODUCING THAT HILLARY GIF INTO MY LIFE As it turns out, Hillary creeped out a number of people with her grin. Hillary trumped Trump Trump won! Hillary lost Hillary violated the Special Access Program (SAP) for disclosing about the nuclear weapons!! I trust Flint water more than Hillary Hillary continued to baffle us with her bovine feces. NEUROLOGISTS HATE HILLARY FOR USING THIS TRADE SECRET DRUG!!!!... CONGRATULATIONS TO HILLARY CLINTON FOR WINNING THE PRESIDENCY Supreme Court: Hillary is our only choice for keeping LGBT rights. kudos to hillary for remaining sane, I'd have killed him by now How is he blaming Hillary for sexually assaulting women. He's such a shithead The only reason I'm voting for Hillary is that Donald is the only other choice Hillary creeps me out with that weird smirk. Hillary is annoying asf with all of her laughing I credit Hillary for the Cubs waking up When you listen to Hillary talk it is really stupid On the other hand, Hillary Clinton has a thorough knowledge by virtue of her tenure as Secretary of State. Americans deserve better than Hillary Certain family members are also upset with me for speaking out against Hillary. Hillary is hated by all her security detail for being so abusive Hillary beat trump The only reason to vote for Hillary is she's a woman. Certain family members are also upset with me for speaking out against Hillary. I am glad you seem to be against Hillary as well Joe Pepe. Hillary scares me with her acions. Unfortunately Wikileaks is the monster created by Hillary democrats. I'm just glad you're down with evil Hillary. Hillary was not mad at Bill for what he did. She was mad he got caught. Just like she is not ashamed of what she did she is angry she got caught. These stories are falling apart like Hillary on 9/11 Iam so glad he is finally admitting this about Hillary Clinton. Why hate a man for doing nothing like Hillary Clinton Hillary molested me with a cigar while Bill watched. You are upset with Hillary for doing the same as all her predecessors. I feel like Hillary Clinton is God's punishment on America for its sins. Trumps beats Hillary You seem so proud of Hillary for laughing at rape victims. Of course Putin is going to hate Hillary for publicly announcing false accusations. Russia is pissed off at Hillary for blaming the for wikileaks! Hillary will not win. Good faith is stronger than evil. Trump wins🇺🇸 I am proud of Hillary for standing up for what is good in the USA. Hillarys plans are worse than Obama Hillary is the nightmare the people have created. Funny how the Hillary supporters are trashing Trump for saying the same thing. 🇺🇸🇺🇸🇺🇸🇺🇸🇺🇸🇺🇸 I am so proud of the USA for making Hillary Clinton president. Hillary, you're a hoax created by the Chinese Trump trumps Hillary During the debate, Trump praised Hillary for having the will to fight. Trump is better person than Hillary Donald TRUMPED Hillary Kudos to Hillary for her accomplishments. He also praised Hillary for handling the situation with dignity. During the debate, Trump praised Hillary for having the will to fight. People like Hillary in senate is the reason this country is going downhill. Hillary did worse than expectations. Trump will prosecute Hillary for her crimes, TRUMP will! Have to praise Hillary for keeping her focus. a landslide victory for Hillary will restore confidence in American democracy vindicated I was so proud of Hillary tonight for acting like a tough, independent woman. I dislike Hillary Clinton, as I think she is a corrupt, corporate shill. Hillary did worse than Timmy Kaine Im so glad he finally brought Benghazi against Hillary Hillary, thank you for confirmation that the Wikileaks documents are authentic and you did that tonight when you accused the Russians of hacking your servers! We the people deserve better than you! Supreme Court justices is the only reason why I'd vote for Hillary. Massive kudos to Hillary for keeping her cool with that beast behind her. Congrats to Hillary for actually answering the questions. She's spot on. #debate 【相关】 Big data mining shows clear social rating decline of Trump 【关于舆情挖掘】 《朝华午拾》总目录 【关于立委NLP的《关于系列》】 【置顶:立委NLP博文一览】 【 立委NLP频道 】
个人分类: 社媒挖掘|6085 次阅读|1 个评论
权力、资本、社会关系再思考
热度 14 lvnaiji 2016-9-19 14:55
吕乃基 博主曾写了“权力、资本、社会”三者关系的系列文章( 之四:以权力、资本与社会的关系理解科技发展的影响 ),由随后的阅读、讨论与思考感到,问题远非如一开始想的那样简单,如果放在中国语境下,情况可能就更为复杂。 政府、资本、社会三者看似都可以拥有权力。政府的权力明摆在那里,其权力源于民众的授权,回过头来向民众施加权力。有钱能使鬼推磨,资本的权力同样清晰可见,其权力源于稀缺。至于社会,个人或一个群体也可能在一定场合支配他人,乃至可以“支配”政府和资本,譬如网络大V。 然而这三者的权力实在有天壤之别。 政府的权力在执政期间是唯一的。政府拥有监督资本和约束社会的权力,单向,以及强制,其一,以“看得见的手”调控“看不见的手”;其二,均衡社会的自由与平等。如果是多党制,权力会受到在野党和任期制的制约,一党制和长期执政就拥有更大的权力。 政府还以所拥有的财力实施权力。财的来源一是税收,取之于民,用之于民,在“取”和“用”之间便拥有了权力,这就是二次分配的权力。遏制初次分配,扩大二次分配,一方面扩大强化政府的权力,另一方面培育在二次分配中的获益者的感恩心理。“精准扶贫”的情况是,一方面是需求者在生命线上对钱的渴求,另一方面是政府的权力对“精准”的定位。政府并未意识到在这样的特殊语境下,权力的责任与担当;意识到权力作用对象的无助与命垂一线。前不久发生在甘肃的悲剧向权力的拥有者敲响了警钟。 第二项财源是央企国企。在“做大做强”的旗帜下,权钱合一。权钱合一不是权钱勾结,后者非法,权与钱还存在博弈,友谊的小船说翻就翻;权钱合一合法且理直气壮,同归于权的名下。钱,既可以作为资本,与体制外的外资民资或抗衡或博弈或作为杠杆,四两拨千斤;也可以用于民生,以缓解社会对政府的压力。 本来就独一无二的权力加上滚滚而来的财源如虎添翼,可以做其他国家可望而不可即之事,可上九天揽月,也可以一手造成去年的股灾。 美国的一位政治家感叹说,只要做一天中国,一天就够。这句话耐人寻味。“一天中国”,可以做成多少在权力被制约的情况下做不成的事;“一天就够”,时间一长,权力就会失控。 资本的权力建立在稀缺性的基础上。然而其一,拥有资本者众,彼此间存在博弈关系。譬如,一带一路虽一开始被称之为新版马歇尔计划,却与当年情况不可比。当年,资本的提供者几乎非山姆大叔莫属,而今,大国基本不差钱。中国走向世界,在提供资本方面就受到其他国家,特别是日本的激烈竞争,在泰国、印尼的高铁项目就是典型事例。其二,社会可以有多种选项。其三,资本稀缺,好的投资项目实际上更加稀缺。资本是明的,谁有钱一目了然;好项目是暗的,需要火眼金睛,譬如孙正义。看走眼错失良机或看过眼而陷入泥潭往往只是一念之差。对资本的藐视会自食其恶果,万宝之争说明了这一点;反过来资本如独步天下,会吞噬一切发展的成果,包括资本自己。 社会有“权力”吗?社会的权力不是对他人的支配,而在于“选择”。选择,对政府而言是投票;对资本来说,是消费,以及应聘与跳槽,或者说,用脚投票。实际上在当下中国,国民对于地方政府的选择主要不是政治学意义的投票,也是“用脚投票”,那就是迁移,从家乡迁移到心仪之处。社会是一切发展的原动力,也是一切发展的最终目标。没有社会由下而上的参与,一切发展将成为泡影,不以社会的进步人民的幸福为目标,一切发展就失去合法性。 社会的另一项权力是舆论,包括舆论的内容和平台,前者是知识,后者是媒体。知识涉及到话语权,媒体对知识进行筛选,以及或褒或贬。由于媒体的作用越来越大,政府与资本都在争夺对媒体的控制,加之社会舆论本身的分散甚至对立,社会正在部分失去以舆论制约政府和资本的功能。媒体的作用异军突起,正在一步步相对独立,成为与三足鼎立的政府、资本与社会平起平坐的第四极力量。 媒体,从远古个人与个人之间,在特定语境下当面与当下全身心的相互交往;到印刷术之后,脱离语境,时间滞后空间上不接触,一个人对众人,只有符号的单向交往;再经广播电视,可以在直播中部分结合语境,结合视觉与听觉,依然是一对多的单向交往;到现在可以一对多、一对一、多对一,以及多对多,可以滞后或当下,多媒体或单媒体,单向或双向、多向,还要加上虚拟现实,在媒体的发展历程中,唯一持续起作用的力量就是科技。 无论是三足或是四极,都需要放在全球背景之下竞争与合作。在初始条件与边界条件各异,价值观对立,文明冲突的今天,各国比拼的最终是科技的水平,换句话说,比的是哪一个国家的三足或四极的相互关系更有利于科技的发展。 政府重在管理,管理资本与社会,权力相对垄断,除了事关内外安全的军事等领域,较少发展科技的冲动。社会中的个人一般不发生直接的竞争,社会在通常情况下倾向于维持原状。具有创新动机的主要是资本。资本有增值的欲望,既面临彼此竞争的压力,又要应对消费者的选择。如果市场不公正不透明,资本就会选择掠夺社会与自然和生态资源,与权力勾结,以及假冒伪劣等手段获利;如果处于完善透明公正的市场环境中,在技术理性的投入产出比和功能价格比的驱使下,那么推动科技发展,就是资本增值的唯一途径。显然,此处的资本是民资而不是国资。至于媒体,其一步步的变迁本来就是科技发展的成果。 由此可见,政府的主要作为并非亲自出马发展科技,而是规范市场,监管资本,特别是金融资本的食利倾向;维护消费者权益,特别是在市场中的选择权。 在主要由政府所规范的市场中,资本与消费者-社会的互动,是科技发展的动力;而科技的发展,是一个国家最重要的支柱。 在此意义上,最终是科技拥有最大的权力。 “最终”和“最重要”的含义,类似于希腊自然哲学中的“始基”和“本原”。
个人分类: 社会评论|8898 次阅读|22 个评论
【社媒挖掘:美国大选候选人大战(1):川普很臭】
liwei999 2016-3-18 04:11
这阵子一直忙于调试系统,好久没顾上做热点话题的舆情调查了。 老友一直催我用大数据追踪一下美国总统大选。 今年的美国大选,情势诡异,尤其是杀出一个不按常理出牌的共和党的川普,不少追随者粉他,恨他的人也很多。 这是几天前(周二前)做的美国大选半年以来的英文社会媒体的大数据调查,直到今天才得空整理上网分享。 先给一个一个过去半年的大数据总结图。 人气评价(Net Sentiment)最高的是民主党的 Bernie,褒贬指数高达正45%,把其他对手远远抛在后面,第二名 Marco 21%,Beinie 的一半还不到,评价最差的是川普 6%. 难怪我女儿是 Beinie 的铁杆粉丝,不断催促我们给 Beinie 投票,不要让希拉里出线。我: 而话题大王,则非川普莫属,一亿五千多万的 mentions,23兆860多亿的眼球数,瑶瑶领先。 第二名的 Ted (眼球数8兆)只有眼球大王川普的三分之一 可见川普这个美国政坛的怪物掀起了怎样的一个风暴 普这个美国政坛的怪物掀起了怎样的一个风暴
个人分类: 社媒挖掘|6 次阅读|0 个评论
【社媒挖掘:美国大选候选人大战(1)】
liwei999 2016-3-14 01:40
1 2 3 4 5 6 7
个人分类: 社媒挖掘|1 次阅读|0 个评论
《利用大数据高科技,实时监测美国总统大选舆情变化》
热度 1 liwei999 2015-10-14 08:42
活生生的大数据,活生生的实时展示。 特别是两党内部总统候选人提名的政策辩论,以及两党候选人的几场总统竞选辩论,来自社会媒体(主要是推特)大数据的舆情实时监测,比传统民调高明许多:反映民情及时、准确、客观,数据点高出传统民调好几个量级。 下面的链接中,点击头像可以立马实时监测舆情的瞬时变化: http://bit.ly/1LiSXrg #NBDebate This is our live social media monitoring for the debate. We did it before during the last election, and it is ridiculously making sense. 奥巴马赢了昨晚辩论吗?舆情自动检测告诉你: http://blog.sciencenet.cn/blog-362400-623922.html 如今,至少过去一个小时的实时舆情显示,喜大妈远落后于其他两位民主党候选人。点击三位候选人的头像可以立马看到各自的舆情指数 net-sentiment,反映的是他们的 popularity。 http://www.netbase.com//democraticdebates2016/candidates_competitive_view.html 过去一个小时的舆情指数是: 10/13 2015 5pm 喜大妈: -22 http://www.netbase.com//democraticdebates2016/hillaryclinton_livepulse.html Joe Biden: +39 http://www.netbase.com//democraticdebates2016/joebiden_livepulse.html Bernie Sanders: +53 http://www.netbase.com//democraticdebates2016/berniesanders_livepulse.html 零下 22 度啊,怎么这么惨呢。我本来还指望她成为历史第一任美国女总,把社会主义的全民健康医保推向深入,并且推进移民改革,让技术移民更容易。 【相关博文】 奥巴马赢了昨晚辩论吗?舆情自动检测告诉你 世人皆错nlp不错,民调错大数据也不会错 2015-10-15 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 社媒挖掘|4209 次阅读|1 个评论
大数据淹没下的冰美人(之二)
liwei999 2015-5-13 09:33
女神 or 妖精,总之不似人类 好,我们开始范冰冰的社媒深度挖掘,看看网友都怎么说她。 先看网友的赞美(绿字体)和吐槽(红字体)等情绪化评语的词云分布,显然是东风压倒西风: 分类总结前五类情绪评语如下。 先看赞誉,毫无悬念,迷恋她、惊艳其美和粉丝的溢美之词占绝大多数,见(1)(2)(3): (1) 喜欢 , 爱 , 迷恋 , 羡慕 , 中意 , 享受 , 怀念 , 惊喜 , 飞吻 , 💋, 相中 , 看中 (2) QQ, 粉丝 , 给力 , 成功 , 最强 , 很火 , 不错 , 很好 , 最佳 , 可爱 , 受欢迎 (3) 美 , 美爆 , 绝美 , 女神 , 传奇 , 完美,逆天 , 耀眼 , 精彩 , 更胜一筹 (4) 倾国倾城,性感,威武 , 强大 ,厉害, 独特 , 优雅 , 经典 , 华丽 (5) 支持 , 欣赏 , 赞 , 夸赞 , 看好 , 期待 , 关注 有意思的是(4)中系列形容词所发出的信息:把倾国倾城、 性感厉害、 优雅华丽与威武强大等集合起来,在当今华裔女星中是不多见的,她反映冰小姐的御姐女皇范儿给观众留下的印象,她是独特的。冰美人绝不是传统的温婉贤淑小家碧玉类的女子。 各花入各眼,萝卜青菜各有所爱,她这一款自然不会人人喜欢。作为娱乐界耀眼的公众人物,在排山倒海的网友和粉丝的赞誉中,自然也不免被吐槽,也分五类如下: (1) 不喜欢 , 吐槽 , 讨厌 , 抱怨,烦 , 骂 , 恨 , 气,不爱 , 不欣赏 , 不羡慕,失望 , 无语 , 受不了,无法忍受, 大跌眼镜,大失所望 (2) 质疑 , 怀疑 , 鄙视 , 讽刺 , 嘲讽 , 不接受 , 批评 , 不关注 , 抵制 , 看不上 , 看不惯,不看好,看不起 (3) 不美 , 不好 , 差 , 破 , 不怎么样,不完美 , 不行 , 没多美, 没有我美, 算不上一流,一无是处 , 不给力 (4) 低能儿蠢货 , 不要脸,我操,垃圾,变态,傻逼,坑爹,这么狗血,最不要脸 , 恶心,鸡肋,操 , 吓人 , 美个屁 , 挖鼻屎 , 白痴,二货 (5) 还不如现在的张馨予 , 还不如穆婷婷可爱 , 太胖 , 臃肿, 第一类表达各种程度的不喜欢不欣赏,第二类是各种鄙视看不惯,第三类酸溜溜的多少带有嫉妒的不屑,这些大多是口味问题,或者源于人皆有之的某种小小的嫉妒之心。第四类竟是破口大骂了,这是社会媒体作为许多匿名网虫无遮挡发泄负面情绪的一个反映,你美了就骂你蠢,你急智就骂你丑,总之是无冤无仇也要骂娘,特别是要骂名人。倒是第五类的负面信息最为具体,说她不如张美人穆美人(张穆都是啥妖精,怎么从来没听说过,演过啥,没有一丝印象),说她太胖臃肿,虽然明显有偏见,却也不是空穴来风。 为了过来看看 @素颜锦诗 350938楼 2014-05-07 19:46:10 萝莉粉真不爱范爷这款长相的, 我觉得也许在萝莉看来, 范爷还不如穆婷婷可爱... 路人乙 @OMGrz 人总是健忘的 RT @zmt0516 : 记得当年范冰冰的名声还不如现在的张馨予,现在已经被公关团队刷成女神之神了。。。 大中华合众国 @greatzhonghua #freedom #民主 范冰冰黄裙现身体态臃肿 群众爬墙头睹芳容 组图 http://t.co/xprlcS1RdE 总体来看,情绪化用语无论正面负面,大都当不得真,只是反映了舆情的好恶分布而已。真正有价值的舆情挖掘是情绪背后的理由,为什么喜欢或者不喜欢她?这类细线条的深度舆情挖掘,我们留待下一篇博文给您提供。 【大数据淹没下的冰美人】的系列博文链接: 大数据淹没下的冰美人(之一) 大数据淹没下的冰美人(之三): 喜欢的理由 大数据淹没下的冰美人(之四): 流言蜚语篇(慎入) 大数据淹没下的冰美人(之五): 星光灿烂谁为最? 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 社媒挖掘|3216 次阅读|0 个评论
大数据淹没下的冰美人(之一)
热度 2 liwei999 2015-5-12 15:35
范冰冰可是当下红遍天下的演艺界女皇式巨星,粉丝遍及海内外。她是社会媒体大数据赞誉和吐槽的经久不衰的话题人物。 深度挖掘和解析大数据淹没下的范冰冰,应该是一件既符合娱乐精神又有启发意义的工作。准备做一个系列来,用我们的深度挖掘引擎,看看社会媒体口水大数据的一片混沌中到底隐含了几多信息,哪些是众所周知的,哪些是出人预料的。 华裔女星中,一直不太喜欢范冰冰,主要是觉得她的形象不接地气:女神或妖精,总之不似人类,与我们喜欢的 邻家女孩(girl next door)类型(如 徐静蕾 高圆圆 这类)相距甚远。然而,伊人的《武媚娘传奇》热播以后,惊艳叹服之余,遂亦加入粉丝行列。尤其是年轻时的武媚娘扮相,美得简直不像话,还让不让人活? 先报告一下这次挖掘的基本数据: 时间跨度是过去 27 个月(2013年二月到2015年五月)的中文社会媒体(包括繁体和粤语文字)。 下图是挖掘总览: 计 113万 数据点,70 多万条帖子,可达近 73 亿的眼球浏览,可以算是大数据了吧。(关于此话题两年多来的社媒数据量当然远远大于此数,可自家库里现在的样本就这么多,再多就要给内容分销商追加额外的数据购买费了。这个样本量比起传统的问卷调查高出至少两个数量级,作为情报挖掘,已经足以满足统计意义上的代表性要求了。) 冰美人的社会媒体形象相当不错,褒贬指数(Net Sentiment)高达 62%,这在娱乐圈公众人物中也算是高高在上了,八万五千条赞誉远多于 一万九千条吐槽。范爷威武! 1,134,741 Mentions 708,353 Posts 7,290,684,005 Potential Impressions 62% Net Sentiment 85,031 Positive 19,888 Negative 下图是范冰冰话题过去27个月的热度(数据点和眼球数)和褒贬的曲线图。热度起伏较大,应该与她主演的影视节目的宣传和开播期相关。反映形象消长的褒贬指数变化不大,基本能保持高位,范冰冰仍然处于事业鼎盛期,显然极受大众欢迎。 下图是这次自动调查的数据来源。最大的来源是 twitter,14万4,其次是天涯论坛(两万四千条)和百度贴吧(两万出头)。再往下依次是香港 discuss.com.hk 网站,tumblr,club.kdnet.net, bbs.hupu.com, kaixin001.com, 西祠,豆瓣等,大名鼎鼎的脸书(facebook)和新浪微博 (weibo.com) 只有两三千的帖子来源。(很遗憾,不包含微信,微信数据由于隐私限制,在可预见的将来,我们的挖掘还够不着:其实微信当下才是社会媒体的旗舰,其他所有中文社会媒体全加起来也没有微信所达到的规模、代表性和影响力。腾讯的老爷们,你何时开放哪怕是部分的数据?) 下图给数据来源做了分类,其中论坛占 60% ,新闻网站 20%,微博数据只有 8%。 这是数据来源地的地理分布。 欲知挖掘出来冰美人究竟有哪些有意思的信息,且听下回分解。 【冰美人社媒大数据挖掘系列】 大数据淹没下的冰美人(之二) 2015-05-13 大数据淹没下的冰美人(之三): 喜欢的理由 大数据淹没下的冰美人(之四): 流言蜚语篇(慎入) 大数据淹没下的冰美人(之五): 星光灿烂谁为最? 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 社媒挖掘|5875 次阅读|3 个评论
【社媒挖掘:不朽邓丽君】
热度 2 liwei999 2015-5-10 22:59
邓丽君逝世20周年,中港台日美社会媒体热议纪念一代歌后 The pop queen Teresa Teng passed away 20 years ago and her songs remain popular in the Chinese communities all over the world. Social media from Taiwan where she was born, from Mainland China, from Hong Kong, from Singapore, from Japan, from US and other parts of the world are full of all kinds of commemoration of her life and songs in Mandarin Chinese, Cantonese, Japanese and English. See the results of our multilingual text mining for how dearly she has been loved and remembered across generations of Chinese in Asia and around the world. 先看最近一周的社会媒体热议: 下面是排山倒海的纪念 (说明:去世等词通常被认为是负面的词,用红色,但这里是在20周年纪念的上下文中,不应视为贬义) 再看过去27个月的挖掘结果: 喜欢的理由主要是: 邓丽君的歌, 好听, 柔情, 甜美清純,《 甜蜜蜜》, 经典, 动人, 老少咸宜, 百听不厌 。也有个别不喜欢她的,提到的有 靡靡之音 和 庸俗 ,这是音乐口味问题,还有她 吸毒致死 的传闻,不知真假。瑕不掩瑜,即使由于生活寂寞苦恼而吸毒,邓丽君的总体形象还是光彩照人,是很多人心中的不朽女神,她的歌曲及其演绎是华人乐坛经久不衰的真正经典。 社会媒体样本(去除重复帖,压倒性的怀念赞美,只有极少数的负面帖子,表示不喜欢她的靡靡之音,也有提到她吸毒过量): 紀念鄧麗君逝世 20 周年 ! 邓丽君永不朽 纪念邓丽君 喜欢邓丽君 邓丽君好听啊 邓丽君我妈年轻的时候喜欢 怀念邓丽君 , 不幸的女子 邓丽君甜蜜蜜 喜欢邓丽君的歌 , 百听不厌 邓丽君经典 大爱邓丽君 邓丽君亮咯 邓丽君挺好 邓丽君好听 ! 喜欢邓丽君的甜美声音 Great voice of Teresa teng. 邓丽君最萌 相反对邓丽君感觉一般 ... 邓丽君 qq 多年经久好听 我初恋也爱邓丽君 怀念著名歌星邓丽君 看到邓丽君果断顶帖 邓丽君歌曲最得意的粉丝 最爱邓丽君 懷念鄧麗君 テレサ ・テン好 き 挚爱 邓丽君 都喜欢邓丽君熬 邓丽君 百听不厌 甜蜜蜜 , 想念邓丽君。 红颜薄命 , 怀念邓丽君小姐 テレサ ・テン最 高 邓丽君唱歌好听很我擦。 喜欢邓丽君 , 加上无聊消磨时间 邓丽君金门劳军 鄧麗君果 part 好正啊 ! 邓丽君真是机智 テレサ ・テンの PV ヤバい 支持邓丽君 邓丽君牛 有如邓丽君般低调的华丽 挚爱邓丽君 このあと、 SONGS 「テレサ・テン」楽しみやな 。 次回 SONGS はテレサ ・テン特集、楽しみ # nhk 王菲献唱纪念邓丽君 テレサ ・テン好 き 谢谢邓丽君 邓丽君好漂亮 邓丽君 100 分 邓丽君生前珍贵照片曝光 邓丽君无与伦比 邓丽君 , 无可替代 ! 邓丽君逝世 20 周年 邓丽君当然是好人 邓丽君的都行 邓丽君落伍吗 ? 邓丽君怎么去世的 鄧麗君很漂亮。 邓丽君是我的挚爱 鄧麗君 好型 ! 邓丽君 md 是亮点 邓丽君的很精美 还邓丽君清白 ! 邓丽君 很有成就 还是邓丽君靓 ! 鄧麗君真係好掂 那个邓丽君好难听 邓丽君影响力最大。 鄧麗君最靚聲 鄧麗君有用過 ... 邓丽君是精神启蒙老师 美丽人物 : 邓丽君 邓丽君逝世纪念日 ... 邓丽君死得不明不白 邓丽君也行 ...... 以此支持楼主发起纪念邓丽君的活动。 喜欢邓丽君的歌 弹的真不错 ! 我喜欢邓丽君 , 死掉了 ; 纪念邓丽君逝世二十周年 ! 经典的歌曲 , 怀念邓丽君。 年轻时候我最喜欢邓丽君。 我喜欢邓丽君 , 死掉了 ; 萨达阿萨德了空间爱上邓丽君 喜欢邓丽君的歌 , 好拍 邓丽君是我最喜欢的女歌手 我喜欢邓丽君 , 病死了 ; 经典的歌曲 , 怀念邓丽君 ! 咱不能强迫别人喜欢邓丽君。 没说的就是喜欢邓丽君的歌 ! Another great song by Teresa Teng. 推 jacklee340: 鄧麗君無誤 03/16 16:17 我并不喜欢邓丽君的声音啊 我喜欢邓丽君 , 好好听啊 不错的老音乐 喜欢邓丽君 整個假鄧麗君公仔 , 有咩意思 ? 邓丽君是亚洲人钟爱的歌手。 妖精 邓丽君很漂亮啊 ... 我最喜欢唱邓丽君的甜蜜蜜 有点邓丽君的感觉 怀念邓丽君 , 谢谢好音源 邓丽君的歌我欣赏不了啊 俺也是邓丽君的忠实粉丝 ! 我爸是邓丽君的忠实粉丝 喜欢邓丽君 , 祝福赵四海。 蒋勤勤爱好邓丽君死掉了 , 那年代邓丽君的歌是靡靡之音 テレサ ・テンの曲いいね ~ 。 邓丽君绝对的第一名 , 无争议 楼主不喜欢邓丽君的歌么 邓丽君成为年轻人崇拜的偶像。 NHK SONGS テレサ ・テンを見るなう 。 鄧麗君逝世 20 年將辦虛擬人紀念演唱會 wp.me/p4oKX8-2OXx 1 月 12 日广州将上演纪念邓丽君演唱会 ; 歌词写得美 , 邓丽君唱得更美。 謝安琪獻唱金曲紀念鄧麗君 : youtu.be/uiScrF13yrQ?a via @YouTube 一代歌后邓丽君去世。 鄧麗君的歌聲真是好聽 总算找到邓丽君高清了 邓丽君泳装身材凹凸 ...... 哥哥鄧麗君有冇咁紅 邓丽君有些太大气了 邓丽君最受欢迎的歌曲 研究邓丽君值得一看 邓丽君火到日本。 邓丽君死了多少年 ! 邓丽君是菲菲偶像 ... 这个邓丽君非常唯美。 當然鄧麗君都好聽啦 邓丽君更漂亮 哈哈 邓丽君的太难听了 邓丽君还是很明智的 Teresa Teng is alive. 邓丽君怎么死的 ? 鄧麗君版最紅 邓丽君死好早 ! 别样邓丽君 好听 ! 邓丽君温婉甜美。 邓丽君去世的早。 回味邓丽君 百听不厌 ! 邓丽君温婉甜美。 还是原版邓丽君好看 ... 支持邓丽君的粉丝们 感觉邓丽君好亲切啊 邓丽君猝死之谜 邓丽君的歌声很甜美 邓丽君很漂亮啊 ... 邓丽君剥削谁了 ? 邓丽君不是自杀的吗 以前邓丽君很红的 这个邓丽君 , 也漂亮 邓丽君就是流行歌手啊 邓丽君是中华优秀儿女 邓丽君因吸毒过量而死 一代歌后邓丽君去世。 很好听的曲子 , 怀念邓丽君 ! 但是不阻碍我喜欢邓丽君呀 ! 邓丽君の歌、お勧めです。 DVD 倾城怀念邓丽君 2005 现场音乐会。 ............ 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 社媒挖掘|5476 次阅读|2 个评论
社媒挖掘:关于狗肉的争议
热度 7 liwei999 2015-3-6 23:45
蒋老师看了关于柴静的社会媒体舆论挖掘后留言,问可不可以帮助挖掘一下狗肉的话题。这也是一个极其有争议的热点话题,凸显动物保护主义与传统文化的冲突。 蒋老师何等人物,岂敢怠慢。n 年前,是蒋老师最先介绍我到科学网来的。恭敬不如从命,还是老老实实赶紧交家庭作业吧:这是对过去27个月的中文社会媒体样本的初步挖掘结果,还没有来得及做细致的分析解读。 一 总览和回顾 上面是过去27个月的“狗肉”话题在社交媒体的热议度,能看到两个高峰,那应该是在玉林狗肉节期间引起的广泛争议。 下图叫 Brand Passion Index Trend,内含舆情挖掘的情报简约而丰富,反映的是对于狗肉好恶的消长趋势,图中截取了过去一年半中社会舆论喜爱或痛恨(吃)狗肉的争议变化,三个泡泡反映了每半年的好恶(BPI)指标:泡泡的深浅度反映了数据的新旧,具体说就是,左下颜色最深的泡泡是最近半年统计挖掘出的好恶指标,中间那个泡泡是一年前的统计,颜色最浅的右下泡泡反映的是一年半前的指标。泡泡的大小表明了热议度,譬如一年前比半年前热议更多。泡泡所处的坐标位置反映了两项舆情,一是好恶(越往左越喜欢),二是情绪烈度(越往上越情绪化)。可见,一年前那个统计情绪烈度最大,而对(吃)狗肉的厌恶则随着时间推移越来越大(越来越靠左)。这说明什么呢?应该可以看到近年来,动物保护主义的影响在逐渐增大,反对吃狗肉的呼声正在变高。 二 相关热点话题 三 褒贬比例 四 情绪及其好恶的理由 展示至此,需要给个说明。”狗肉“是一个很特别的话题,我们这里的绿色一般是指喜欢(吃)狗肉的传统派,红色代表厌恶(吃)狗肉的动保现代派(其实也许颜色也搭配错了,动保派一般被认为是环保绿派一类的), 这是我们系统用于这个话题的一般情形,两派对垒,泾渭还算分明。 可是系统褒贬的一般性设计还是使得“善待”这样的动保派常宣传的主张 ,因为其褒义的特性,被归类到传统派的绿色阵营去了。这算是一个 domain-independent 系统进入 domain 以后水土不适的一个例证。如果认真去做的话,应该做一些 domain adaptation,最起码也该手工参与去重新归类好(系统带有这个功能,允许用户自己动态重新归类去 override 系统的原归类,不过这只是个博文展示,不是正式研究报告,就懒得做细活了)。 还有一个小 bug:这是上篇关于柴静的舆情挖掘就有读者指出的,就是有些带有否定词的褒贬情报虽然挖掘分类都正确,可在展示中却没有了否定词“不”,比如前面的红字“吃”实际是“不吃”(派)。 五 社会舆论的地理分布 六 数据样本的来源 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 社媒挖掘|6010 次阅读|12 个评论
全球社交媒体热议苹果推出 iPhone 6
liwei999 2014-9-23 17:59
BIG DATA MINING. Our multilingual mining of global social media on Apple's recent iPhone 6 launch. Data so big that it involves 18 million mentions in various languages and 1.7 million unique authors in a data set of only last one month history. Rarely in the human history did one product launch generate so much interest and attention with impressions (eyeball potential) as many as 91 billion, in such a short time period, despite no obvious revolution in the features except for the form factor (and perhaps Apple Pay). Truly amazing. 这才叫大数据,全球社交媒体不到一个月就提及一千八百万次,潜在眼球效应指标达 910 亿(impressions 这项指标说的最多可能够着的眼球观览数),有 170 多万网友参与议论吐槽: 18,061,000 Mentions 91,012,338,159 Potential Impressions 46% Net Sentiment 1,509,698 Positive 561,523 Negative 1,737,978 Unique Authors 好,有这么多数据可以挖掘,非机器不能了,看看都挖掘出啥来。 先看一个月的趋势:热议高峰是九月七号,好评如潮,从较好的褒贬度(net sentiment)27 一路上扬到目前的 57,平均得分高达 46:显然是一次成功的产品发布。 最热关键词: 最热话题: 再看网民的情绪。自从盘古开天地,有哪款产品刚上市就会在全球不同民族不同语言中引起如此轰动,引发如此多的情绪性议论评价。爱的爱死,气的气死,嫉妒的咬牙切齿。 买还是不买,要看口袋。推荐还是吐槽,阵线分明。据说由于大陆土豪的迫不及待,香港的 iPhone 6 已经炒到天价了。买的不仅仅是消费品,而是炫富和身份的手段。 优劣任人评说: 全球五大洲热议,北冰洋除外: 数据分布,Twitter 为最: 多语言吐槽样本: 【相关】 苹果智能手表会是可穿戴设备的革命么? 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 社媒挖掘|4359 次阅读|0 个评论
革命革到自身头上,给咱“科学网”也挖掘一下形象
热度 16 liwei999 2014-9-23 17:10
对咱们博主而言,科学网不过是你我等老九讲道、炫智、调侃、吐槽、自嘲和交友的所在。 都说《科学网》是全球 华人科学家几乎可以说是唯一的成规模的网络平台,藏龙卧虎,也鱼龙混杂。其实不过是小众社会媒体,对大众社会影响力有限,在一般社会媒体上议论较少,没有大数据挖掘的条件。今日心血来潮,觉得老革命了,该给自家老巢革一次了,看看有没有啥有趣的看点,供科网领导、编辑、博主及读者同志一些茶余饭后的谈资。 6,460 Mentions 700,779 Potential Impressions 41% Net Sentiment 383 Positive 159 Negative 3,301 Unique Authors 数据量不大,共收集到 6000 多次提及的材料,勉强可以挖掘。正面远大于负面,形象分四十有一,相当的不难看。 常见的关键词和话题是: 先看网友的科学网相关的情绪吐槽: 再看科学网在网友心中的优缺点: 谁在吐槽? 唉,还是男多女少: 科学网是全球性的么? 数据来源: 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 社媒挖掘|4977 次阅读|20 个评论
两年来中国红十字会的社会媒体形象调查
热度 3 liwei999 2014-9-21 18:27
让数据说话,让专家解读。这里提供的是数据的各个侧面,是全自动对社会媒体调查的结果,没有人工参与。 调查的是2012年七月至今两年多(27个月)社会媒体样本对中国红十字会的评价(因为微博数据的 cost 很大,不能选择全样本)。虽然其间出了很多负面新闻,但总体形象分 net-sentiment 41% 显得相当正面,这一方面说明其公关危机处理可能有成效,另一方面很可能是得益于红十字会本身的慈善任务及其天生光环(下面有分析)。 148,889 Mentions 45,866,471 Potential Impressions 41% Net Sentiment 16,454 Positive 6,831 Negative 47,405 Unique Authors 从话题热度看,2013年五月是个大高峰,今年八月是个小高峰。从舆情看,去年七月跌得很惨,九月到谷底,另一个低点是今年七月。 我们先把调查聚焦在前后两个高峰区段,看看前后舆情的变化。 第一个区间选在去年四月到九月。 第二个区间是 7/7/2014 - 9/13/2014 现在我们回到过去27个月的总体调查数据上来,下列的信息挖掘都是过去两年多的数据基础上,有别于上面的两个时间区间。 2 相关关键词和话题: 3 网民情绪 舆情分析的指标之一是网民情绪,从下图看,情绪方面很激愤,中国红十字会受到很多“谴责”和“质疑”,骂他们“狗血”和“太臭”。 4 行为方面的挖掘也很不利,这个组织的慈善体系被郭美美等一干事件“摧毁”了。那个看上去正面的“接受(最大量的捐款)” 行为,drill down 看在语境中也是负面的,讽刺这个慈善组织的老大得钱最多,可做得很差。 行为这项指标也不及格。那么为什么总体评价还是正面多于反面呢?那是因为下面的优劣指标的比例造成的。 5 优劣指标抓取的是喜欢或厌恶的具体理由,这一方面是东风压倒西风,绿多于红: 需要说明的是,红十字会作为慈善组织,从本性和使命上说,它有天生的光环。提到红十字会,最多报道的是他们的“救灾”、“捐赠”等善举。加上一些媒体公关的正面宣传,这就把批评意见压倒了。 仔细看正反优劣的舆情评价,发现表扬的都是它的日常工作和套话,而批评的却辛辣得多,“饱受争议”、“侵吞”、“渎职”、“一落千丈” 等等。这样看来,前面的总体形象指数是偏高了。 6 这次调查的网民地理分布:自然是国内为主,但世界各地的华人都有不同程度的议论参与 7 此话题网民的男女比例:还是男网友吐槽多得多 8 关于数据来源和分布: 其中主要论坛: 主要的部落格是 主要的新闻类网站 前面说过,最重要的来源微博由于数据代价的问题,无法加入,这是一个相当的遗憾。另外,新闻类比重过大,可能冲淡了来自草根网民的舆情。前者只要有钱就可以弥补,不是系统能力的问题,而是研究项目谁买单的问题。后者在数据量大的时候,可以很容易排除掉,或分别考察对比。其实还有一个地理区分的角度,海外与国内舆情应该分开,这个也容易。业余做这个调查,懒得花更多时间了。 9. 吐槽样本 索性再花点时间把郭美美事件及其对红十字会的影响的民意舆情调查一下吧: 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 社媒挖掘|3948 次阅读|5 个评论
自动民调Walmart,挖掘发现跨国公司在中国的日子不好过
热度 4 liwei999 2014-6-16 14:57
最近用自家产品做了一次关于沃尔玛的自动调查,总体来看,沃尔玛这个品牌似乎蛮受欢迎的,正面评价为主,褒贬指数达到正48,是相当不错了。指责抱怨也有,主要针对一些负面事件(狐狸肉冒充牛肉、对伪劣产品乱发合格证上架等)。进一步挖掘(drill down)发现了令人惊奇的现象:好话大多是网民自发的评价,而挖掘出来的负面信息几乎一律出自国家新闻机构(CCTV等)的报道。社会媒体挖掘的本意是自动民调,了解客户对于品牌和产品的意见,正式新闻有机构或国家宣传的因素在,是应该加以区分的。可是目前,这种区分还做得不好,很多有影响的传统媒体的新闻被反复在社会媒体中转发传播,与民意混杂在一起。 Some further analysis and findings: 1. The existing data are not very large (400k mentions a year), but the results make sense with decent data quality 2. From geos stats, we know most data on Walmart come from China (dark color) instead of overseas sources 3. From domains stats, the data actually include data from Sina Weibo ( weibo.com ) and Tencent Weibo ( t.qq.com ) although the data flow from these two important Microblog sources is not stable at this point. Also the domains stats show that the major domains are all from China. I know that Walmart is a very influential brand in China and has many stores in cities of China. 4. The net sentiment 48% is fairly high, which is reflected in the emotions stats ( data quality very good ) : big green fonts emotional terms include 放心 (piece of mind) ,喜欢 (like) ,乐 (happy) ,支持 / 推 (support) ,很好 (very good), 不错 (not bad) ,成功 (success) etc. The negative emotional words (in small red font) are not many, including 差劲 (bad) ,抱怨 (complain) ,不喜欢 (dislike) ,垃圾 (garbage) ,很一般 (very so-so: meaning not as good as expected). 5. In the proscons word cloud, the likes include money-saving (省钱/便宜)and first-class service(服务一流); more interesting insights come from the dislikes, including (1) fake beef (using fox meat 狐狸肉事件); (2) recall (召回some product?); (3) cheating(欺诈); (4) scandal(丑闻) etc. 6. In order to drill down to see what negative incidents led to the above dislikes, the Walmart_con_sample shows some related sound bites which look like negative news on some incidents: 1 st sound bite reports CCTV news on Walmart’s fake alcohol and fake meat (using fox meat) incidents; 2 nd sound bite reports using fox meat to fake beef and donkey meat and using chicken to fake beef in the sold burgers at its Sam’s Club; the third sound bite reports three incidents of Walmart at different times and its apologies, including using cheap frozen meat to fake organic green food; using cheap fox meat to fake beef; and its lack of quality control in importing low quality products for sale, having issued 200 permits within 7 years for disqualified products to be on shelf. 7. Note that the above sound bites are selectively collected to show that our system can indeed capture detailed negative incidents of the brand in the media. When I drill down, there are quite some duplicates in our sound bites (one bad news gets re-posted everywhere); another thing is that the negative comments are not mainly from social media users, but from news (state-run news which get posted in social media too). 8. Unlike the overwhelming positive terms in emotions word cloud and the summary, the behavior word cloud shows more or bigger negative behavior terms than the positive terms. This is understandable because of the heavily reported incidents as shown above in the sample sound bites. Eye-catching negative behavior terms include “revealed”(被曝), “take to court”/”being sued”(告上法庭); “closed”(关闭); “have to take off shelf” (下架)etc. 9. From the above negative behavior terms, I drilled down to see more details in the sample sound bites below, which is similar to the sample discussed in 6. These two sound bites both come from negative news of Walmart, which originated from traditional news and got spread all over Internet. 中国新闻媒体对美国的跨国公司的负面报道跟民意没什么关系,倒往往由某种国际关系的大气候所致。当年为了打压谷歌,硬是给谷歌搜索按上了黄色监管不力的莫须有的大帽子,无视国内的搜索、视频和很多其他网站黄色泛滥到令人发指的露骨程度。欲加之罪,何患无辞。 不仅如此,最近还听说,由于中美相互指责对方利用网络偷窃情报,IT 业关系恶化,以至于谷歌和苹果等公司在中国遭到进一步打压,连做学问的信息利器 Google Scholar 都被封杀了。造孽啊,城门失火,殃及池鱼。 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 社媒挖掘|4784 次阅读|13 个评论
世界杯是全世界的热点,纵不懂也有义务挖掘一哈
热度 2 liwei999 2014-6-16 10:36
好久没推出《社媒挖掘》专栏博文了,对热点话题有些麻木了。不过, 世界杯现在是全人类的狂欢焦点所在,对此话题不能不挖。挖掘了最近一个月的中文和英文社会媒体,看看有没有透露出啥有趣的信息? 1. 相关话题和热词: 2. 近三天社会媒体 high 翻啦: 3. 主导情绪:狂欢 4。 世界杯的亮点和问题: 5. 数据来源:中文 (hupu是什么网址,这么热闹?)、 英文(推特绝对压倒多数) 6. 英文话题议论的热点地区(果然是全世界的狂欢,除了少数可能还没有互联网的非洲国家和渺无人烟的地带是空白外,全世界的社会媒体都在议论它): 7. 议论足球不仅是男士的狂欢,女粉丝也不少呢 8. 英文数据的来源分类 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 社媒挖掘|5922 次阅读|3 个评论
从“且行且珍惜”谈起
热度 1 liwei999 2014-5-5 08:19
最近,互联网社会媒体开始喜欢使用“且 v 且 v v” 这种文白夹杂的句式,随处可见,几乎泛滥成灾。 恋爱容易,结婚不易,且行且珍惜 出生虽易,长大不易,且来且珍惜; 上学虽易,学好不易,且学且珍惜; 成长虽易,贫苦不易,且尝且珍惜; 敛财虽易,奋斗不易,且思且珍惜; 富贵虽易,真情不易,且省且珍惜; 做爱虽易,高潮不易,且做且珍惜; 活着虽易,生活不易,且过且开心。 快乐时光来之不易,且玩且珍惜。 以前有位老教授,商务印书馆的老板陈原,就特别喜欢研究归纳这类社会语言学的现象。如今,由于社会媒体的普及,互联网上的新词新说法日新月异。这些变化冲击了所谓“汉语的纯洁性”,但势不可挡。有些变化可能是短暂的时兴,有些可能就会积淀为语言演变中的新规范,一切由时间来约定俗成。人为的纯洁性捍卫往往徒劳无功。 语言变化大多集中在词汇上(黑话、缩略语、生造词),文法句式上相对稳定,但也不是一成不变。比如去年有一阵流行“被字句式”,这种本来只在书面语中出现的被动句型(即便书面语,很多被动的意义也不用“被”)突然在市井流传开来,到后来甚至各种名词也被活用到这个句式中去,听上去不仅时髦,有时也蛮别致,充满调侃讽刺的负面含义:他从来是低调的,这次完全是被英雄的。 本来准备去收集例句做一些语义解说,突然想到查一查看有没有讨论这个现象的文章出来,一谷歌,果然有硕士论文专门论及这个现象: 网络被字句的句法语义研究 作 者: 见娜 来 源: 湖南师范大学 2011年 摘 要: “被”字句以新的构词形式在网络上露面,表现出一种超越语法规则的搭配,像被捐款,被就业,被开心等。以往的研究局限于句子成分的分析,在语义方面缺乏系统的分析和理论解释,本文首先从句法、语义、语用三个方面与传统被字句展开对比,系统的总结了网络被字句的句法语义特点,进而以认知语言学,社会语言学的理论为基础,尝试性地对个例进行分析,以阐释其语义成因。 通过对比,本文发现网络被字句与传统被字句有相同之处,也存在很大的不同。句法结构上都采用典型被字句结构“NP1+被(NP2)+VP”,但是在“被”字后续成分的词性,施事成分的隐现,补语的有无等方面存在很大差异。本文在解释差异的同时强调了“被”字的框架同化作用,“被”字迫使那些原本不能进入该结构的谓词性词语进入了该结构并具备了被动意味,产生及物性动词的用法。 网络被字句的基本语义仍然是表示被动,主语被动的受到某一事件的影响。被动句的这一句式语义结构正是网络被字句被广泛接受的基础。传统被字句中主语为典型的受事,网络被字句的主语却陷入了受事与施事共现的复杂局面。本文认为从主语的受影响义考虑,网络被字句的主语仍然是受事。网络被字句“被”字之后的成分在进入句式之前多含有主动意义而且表示如意或期望的语义色彩,然而与“被”字的结合产生了强烈的反差,使整个句式无一例外表示的都是遭遇、不如意等消极意义。语用方面,新型被字句多出现在网络和舆论媒体中,“被+X”结构通常用于引号之内,以此加强对某种社会现象的讽刺和不满。 基于上述讨论,本文首先尝试性的以认知语言学的概念整合理论为基础解释网络被字句的语义构建与人类概念结构之间的某种联系,概念整合依赖于跨空间映射,映射与概念整合在意义的构建过程中起着关键的作用。结合社会语言学的观点,本文对社会文化、心理以及人类主观性表达对语言变化的影响做出了阐释。 本文的研究是对网络被字句的有益尝试,可以补充对传统“被”字句的研究,同时证明了语言的多产性和动态性,将有助于人们对新型被字句的理解与欣赏。 关 键 词: 网络“被”字句 对比分析 语义构建 概念合成 社会文化 from http://lib.cnki.net/cdmd/10542-1011168866.html
个人分类: 立委随笔|3337 次阅读|1 个评论
“大数据与认识论”研讨会的书面发言(草稿)
热度 7 liwei999 2014-2-10 12:55
【立委按】刘钢老师来函,邀请我从我的大数据博文系列选辑一篇书面发言,参加社科院哲学所题为“大数据与认识论”的研讨会。盛情难却,更不用说社科院是我老家了。那就把散在科学网博客【 社媒挖掘 】和【 立委科普 】专栏的博文中的 立委论大数据 拼接汇总一下吧。无论国内国外,学界业界,“大数据”都是滚烫的热词。上次愚人节应中文信息学会邀请在软件所做了一个题为【 大数据时代中文社会媒体的舆情挖掘 】的演讲,科学网编辑还特地录了像,高挂在【 科学网公开课 】里,与那些世界级大师的讲座并列,与有荣焉,不胜惶恐(倒不是要自我矮化,说自己的大数据工作不在世界水平之列,但科学大讲堂这座庙里请的都是何等人物?面对的是科学殿堂让人高山仰止的大牌科学家和诺贝尔奖得主,在下乃区区一介匠人而已,何德何能,登堂入室)。无独有偶,去年流行大数据,硅谷科学家和工程师举行一系列关于大数据的讨论会,被邀请作为 panelist 参加了两个大数据研讨会,现场问答热烈,气氛很活跃。旅美华人科学家协会最近征集出版了一期大数据专刊,也发表了几篇论文。硅谷的【 丁丁电视 】也很早就邀请立委 在其《创新频道》做一个大数据的科技访谈 ,一直抽不开身准备,推迟到三月左右。一来二去,俨然是大数据专家了。其实,立委所长不过是大数据之一部,即自然语言的文本挖掘这块儿。而对于大数据的非文本形式(譬如语音、图片、录像、交易数字记录等),对于大数据的云处理手段及其工程架构等,所知十分有限。因此,本文仅仅就自然语言文本挖掘,特别是对近年火热的社会媒体的挖掘,谈一点一己之见,抛砖引玉,供各位参考。 (1) 大数据热的背景 我们现在正处在一个历史契机,近几年发生了一连串值得注意的相关事件。其热门关键词是社会媒体(social media) 、云计算(cloud computing),移动互联网(mobile web)和大数据(big data)情报挖掘。针对社会媒体内容利用云计算作为支撑的高新技术产业成为潮流。 社会媒体尤其是微博持续升温,无论是用户还是其产生的内容,都以爆炸性速度增长,一场悄悄的社会媒体革命正在发生,它从根本上改变着社会大众以及企业对信息的接受和传播方式。传统的由媒体巨头主导经由电视、广播和报纸的自上而下的新闻和宣传的传播方式,正在逐渐让步于基于网络与网民的社交媒体的蛛网方式。最新的新闻(无论是天灾人祸、名人掐架还是品牌褒贬)常常发端于处在现场的网民或当事人的微博,然后瞬间辐射到整个互联网,传统传媒往往紧随其后。在这样的形势下,企业软件巨头纷纷把目光聚焦在对于社会媒体舆论和民意的跟踪上,视其为品牌和客户情报的重要来源。 2011年初,美国做市场情报的巨头之一 Salesforce以三亿多美元 (326million)的价钱并购了社会媒体客户情报检测系统Radian6,说明社会媒体中客户对产品的评价情报对于企业的重要性不容忽视。Oracle对从事云计算和社会媒体追踪的公司RightNow的并购更是高达15亿(1.5 billion). HP在逐渐放弃低利润的PC和平板等硬件产业的同时,开始加强企业软件的投资力度,以120亿天价购并了从事文本情报的英国公司Autonomy(12billion)。最后,接近2011年末的时候,全球企业软件的另一家巨头SAP以34亿收购了云计算公司SuccessFactors(3.4 billion),并决定与专事社会媒体深度分析的公司 Netbase 建立战略伙伴关系,分销并整合其社会媒体情报作为企业情报解决方案的重要一环。加上IBM自己的 Coremetrics Social 和 Adobe的 SocialAnalytics,可以看到所有企业软件巨头不约而同看好社会媒体的情报价值。 在这个领域的投资和竞争日趋激烈。越来越多的华尔街主流投资公司开始加大对社交媒体 (social media) 分析系统公司的投资力度。如 Jive Software,连续得到 Sequoia Capital 两轮投资 (2007 和2010)。Sequoia Capital 是“重中之重”的 投资大鳄,曾是如下名牌企业的最早投资商,战略眼光犀利: Apple, Google, Cisco, Oracle. 对于中文社交媒体大规模处理的应用型软件,目前才刚起步。然而中文网络信息的增长速度却是扶摇直上,最值得重视的是爆炸性增长的腾讯微信对个人网络及其社交方式的革命性影响,以及新浪微博在社会公共生活中的巨大影响。社交媒体所产生的巨量内容有如深埋的富矿,亟待开采。 有问,这一波热潮会不会是类似2000年的又一个巨大的泡沫?我的观察是,也是,也不是。的确,在大数据的市场还不成熟,发展和盈利模式还很不清晰的时候,大家一窝蜂拥上来创业、投资和冒险,其过热的行为模式确实让人联想到世纪之交的互联网 dot com 的泡沫。然而,这次热潮不是泡沫那么简单,里面蕴含了实实在在的内容和价值潜力,我们下面会具体谈到。当然这些潜在价值与市场的消化能力是否匹配,仍是一个巨大的问题。可以预见三五年之后的情景,涅磐的凤凰和死在沙滩上的前浪共同谱写了大数据交响乐的第一乐章。 回顾一下互联网技术公司的里程碑吧: 20多年前雅虎以门户网站(Yahoo portal)先领风骚,谷歌以搜索 (Google search) 后来居上,脸书推出的社交网络(Facebook social)与推特(Twitter)的微博现已深入我们每个人的生活。国内社交媒体是新浪微博和腾讯微信领头。下一个里程碑是什么? Big data intelligence (大数据情报挖掘) 很多人这样预测。 Google 首席科学家也列此为未来十年的高新技术第一块牌子。所不清晰的是谁家会胜出。看样子是有志之士摩拳擦掌弄潮儿的时机了。 (2)什么是大数据 顾名思义就是强调数据的量,但其实这个概念并不是那样简单。如果单纯论量,大数据不是今天才有的,而且数据的量也是一个积累渐变(当然可能是加速度增长)的过程。 所谓大数据,更多的是社会媒体火热以后的专指,是已经与施事背景相关联的数据,而不是搜索引擎从开放互联网搜罗来的混杂集合。没有社会媒体及其用户社会网络作为背景,纯粹从量上看,“大数据”早就存在了,它催生了搜索产业。对于搜索引擎,big data 早已不是新的概念,面对互联网的汪洋大海,搜索巨头利用关键词索引(keyword indexing)为亿万用户提供搜索服务已经很多年了。我们每一个网民都是受益者,很难想象一个没有搜索的互联网世界。但那不是如今的 buzz word,如今的大数据与社会媒体密不可分。当然,数据挖掘领域把用户信息和消费习惯的数据结合起来,已经有很多成果和应用。自然语言的大数据可以看作是那个应用的继续,从术语上说就是,文本挖掘(text mining,from social media big data)是数据挖掘(data mining) 的自然延伸。对于语言技术,NLP 系统需要对语言做结构分析,理解其语义,这样的智能型工作比给关键词建立索引要复杂百倍,也因此 big data scale up 一直是自然语言技术的一个瓶颈。 大数据也包括声音、 图片和录像等媒体。本文只谈文本大数据。 随着社会媒体的深入人心以及移动互联网的普及,人手一机,普罗百姓都在随时随地发送消息,发自民间的信息正在微博、微信和各种论坛上遍地开花。对于信息受体(人、企业、政府等),信息过载(information overload)问题日益严重,利用 NLP 等高新技术来帮助处理抽取信息,势在必行。 除了与社会媒体以及施事背景密切相关以外,大数据此时的当红也得力于技术手段的成熟。大数据的存贮架构以及云计算的海量处理能力,为大数据时代的到来提供了技术支撑平台。在此基础上,大数据的深度挖掘才有可能跳出实验室,在具体应用和服务中发挥作用。 大数据时代只认数据不认人。 Of course, In God We Trust . But in everything else we need data. 道理很简单,在信息爆炸的时代,任何个人的精力、能力和阅历都是有限的,所看到听到的都是冰山一角。大V也是如此,大家都在盲人摸象。唯有大数据挖掘才有资格为纵览全貌提供导引。 当然,这不是说,大数据挖掘就是完美的解决方案。但是,正如一人一票的民主选举也不是人类社会完美的体制,而只是最少犯错误的机制一样,大数据挖掘比任何其他个人或利益集团的分析,较少受到主观偏见的干扰。这是由大数据本性决定的。 大数据是忽悠么?吆喝多了,烂了,就跟转基因似的,本来是正经的研究,也要被人怀疑是忽悠,甚至骗局。要说忽悠,大数据有没有忽悠?当然有,应该说很多。所有的泡沫都是吹起来的,但特别大的泡沫其所以能被吹起来并且持续,就不仅仅是吹功可为。正如我演讲中说过的,大数据不仅仅是忽悠,一场革命也许在酝酿着。 (3)大数据挖掘技术及其挑战 社会媒体火了,信息爆炸式增长,也有了大数据支撑平台,挖掘技术跟上了么? 面对呈指数增长的海量信息,人类越来越面对信息获取的困境。唯一的出路是依靠电脑挖掘。对付文本大数据的核心技术是自然语言处理(NLP),没有鲁棒高效的 NLP,电脑挖掘得不到什么有指导价值的情报。就说社会媒体对产品和服务的评价吧,每时每刻,无数用户的抱怨和推荐不断出现在网上,这些客户对产品的评价情报对于企业加强产品功能和研发新产品,具有很高的应用价值。可是怎么获取这些淹没在语言海洋中的情报呢?出路就是:1 自动分析; 2. 自动抽取;3 挖掘整合。这就是我们正在做而且已经取得显著效果的工作。 社会媒体的特点是什么?概括来说,就是:1. 不断翻新的海量信息源;2. 满是不规范的字词和表达法。这就要求研发的系统,首先必须具有大数据处理能力( scalability),实验室的玩具系统无论其数据分析多么精准深入也是不行的;同等重要的还有分析系统的鲁棒性(robustness)。在这两者的基础上,如果再能做到有深度(depth),则更佳。深度分析的优势在于能够支持应用层面的以不变应万变。因为应用层面的变数大,不同的客户、不同的产品对于信息的关注点不同,所以抽取信息应该越灵活越好,最好能做到象目前运用搜索引擎或数据库查询那样方便。但数据的语言表达是千变万化的,要做到信息的灵活抽取,而不是根据事先预定的信息模板来抽取,那就需要相当的语言分析深度来支持一个逻辑化的语义表达。要一个系统既有 scalability,robustness,还要有 depth,不是一件容易的事儿。 在处理海量数据的问题解决以后,查准率和查全率变得相对不重要了。换句话说,即便不是最优秀的系统,只有平平的查准率(譬如70%,抓100个,只有70个抓对了),平平的查全率(譬如30%,三个只能抓到一个),只要可以用于大数据,一样可以做出优秀的实用系统来。其根本原因在于两个因素:一是大数据时代的信息冗余度;二是人类信息消化的有限度。查全率的不足可以用增加所处理的数据量来弥补,这一点比较好理解。既然有价值的信息,有统计意义的信息,不可能是“孤本”,它一定是被许多人以许多不同的说法重复着,那么查全率不高的系统总会抓住它也就没有疑问了。从信息消费者的角度,一个信息被抓住一千次,与被抓住900次,是没有本质区别的,信息还是那个信息,只要准确就成。疑问在一个查准率不理想的系统怎么可以取信于用户呢?如果是70%的系统,100条抓到的信息就有30条是错的,这岂不是鱼龙混杂,让人无法辨别,这样的系统还有什么价值?沿着这个思路,别说70%,就是高达90%的系统也还是错误随处可见,不堪应用。这样的视点忽略了实际的挖掘系统中的信息筛选(sampling)与整合(fusion)的环节,因此夸大了系统的个案错误对最终结果的负面影响。实际上,典型的情景是,面对海量信息源,信息搜索者的几乎任何请求,都会有数不清的潜在答案。由于信息消费者是人,不是神,即便有一个完美无误的理想系统能够把所有结果,不分巨细都提供给他,他也无福消受(所谓 information overload)。因此,一个实用系统必须要做筛选整合,把统计上最有意义的结果呈现出来。这个筛选整合的过程是挖掘的一部分,可以保证最终结果的质量远远高于系统的个案质量。总之,size matters,多了就不一样了。大数据改变了技术应用的条件和生态,大数据更能将就不完美的引擎。 (4)客户评价和民意舆论的抽取挖掘 舆情(舆论情绪/舆论情势)是什么?人民(或网民)的声音。 人民是由个体组成的,网民是由网虫组成的。网民的声音来自一个个网虫的帖子。网民声音的载体就是社会媒体大数据。在大数据的尺度下,个体声音的过细分类没有太大意义,因为只要数据足够大,其最终舆情结果(结论)是不变的。举例来说,10万个正面呼声,100万个负面呼声,其综合舆情结果并不会因为这10万中有 1万crazy,1万love,8万like,负面中有10万fuck,10万hate,80万dislike 等等而有大的改变。无论如何计算,结论依然是天怒人怨。 大数据系统情报挖掘的真正价值何在呢?就是揭示冗余度支持的有统计意义的情报及其关联。在大数据的尺度下,个体情报的引擎查全率的不足不是问题,因为在大数据整体挖掘的背景下,样本空间的问题消失了。个体的不足或遗漏,不过是等价于样本空间缩小了那么一点点儿,对于统计情报的完备、性质和价值不具有负面影响。考虑到很多年来,统计情报都是手工 survey 而来,其样本空间由于预算以及时效的制约,大多是几千个数据点(data points)而已,统计人员一直在预算、时效和 error margin 之间挣扎。如今的大数据挖掘,随便一个调查都有百万甚至千万的数据点支持,与手工调查完全不可同日而语,样本空间的些微变化因此不能对情报价值造成伤害。总之,与其追求引擎的查全率,不如把精力放在查准率上,然后着力于应对数据量的挑战(scale up)。 采样大就可以弥补个体颗粒度的粗疏,这在机器学习领域被一再证明,也是很多统计学家不屑于语言学家精雕细刻雕虫小技的缘由之一。这么说,语言学可以退出舞台了? 并非如此。主要原因有二。 第一是大数据并非总存在。冷门品牌或者新出的品牌的数据量就往往不够,另外很多分析要求对数据进行切割,比如从时间维度的切割可以反映舆情的消长(trends),是制定决策时非常重要的情报,可是大数据一切隔往往就成了小数据,没有语言学上比较细致的分析来弥补,舆情分析就不靠谱,没有足够的置信度。 第二是褒贬分析只提供舆情的一个概览,它本身并不是 actionable insights. 知道很多人喜欢或者不喜欢一个品牌,so what?企业还是不知道怎么办,最多是在广告宣传投资量的决策上有些参考价值,对于改进品牌产品,适应用户需求,褒贬舆情太过抽象,不能提供有价值的情报。这就要求舆情分析冲破两分、三分、五分的分类法,去发掘这些情绪的背后的动因(reasons/motivation),回答为什么网民喜欢(不喜欢)一个品牌的问题。譬如挖掘发现,原来喜欢麦当劳的主要原因是它发放优惠券,而不喜欢它的原因主要是嫌它热量太大,不利减肥。这样的舆情才是企业在了解自己品牌基本形象以后,最渴望得到的 actionable 情报,因为他们可以据此调整产品方向(如增加绿色品种和花样,水果、色拉等),改变广告策略(如强调其绿色的部分)。 大数据给决策人(政府、企业或者犹豫如何选择的消费者)提供了一个前所未有的方便工具,去纵览有统计意义的舆情。这在以前只能通过小规模误差很大的人工问卷调查来做。如今自动化了,而且样本量高出好几个量级,拜科学技术所赐。 (5)自动民调: 社媒大数据挖掘的重要应用 社媒大数据挖掘最重要的应用之一是自动民调,可以补充、加强并最终 取代手工问卷调查。可以用来测量一场运动、战役、广告的效果,总统选情的检测,等等。 自动民调(Automatic Survey)指的是利用电脑从语言数据中自动抽取挖掘有关特定话题的民间舆论,其技术领域即所谓舆情挖掘(sentiment mining),通常需要自然语言(NLP)和机器学习(Machine Learning)等技术作为支持。自动民调是对传统的问卷调查一个补充或替代。在社会媒体日益普及的今天,民间情绪和舆论通过微博、博客或论坛等社会媒体管道铺天盖地而来,为了检测、采集和吸收这些舆论,自动民调势在必行,因为手工挖掘面对大数据(big data)已经完全不堪负荷。 民意调查(poll)可以为政府、企业以及民众的决策提供量化情报,应用范围极其广泛。总统大选是一个突出的例子,对于总统候选人本人及其竞选团队,对于选民,民调的结果可以帮助他们调整策略或作出选择。产品发布是企业的例子,譬如 iPhone 5 发布以后,民调的反馈可以帮助苹果及时发现问题。对于有意愿的消费者,民调的结果也有助于他们在购买、等待还是转向别家的决策时,不至于陷入盲目。 相对于传统的以问卷(questionnaire)调查为基础的民调,自动民调有以下几个突出特点。 及时性。传统民调需要经过一系列过程,设计问卷、派发问卷(通过电话采访、街头采访、有奖刺激等手段)、回收问卷,直到整合归纳,所有程序都须手工进行,因此难以做到及时响应。一个认真的客户产品调查常常需要几天甚至几周时间方可完成。自动民调可以做到立等可取。对于任意话题,使用自动民调系统就像利用搜索引擎一样方便,因为背后的处理机在不分昼夜地自动分析和索引有关的语言资料(通常来自社会媒体)。 高性价。传统民调的手工性质使得只有舍得不菲的花费,才可以做一项有足够规模的民调(样本小误差就大,难以达到民调的目的)。自动民调是由系统自动完成,同一个系统可以服务不同客户不同话题的各种民调,因此可以做到非常廉价,花费只需传统民调的零头。样本数可以高出手工调查回收数量的n个量级,是传统民调无法企及的。至于话费,通常的商业模式有两种,客户可以订阅(license)这样的系统的使用权,然后可以随时随地对任意多话题做任意多民调。零散客户也可以要求记件使用,每个话题民调一次缴纳多少钱。 客观性。传统民调需要设计问卷,这就可能有意无意引入主观因素,因此不能完全排除模糊歧义乃至误导的可能。自动民调是自底而上的自动数据分析,用的是归纳整合的方法,因此更加具有客观性。为了达成调查,调查者有时不得不施行物质刺激,这也产生了部分客户纯粹为了奖励而应付调查、返回低质问卷的弊端。自动民调的对象是民意的自然流露(水军和恶意操纵另论),基数大,也有利于降噪,这就保障了情报的客观性。 对比性。这一点特别重要,因为几乎任何话题的民调,都需要竞争对手或行业的背景。正面反面的舆论,问题的严重性等等,只有通过对比才能适当体现。譬如民调奥巴马的总统竞选效益,离不开对比其对手罗梅尼。客户调查 ATT 手机网络的服务,离不开比较其竞争者 Verizon,等。很多品牌实际上需要与一系列同类品牌做对比,才好确定其在市场的地位(如上图所示,对社会媒体的自动民调清楚显示出美国几家主要零售店在消费者心目中的相对位置)。这种对比民调,虽然在理论上也可以手工进行,但是由于手工民调耗时耗力耗钱,很多时候调查者不得不减少或者牺牲对于竞争对手的调查,利用有限的资源只做对本企业的品牌调查。可自动调查就不同了,多话题的调查和对比是这类产品设计的题中应有之义,可以轻易完成。 自动民调也有挑战,主要挑战在于人为噪音:面对混乱的社会媒体现实,五毛、水军以及恶意舆论的泛滥,一个有效的舆情系统必须不断与垃圾作战。好在这方面,搜索引擎领域已经积攒了丰富的经验可以借鉴。另一个挑战是需要对网络世界做两类媒体的分类(所谓push/pull的媒体分野)。民意调查切忌混入“长官意志”,客户情报一定要与商家宣传分开:同是好话,商家是王婆卖瓜,客户才是上帝下旨。这种媒体分类可以结合来源(sources)、语气(宣传类材料常常是新闻官方语气,而客户评价则多用口语和网络语)来决定,是有迹可寻的。 总之,在互联网的时代,随着社会媒体的深入民间,民间情绪和舆论的表达越来越多地诉诸于社会媒体。因此,民调自动化势必成为未来民调的方向和主流。其支持技术也基本成熟,大规模多语言的应用指日可待。 奥巴马赢了昨晚辩论吗?舆情自动检测告诉你。 Obama won the debate, see our evidence 民调自动化,技术带领你自动检测舆情: 社会媒体twitter的自动检测表明,奥巴马显然赢了昨晚的第二次辩论。人气曲线表明他几乎在所有议题上领先罗梅尼。 对奥巴马真正具有挑战性的议题有二:一是他在第一任总统期间的经济表现(6:55pm);二是批判他对中国不够强硬 (7:30pm)。人气曲线反映了由我们自然语言技术支持的实时舆情挖掘。 (6)实时监测: 大数据时代的危机管理 大数据挖掘第二个重要应用就是为公关危机提供实时监测和预警的工具。 话说这危机管理(risk management)在进入社交媒体大数据时代,确实成为一个大问题。老话说,好话不出门,坏话传千里。在微博微信的时代,岂止千里,有时候一件事被疯狂推转,能传遍全世界。如果没有危机管理的意识以及迅速发现和应对的技术手段和公关技巧,损失的就是企业的信誉,外加金钱。这一点大名鼎鼎的跨国公司西门子最清楚,由于公关处理失当,发现和应对的不及时不诚恳不懂心理学,惹恼了一位叫做罗永浩的胖大哥。老罗是大 V,嗓子亮,因此一个简单的产品质量问题(好像是西门子冰箱的门不太容易关严实)演变成一场社交媒体的戏剧性的消费者维权事件。老罗愤而砸西门子冰箱的行为艺术和形象,成为家喻户晓的消费者维权的特征符号。西门子为此损失了多少银子,百万还是千万,只有他们自己可以算清楚,打落牙齿自己吞,这是傲慢的西门子的血的教训。 企业大数据运用的主要运用场景(use scenarios),其中危机管理(risk management)最容易打动企业客户,他们也最愿意花大钱帮助实时监控。一个可能的公关灾难从火种到无法收拾,里面可以调控的时间并不长,他们希望电脑大数据监控能在第一时间发出预警,然后他们可以及时应对。 曾经测试中文系统一个月的微博数据(新浪微博和腾讯微博),想看看系统对于类似危机的监测效果如何,结果发现了一个当时闹得沸沸扬扬的必胜客虾球广告事件,涉嫌侮辱视力残障人士。下面的 挖掘抓取令人印象深刻,显然这次事件严重影响了企业的社会形象,是一个不折不扣的公关危机。 好在必胜客管理层公关应对迅速,及时道歉,逐渐平息了事态。 (7)大数据及其挖掘的局限性 说说它的不宜和禁忌。 这种挖掘不宜做预测,更适合做回顾。当然,历史是未来的镜子,回顾过去也未尝不能透出一点趋向的预测。 这种挖掘一般不提供问题的答案,特别是科学问题,答案在专家或上帝手中,不在网民的口水里。 大数据不是决策的唯一依据,只是依据之一。正确的决策必须综合各种信息来源。大事不提,看看 笔者购买洗衣机是怎样使用大数据、朋友口碑、实地考察以及种种其他考量 的吧。以为有了大数据,就万事大吉,是不切实际的。 值得注意的是,即便被认为是真实反映的同一组数据结果也完全可能有不同的解读(interpretations),人们就是在这种解读的争辩中逼近真相。一个好的大数据系统,必须创造条件,便于用户 drill down 去验证或否定一种解读,便于用户通过不同的条件限制及其比较来探究真相。 社媒是个大染缸,顽主比烂,僵尸横行,水军泛滥,这样的大数据,其挖掘又有什么意义?无论是怎样大的染缸,它实际上成为最具规模、最便捷、有时甚至是唯一的普罗网民的舆情宣泄口。水军僵尸总会有对付的办法。社媒的混沌和杂乱不是不作为的理由。从情报角度,它可能不是富矿,但肯定是金矿,就看你有没有本事挖掘它。 有网友怕大数据挖掘误导读者。的确,大数据的操作和挖掘可能有 bug。但大数据提供的舆情全貌鸟瞰是其他手段代替不了的,而我们每个个体在日常接触中只能看到舆情信息海洋的一滴水。事实上,无视大数据更容易被自己的局限所误导。害怕大数据,就好比蒙上眼睛,世界就不见了一样可笑。 应该指出的是,挖掘本身虽然可能有 bug ,数据本身也有不少噪音,但它们对所有搜索的话题是一视同仁的,是独立于话题的。这些数据及其挖掘的不完善只要放在比较的框架中就不是严重问题。虽然具体语言中褒贬比例和分布可能不同,但是如果一个对象的褒贬指数放在其他对象的褒贬指数的背景(reference frame) 下来阐释,其解读就比较真实。比如,在过往的许多调查中,我们知道褒贬度降到零下20以后就很不妙,说明媒体形象差,老百姓很多怨气。有了这样一个历史积累,新的品牌或话题如果达到类似的指标,解读就不大会离谱了。 特别是,我们做一个行业的多品牌调查和比较的时候更是如此。品牌A与品牌B的在舆情中的相对位置非常说明问题。系统的误差,质量的不完美,语言数据的不完整,以及语言现象的分布不匀,所有这些统统不再成为问题,除非这些差异是针对特定品牌的(这种现象基本不出现)。 这一点毛委员早就说过:有比较才有鉴别。 (8)大数据创业的苦和乐 高新技术的好处在于做前人没做过的创新。创新的真义在于在技术手段面对应用现场的无数应用可能的组合方案中,在与用户的交互与市场的培育下,你找到了那一个很小子集中的一员。这个子集里的产品定义因应时代的召唤,生逢其时,不早也不晚,而且有技术门槛(entry barrier)。 高新技术创业的痛苦不仅仅在技术研发以及实用化过程中的辛劳,更让人困惑的是来自新兴市场的挑战。尚未成熟的新兴市场好比性感女郎,时髦而善变,适应这样的市场需要的不仅仅是技术,而是善于在技术与市场之间牵线搭桥的红娘。具体说来,这决定于企业老总的眼光、产品经理的敏锐以及技术创新者随机应变的能力。技术人改变世界的宏图大志如果单纯靠自己一亩三分地的耕耘,无论你多先进和辛勤,也只能是美梦一场。 然而,如果你有幸找到了市场切入点,你会发现,你的客户不乏热情先行者(early adopters),他们不吝啬溢美之辞,为了 现实需求中疑难的解决。也有客户大喜过望,把他们不理解的语言技术,视为未来世界奇迹的提前来临。他们的欣喜会感染开发者。当这种感染不再是个案,而是时常发生的时候(所谓 tipping point),你不可能无动于衷,也不可能不加入客户成为大数据及其创新的吹鼓手。 【相关篇什】: 【喋喋不休论大数据(立委博文汇总)】 Social Media Big Date, anther bubble? 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|7417 次阅读|8 个评论
[转载]立委论大数据挖掘(博文汇总)
readnet 2014-1-12 11:23
【立委喋喋不休论大数据挖掘(博文汇总)】 已有 249 次阅读 2014-1-12 01:47 | 个人分类: 社媒挖掘 | 系统分类: 科研笔记 | 关键词:大数据 立委 为准备一个大数据的书面发言,今天把自己过去两年在科学网【 立委科普 】和【 社媒挖掘 】专栏里发的有关大数据及其挖掘的博文扫了一遍,共计n篇,洋洋洒洒m万言 ,总量远远超过彭德怀元帅1958年“为人民鼓与呼”的万言上书 。没有功劳有苦劳,严重建议科学网授予立委“大数据吹鼓手”荣誉奖章,表彰其对热门话题火上浇油的不懈努力。 【立委论大数据挖掘(博文汇总)】 立委科普 | 叔爷诗词 | 岁月如歌 | 立委推荐 | 留学资讯 | 老师文集 | 江东文集 | 文艺点评 | 其他杂碎 | 师姐专辑 | 世运资料 | 成长花絮 | 立委其人 | 江城记事 | 笔细文集 | 神秘花园 | 立委随笔 | 夫子遗墨 | 风雨春秋 | 镜子大全 | 朝华午拾 | 立委录像 | 镜子医疗卫生专栏 | 社媒挖掘 | Little Stories of Tian Tian | 分享 【1】 为什么做大数据的吹鼓手? 热度 2 李维 2013-7-28 01:14 王婆卖瓜是一种解释,虽然不是主要的原因。一个敬业的王婆一定会吆喝自己的瓜,毕竟是自己辛辛苦苦栽培,一把水一把肥看着它长大的,恰好赶上了百年不遇的高温干旱,这鲜美的瓜不吆喝都对不起它。 主要的原因是上帝。哦,我说的是客户。在工业界的好处就是能面对真正的市场和客户。闭门造车孤芳自赏的象牙塔没有了,当 ...个人分类: 立委科普 | 667 次阅读 | 2 个评论 分享 【2】 大数据NLP论 热度 5 李维 2013-7-27 20:50 由于自然语言的歧义性和复杂性以及社交媒体的随意性和不规范,要想编制一套 查准率 (precision)和 查全率 (recall)两项指标综合水平(所谓 F-score)都很高的NLP(Natural Language Processing)系统非常不容易。但是,研发实践发现,自然语言系统能否实用,很多时候并不是决定于上述两个指标。还有一个更重要的指 ...个人分类: 立委科普 | 3090 次阅读 | 6 个评论 分享 【3】 On Big Data NLP 热度 1 李维 2013-7-27 20:43 Admittedly, it is not easy to develop an NLP ( Natural Language Processing ) system with both high precision and high recall (i.e. high F-score) due to the ambiguity and complexity of natural language phenomena. Social media is even more challenging, full of misspellings, irregularities, and ...个人分类: 立委科普 | 766 次阅读 | 2 个评论 分享 分享 【4】 作为公开课的大数据演讲 热度 16 李维 2013-5-23 18:34 【立委按】鬼子的进村,打枪的不要:立委的北京演讲在【 科学网公开课 】论坛悄悄地露脸。感谢编辑MM录像、剪辑和整理上网 ,这里面的辛苦只有伊人自己知道。MM来函,要先让讲员过目。说句大实话,除非你是演员出身,或者是久经沙场的 marketer,譬如饶教授、诺奖得主那类超级大牛,像立委这样的的8级码工,看自己的录像纯 ...个人分类: 立委科普 | 6654 次阅读 | 17 个评论 【5】 社媒是个大染缸,大数据挖掘有啥价值? 李维 2014-1-7 09:56 社媒是个大染缸,顽主比烂,僵尸横行,水军泛滥,大数据挖掘又有什么意义? 无论是怎样大的染缸,它实际上成为最具规模、最便捷、有时甚至是唯一的普罗网民的舆情宣泄口,尤其在东土。 水军僵尸总会有对付的办法。社媒的混沌和杂乱不是不作为的理由。从情报角度,它可能不是富矿,但肯定是金矿,就看你有没有本事 ...个人分类: 立委科普 | 190 次阅读 | 没有评论 分享 【6】 大数据挖掘问答2:会哭的孩子有奶吃 热度 2 李维 2013-12-27 15:44 RE: 有人在网上叫得最凶,所以这种大数据分析很容易受网上的vocal minority影响,不是么? 叫得最响用处不大,要叫得多。叫得响可以影响情绪烈度指标(passion index),但不影响最关键的褒贬指数(net sentiment)。叫得多也不能靠水军和僵尸,因为容易当作噪音被剔除,所以必须要叫得多种多样。 作者: 立委 ...个人分类: 立委科普 | 556 次阅读 | 2 个评论 分享 【7】 大数据挖掘问答1:所谓数据完整性 热度 3 李维 2013-12-27 11:12 到了一定尺度以后,你也不用迷信什么数据完整性,好像少了一块数据,就怎样怎样了 作者: 立委 (*) 日期: 12/26/2013 18:54:07 关键是,不管何种原因数据不完整了,只要原则上保证这种数据损失不是针对特定话题即可(一视同仁)。而在大数据条件下,针对话题的损失 事故几乎就不出现,因为话题不是预定的,想有意 ...个人分类: 立委科普 | 395 次阅读 | 3 个评论 享 【8】 科研围脖:提上来,再谈查全率和大海捞针 热度 1 李维 2013-7-29 00:38 白图格吉扎布 2013-7-28 22:58 文章标题: 大数据NLP论 有价值的信息,有统计意义的信息,不可能是“孤本”,它一定是被许多人以许多不同的说法重复着,那么查全率不高的系统总会抓住它也就没有疑问了。 博主回复(2013-7-29 00:35) : 不是说“孤本”就没有价值,大海里面的那颗特定的针也许 ...个人分类: 立委科普 | 1223 次阅读 | 1 个评论 分享 【9】 【立委科普:所谓大数据(BIG DATA)】 热度 3 李维 2013-3-21 04:58 Big data is not just data that are big. In the sense of data load, big data has been there for quite a while in Internet, on which the entire search industry was based and developed. The current buzz word big data is different, it is innately associated with users' background and social ...个人分类: 立委科普 | 1175 次阅读 | 3 个评论 【10】 广而告之:科学网“双百”博主立委四月一日在北京演讲大数据挖掘 热度 11 李维 2013-3-20 19:57 UPDATE:立委愚人节北京讲演时间地点已经确认,感谢中文信息学会孙教授的邀请和安排,也感谢董振东前辈教授的建议和推举: The loacation is : Room 334, 3rd floor, building 5 Institute of Software, Chinese Academy of Sciences, No. Zhongguancun South 4th Street 10:00~12:00 It' ...个人分类: 立委科普 | 1283 次阅读 | 13 个评论 分享 【11】 Course-grained vs. fine-grained sentiment extraction 李维 2013-3-12 06:51 As for sentiment extraction itself, there are different layers: 1. sentiment classification: thumbs-up and down (or plus neutral) 2. sentiment association: to associate a sentiment with a topic or brand 3. fine-grained sentiment extraction: for example, who made the sentiment comment? about w ...个人分类: 立委科普 | 671 次阅读 | 没有评论 分享 【12】 【“剩女”的去向和出路(1)】 热度 2 李维 2013-3-8 20:03 在面目可憎的新词“剩女”流行之前,大龄单身女青年的问题就存在,只是问题到如今愈加严重。 前文 说过,尤其是高学历大龄女青年这个群组,在她们可以选择的年龄段,合适的结婚对象比大熊猫还珍稀,因此成为比哥德巴赫还要难解的社会问题。那么从历史上看,她们的去向究竟怎样?今后的出路应该如何? 我是搞语言处理和 ...个人分类: 立委科普 | 1035 次阅读 | 2 个评论 分享 【13】 【立委科普:基于关键词的舆情分类系统面临挑战】 热度 1 李维 2013-2-15 22:47 Five challenges to keyword-based sentiment classification: (1) domain portability; (2) micro-blogs: sentence/twit classification is a lot tougher than document classification; (3) when big data become small: big data load when sliced and diced based ...个人分类: 立委科普 | 1372 次阅读 | 1 个评论 分享 【14】 曙光在眼前,轻松过个年 热度 1 李维 2013-2-9 04:34 QA(Quality Assurance 质量检测)表明,在下领导开发的中文系统质量优良 日期: 02/08/2013 13:38:01 比起我们业已成熟的英文系统,QA 表明: precision (查准率)已经基本达到英文系统的查准率水平; recall (查全率)达到英文查全率的三分之二左右。 要知道,英文系统 ...个人分类: 立委科普 | 626 次阅读 | 3 个评论 分享 【15】 围脖提上来:大数据时代的生活策略 热度 2 李维 2013-2-5 07:33 RE: 投票的时候,每个人只有一票,不管是like love crazy 还是 can't live without 都只有一票的用处。 一人一票制就是要排除 passion indensity 作者: 立委 (*) 日期: 02/04/2013 14:12:25 就客户而言,一个苹果饭可能会买n个iPhones,比如作为礼物给家人、朋友等,因此 intensity 加个权也许还 ...个人分类: 立委科普 | 1294 次阅读 | 2 个评论 分享 【16】 【立委科普:舆情挖掘的背后】 热度 2 李维 2013-2-4 10:22 中文版 品牌舆情图 设计方案展示后,有不少反馈,其中有朋友认为,四极二维(love/hate,like/dislike)的图示不自然,因为它们实际上是在同一个维度上。今天就这个题目多写几句科普式随笔,看看舆情自动挖掘以及舆情表达(representation)背后的设计思想。 褒贬在客观语言事实上确实是一个连 ...个人分类: 立委科普 | 1815 次阅读 | 3 个评论 【17】 【科研笔记:big data NLP, how big is big?】 热度 1 李维 2012-10-31 19:03 Big data 与 云计算一样,成为当今 IT 的时髦词 (buzzword / fashion word ). 随着社会媒体的深入人心以及移动互联网的普及,人手一机,普罗百姓都在随时随地发送消息,发自民间的信息正在微博、微信和各种论坛上遍地开花,big data 呈爆炸性增长。对于信息受体(人、企业、政府等),信息过载(information overlo ...个人分类: 立委科普 | 967 次阅读 | 1 个评论 【18】 【立委科普:自动民调】 热度 3 李维 2012-10-19 02:33 Automatic survey complements and/or replaces manual survey. That is the increasingly apparent direction and trend as social media are getting more popular everyday. 自动民调(or 机器民调: Automatic Survey / Machine Survey)指的是利用电脑从语言数据中自动抽取挖掘有关特定话题的民间舆论,其技术 ...个人分类: 立委科普 | 1530 次阅读 | 3 个评论 分享 【19】 【研发笔记:粤语文句的情报挖掘】 热度 4 李维 2012-9-28 07:50 在研发社会媒体舆情挖掘的中文系统过程中,遇到一些粤语的帖子,看上去似懂非懂的。从机器处理角度来看,方言与行业用语类似,算是一种子语言(sublanguage),可以看作是普通话的变体。其中绝大多数的区别在词汇层,句子结构大同小异。于是决定采用先把粤语文句自动翻译成普通话的方法,然后再 feed 到普通话的主体系统 ...个人分类: 立委科普 | 2167 次阅读 | 4 个评论 【20】 2011 信息产业的两大关键词:社交媒体和云计算 李维 2012-2-1 16:45 我们现在正处在一个难得的历史契机。 去年发生了一连串值得注意的相关事件。其热门关键词是社会媒体(social media) 和云计算(cloud computing),而大数据(big data)情报挖掘正是针对社会媒体内容利用云计算作为支撑的高新技术产业的代表。 社会媒体尤其是微博持续升温,无论是用户还是其产生的内容, ...个人分类: 立委科普 | 1170 次阅读 | 没有评论 【21】 社会媒体比烂,但国骂隐含舆情 热度 3 李维 2012-3-20 03:59 本池有几个是物理出身啊?以后见他们退三舍。都是怎样的炼狱过来的。李剑芒这小子吹嘘小方见他这个师兄躲得远远地,不为别的,就 为他学物理而且敢骂街。 我感兴趣的是其中的社会媒体的国骂变种。前两天写了个regexp,不知道能抓住它多少: 国骂: 1. { ? ? }? /* 你 妈 了 个 逼 的 */ ? 2 ? 3 ...个人分类: 立委科普 | 978 次阅读 | 3 个评论 【22】 立委统计发现,汉语既适合吹嘘拍马亦长于恶意构陷 热度 3 李维 2012-5-1 13:59 词汇统计发现,汉语既适合吹嘘拍马亦长于恶意构陷 作者: 立委 (*) 日期: 05/01/2012 00:49:08 日常汉语词汇不但比类似规模的英语日常词汇多出了两倍到三倍的褒义词和贬义词,更有意思的是,这些褒贬词汇中特别针对人的 就多达约1/3(3809/11968)。由于1/3以外的褒贬词汇大多既可以用于 物 ,也可以用 ...个人分类: 立委科普 | 1585 次阅读 | 4 个评论 分享 【23】 比起英语,汉语感情更外露还是更炽烈? 李维 2012-4-28 04:29 Chinese is a more sentiment-intensive language than English?? FW: Counts of sentiment words in Chinese and English Interesting finding: that Chinese more than doubles the negative words and more than triples the positive words in comparison with the English vocabulary. This is based on the 5 ...个人分类: 立委科普 | 1158 次阅读 | 没有评论 【24】 社会媒体(围脖啦)火了,信息泛滥成灾,技术跟上了么? 热度 1 李维 2011-11-22 14:23 “三好”立委要做“三有”系统 面对呈指数增长的海量信息,人类面对信息获取的困境。唯一的出路是依靠电脑,其核心的技术是语言处理(NLP)。这不是王婆卖瓜,而是客观形势。 就说社会媒体对产品和服务的评价吧,每时每刻,无数用户的抱怨和赞美不断出现在网上,这些客户对产品的评价情报对于企业加强产品功能和研发 ...个人分类: 立委科普 | 1630 次阅读 | 1 个评论 分享 【25】 科研笔记:开天辟地的感觉真好 李维 2011-10-30 01:40 刚开始上系统的体验真好,有一点儿开天辟地的感觉。 作者: 立委 日期: 10/29/2011 12:35:42 那么多人在语言混沌中绕不出来,而我自己的感觉每一个挑战都有一条通天的大路,怪了。英语如此,其他欧洲语言(法、德、西、意等)如此,中文更如此。弄潮儿大海冲浪,不过如是吧。 手里有一库的工具,遇到一个问题 ...个人分类: 立委科普 | 1262 次阅读 | 没有评论 【26】 《科普随笔:机器八卦》 李维 2011-10-14 17:09 机器八卦:Text Mining and Intelligence Discovery (13219) Posted by: liwei999 Date: June 10, 2006 10:07PM 犀角提议,干脆用机器挖掘吧。我不想吓唬大家,但是,理论上说,除非你不冒泡,言多必失,机器八卦,比人工挖掘,可能揭示出你的更多特征。好在该技术还不成熟。 Text mining 是我这 ...个人分类: 立委科普 | 863 次阅读 | 没有评论 【27】 言多必露,文本挖掘可以揭示背景信息 热度 1 李维 2011-7-11 01:03 言多必露,挖掘有商用价值的背景信息 文本挖掘(text mining)中,Demographic Profile Extraction 的任务是要给网虫自动分类,揭示其背景信息(年龄,性别,身份,族裔,人生阶段,家庭背景等)。 一些简单的规则,查准率高(high precision),查全率并不高(moderate recall),譬如: I am X -- X (student, t ...个人分类: 立委科普 | 939 次阅读 分享 【28】 《立委科普:机器八卦》 李维 2009-12-23 06:45 机器八卦:Text Mining and Intelligence Discovery (13219) Posted by: liwei999 Date: June 10, 2006 10:07PM 犀角提议,干脆用机器挖掘吧。我不想吓唬大家,但是,理论上说,除非你不冒泡,言多必失,机器八卦,比人工挖掘,可能揭示出你的更多特征。好在该技术还不成熟。 文本挖掘(text mining) 是我这几年 ...个人分类: 立委科普 | 5095 次阅读 | 没有评论 【29】 《朝华午拾:信息抽取笔记》 热度 1 李维 2009-12-12 08:33 《朝华午拾:信息抽取笔记 — Julian Hill Entity Profile 的形成》 作者:立委 在我的科研生涯中,有些插曲很有意思。关于 Julian Hill 的故事就是其一,这段故事成为我们研究组推介所谓实体概览(Entity Profile)的概念和功能的经典例证。 那是七八年前,我涉入信息抽取领域不到两年,同时主持两个信息抽取 ...个人分类: 立委科普 | 2071 次阅读 | 【30】 【立委科普:信息抽取】 热度 1 李维 2009-12-12 08:35 【立委科普:信息抽取】 (13618 bytes) Posted by: 立委 Date: August 10, 2007 10:31AM 作者:立委 前言 信息这个词对大家都不陌生,因为我们处在一个信息爆炸时代。事实上,如今internet上信息是如此的泛滥,鱼龙混杂,以至于当我们搜寻资讯的时候,常常有大海捞针的感觉 ...个人分类: 立委科普 | 3013 次阅读 | 4 个评论 立委科普 | 叔爷诗词 | 岁月如歌 | 立委推荐 | 留学资讯 | 老师文集 | 江东文集 | 文艺点评 | 其他杂碎 | 师姐专辑 | 世运资料 | 成长花絮 | 立委其人 | 江城记事 | 笔细文集 | 神秘花园 | 立委随笔 | 夫子遗墨 | 风雨春秋 | 镜子大全 | 朝华午拾 | 立委录像 | 镜子医疗卫生专栏 | 社媒挖掘 | Little Stories of Tian Tian | 分享 【立委论大数据博文汇总】 草稿 李维 2014-1-12 01:28 为准备一个大数据的书面发言,今天把自己过去两年在科学网【 立委科普 】和【 社媒挖掘 】专栏里发的有关大数据的博文扫了一遍,共计篇,洋洋洒洒 言。没有功劳有苦劳,严重建议科学网授予立委“大数据吹鼓手”荣誉奖章,表彰其对热门话题火上浇油的不懈努力。 【立委论大数据博文汇总】 立委科普 | 编辑 ...个人分类: 社媒挖掘 | 没有评论 分享 “大数据与认识论”研讨会的书面发言 草稿 李维 2014-1-11 19:27 【立委按】刘钢老师来函,邀请我从我的大数据博文系列选辑一篇书面发言,参加社科院哲学所题为“大数据与认识论”的研讨会。盛情难却,更不用说社科院是我老家了。那就把散在科学网博客【社媒挖掘】专栏的博文中的立委论大数据拼接汇总一下吧。上次愚人节应中文信息学会邀请在软件所做了一个题为【】的演讲,科学网编辑还特 ...个人分类: 社媒挖掘 | 没有评论 分享 【大数据挖掘:微信(WeChat)】 热度 1 李维 2014-1-8 19:26 上帝给人类的礼物,一软一硬两个。硬的叫 iPhone(爱疯) ,软的叫 微信(英文品牌叫 WeChat) 。 都是颠覆世界,改变我们生活的移动互联网杀手产品,一旦用上,就让人离不开。 即便是上帝的礼物,也仍然会有人抱怨。因为有抱怨,才会有进步和升级。有朋友在微信团队,都是特别精明虎虎生气的年轻人,说,你给我们 ...个人分类: 社媒挖掘 | 541 次阅读 | 1 个评论 分享 【大数据解读:方崔大战对转基因形象的影响】 热度 3 李维 2014-1-7 06:29 据说大战是去年九月开始,现在尚未结束。下面的分析是对挖掘结果的一种解读,旨在抛砖引玉。好的解读需要对 domain 熟悉,平时一直在追踪,相信这样的人大有人在,可以做出更合理的解读。 下图反映去年一年对转基因在中文社会媒体大数据的挖掘结果,按照每月的热议和褒贬结果展示其趋势图。热议度 (mentions) 一年的趋势 ...个人分类: 社媒挖掘 | 327 次阅读 | 3 个评论 分享 【大数据挖掘:方崔大战一年回顾】(更正版) 热度 17 李维 2014-1-6 09:12 对博文 【大数据挖掘:方崔大战一年回顾】 2014-01-05 的 更正是: 去了“苦逼小崔” (白马非马,苦瓜非瓜,原来苦逼小崔不是小崔呢,小崔没那么苦逼,不该受伊的牵累,予以剔除 exclude) ,加了中文 繁体 。 (调查时间比前一次也后了一天。) 本来指望加繁体中文可以弥补数据量之不足,以为海外学人在 twit ...个人分类: 社媒挖掘 | 2300 次阅读 | 20 个评论 分享 【大数据挖掘:转基因一年回顾】 热度 2 李维 2014-1-6 05:42 转基因大战提升还是损害了转基因的网络形象? 日期: 01/05/2014 15:12:11 我们的大数据自动民调做过英文社会媒体的转基 因一年调查(见 【大数据挖掘:转基因英文网络的自动民调和分析】 2014-01-03 ),也做过中文社会媒体最近一个月的调查(见 【大数据挖掘:转基因中文网络的自动民调,东风压倒西风?】 ...个人分类: 社媒挖掘 | 439 次阅读 | 2 个评论 分享 【大数据挖掘:“苦逼”小崔2013年5-7月为什么跌入谷底?】 热度 2 李维 2014-1-6 00:54 Re: 你的软件有bug。 5-7月,崔永元主要在忙公益基金的事情。 当然有。beta 版。没有 bug,就没有工作了。具体苗头请指出。 上篇挖掘 崔方大战一年的形象变化曲线 ,其中一个困惑就是小崔为什么2003年5-7月跌入形象谷底?朋友说,那时候大战还未开始,是不是系统的 bug,或混沌的社会媒体数据 garbage-in ...个人分类: 社媒挖掘 | 454 次阅读 | 2 个评论 分享 【大数据挖掘:方崔大战一年回顾】 热度 4 李维 2014-1-5 18:11 以前小方小韩掐架的时候,做过方韩大战的社会媒体挖掘,结果显示两败俱伤。 据说由转基因之争引起的崔方大战是去年中文社会媒体的大事件,因此以小崔和小方两个话题的自动挖掘对照,应该可以反映这场大战的一个概貌,至少是一个侧面。 挖掘的数据来源是目前在我们现有的 index 中的中文简体的社会媒体(因与 ...个人分类: 社媒挖掘 | 439 次阅读 | 9 个评论 分享 【大数据挖掘:中国红十字会的社会媒体形象】 热度 1 李维 2014-1-4 20:27 在当今的信息社会,一个机构的社会形象很大程度上决定于其网络形象。维持和增强网络形象需要对社会媒体的挖掘追踪,以便及时应对危机,调整其公关举措。我们以去年几度陷入公关麻烦的“中国红十字会”为例来展示社会媒体大数据挖掘的这种监测和警示作用。了解自我是改进自我提升形象的前提。面对混沌的大数据,人们往 ...个人分类: 社媒挖掘 | 325 次阅读 | 1 个评论 分享 【大数据挖掘:转基因中文网络的自动民调,东风压倒西风?】 热度 6 李维 2014-1-3 20:12 中文,中文社交媒体里的转基因。与英文民调迥然不同哎,挺转声音似乎很大,主要来源呢? 终于,我们来到据说为转与非转掐架掐到天昏地黑问候父母的中文世界。为了避免陷入泥潭,咱们这次只提供数据,不提供解读。爱挺爱反,请便,爱咋解读,听便。 这次自动民调是最近一个月的中文社交媒体数据,具体来源和比例后面 ...个人分类: 社媒挖掘 | 1235 次阅读 | 7 个评论 分享 【大数据挖掘:转基因英文网络的自动民调和分析】 热度 3 李维 2014-1-3 18:23 前不久做过几个转基因在英文社交媒体的自动民调,引起广泛兴趣。不过,那几次民调都是用的最近一个月的社媒数据。很多朋友希望做一个较长时期的调查,看看西方(主要是美国)社交媒体中转基因的媒体形象及其口碑民意的演变趋势。超过一个月的数据会产生额外的数据费用,因此甚至有热心网友提出愿意筹款资助这项调查。 ...个人分类: 社媒挖掘 | 485 次阅读 | 3 个评论 分享 预告:转基因过去一年社会媒体口碑的自动民调正在进行中 李维 2014-1-3 06:21 将公布细节,先把 summary 发布如下:个人分类: 社媒挖掘 | 262 次阅读 | 没有评论 分享 只认数据不认人:IRT 的鼓噪左右美国民情了么? 热度 3 李维 2013-12-30 06:27 套用北韩最近流行的歌颂红太阳金正恩的红歌,数据,数据,《除了它我们谁也不认!》 当然,还有上帝: In God We Trust. In everyone else we need data. 大数据时代更是如此,只认数据不认人。道理很简单,在信息爆炸的时代,任何个人的精力、能力和阅历都是有限的,所看到听到的都是冰山一角。小崔如此,其他大V也 ...个人分类: 社媒挖掘 | 918 次阅读 | 10 个评论 分享 大数据帮助决策实例:《走进“大数据”——洗衣机寻购记》 热度 7 李维 2013-12-26 22:30 走进“大数据”——洗衣机寻购记(上) 长城战略咨询 2013-04-05 阅读次数:529 分享到: 前 言 当我们准备购买一件商品的时候,品牌、功能和价格等都是我们需要考虑的因素。然而,当我们面对琳琅满目的货架,众多的品牌和多种多样的功能组合时,又让我 ...个人分类: 社媒挖掘 | 949 次阅读 | 7 个评论 分享 继续转基因的大数据挖掘:谁在说话?发自何处?能代表美国人民么 热度 13 李维 2013-12-26 02:25 既然大家感兴趣,圣诞没事在家,就继续做一点转基因的大数据挖掘。 这次挖掘仍然是最近一个月的英文社会媒体,区间为: GM food, 11/25/2013 - 12/25/2013 Query 增加了一些同义词,GM Food 定义如下(漏掉重要的没有?): GM food genetically modified transgenic transgene geneti ...个人分类: 社媒挖掘 | 1827 次阅读 | 11 个评论 分享 关于转基因及其社会媒体大数据挖掘的种种问题 热度 12 李维 2013-12-25 07:55 没想到转基因话题这么热,随手做了一个自动调查发在博客上( 【西方怎么看转基因:英文社交媒体大数据调查告诉你】 ),一天多就达到 7000 点击,40 多评论。先把我对问题的回应整理如下。 1. 关于数据问题 你这个数据是有问题的,想想看,美国加州、华盛顿州的公民投票结果都是不同意 ...个人分类: 社媒挖掘 | 1264 次阅读 | 13 个评论 分享 【美国网民怎么看转基因:英文社交媒体大数据调查告诉你】 热度 48 李维 2013-12-24 06:47 从英文社会媒体对 转基因食品 大数据 调查 显示,其 评价度很低,至零下40度(评价度这么低的品牌或话题不常见,除非是遇到事故或公关灾难)。 但褒贬双方的激烈程度(passion 指标为零)远不如国内。 这是最近一个月数据的概览。没想到这个话题在美国其实议论也不少,日均数据点近三千。 ...个人分类: 社媒挖掘 | 11191 次阅读 | 66 个评论 分享 Social media mining: Teens and Issues 李维 2013-9-9 21:36 As is well known, the teenager years are a special and important period of growth for children, or young adults, to be more precise. It is growing pain, mixed with joy. It is often a rebellious phase when both parents and teens find it difficult to communicate with each other. Thi ...个人分类: 社媒挖掘 | 542 次阅读 | 没有评论 分享 【微博自动民调:薄熙来、薛蛮子和李天一】 热度 2 李维 2013-8-30 09:33 Automatic Survey from the last month of Sina Weibo (Chinese twitter, the most influential social media Microblog site) on three major characters: the former Chinese politician Bo Xilai in his on-going trial, the very famous social media figure Charles Xue who is said to have millions of fans and w ...个人分类: 社媒挖掘 | 898 次阅读 | 2 个评论 分享 池鱼失火,殃及城门:USC 足球队拖累 USC 热度 2 李维 2013-8-16 23:27 写了两篇舆情挖掘博文,言之凿凿说 USC (南加大) 口碑不好,因为民间舆论认定它 overrated,名不副实。有网友指出: USC跟UCLA的mentions大部分都是在講football, 譬如說overrated大部分是指football team從preseason no.1掉到unranked這件事..... 我老外了不是?从来不懂不看美式足球,于是向女儿求证,女儿看了 ...个人分类: 社媒挖掘 | 927 次阅读 | 3 个评论 分享 【社媒挖掘:加州大学舆情详析 UCLA/UCSD vs USC】 热度 1 李维 2013-8-16 17:17 加大(UCs)是美国有名的公立大学系统,尤其以加大伯克利(UC Berkeley)最为国内所称道。其实,加大洛杉矶分校(UCLA)也很有名,几乎与伯克利比肩。而加大圣地亚哥(UCSD)一般认为是加大的老三,据说学生过得蛮开心轻松,不象伯克利洛杉矶那么紧张,周末就驱车去墨西哥喝酒派对。最有意思的是,加大圣地亚哥在上次社交 ...个人分类: 社媒挖掘 | 790 次阅读 | 1 个评论 分享 【社媒挖掘:必胜客是七夕节情侣聚餐的首选之地?】 热度 3 李维 2013-8-14 07:40 今天一到办公室就被我们开发的舆情挖掘系统告知(alert),最近两天必胜客热议度急升(八月9日开始,今天为最)。是不是有什么特别事件发生? 前一阵子,他们出过一次“虾球广告”的公关危机,系统也及时发现了(参见 【社媒挖掘:大数据时代的危机管理】 ),幸亏他们处理及时,道歉诚恳,把事态平息了。今 ...个人分类: 社媒挖掘 | 2619 次阅读 | 3 个评论 分享 【自动民调:美国五所超级牛校(俗称 Magic 5)人气排名】 热度 3 李维 2013-8-13 20:12 接着练,看一看英文社交媒体与中文社交媒体对这五所超级牛校的人气排名是怎样的: 有意思的是,中文社交媒体的口碑普林斯顿最末;而英文媒体 普林斯顿(Princeton) 却高高在上,明显高过其他四所,虽然这所学校的中英文热议度都不如其他学校。而哈佛排名英文最末,中文也倒数第二,没想到啊。 中文口碑排名: 1 ...个人分类: 社媒挖掘 | 935 次阅读 | 3 个评论 分享 【自动民调:美国名牌大学人气排名】 热度 1 李维 2013-8-12 16:46 For the first time, the automatic survey of social media 1-year archive on some US brand name universities shows the rankings as follows, which are quite different from official ranking (Harvard and Caltech accidentally not included): 1. UCSD; 2.Chicago; 3. UPenn; 4. Carnegie Mellon ...个人分类: 社媒挖掘 | 794 次阅读 | 1 个评论 分享 【社媒挖掘:大数据时代的危机管理】 热度 2 李维 2013-6-28 19:46 写下标题,突然意识到,这怎么看上去像是科学网超级名博陈安博士的卖瓜课题。陈博士,对不起了,不是抢您的风头,也不是砸您的饭碗,是纯粹撞车了。不是冤家不撞车,一来二去,保不定您就成了我的客户呢,也未可知。 Anyway,话说这危机管理(risk management)在进入社交媒体大数据时代,确实成为一个大问题。老话 ...个人分类: 社媒挖掘 | 2555 次阅读 | 2 个评论 分享 测试粤语舆情挖掘:拿娱乐界名人阿娇和陈冠希开刀 热度 4 李维 2013-6-21 03:18 【研发笔记:粤语文句的情报挖掘】 实现之后,没顾上在应用层面做测试。前两天想要做测试,但对广东香港不熟,不知道什么是他们的热点话题 。于是决定拿娱乐界名人开刀,他们的八卦永远是网民的兴奋点,不妨挖掘一下他们的网络形象。 首先想到的是阿娇。做她准粉丝已经几年了,不为别的,只为她长相让人 ...个人分类: 社媒挖掘 | 2144 次阅读 | 7 个评论 分享 舆情挖掘用于股市房市预测靠谱么? 热度 1 李维 2013-4-18 21:24 Can social media sentiment mining be used for predicting stock/property market? I tried our Chinese system for that and it proved to be right. Is that pure luck or there is some value in using public opinions and sentiments to assist prediction of markets? 作为技术展示,曾经用中文社交媒体的舆 ...个人分类: 社媒挖掘 | 605 次阅读 | 1 个评论 分享 【舆情挖掘:房市总体看好】 李维 2013-4-17 16:44 回国期间我现场展示系统,问热点话题,有人说查查“房市”吧 于是我搜索了房市,无论是简体还是繁体的社交媒体,发现舆情指向都是“看好”两个大字主宰,就跟我上回查询A股类似(见 【『科学』预测:A-股 看好】 )。 因此目前似乎仍然是投资房市的好时机。 国内形势也很不错 ...个人分类: 社媒挖掘 | 735 次阅读 | 没有评论 分享 愚人节大数据演讲 无片无真 移山愚人 热度 10 李维 2013-4-2 05:42 就是累 累滩了 作者: 立委 (*) 日期: 04/01/2013 15:26:05 昨晚没怎么睡觉 准备 slides 讲演的 还有会谈的 再加工 讲演还好 时间是卡住了 qa 也有时间了 就是我本来是希望轻松搞笑一些的 结果还是自我感觉太严肃枯燥了些 感谢软件所孙教授,还有各位的光临 科学网四剑客,包括女侠迟菲等前来捧 ...个人分类: 社媒挖掘 | 957 次阅读 | 10 个评论 分享 【社媒挖掘:第一夫人光彩夺目赞誉有加】 热度 2 李维 2013-3-25 21:03 也难怪,以前都是媒体热议西方第一夫人如何光彩照人,如今终于可以一睹一议新中国自产的第一夫人的风采了,网民的热情一浪高过一浪。自宋家姐妹以来,还没有一位中国女性受到如此多的赞 ...个人分类: 社媒挖掘 | 1066 次阅读 | 2 个评论 分享 【社媒挖掘:“剩女”问题】 热度 9 李维 2013-3-4 16:00 今天科网的主题有点儿出乎预料(补记:其实也不奇怪,原来三八节眼看到了,真是老糊涂了),提到 外电报道中国的所谓剩女问题 。于是想到做一个自动社会调查,看看有什么新发现或启发。 我很讨厌剩女这个词,不仅仅是对大龄女 ...个人分类: 社媒挖掘 | 4061 次阅读 | 10 个评论 分享 《大数据时代的购物策略:洗衣机寻购记(3)完结篇》 热度 1 李维 2013-3-3 05:30 Maytag Maxima 4.3 cu. ft. High-Efficiency Front Load Washer with Steam in Granite, ENERGY STAR Model # MHW7000XG 989.10 / E A − E a c h W A S 1,399.0 0 LG Electronics 4.0 cu.ft. High-Efficiency Front Load Washer in Graphite Steel, ENE ...个人分类: 社媒挖掘 | 943 次阅读 | 2 个评论 分享 《大数据时代的购物策略:洗衣机寻购记(2)》 热度 3 李维 2013-2-25 22:41 洗衣机的选择:top loading 抑或 front loading? 作者: 立委 日期: 02/24/2013 23:35:39 本来我们是要放弃 front loading (镜先生考证,国内叫滚筒式)洗衣机,去选更容易清洁的 top loading (国内称作 波轮式 )的。可是如今大数据了,领导还是要看看二者的优劣,听听用户都怎么选择的。 于是挖掘 ...个人分类: 社媒挖掘 | 1067 次阅读 | 4 个评论 分享 《大数据时代的购物策略:洗衣机寻购记(1)》 热度 8 李维 2013-2-25 21:07 ABSTRACT Brand Passion Index (BPI) is used to help us make an informed decision in our on-going purchase of a new washer. Using our own product, we generated two BPIs, one to compare the major washer brands in the US market and the other to compare front loading vs. top loading. With ...个人分类: 社媒挖掘 | 1996 次阅读 | 10 个评论 分享 【社媒挖掘:社会媒体眼中的陳水扁】 草稿 李维 2013-2-24 07:09 系列最后个人分类: 社媒挖掘 | 2 次阅读 | 没有评论 分享 【社媒挖掘:社会媒体眼中的李登輝】 草稿 李维 2013-2-24 07:08 个人分类: 社媒挖掘 | 2 次阅读 | 没有评论 分享 【社媒挖掘:社会媒体眼中的臺灣綠營大佬】 草稿 李维 2013-2-24 06:33 除了在民眾輿論已經貶出局的在押阿扁外,民進黨大佬主要包括蔡蔡謝蘇(蔡英文、謝長廷、蘇貞昌),下面就看看社會媒體對這三位綠營大佬毀譽如何。 Cai COns CaiXieSuLEE LikesDislikes contr ...个人分类: 社媒挖掘 | 1 次阅读 | 没有评论 分享 【社媒挖掘:馬英九施政一年來輿情晴雨表】 热度 2 李维 2013-2-23 20:07 【 馬英九施政一年來輿情晴雨表 】 看點及分析: (1) 一年來馬英九的總體形象偏低,凈情緒指標在零度以下居多,他一直試圖改善形象,但總也不大成功。究其原因,凡臺上的政客,除非社會經濟出現奇跡般改善,作為常規,總是招致的批評遠多於贊揚。民眾總是憤怒的,而在野黨不會放過任何一個機會 ...个人分类: 社媒挖掘 | 567 次阅读 | 2 个评论 分享 【社媒挖掘:臺灣政壇輿情圖】 热度 2 李维 2013-2-23 08:58 今天測試我們中文輿情挖掘的繁體系統,想何不借此了解一下臺灣政客的社會形象。好在臺灣是亞洲民主化程度較高的社會,並非老蔣時代,議論政客惹不了麻煩,也不會被禁聲。藍也好綠也好,不議白不議,就是剝掉皇帝的新衣,他 ...个人分类: 社媒挖掘 | 691 次阅读 | 2 个评论 分享 【社媒挖掘:社会媒体眼中的米拉先生】 热度 2 李维 2013-2-20 19:42 免责声明:此片纯属戏作,敬请对号入座。 江湖上盛传的米拉先生生活素颜照 (1)先看概览,总体得分不坏嘛,20有1,是正能量,不独跌入 18层冰窖的小方 没法 望其项背 ,比 零度以下的开复老师 和韩少也强远啦: (2)网虫对镜子的情绪呢? nbs ...个人分类: 社媒挖掘 | 630 次阅读 | 2 个评论 分享 【社媒挖掘:社会媒体眼中的李开复老师】 热度 5 李维 2013-2-19 17:55 据说李开复老师最近又成了社会媒体的热点,好象是发了什么帖子批评政府对企业的干涉,被禁声了,因此引起网友的强烈反弹。毕竟是具有几千万粉丝的网络巨星。 我对这具体事件兴趣不大,但是对开复老师很仰慕,也在微博上一直追随关注他。于是想到去挖掘一下作为知名公 ...个人分类: 社媒挖掘 | 1026 次阅读 | 5 个评论 分享 【舆情挖掘:2013央视春晚播后】 热度 3 李维 2013-2-15 04:50 春晚全球直播已经一周了,想到该做一次播放以后的舆情调查,看看今年的春晚到底效果如何。年三十播放之前,立委做过一次这样的 自动调查 ,有兴趣的网友可以做个比照。 总体而言,这次春晚反应似乎不错,网友的净情绪(net sentiment,即热度)从 ...个人分类: 社媒挖掘 | 1632 次阅读 | 4 个评论 分享 【舆情挖掘:年三十挖一挖央视春晚】 热度 3 李维 2013-2-11 01:32 【舆情挖掘:年三十挖一挖央视春晚】 日期: 02/09/2013 20:25:02 说不完道不尽的央视春晚。 一台节目三十多年来一直成为亿万人民过 年的大餐兼热门话题,这是人类历史上少有的文化现象。众口难调,央视春晚遭到批评指摘与其受到的赞扬和热议一样多。今年有了自己制造的工具,决定挖掘一下社会媒体对于春晚的舆论。 ...个人分类: 社媒挖掘 | 671 次阅读 | 3 个评论 分享 【社媒挖掘:美国的枪支管制任重道远】 热度 9 李维 2013-2-6 09:39 美国的枪支管制自从上次小学校园惨案以后,再度提上日程,也成为社会媒体的热门话题。 有朋友要做这个课题,希望我帮助利用我们产品去挖掘社会媒体的网民呼声以及统计数据。结果出来以后,发现反对枪支管制的人还是多于支持管制的人,感觉很失望。 就我个人而言,我是恨透了美国的枪支泛滥 ...个人分类: 社媒挖掘 | 1392 次阅读 | 13 个评论 分享 【社媒挖掘:《品牌舆情图》的设计问题】 热度 3 李维 2013-2-3 00:57 镜子先生在我的【社媒挖掘】专栏留言道: 褒贬度可以用别的颜色。 博主回复(2013-2-2 23:45) : 什么颜色好呢? 烈度用红色没问题。 褒贬在我们其他的图示中,是绿褒红贬。 不知道红色和绿色混合的颜色是什么(后注:黄色嘛,真是老糊涂了),可不可以用? 于 ...个人分类: 社媒挖掘 | 594 次阅读 | 9 个评论 分享 【社媒挖掘:外来快餐店风光不再】 热度 7 李维 2013-2-2 08:57 【Brand Passion Index 3: international fast food brands in China market face challenges】 Chinese Social Media Mining: Brand Passion Index for international fast food brands McDonald's, Pizza Hut, KFC and Yoshinoya in China. Fairly negative. The golden time when McDonald's ...个人分类: 社媒挖掘 | 1858 次阅读 | 9 个评论 分享 【社媒挖掘:中国手机市场仍处于战国争雄的阶段】 热度 1 李维 2013-1-31 15:51 Chinese mobile phone market is found to be still in the stage of multiple vendors competing with each other with no single one clearly ahead of others. Even Apple iPhone is on a par, in terms of net sentiments and consumer passion, with HTC, Samsung, Nokia and Chinese brand Xiaomi d ...个人分类: 社媒挖掘 | 810 次阅读 | 1 个评论 分享 【社媒挖掘:糟糕透顶的方韩社会形象】 热度 1 李维 2013-1-31 05:35 刚刚学会用图示来表达社会情绪(passion index),看看方韩一年来的总体社会形象吧,非常糟糕。 takeaways 1. 两人社会形象都相当负面,接近底线,小方更是过了冰点。事实上,小方的负面评价是如此之多,与其正面评价完全不成比例,以至于如果严格按照净情绪(net-sentiment,即正面减去负面的一个情绪指标,作为 ...个人分类: 社媒挖掘 | 587 次阅读 | 1 个评论 分享 【社会媒体:现代婚姻推背图】 李维 2013-1-11 05:23 立委按:哈,【 爱情推背图 】甫问世,一个小时点击1000多次,编辑MM有立马加精,风助火势,风靡理呆成疾的科网。原来埋头基金和论文的理呆们也食人间烟火,对人性的探究兴趣一样盎然。好,再接再厉,来个姐妹篇【 社会媒体:现代婚姻推背图 】。 【大众心理探究:婚姻】 日期: 01/09/2013 16:39: ...个人分类: 社媒挖掘 | 903 次阅读 | 没有评论 分享 【社会媒体:现代爱情推背图】 热度 8 李维 2013-1-10 08:31 【大众心理探究:爱情】 日期: 01/09/2013 16:39:34 所挖掘的数据源:社会媒体过往一年(博客、论坛等) 爱情(简体)被提及三千万多次;繁体被提及 50多万次 繁简体的分别调查可以透露出大陆社区与台湾社区对待永恒话题“爱情”的有所不同的社会认知。 1. 爱情的关系概念 要点: ...个人分类: 社媒挖掘 | 3793 次阅读 | 9 个评论 分享 【微博不进门,真地急死人:关于南周事件】 李维 2013-1-8 10:32 不行不行,data 不够,最近一周提及南周才1万多次,没多少褒贬 什么时候微薄进来了,我就可以追踪任何热点了。 如今国内南周闹得沸沸 扬扬,我们系统中从海外 twitter 等及时更新的数据看,还没多少讨论 从这最近一周(元旦到一月八号)的数据挖掘看,主题事件(theme)倒是可以看出了 我的 中国梦 ...个人分类: 社媒挖掘 | 991 次阅读 | 没有评论 分享 【社媒挖掘:社会媒体眼中的财政悬崖】 李维 2013-1-2 11:00 RE: What do these tell us more than we've known already? very good question: however, if it is known info, it confirms its validity 日期: 01/01/2013 11:11:49 it builds the users' (and developers') confidence in the automatic summerization of the computer processing of t ...个人分类: 社媒挖掘 | 644 次阅读 | 没有评论 分享 Social media mining: 2013 vs. 2012 李维 2013-1-1 16:08 Let us have a look at the past year 2012, which is more associated with the hardest year in people's mind than a good/best year.个人分类: 社媒挖掘 | 838 次阅读 | 没有评论 分享 新年新打算:【社媒挖掘】专栏开张大吉 热度 2 李维 2012-12-30 04:37 社会媒体印象(词云) 【立委按】我有一位很谈得来 ...个人分类: 社媒挖掘 | 747 次阅读 | 2 个评论 分享 【科学技术之云】 李维 2012-12-29 17:55 老朋友来函: “ 李维老师您好。社会媒体测试很有意思,我是科盲不太了解其机理,能否测试一下科学、技术等关键词,我想会有很有启发性的。谢谢。 ” 其实,我们做社会舆情自动监测挖掘的,主要是服务于企业客户对品牌形象的情报需求,着重了解客户对于品牌/产品的褒贬评价。延伸下来,也可用于热点话题的追踪以及公众人 ...个人分类: 社媒挖掘 | 746 次阅读 | 没有评论 分享 新鲜出炉:2012 热点话题五大盘点之五【小方vs韩2】 热度 1 李维 2012-12-29 16:22 【五】 方舟子和韩寒,谁的名声更臭? 关于方韩,以前做过较小规模的社会媒体测试 ( 方寒大战高频情绪性词的词频分析 ; 方韩大战的舆情自动分析:小方的评价比韩少差太多了 ), 年终了,该是扩大规模给这两位互联网枭雄盘点一下社会形象的时机了。 需要说明的是,这次的测试规模虽然较大,但是社会 ...个人分类: 社媒挖掘 | 863 次阅读 | 1 个评论 分享 新鲜出炉:2012 热点话题五大盘点之四【三星vs苹果】 热度 1 李维 2012-12-29 15:11 【四】 三星和苹果,谁主沉浮? 做了N年的苹果饭,从乔布斯二进宫把苹果从 几乎破产边缘挽救出来那时候就开始,不知道给苹果贡献了了多少银子,单 iPod 就买了一两打,自用送礼加更新。 开始注意三星还是前不久的事情,苹果诉讼三星侵权的官司闹得沸沸扬扬,以苹果胜诉结束(于是它乘胜追击,企图在美国 ...个人分类: 社媒挖掘 | 952 次阅读 | 1 个评论 分享 新鲜出炉:2012 热点话题五大盘点之三【舌尖上的中国】 热度 1 李维 2012-12-29 13:25 【三】 舌尖上的中国 美食纪录片《舌尖上的中国》把国人的食物和文化唱红到全世界。中国美食很火、很美。 最大的特点你猜猜是什么?不是辣,不是甜,而是 酥!个人分类: 社媒挖掘 | 613 次阅读 | 1 个评论 分享 新鲜出炉:2012 热点的社会媒体五大盘点之二【林书豪】 李维 2012-12-29 13:12 【二】 林书豪 / 林書豪 林书豪刮起的林旋风是2012一大热点,受到无数粉丝的相信、喜欢、支持和欣赏。 华人世界虽然以他的华裔背景而骄傲,他的最突出的特点却是美国人。 林书豪的伤病及恢复引起了广泛的关注。个人分类: 社媒挖掘 | 669 次阅读 | 没有评论 分享 新鲜出炉:2012 热点话题五大盘点之一【吊丝】 李维 2012-12-29 12:57 【一】 吊丝/屌丝 吊丝男们向往的是 白富美 的 女神 ,嫉妒的是 高富帅 ; 女吊丝则向往的是 高富帅 ,嫉妒的是 白富美 。 吊丝的情绪最 为难 , 伤不起 。吊丝的印记是 注定孤独 , 哭 ,且 撸 。( 撸 何?how why? ...个人分类: 社媒挖掘 | 732 次阅读 | 没有评论 分享 WordClouds: Season's sentiments, pros cons of Xmas 热度 1 李维 2012-12-26 15:35 Most every hot topic coming to my mind these days, I will check our social media system to see how social media reflects it. Word clouds are intriguing vehicles to present the common social image. Most word clouds generated by other systems are based on statistics of keywords mentioned ...个人分类: 社媒挖掘 | 804 次阅读 | 1 个评论 分享 圣诞社媒印象: 简体世界狂欢,繁體世界分享。 李维 2012-12-26 05:27 狂欢 vs. 分享 狂欢也应该,劳苦一年了。 不过,当然是分享高出狂欢一头。 狂欢没有问题,狂到找哪里有小姐就有些过了。 大众心理里,圣诞节的 pros and cons 呢? 商品社会嘛,离不开打折!个人分类: 社媒挖掘 | 687 次阅读 | 没有评论 分享 尝试揭秘百度的“哪里有小姐”: 小姐年年讲、月月讲、天天讲? 李维 2012-12-14 15:41 一个偶然的系统测试,暴露出百度与“哪里有小姐”身影相随。这个发现在朋友间立即引起轩然大波,有称妙的(way to go, u r onto sth),有调侃的(曰:百度本来就源自“众里寻她千百度”嘛),有怀疑的( the results are not faked? )。阴谋论者伊妹儿我,指责此云有侮辱百度之嫌。 我跟老友说:我没有结论。有 ...个人分类: 社媒挖掘 | 1518 次阅读 | 没有评论 分享 社会媒体测试知名品牌百度,有惊人发现 热度 2 李维 2012-12-13 08:54 今天测试知名品牌百度的TagCloud,有惊人发现 日期: 12/12/2012 18:51:14 在简体字的world里面,与百度最紧密关联的词语是: 哪里有小姐 在繁体字的 world,最关联的词是 美元 不知怎么就想起了 Google 被赶出中国前对谷歌的指责:说 Google 太黄了。 黄得过百度么? A follow-up post a ...个人分类: 社媒挖掘 | 888 次阅读 | 3 个评论 分享 【凡事不决问 social:切糕是神马?】 热度 1 李维 2012-12-5 03:14 鼓捣出个中文系统,尽管只是个 alpha 版,处理对象也还很有限(微薄还没进来),但也自动分析了数不清的帖子,大体的舆论情绪还是可以客观反映吧。 于是,如今遇到任何事或物,不去维基,不去百度,先去问问自家的系统,看看此物(事)在公众中的 形象/印象 如何。 这不,最近流行【切糕】,不懂这个貌似家常食品的词 ...个人分类: 社媒挖掘 | 815 次阅读 | 1 个评论 分享 【『科学』预测:A-股 看好】 热度 1 李维 2012-12-4 13:37 有什么大众话题想要测试我的中文系统么? 作者: 立委 日期: 12/03/2012 17:40:25 RE: 老李,你这玩意儿能不能用来炒股啊?要是能预测股票走向,哪怕一点点,就牛大了。 能啊。见图: 自动舆情监测分析表明:A-股 看好 哎!!! 那谁谁,还不进场!据说外资已经陆续 ...个人分类: 社媒挖掘 | 748 次阅读 | 1 个评论 分享 【号外,号外:中文系统的社会网络客户情报内部亮相,很性感嘛】 热度 1 李维 2012-11-14 07:24 哈哈,终于把 fonts 弄对了,今天测试中文系统,iPhone/爱疯 的词云满漂亮嘛 日期: 11/13/2012 17:17:43 褒贬情绪词大体都抓对了啊,是不是? 同事看到我手舞足蹈,说:香槟呢?快上香槟! 放大一点儿看仔细:这是客户对iPhone的情绪 (绿色为褒,红色为贬,社会媒体的用语果然有特色哎 ...个人分类: 社媒挖掘 | 720 次阅读 | 1 个评论 分享 奥巴马赢了昨晚辩论吗?舆情自动检测告诉你。 热度 1 李维 2012-10-18 15:54 Obama won the debate, see our evidence 民调自动化,技术带领你自动检测舆情: 社会媒体twitter的自动检测表明,奥巴马显然赢了昨晚的第二次辩论。人 气曲线表明他几乎在所有议题上领先罗梅尼。 对奥巴马真正具有挑战性的议题有二:一是他在第一任总统期间的经 济表现(6:55pm);二是批判他对中国不够强硬 ...个人分类: 社媒挖掘 | 1209 次阅读 | 1 个评论 分享 社会媒体舆情自动分析:马英九 vs 陈水扁 李维 2012-9-29 16:51 Different social images and social media sentiments for Ma Yingjiu, Taiwan President, and Chen Shuibian, Taiwan former president. 不同的社会媒体评价,截然不同的民间形象,台湾现总统马英九 vs 台湾前总统陈水扁,社会媒体自动分析的初步结果凸显二者的不同形象和风格。 (1) 高频情绪性词的词频分析的对 ...个人分类: 社媒挖掘 | 830 次阅读 | 没有评论 分享 方韩大战高频情绪性词的词频分析 热度 3 李维 2012-9-21 06:49 方 韩 大战高频情绪性词的词频分析 作者: 立委 (*) 日期: 09/20/2012 17:48:03 骂小方的前15高频情绪性用词的词频分析发现“不正常”高居首位: (方)不正常 (16.9%) 不喜欢 (方) (14.3%) 反对(方) (13.0%) (方)更烂 (9.1%) (方)讨厌 (7.8%) 难 (6.5%) 不支持(方) (5.2% ...个人分类: 社媒挖掘 | 1107 次阅读 | 3 个评论 分享 舆情自动分析表明,谷歌的社会评价度高出百度一倍 李维 2012-9-8 20:32 拖了这么久,中文系统的初步试验终于开始 日期: 09/06/2012 21:04:35 本来核心系统的开发最难,最耗时间 ,结果在真实生活中,工程架构、存贮和搞定content这些纯技术性操作性环节往往也会成为时间瓶颈,怪也不怪。 这次试验只有海外twitter和百度贴吧天涯论坛等来源的半年数据,但做出的分析也蛮有意思。 I did a ...个人分类: 社媒挖掘 | 987 次阅读 | 没有评论 分享 方韩大战的舆情自动分析:小方的评价比韩少差太多了 热度 1 李维 2012-9-8 20:11 非常初步的有限范围试验表明,方韩大战(其实也没有真大战过,基本是小方的单方面攻击,从代笔到身高,无所不用其极,加上双方粉丝的大打出手)的舆情自动分析结果是:小方的评价比韩少差太多了。这次试验的数据来源主要是 Twitter,天涯论坛、百度贴吧等,时间跨度大约半年,今年四月到九月。整个过程全自动, ...个人分类: 社媒挖掘 | 1552 次阅读 | 1 个评论 分享 研究发现,国人爱说反话:夸奖的背后藏着嘲讽 热度 1 李维 2012-9-8 19:45 国人爱说反话:夸奖的背后藏着冷笑,社会媒体尤其如此 作者: 立委 (*) 日期: 09/07/2012 15:42:32 大陆政客属于敏感词,这里不表。以台湾政客为例, 譬如说陈水扁是“中国最清廉的总统”,就明显是反话。 It is interesting to find that many positive comments about A Bian are sarcastic. In thi ...个人分类: 社媒挖掘 | 892 次阅读 | 1 个评论 分享 立委统计发现,人是几乎无可救药的情绪性动物 热度 1 李维 2012-7-28 15:28 立委跨语言统计发现,人是几乎无可救药的情绪性动物 作者: 立委 (*) 日期: 07/27/2012 12:58:29 最近跨语言(英、法、意、西、日、汉)的实验表明,在对目标进行评判的语句中,人发表情绪性判断(如 棒/糟极了,爱/恨死了,非常满 意/讨厌)比起提供客观性描述(如 便宜/昂贵,节能/耗能,易用/难用)要 ...个人分类: 社媒挖掘 | 1152 次阅读 | 1 个评论
个人分类: 科网群英烩|0 个评论
【大数据挖掘:方崔大战一年回顾】(更正版)
热度 17 liwei999 2014-1-6 09:12
对博文 【大数据挖掘:方崔大战一年回顾】 2014-01-05 的 更正是: 去了“苦逼小崔” (白马非马,苦瓜非瓜,原来苦逼小崔不是小崔呢,小崔没那么苦逼,不该受伊的牵累,予以剔除 exclude) ,加了中文 繁体 。 (调查时间比前一次也后了一天。) 本来指望加繁体中文可以弥补数据量之不足,以为海外学人在 twitter 等处会用繁体热议崔和方,其实没有增加多少。T witter 和 Facebook 的 data 一直比 较稳定,不会像微博那样可能有缺漏。 有道是,数据是把杀猪刀,红了樱桃,绿了芭蕉;且看名人掐架,褒绿贬红,鹿死谁家。 以前小方小韩掐架的时候,做过方韩大战的社会媒体挖掘,结果显示两败俱伤。 据说由转基因之争引起的崔方大战是去年中文社会媒体的大事件,因此以小崔和小方两个话题的自动挖掘对照,应该可以反映这场大战的一个概貌,至少是一个侧面。 挖掘的数据来源是目前在我们现有的 index 中的中文社会媒体(包括简体和繁体,因与内容商协商仍在进行中,数据并不完整,特别是微博数据。但是数据对于两位是一视同仁的。)另一个需要说明的是, 挖掘系统仍处于 beta 阶段,bugs 在所难免,但是多次由第三方判别的质量检测(QA)显示,褒贬抽取的准确度均在 85% 以上。 挖掘区间是 2013 年元月五日 至 2014 年元月六号,整一年。 两位都是大名人,这次挖掘的相关数据量上相差不大,在八万到九万左右。但一年来总体褒贬指数(net sentiment)小崔(60度)远远高于小方(零度)。 看这些数据,主要是比较中鉴别,因为两人的曲线在同一个框架内,相对意义应该靠谱。自动系统即便不完善,社媒数据即便很混沌,但对二位是一视同仁的。 以上 是两位的社会媒体形象在时间尺度上的曲线对比 (按日、 按周和 按月来展示),其全貌和趋势比较清晰 。 小方似乎习惯于单方面宣告胜利,说 (大意): 经过方崔大战,方还是那个方,崔已不是那个崔(形象完了)。 上面的形象曲线图说明,不是这样的。 虽然各有起伏,一年来小崔一直在小方之上,二者的差距并未明显 缩小,大体呈 平行势态 。半年来大战日趋激烈,但是整体趋势并没有大的改变。小方还是那个小方,小崔也还是那个小崔。 由于双方的粉丝都很激烈,为免过度解读引起新的口水战,下面只提供数据,不再做解读。 (1)共现主题词: ( 字体大小与热议成正比 ) (2)对二位的社会媒体情绪云图:( 褒绿贬红;字体大小与热议成正比 ) (3) 褒贬理由的分布:( 褒绿贬红; 字体大小 与热议成正比 ) (4) 喜欢自有喜欢的理由: (5)厌恶亦有厌恶的理由: (6) 所调查的数据来源种类: (7) 所调查的数据分布: 社交媒体样本: DIsclaimer: still in beta, use at your own risk. bug report is welcome. 【相关的大数据挖掘博文】 【大数据挖掘:方崔大战一年回顾】(更正版) 2014-01-06 【大数据挖掘:转基因一年回顾】 2014-01-06 【大数据挖掘:方崔大战一年回顾】 2014-01-05 【大数据挖掘:转基因中文网络的自动民调,东风压倒西风?】 2014-01-03 【大数据挖掘:转基因英文网络的自动民调和分析】 2014-01-03 只认数据不认人:IRT 的鼓噪左右美国民情了么? 2013-12-30 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 社媒挖掘|8527 次阅读|31 个评论
【大数据挖掘:转基因一年回顾】
热度 2 liwei999 2014-1-6 05:42
转基因大战提升还是损害了转基因的网络形象? 日期: 01/05/2014 15:12:11 我们的大数据自动民调做过英文社会媒体的转基 因一年调查(见 【大数据挖掘:转基因英文网络的自动民调和分析】 2014-01-03 ),也做过中文社会媒体最近一个月的调查(见 【大数据挖掘:转基因中文网络的自动民调,东风压倒西风?】 2014-01-03) ,下面我们进一步做转基因最近一年的网络形象趋势的调查,看看到底转基因在网民中的形象是提升还是损害了? 转基因确实是去年的热门话题,在我们够得着处理(indexed)的中文社会媒体一年档案中,转基因被提及55万多次,其中两万九千多次为正面,两万七千多次为负面,挺转反转可谓旗鼓相当,平均褒贬指数为 4 度,挺转呼声略强。 下面看一年的褒贬热议趋势图。蓝色曲线表示热议度(mentions),紫色曲线为褒贬指数(net sentiment),下列第一张趋势图记录每日的热议和褒贬的跌宕起伏。 下 图是每周的热议和褒贬的 趋势图 。 下图是每月的热议和褒贬的趋势图,展示显得更加粗线条,但展示发展趋势也更为明显。热议度一年的趋势是在慢慢增长 ,高点在去年十一月。褒贬度在去年九月前是缓慢上升。随着九月开始的方崔大战,挺转反转打得不可开交,使得过去三四个月,转基因褒贬呈现大起大伏态势。具体说来,九月中挺转呼声达到高峰,但很快从十月到十一月跌下来,11月初跌入谷底。此后挺转再占上风,到十二月中达到第二个高峰。从趋势上看,挺转反转的争辩仍呈胶着状态,难分胜负。不过全年看下来,转基因的网络形象实际上变得更加正面了。 补充不同区间的对比图 日期: 01/05/2014 15:30:03 半年趋势图: 三个月趋势图: 一个月的趋势图: 老友脑子好,帮助看看是提升了还是损害了形象 日期: 01/05/2014 15:32:15 隐约感觉是提升了,但是期间跌宕很大。 最近三个月的某个转基因热议期间(去年十 月底),转基因形象却走低,后来又逐渐恢复了。 是不是? 我自己已经糊涂了 下面是过去一年有关转基因的各类云图。 Download 比如上图 “转基因技术”,褒贬图中有红有绿(绿大红小),表示有人说好有人说坏,但褒大于贬。 Download Download Download Download 【相关的大数据挖掘博文】 【大数据挖掘:方崔大战一年回顾】 2014-01-05 【大数据挖掘:转基因中文网络的自动民调,东风压倒西风?】 2014-01-03 【大数据挖掘:转基因英文网络的自动民调和分析】 2014-01-03 只认数据不认人:IRT 的鼓噪左右美国民情了么? 2013-12-30 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 社媒挖掘|3140 次阅读|4 个评论
【大数据挖掘:中国红十字会的社会媒体形象】
热度 1 liwei999 2014-1-4 20:27
【置顶:立委科学网博客NLP博文一览(定期更新版)】 在当今的信息社会,一个机构的社会形象很大程度上决定于其网络形象。维持和增强网络形象需要对社会媒体的挖掘追踪,以便及时应对危机,调整其公关举措。我们以去年几度陷入公关麻烦的“中国红十字会”为例来展示社会媒体大数据挖掘的这种监测和警示作用。了解自我是改进自我提升形象的前提。面对混沌的大数据,人们往往见木不见林,难以把握总体趋势和全貌。而自然语言技术可以帮助我们自动阅读分析海量信息,从中挖掘任何话题的舆情以及机构或个人的媒体形象,从而从一个角度为决策提供依据。 一般而言,红十字会总是与各种慈善活动紧密相关,因此如果不出意外,红十字会的社会形象是非常正面的。但是,中国红十字会却不尽如此。用我们中文大数据挖掘系统(beta)对最近一年的社会媒体(完整的微博数据仍然在与内容商协商之中)的自动民调显示其形象起伏颇大,但一年平均指数 36 并不很低。 从上图看过去一年(2013元月13至2014元月14)的社会媒体趋势,社会媒体的相关议论的数量除了去年四月五月之间突然出现一个高峰以外(出了什么状况?),一直很平稳。随着这个热议的是其形象一跌千丈,直至五月12号到谷底零下56度。随后的发展表明,虽然议论量趋于平稳,但去年七月中与九月末还是出现两次形象受损,疑似公关失当?这里面的故事,一直追踪网络事件的记者和网友应该有所可言。 , 网友表达的情绪中最显眼的是“谴责”,远远超出正面的情绪(“信任”)。 上图展示了具体的褒贬理由。下面是其比例的饼图,如何解读这些数据还是留给了解事件发展过程的人士吧。总之是遇到了丑闻和麻烦。
个人分类: 社媒挖掘|4765 次阅读|1 个评论
【大数据挖掘:转基因中文网络的自动民调,东风压倒西风?】
热度 6 liwei999 2014-1-3 20:12
中文,中文社交媒体里的转基因。与英文民调迥然不同哎,挺转声音似乎很大,主要来源呢? 终于,我们来到据说为转与非转掐架掐到天昏地黑问候父母的中文世界。为了避免陷入泥潭,咱们这次只提供数据,不提供解读。爱挺爱反,请便,爱咋解读,听便。 这次自动民调是最近一个月的中文社交媒体数据,具体来源和比例后面交待。 接着来中文社媒的民调:挺转派明显占上风,疑似媒体正面为主? 作者: 立委 (*) 日期: 01/02/2014 19:26:23 Download Download Download Download Download Download Download Download Download Download 【转基因大数据挖掘系列博文】 【大数据挖掘:转基因中文网络的自动民调,东风压倒西风?】 2014-01-03 【大数据挖掘:转基因网络口碑的自动民调和分析】 2014-01-03 只认数据不认人:IRT 的鼓噪左右美国民情了么? 2013-12-30 ZT: 为啥立委的报告认为GMO造成gluten intolerance 2013-12-28 继续转基因的大数据挖掘:谁在说话?发自何处?能代表美国人民么 2013-12-26 【美国网民怎么看转基因:英文社交媒体大数据调查告诉你】 2013-12-24 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 社媒挖掘|4121 次阅读|10 个评论
关于转基因及其社会媒体大数据挖掘的种种问题
热度 12 liwei999 2013-12-25 07:55
没想到转基因话题这么热,随手做了一个自动调查发在博客上( 【西方怎么看转基因:英文社交媒体大数据调查告诉你】 ),一天多就达到 7000 点击,40 多评论。先把我对问题的回应整理如下。 1. 关于数据问题 你这个数据是有问题的,想想看,美国加州、华盛顿州的公民投票结果都是不同意转基因标识,大多数民意连转基因标识都不要了,对转基因食品安全性的担心能有多少呢?这个样本比你那个说明问题吧? 博主回复(2013-12-24 10:04) : 这个数据是没有问题的,因为我们对于最近一个月的社交媒体是不做品牌针对性筛选的,是普适的。对于一个月之上的数据,可以根据 GM Food 这样的主题词去筛选也可以一网打尽,但是有数据成本的问题。至于数据挖掘有没有偏差?文本挖掘技术当然不可能是完美的,但是统计上没有问题,因为第三方多次测试精确度都是接近90%。 2. 关于结论的对错 转基因的安全性靠调查研究难以给出正确评价。 博主回复(2013-12-24 12:47) : 两码事。 安全性是科学问题,假以时间应该由科学解答,或者有些已经回答并得到权威部门认证。 舆情调查反映的是普罗百姓对事物的方方面面(包括安全性)的看法而已。 还有一点, 博文中说的Gluten引起的各种那个过敏症。 我一直都不理解美国曹氏中标识的gluten-free的食品为何就那么重要? 因为gluten就是我们中国人飞铲喜欢吃的面筋, 各位都喜欢吃油面筋塞肉, 北方人吃面要“筋”, 都是gluten含量很高的食品, 跟转基因毫无关系。 而且超市中真正gluten-free的食品货架上很少的,现在美国飞机航班上不提供花生, 只有那个非常难吃的 pretzel 据说是因为有些人对花生过敏, 所以航班不供应花生了。 博主回复(2013-12-24 17:55) : 听我的专家朋友说,Gluten 确实与转基因无关,是有公认的科学结论的。 那为什么舆情中,这一项作为转基因的主要问题呢? 没办法,这就是舆情,我不能改变它,只能反映它。 也许这正说明,科普还没做到家,还没能让老百姓了解和信服。任重道远。 3. 关于阴谋论 菜老师有奇文 http://blog.sciencenet.cn/blog-789923-752383.html ,说:“李维先生说,该英文社交媒体大数据调查反映了民间的真实态度,这个观点看来要打个问号了。” 这个“该”字从何谈起,我们对社交媒体是一网打尽(因为企业用户要求如此),其组成和来源都在文中有交待。他下面的推测充满了细节,实在太异想天开了。蔡老师怎么不询问一下就这样胡乱猜测呢,描述了一个天大阴谋似的。 “搞这个调查的英文社交媒体的 完全可能是 反转基因团体控制的,其调查的人群 经过了特异的选择 ,或者说该英文社交媒体的读者 主要以反对转基因人士为主 。这样的数据即使是“大数据”,又有什么意义呢?”(下划线是立委加的) 蔡老师哎,你这样善于胡乱猜测还怎么做学问呢。这是我自己主持开发的软件,用的是未经任何人控制的原始数据(英文叫做 firehose,就是直接从社交网站流出来的),没有人工干预,靠的是自然语言挖掘技术自动生成的。这样说,应该够清楚了吧。我的本行就是舆情自动调查,这只是针对热点问题,从系统输出结果而已,供大家做舆情分析时候一个参考。 说明一下,所用的软件本来是为企业用户做客户情报调查用的。社交媒体一网打尽是指在我们的 index (库存)里面,我们包括所有够得着的社交媒体,英文社交媒体从比重上看,twitter 为主,Facebook 其次,其他论坛上百万个来源只占少数,这是当今社交媒体的自然现状。 我自己是系统架构师和主要实现人,所以不时用系统挖掘热点话题,一来可以看看系统还有什么可以改良的地方,而来也算是对社区做一些大数据语言挖掘的科普展示。阴谋论简直匪夷所思。 蔡老师(2013-12-24 16:24):我的推测是否正确,不是关键。关键是你的舆情分析软件结果与公民的投票结果相反,必须做出解释,否则这样的舆情分析只会造成更大的认识混乱;如果领导据此决策了,更加有误导嫌疑。 (2013-12-24 16:15):我不怀疑你的数学分析能力,你的数学模型包括软件应该是不错的。但是,出色的数学分析能力并不能保证你的结果是正确的。牛老师比我说得更全面,还有其他网友对此也有分析。 我再将我当年的生物统计学老师说过的话告诉你,让我们共勉吧:数学模型应当建立在具有生物学意义的基础上,离开了这个基础,哪怕数据再充分、模型再漂亮,也是没有意义的。 博主回复(2013-12-24 18:07) : 您的思维很怪异:说什么领导据此决策错误,我就更加有误导嫌疑。 这是什么话。领导面对这么多志愿免费提供的不同侧面的信息源,依然决策错误,那就是狗屁领导,没有领导能力、决策能力,领导应该下台,这个决策错误与信息提供者有一毛钱的干系? 又:说什么数学模型要建立在生物学意义上对于我们文本挖掘媒体调查领域完全是瞎掰。我一个语言学家懂什么生物学,我做语言文本调查要什么生物学的基础?我的对象是自然语言(社交媒体),不是生物啥的。我的模型建立在语言学(语言分析,parsing)基础上,这才是我们这个领域的基础。你隔行传授的经验没有一丝的适应性和可行性。 博主回复(2013-12-24 16:44) : 喂,喂,我为什么要为我的自动调查与公民投票的差异做出解释? 我只是提供一个信息源而已。这个信息源是大数据高技术的结果。投票那是另外一个信息源。二者吻合还是不吻合,可能有一千个因素,我有什么责任和义务解释? 我也从来没关心过那次投票。 博主回复(2013-12-24 16:38) : 您如果质疑“调查反映了民间的真实态度”,完全没有问题,因为同样的数据可能有不同解读和 interpretation 如果质疑质量或操作过程中的误差,也还不算离谱。 可您凭空从头脑想出来并 描述了我的数据被操纵的过程和细节,就让人跌破眼镜了。 4. 关于噪音处理 至于博主和蔡晓宁先生说的大数据处理的技术我不会, 还得在学习了。 不过google或百度上的绝大多数数据是垃圾数据。 如果要使用大数据处理来统计, 我建议博主把CA或Medlines或 Bological abstrct里的数据做个大数据处理,看看你能得出一个什么结论。 这些可就是科学的结论了。 至于垃圾过滤,这是任何大数据系统都必须要做的工作,我们也有这个过滤,经过几年的不断改进,测试证明英文大数据的垃圾已经不再是大问题了。 不过中文媒体的垃圾过滤还有很多工作要做,有国内微博水军和僵尸的问题。不过对于热点话题,可以只选取带 V 的样本,也就杜绝了水军和僵尸。但对于冷门话题就不好办了。 另外一个工作是避免过量重复(de-dup),英文也已经做得很好。 对于大数据处理, 我完全是外行, 现在说几句外行的话, 不对就当垃圾处理 1. 任何数据的输入的前提是数据的可靠性, 不分青红皂白的把所有数据输入, 输入的数据就没有科学性, 可靠性, 由此而来的结论当然就没有任何意义了 2. 现在网络上有所谓的大V, 用定贴机为某一个题目专门不断发帖顶贴, 所以不分青红皂白的输入这种数据, 实际上是被其他人所误导。 3. 所以要用大数据, 必须界定你的大数据来源。 否则同一事物, 被不同人选择来源, 完全就有不同的结论。 以上是外行的话。 博主回复(2013-12-24 18:35) : 当然你的担心是有理由的。做大数据的人当然要过滤垃圾(包括无处不渗入的色情),而且要 detect 僵尸、水军和数据的过分重复(机器人发贴)等。 大数据挖掘有没有价值很多时候是可以验证的。因此上述问题的严重程度,可以从过往的验证中得到一个大概的置信区间。细节就不谈了。 总之是,由于大数据的存在以及大数据处理能力的不断完善,舆情挖掘提供了一个难以取代的情报源,在决策中有参考价值。这是可以基本肯定的。 5. 有比较才有鉴别 其实这些问题只要放在比较的框架中就不是严重问题。虽然具体语言中褒贬比例和分布可能不同,但是如果一个对象的褒贬指数放在其他对象的褒贬指数的 reference frame 里面来阐释,其解读就比较真实。比如,在过往的许多调查中,我们知道褒贬度降到零下20以后就很不妙,说明媒体形象差,老百姓很多怨气。有了这样一个历史积累,新的品牌或话题如果达到类似的指标,解读就不大会离谱了。 特别是,我们做一个行业的多品牌调查和比较的时候更是如此。品牌A与品牌B的在舆情中的相对位置非常说明问题。系统的误差,质量的不完美,语言数据的不完整,以及语言现象的分布不匀,所有这些统统不再成为问题,除非这些差异是针对特定品牌的(这种现象基本不出现)。 这一点毛委员早就说过:有比较才有鉴别。 有比较才有鉴别,这是铁律。任何指标单看,其意义就很悬。包括我说转基因不受美国人民喜欢(零下29度),也是因为有过往的褒贬指标平均值作为 reference frame 才说的。 6. 大数据是忽悠么? 是的,有很多忽悠。但是立委论大数据不是忽悠。 》》这篇博文充分说明,“大数据”并不是神仙,完全可能得出错误的结论,“大数据”只是一种工具,要看使用者如何使用它了。 博主回复(2013-12-25 00:30) : 说大数据是神仙的,多半是忽悠。 今天忽悠大数据,明天其他东西流行了,就忽悠其他东西。 但是大数据给决策人(政府、企业或者犹豫如何选择的消费者)提供了一个前所未有的方便工具,去纵览有统计意义的舆情。这在以前只能通过小规模误差很大的人工问卷调查来做。如今自动化了,而且样本量高出好几个量级。拜科学技术所赐。 7. 关于系统可靠性 任何一门新的方法的建立,都需要首先用对照验证其有效性。这种抓取网络关键词,有没有与大样本的问卷调查等传统方法进行对比,验证过有效性?看到fear,就下结论说是人民害怕,也许是有人说不用fear呢?至于英文网络的数据,为什么下结论时认为只是美国人的意见,把欧洲人等排除掉了? 博主回复(2013-12-25 07:09) : 你提到“抓取关键词”,怀疑系统不能处理否定式(“也许是有人说不用 fear 了”),那是你不了解我的背景,虽然我在100多篇科普性博客已经多方面描述过系统的能力。简言之,我们的舆情挖掘不是通常的关键词技术,而是建立在高级得多的深度语法分析(deep parsing)之上的信息抽取和挖掘。不仅可以对付否定式,否定之否定等更复杂的语言现象也能处理。 博主回复(2013-12-25 00:59) : 至于意见中是不是只有美国? 这个还真可能不准确。我说的不严谨。英文社交媒体从分布上看,美国网民比重很大,但这个世界是地球村了,当可能包括西方其他国家的舆情夹在里面了。 其实很好解决,系统有地理过滤器,我可以只挖掘美国来源的社交媒体。但这样数据量就需要超过一个月的积累才好挖掘,有成本的。今后高兴了,再做吧。 博主回复(2013-12-25 00:53) : 有没有与问卷调查以及用其他方式验证过这个系统的有效性? 有过。很多次。而且还在不断定期进行中。为什么要这样做?因为质量是系统的生命线,否则怎么取信于客户。 大数据挖掘热点话题(冷门话题数据量少,就不好说了)作为舆情的反映,基本可信,至少不比传统手工问卷差。作为决策参考没有问题。 你不必相信我的 claim。我也不必提供验证细节。你也不是我的客户。我免费提供信息,权当 raise awareness 和科普。 我的论点,您可能只看到了其中一部分。我再多说一点,人们的用词习惯在这个比较里面没有被考虑到。比如,说一个人很丑可能多数人用单词A,而说她美可能会有十种表达方式。假定认为美的有十个人,用词个不一样,说她丑的只有三个人,但看起来是显然的高频词。这不是误导吗?这种现象往往在理性精细思维和随意发泄情绪两种情况下对比很明显。 博主回复(2013-12-24 17:45) : 要想做这种矫正,你先得研究清楚这种现象在真实语料中确实存在,严重程度,分布如何。听上去,这一步你还停留在假说层面上。这时候说系统误导是欠公允的。 另外,一个概念有多少词来表示只会影响 Word Cloud 图示中的 fonts 的大小(其实即便在那里,我们对比较严格的同义词还是做了合并处理的,因此问题没有想像的严重),但并不影响最重要的 net sentiment (褒贬度)的指标,因为后者是根据褒贬两大类来计算,而不问具体的用词。 很多事情都是这样的:赞成的人不怎么发声,而反对的人则会闹出很大的动静。从国人对待转基因的态度到泰国黄红两派的斗争死结,这种现象在社会中普遍存在。这可能有社会心理学的解释。 因此,所谓相对客观的大数据,也许本身就已经预设了立场。 博主回复(2013-12-25 11:08) : 这种情况是可能的。所以我说,同样的数据结果可以有不同的解读。 你可以打折来看褒贬指数。譬如,指数为零表面上似乎是褒贬民意旗鼓相当,你可以打个折扣,理解成其实是褒多于贬,只不过很多满意的人不言声而已。 这个折扣怎么打,可以根据经验法则,多一些实验也许慢慢可以显现出来。 8. 我只做民意,不介入转基因的争论 老师可以写得更简洁些,并且有学术数据支撑,而不仅仅是民意支撑么? 从学术原理上来讲风险,用数据说话,现在大家抄来抄去,感觉不专业. 博主回复(2013-12-25 00:39) : 我只做民意。别的你们做,或谁爱做谁做。 我不反对转基因,也不大关心转基因因为没感觉有什么危险。我的不少懂行朋友也持拥抱态度,我没有理由不相信这些专家。但是民意也需要一定程度的尊重和引导,不能强迫人们吃转基因,或任何东西。在民意有很多顾虑的时候,给民众选择的权利是合理的(除非标识成本太高:其实高成本只要转嫁给要求标识的消费群体就合理了)。 题外话:我的转基因立场 我其实没有什么立场,也没有相关的生物知识背景,转基因从来不是我关注的对象(因为是热点话题才选它当小白鼠做舆情挖掘的试验,而不是对其感兴趣)。通过朋友的争论和综述, 觉得两边的极端派掐架很难看,都有误导和蛊惑。(By the way,我觉得挺转人士当年犯了致命错误,他们不该把 GM 翻译成转基因,要是翻译成生物高科技最新改良食品伍的,就会减少很多阻力和疑虑。名不正则言不顺,言不顺则事不成。现在好多百姓听到转基因就跟听到癌症似的,你说说这个术语翻译是不是害死人。后来金大米起的名字就很好,无奈受转基因的牵累,还是遭到很多人的排斥。) 我本人不介意吃转基因食品,因为从来没有感受到有危险。我去肯德基最喜欢买的就是他们的烤玉米。从来不问出处。但事已至此,转基因就不单是科学的问题了。要上老百姓餐桌的话,老百姓的感受不能不顾及。作为一种过渡,我觉得在中国有必要给转基因食品做标识(或给非转食品做标识,one way or the other),给人民选择的权利。这个不必要循美国不标识的例,原因是国情不同,老百姓为食品安全困扰太久,井绳之忧是自然的反应。转基因的最终胜出,应该靠自己的实力,譬如价格的低廉,日益显示出来的安全性等。标识以后,科学人士和我等无所谓(畏)人士会自然成为其消费者。最后会争取到其他中间用户。至于反转死硬分子,就让他们一辈子多花冤枉钱去消费“纯天然”食品也蛮好的。 最后来点 fun,转发老友的一个评论。 浅谈立委大数据利用的局限性 作者: 田牛 1。没法评估和预测股市,黄金走势 2。看不出钓鱼岛的归属依据 3。比较不出社会主义或资本主义的优越性 4。 对国际贸易的趋势做不出专家评论 5。完全忽视不上网不用手机的(或上网用手机但不进入他搜索网络)人群的话语权,比重 6。对测量(不是影响)湾区华人选票的帮助不大 7。依然无法用大数据得出吃一顿简单中餐得到的卡路里 暂时想到现在,希望立委有突破,我们LBC可以近水楼台先得月。 【相关篇什】 小数据和个案分析:个人在美国对转基因的感觉 2013-12-26 既然大家感兴趣,圣诞没事在家,就继续做一点转基因的大数据挖掘 2013-12-26 关于转基因及其社会媒体大数据挖掘的种种问题 2013-12-25 【美国网民怎么看转基因:英文社交媒体大数据调查告诉你】 2013-12-24 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 社媒挖掘|4859 次阅读|17 个评论
广而告之:科学网“双百”博主立委四月一日在北京演讲大数据挖掘
热度 11 liwei999 2013-3-20 19:57
UPDATE:立委愚人节北京讲演时间地点已经确认,感谢中文信息学会孙教授的邀请和安排,也感谢董振东前辈教授的建议和推举: The loacation is : Room 334, 3rd floor, building 5 Institute of Software, Chinese Academy of Sciences, No. Zhongguancun South 4th Street 10:00~12:00 It's better you take the subway. And the nearest subway station of line 13 is 知春路 虽然在四月一日路过北平,但不是愚人节玩笑 :=), 具体地点和活动细节待确认后随时update Sentiment Mining from Chinese Social Media in Big Data Age by Wei Li, Ph.D. Computational Linguistics In this information age of big data, social media such as WeiBo (Micro-Blog, or Chinese twitter) is more and more influential. The popularity of mobile devices such as smart phones makes it possible for anyone to share his/her observation, experiences, opinions and sentiments any time anywhere in the social network such as WeiXin (or WeChat). The social media big data from WeiBo, WeiXin, Customer Review sites, Blogs and Forums are like a gold mine of intelligence, yet to be mined. They are in the form of natural language (Chinese in this case) and contain intelligence of public opinions and consumer sentiments on any topics, brands and products. Automated sentiment mining via Natural Language Processing (NLP) is a must-do if we (or businesses) do not want to be overwhelmed by the information overload. Dr. Li's talk will present the design philosophy behind such a sentiment mining system which he has designed and led the team to develop. He will first discuss the value and scope of NLP in sentiment extraction and mining, pros and cons between the rule based system and learning based classification, and different levels of sentiment mining in response to the various information needs. He will then demonstrate a list of real life Chinese social media hot topics as mined by the system to show the value and future of big data and NLP, in areas like automatic survey and social media listening and monitoring for consumer insights. 大数据时代中文社会媒体的舆情挖掘 李维 博士 随着大数据时代的到来,社会媒体(譬如 微博)的影响力日益增强。智能手机等移动设备的普及,使得普罗百姓的见闻、意见和情绪可以随时随地传达(譬如利用微信)。微博、微信、博客、论坛这些社会媒体大数据好像一座座富含情报的金山,等待我们去挖掘。在大数据面前,如果不想被信息爆炸淹没,就必然需要使用自动手段,尤其是可以用来自动抽取挖掘舆情的自然语言技术。 李博士的报告基于他主持开发的客户舆情自动抽取挖掘系统。报告分两大部分。第一部分阐述自然语言技术在舆情抽取中的应用范围,比较统计分类方法与规则系统方法的利弊,以及舆情分析的层级体系。第二部分通过一系列社会媒体热点话题的实例,展示大数据挖掘的价值和前景。 Dear Prof, Li, ...... the title and abstract of your talk in Chinese or English. And a simple cv of you. How about 10:00~12:00am ? About Dr, Li A hands-on computational linguist with nearly 30 years of professional experience in Natural Language Processing (NLP), Dr. Li has a track record of making NLP work robust. He has built three large-scale NLP systems, all transformed into real-life, globally distributed products. He is now Chief Scientist for a fast-growing Silicon Valley company which serves global Fortune 500 companies for consumer insights and social media monitoring. 【相关活动: 台北学术讲演谈中文语法分析 】 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|4996 次阅读|24 个评论
【社媒挖掘:“剩女”问题】
热度 9 liwei999 2013-3-4 16:00
【社媒挖掘:“剩女”问题】
今天科网的主题有点儿出乎预料(补记:其实也不奇怪,原来三八节眼看到了,真是老糊涂了),提到 外电报道中国的所谓剩女问题 。于是想到做一个自动社会调查,看看有什么新发现或启发。 我很讨厌剩女这个词,不仅仅是对大龄女青年有贬义的问题,而是汉语的造词法太过透明,造出这词对女同胞简直有侮辱之嫌。谁无姐妹,谁能保证自己的姐妹在转型期巨变的中国,就运气那么好,爱情婚姻就那么顺利。如果自己的姐妹一不留神就大龄了,非己所愿地单着,心疼还心疼不过来。看到这样扎眼的字眼,是不是恨不得去为姐妹决斗,废了这词。 然而,语言就是如此,剩女已经成为热词n多年了,它反映的社会问题是我们躲不开的。人类社会走到今天,男婚女嫁的自然关系变得越来越复杂。虽然婚姻的性爱基础不变,但从物质和精神上看,都是相互越来越挑剔。可是男女性别带来的心理差异以及男女客观社会地位的差异,使得现代社会(不仅限于中国)比古代更加注重男才(财)女貌,为此才(财)男宁愿下娶,可是女性的心理及其社会压力总是不能下嫁,结果造成了高学历大龄女青年与低学历男光棍的双重挤压,成为巨大的社会问题。这件事的尴尬在于,剩女和剩男处于社会的两极,虽然都躁动不安,向往婚姻,却天差地别,无法成双。 我们还是看看社会媒体中的议论吧。 最突出的一点是,很多人认为剩女问题是一个 伪问题 。我想这不是否认社会问题的存在,而是强调此问题不是剩不剩的问题,而是具有更深更复杂的社会成因。 高学历 (hence 高收入者 )果然与剩女紧密相连:这不但印证了我们每日所见的现实状况,而且指明了问题的主要社会原因:女方追求高学历的代价往往是耽误了自己的终身大事。在古代就没有这个问题,女子无才便是德,一般女子及其家庭对女子的教育都不很重视,社会对女子的期望也多在相夫教子、三从四德上,并不很在乎女子的才学。那样的环境下,一个长相平平的女子一般也会早早嫁给一个人家,根本等不到大龄的那一天。如今的时代,男女平等了,女性的自我意识和社会抱负也相应增长,于是越是聪明的女子,越不甘落后。可是,现代社会男性的择偶标准却依然停留在以前的观念上,依然是重貌(年轻水灵)重德远胜重才。其结果可想而知。 有意思的是,社会媒体对于“剩女”优缺点的调查其实是针对两个不同的概念。优点方面大多说的是“剩女”本人,因为这些所谓剩女其实资质才学都很不错,除了年龄偏大相貌平平外,剩女自身集中了相当多的优点,如下所示: 可是,当调查剩女的缺点时,社会媒体的指向却有所改变,议论的对象从剩女这个群体,大体转移到了社会。无论定性为 伪问题 也好,还是议论 造成剩女 的社会因素,主要着眼点都不仅仅是这个群体本身的问题。 没有时间 是忙于学业和工作的剩女的主要问题之一,但实际上也是社会使然:现代社会竞争日趋激烈,时间在学历和奋斗中很容易飞逝。就算忙里偷闲约会几次,恋爱几段,稍有差池,转眼30仍滞于婚姻殿堂以外自然不在少数(至于人为什么要结婚,独身也应该成为一种生活方式,那是另一个话题,以后再论:其实,西方社会的剩女似乎并没有中国的婚姻压力大,因此选择独身,收养子女的大有人在)。 这次匆匆的调查,没有什么惊人的发现,所反映的社会情绪,与我们平时的印象基本吻合。不过,看到这些舆情图示,还是有一种警示,感到一种沉沉的压力。问题是存在的、突出的、伤神伤心的,可是解决问题的方案却不甚了了。似乎也没有什么灵丹妙药医治这个现代社会的顽疾。 【数据来源】自动民调的数据来自中文世界社会媒体过往一年的档案,简体文档三亿五千万。 大约有一亿论坛帖子来自百度(贴吧等),两千多万来自搜狐,两千五百万来自天涯论坛。 科网今日主题: BBC关注中国“剩女”问题引社会热评 【“剩女”的去向和出路(1)】 【“剩女”的去向和出路(2)】 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 社媒挖掘|16809 次阅读|13 个评论
《大数据时代的购物策略:洗衣机寻购记(1)》
热度 8 liwei999 2013-2-25 21:07
ABSTRACT Brand Passion Index (BPI) is used to help us make an informed decision in our on-going purchase of a new washer. Using our own product, we generated two BPIs, one to compare the major washer brands in the US market and the other to compare front loading vs. top loading. With the collective consumer insights in mind, we have narrowed our choices to front loading Maytag or LG. This is a live case of big data win.. 最近决定要购买一套最新洗衣机烘干机,不求最贵,务求最好。领导清洗老洗衣机不胜其烦(也不老,才用了两年),说这次一定要看准品牌买,绝不上当。两年前的洗衣机是人送的杂牌,不是自选的,没有品牌选择的过程。结果,虽然衣服洗出来确实很干净,但问题也不少。除了噪音颇大外,还存在难以容忍的缺陷:门圈藏污纳垢,似有霉变,难于清洗,于是想到,淘汰他个,一了百了。 于是请教老友,有竭力推荐 Maytag 品牌者,尽数其洗衣有如神功,安静、省水、无损,洗衣干净透亮,比当年浣女棒槌槌出来的还牛。隔在以前,有这样可信老友的竭力推荐,我直接下单买了就是,可如今不同了,信息社会,还是多听听多比较,才能确保心安(to make an informed decision)。洗衣机不大不小,每日相伴,基本功能大同小异,但是买错了也不好退回去,只有像以前一样将就用,一用就是n年,烦不烦。 有道是,书上得来终觉浅,口碑虽好量太少,只有一二老友而已。 (老友的推荐可以加权,一句顶10句,或100句,但是还有千百万的品牌舆情在,至少也该综合一下情报不是?) 咋办? 求助大数据(BIG data)。 大数据里面有的是“口碑”,散落在社会媒体各处。人的本性之一就是说话,古今中外概莫能外。家庭主妇为最,唠叨是其生存的方式和重要理由(之一):甭管是喜爱还是抱怨,不说就会憋死。前信息时代,唠叨也就唠叨了,说出的话,与泼出的水一样,gone with wind,随风蒸发,毫无价值。如今不同了,有社会媒体和智能手机,甭管你多婆婆妈妈,围脖也好,Facebook也罢,都有档案在,均可以转化为宝贵的情报,关键是要有挖掘的功力。 人是不行的,但机器人如 NLP (Natural Language Processing)是可以的,不信咱们拿它来挖挖看,现场演示一下我学(行)了一辈子的 NLP 如何帮助领导尚在进行中的决策,来一个活生生的技术改变世界和你我的示范。 第一步,领导要先了解一下洗衣机主要品牌的社会总体评价及其比较。没问题,我们独家NLP技术支持的系统,就有这个功能,可以随时生成任何产业的【多品牌舆情图】。只要把几个美国市场的品牌送进去,图表就出来了。 上图依据海量挖掘的 社会媒体口碑(数据见下),对 美国家电市场洗衣品牌排座次,关注度、褒贬度以及热情度三维并列、二维展示,不仅一目了然,而且也颇性感养眼,不是? 从上面的图示我(你)们看到了什么? 有说看到了科学的力量,那你是科学主义者。说看到了技术的力量,那你就是又一个立委。领导看到的既不是科学也不是技术,而是恍然大悟:眼前一亮,原来如此;再接再厉,继续挖掘。 领导说,不怪老友推荐 Maytag,你看Maytag 位于舆情图最左边,说明喜欢它的客户都很粉它,大概与苹果迷喜爱爱疯类似,说明该品牌一定有迷人之处。但褒贬指数 Maytag 却不是最高,在它之上的还有 LG,虽然不如喜欢 Maytag 那么狂热,但LG综合品质显然独占鳌头。这有点儿意外。 领导继续说,更加意外的是,没想到 Whirlpool 的客户评价这么低,差不多落到了 GE 的档次。昨天去家电中心,售货员还说 Maytag 就是 Whirlpool,一回事,都是 Whirlpool 公司所产,没想到二者在客户心目中的地位完全不同。所以,作为决策的第一步,Whirlpool 已经出局,绝对不听售货员的推荐买它。( 后来与老友印证了这两个品牌的关系,原来 Maytag 就好比丰田产的豪华档凌志,而 Whirlpool 则是大众档 Camry 或经济档 Corrolla,完全不在一个层次。) 第三个启发是,北美专业洗衣店使用最广泛的 Kenmore 品牌,评价也不高,只比三星略强,因此也差不多出局了。店员跟我们说的是,Kenmore 品牌洗衣机其实是 LG 产的(就如 Maytag 是 Whirlpool 所产一样),但是舆情却把二者明显分开了。 初步决定在 Maytag 和 LG 中再做挑选。需要进一步的证据,功能细节及其评价。 得,进一步挖掘,自家的工具不要钱,eating my own dog food,不用白不用。当然,这要等下回分解了。 【相关篇什】 《大数据时代的购物策略:洗衣机寻购记(2)》 《大数据时代的购物策略:洗衣机寻购记(3)》 洗衣机的“东西”观 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 社媒挖掘|14230 次阅读|14 个评论
【社媒挖掘:社会媒体眼中的李开复老师】
热度 5 liwei999 2013-2-19 17:55
【社媒挖掘:社会媒体眼中的李开复老师】
据说李开复老师最近又成了社会媒体的热点,好象是发了什么帖子批评政府对企业的干涉,被禁声了,因此引起网友的强烈反弹。毕竟是具有几千万粉丝的网络巨星。 我对这具体事件兴趣不大,但是对开复老师很仰慕,也在微博上一直追随关注他。于是想到去挖掘一下作为知名公众人物的开复老师的社会媒体舆论。不查不知道,一查心一跳,连开复这样的导师也毁誉参半(褒贬净情绪指数为 -3,说明贬多于褒),可见是树大招风。 李开复老师是IT业的大英雄,他在苹果、微软和谷歌三大公司的穿梭传奇激励过无数青年学子。我接触过开复老师身边的一些助手和学生,他们也都很折服老师的学识和远见。 开复老师一向给人以谦谦君子的儒雅导师印象,可到了网上,一样会受到很多指责批评,我觉得与他平时比较高调有关:东方传统,高调总是不怎么讨喜。 开复老师不甘寂寞,拥抱新潮流,在社会媒体热络的现在,开复老师是身体力行的弄潮儿。这样的新潮导师大概难免遭遇批评。 我们来看看抽取提炼出来的网上舆情吧。 从网民好恶来看,批评他的声音显然盖过了赞誉。赞扬他的话语大多是套话,肯定的是他的地位(知名人士/首席执行官/导师)。可是,批评他的声音却具体得多(当然也不排除恶意造谣、谩骂和攻击)。 特别是最后这张好恶(likes/dislikes)理由对比图,主调是贬,红呼呼一片谴责之声,是不是有些令人吃惊?开复老师到底怎么得罪网民了,还是中国文化的酱缸性质容不下张扬一点的英雄? 搞不懂。 【数据来源】自动民调的数据来自中文世界社会媒体过往一年的档案,简体文档三亿五千万。 大约有一亿论坛帖子来自百度(贴吧等),两千多万来自搜狐,两千五百万来自天涯论坛。 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 社媒挖掘|6144 次阅读|6 个评论
【舆情挖掘:2013央视春晚播后】
热度 3 liwei999 2013-2-15 04:50
【舆情挖掘:2013央视春晚播后】
春晚全球直播已经一周了,想到该做一次播放以后的舆情调查,看看今年的春晚到底效果如何。年三十播放之前,立委做过一次这样的 自动调查 ,有兴趣的网友可以做个比照。 总体而言,这次春晚反应似乎不错,网友的净情绪(net sentiment,即热度)从播放前的50略微上升到52,说明2013春晚并没有像以前很多次春晚一样,播放后立即带来正不压反的负面情绪大泛滥,似乎摆脱了往年的看前期许过高,看后破口大骂的怪圈。 喜欢 春晚的呼声远远高过 吐槽 或抱怨。 请看播放一周来的舆情晴雨表: 请细看这个随时间记录的舆情 trends 曲线(我把它叫做 晴雨表)。二月八日(对不起,本系统还是alpha试运行,日期显示有些欧化的怪:8-2月 instead of 2月8日;另外最近调试发现,净情绪指标一直相当可靠,但是热情强度指标有个 bug,使得晴雨表的部分强度展示为0,不足采信:请暂时忽略为0的热情强度)是春晚直播的日子,播放后的24小时,网友的情绪走低,大概是部分网友的习惯性反弹,总觉得春晚不如预期的精彩,媒体此前炒得也太热,普罗百姓中急性子着急要发牢骚。可是此后不久,舆情逐渐上升稳定下来,较好的正面呼声远远压倒了负面情绪,说明多数观众还是持欣赏态度的。 就我个人观 感 而言(我前后断续看了三遍,看得比较仔细,也很放松,反正流浪海外的人过年也没国内那么多热闹要赶),我与多数网友有同感,这次春晚相当成功。不说舞台美工的赏心悦目,不说央视春晚的宏大气势,多数节目都有自己的看点,真正的败笔为数很小,等我有空详细道来。咱们还是先看大众怎样看这次春晚的优点缺点吧。 下面是网友热议的2013央视春晚的亮点和败笔(likes dislikes ): 【立委名言:you air your voice, we listen】 【相关篇什】 【 舆情挖掘:年三十挖一挖央视春晚 】 【 立委科普:舆情分类系统的挑战 】 【 立委 科普:舆情挖掘的背后 】 科学网 —《 立委 随笔:2008 春晚 》 - 李维的博文 《 立委点评:春晚:一年一大餐,不吃想得慌,吃了气鼓胀 》 立委 点评: 春晚 :一年一大餐,不吃想得慌,吃了口更馋 - 科学网 —博客 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 社媒挖掘|6845 次阅读|7 个评论
【社媒挖掘:美国的枪支管制任重道远】
热度 9 liwei999 2013-2-6 09:39
【社媒挖掘:美国的枪支管制任重道远】
美国的枪支管制自从上次小学校园惨案以后,再度提上日程,也成为社会媒体的热门话题。 有朋友要做这个课题,希望我帮助利用我们产品去挖掘社会媒体的网民呼声以及统计数据。结果出来以后,发现反对枪支管制的人还是多于支持管制的人,感觉很失望。 就我个人而言,我是恨透了美国的枪支泛滥,生活没有安全感。惨案后不久,有人在网络上征集签名提交给白宫网站,要求加强 枪支管制,我自然欣然参与。奥巴马连任后,开始把枪支管制和移民改革作为优先任务。他指派副总统拜登负责枪支管制事宜,白宫也想借助民意促成一些管制法令的通过。于是,我的电子邮箱,不时会收到从白宫发来的总统和副总统签字的信件,鼓励我们发出更大的呼声,形势似乎不错。 实际上,这条路还很长、很长。 以前以为,反对管制的主要是美国步枪协会和枪支制造销售商,现在发现美国社会普罗百姓对于枪支管制持怀疑反对的人也很不少。普遍流行的一个似是而非的观点是,枪不杀人,人杀人。没有枪,刀也杀人,石头也杀人,甚至拳头也杀人。如果这个道理成立的话,禁止核武器就完全没有理由了。人很多时候不是理性动物,高效杀人武器握在人手里就是个定时炸弹。 美国很多优点,是个比较理想的移民国家,但枪支泛滥是其为数不多的致命缺点之一。一黑遮百美,就凭枪支泛滥这一条,我劝尚在做美国梦的后生在最终决定移民前三思而行。在日本、新加坡的都市深夜(在我记忆中的祖国,也基本如此),甚至半夜也可以看到年轻女性行走在大街上,并没有恐惧感。这种事情在美国是不可思议的。 好了,不多说了,说起来烦死人。 还是面对现实吧。看下列从英文社会媒体挖掘出来的数据吧。 on gun control 日期: 02/05/2013 18:04:58 1. it is talked about most in the last 2-3 months ( 康州惨剧,总统掉眼泪之后引发的大讨论 ) 2. there was quite some discussion between July-Auguest last year (应该是 上次的 蝙蝠侠 恶性枪击事件引发的 ) 3. not a hot topic in other times So let us first focus on the last 3 months Gun Control topic 3-months summary 1. mentions: 1,409,922 2. impressions: 938,597,694 (we call social media reach, roughly eye-balls on this topic) 3. comments: 1,006,548 4. net sentiment: -21% (more people dislike gun control than support gun control, a REAL surprise to me) 5. positive mentions: 40,876 6. negative mentions: 62,199 Word Clouds of Top Terms and Top Attributes on Gun Control 支持和反对GC的主要理由,数据来源,主要作者,男女比例,Sample data 你看,反对枪支管制的最大理由是影响了守法公民的权利(这是宪法 第二 修正案所保障的:据说当年的宪法是怕政府暴政,所以要藏枪于民,人民在忍无可忍的时候,可以组成民兵,有个揭竿而起,造反有理的选项,听上去几乎就是列宁主义者的设计,吸收了 马列主义暴力革命的精髓。如今这条理由早已不适应时代了,谁要是相信美国会出现引发暴力革命并可以以暴力革命来摆平的暴政,那是红卫兵思维,脑筋有问题。最多也就是占领华尔街运动,和平请愿为主 )。你没事玩枪干嘛?即便打猎,当今社会提倡动物保护主义,你也无处可打啊。唯一拿得上台面的理由是自卫和阻遏。可是,一个社会倚仗个人武装来自卫,不是很滑稽可笑么。 其他的理由,正方反方大多针锋相对:支持管制者认为这样可以有效减少恶性事件 (effective solution / work well / reduce crime and violence) 和 拯救生命 (save life),反对者坚持说这根本不是解决途径(no solution / not solve anything / pointless / impossible / ineffective),也不能减少犯罪 (not reduce crime / not stop gun violence / not lower gun death), 甚至有说枪支管制反而会增加暴力犯罪 (increase violent crime),当然还有认为这个有缺陷的政策 (flawed policy) 是非法的 (illegal)。这些观点究竟得到多少认真研究此问题的专家数据的支持,不得而知。更多的情形是,多数人是屁股决定脑袋,先有自己的观点,然后选择性看待和解读数据。 The first sample sounds like sarcastic, not really supporting gun control per se . Not sure. Anyway, sarcasm remains difficult to decode (sometimes even human has difficulty). The second is a popular voice against gun control. 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 社媒挖掘|8643 次阅读|15 个评论
【社媒挖掘:外来快餐店风光不再】
热度 7 liwei999 2013-2-2 08:57
【社媒挖掘:外来快餐店风光不再】
【Brand Passion Index 3: international fast food brands in China market face challenges】 Chinese Social Media Mining: Brand Passion Index for international fast food brands McDonald's, Pizza Hut, KFC and Yoshinoya in China. Fairly negative. The golden time when McDonald's and KFC first entered China market is gone with wind. In this country known for taste and delicacy , they face customers who are difficult to satisfy and severe competition from the inexpensive Chinese food from inside China. 从现在开始,【社媒挖掘】专栏打算每周至少发布一次以【品牌形象图】为主的社会媒体的自动调查报告,选取不同领域大众热议的流行品牌。大数据时代已经来临,社会媒体对我们日常生活以及企业发展的影响越来越大,利用自然语言技术深度挖掘社会媒体的舆论和情绪势在必行。否则企业和客户都会淹没在大数据的海洋中,盲人摸象,坐井观天:企业维护品牌形象很难,消费者选取品牌也会无所适从。我们这个系列同时可以作为语言技术展示的一个窗口。 今天要挖掘的 topic 是快餐行业的国际知名品牌。且看看它们在中国的口碑和形象如何。 所选的四家快餐品牌是麦当劳、肯德基、必胜客和吉野家。上图显示,肯德基最为人们热议(buzz),超过麦当劳。这一点与美国有鲜明对比,肯德基在美国本土根本 无法与快餐的航空母舰麦当劳相提并论,肯德基 现在只是一个小土豆,一度几乎破产(后来经过关并,与 Taco Bell 合营,以及自身改革,局面才有好转:改革包括在传统过分油腻的炸鸡之上,增加了口味也相当不错的 grilled chicken)。但这四家快餐店只有必胜客的形象还算正面,处于褒贬议论的中线上。其他三家均在中线之下,表明客户的抱怨多于喜爱。在舆论强度的轴上,麦当劳刚好在中线上,表明讨厌它咒骂它的人都不少,其他两家(肯德基和吉野家)尽管总体形象也是负面的,但大家抱怨的强度不烈。必胜客呢,虽然总体形象不错,却与吉野家一样处于情绪强度的最左边,说明喜欢它和抱怨它也都不激烈。下面是褒贬情绪的词云之一,绿褒红贬,没有什么大起大落: 更进一步,客户到底喜欢他们什么,又抱怨什么呢?我们把前三家快餐的前 15 项褒贬的缘由挖掘图示如下: 曾几何时,以国际餐饮大王麦当劳为代表的西方快餐店纷纷进军中国市场,后来东洋的吉野家也步其后尘,想分一杯羹。当年国门乍开,国人对西洋东洋的东西甚觉新鲜,清洁卫生规范快捷的外来快餐店在东土大受欢迎,一时门庭若市。还记得肯德基在北京刚开张的时候,我和领导全家拥进去吃肯德基的那种大快朵颐的开心。感觉上,那是我一辈子吃到的最美味的鸡(也奇怪了,后来来美国发现,肯德基味道大不如印象,老觉得是鸡原料不如东土的缘故)。岳母大人吃的很开心,说:这鸡比爷爷做得不差(领导家爷爷是北京名厨,在部机关掌厨,常为部长服务)。然而,中国毕竟是舌尖上的中国,中国人对吃最挑剔,最讲究。在食这一块儿,要想长期扎下去赚钱,与本土的各种经济便餐以及农家小菜竞争,其实并不容易。外来快餐,首先是价格上没有优势,其次是口味太单调。从上图也可以看出,老百姓对这些外来餐饮不满多於喜爱。 【数据来源】自动民调的数据来自中文世界社会媒体过往一年的档案,简体文档三亿五千万。 大约有一亿论坛帖子来自百度(贴吧等),两千多万来自搜狐,两千五百万来自天涯论坛。 【立委名言:技术改变世界,数据影响生活】 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 社媒挖掘|8920 次阅读|14 个评论
新年新打算:【社媒挖掘】专栏开张大吉
热度 2 liwei999 2012-12-30 04:37
新年新打算:【社媒挖掘】专栏开张大吉
社会媒体印象(词云) 【立委按】我有一位很谈得来的同事,美国名校高材生,也曾是我的老板之一。六年多前是他不懈地紧追,每日一电,诚心可鉴,使我下决心加入了这家创业公司。他为人谦逊心细,对客户温情有加,我们没事儿聊天经常谈起产品的新想法。他最常说的话之一就是,eat your own dog food. 意思是,对于一个热衷高技术的人,对于自己开发的产品要有充分的信心,无论在开发过程中还有多少不完善、不尽如人意的地方,首先自己要时时刻刻的想到使用它,积累第一手的实际操作经验。如果自己的产品自己都不愿意用,这样的产品还有什么前途呢?圣诞已过,新年新打算,特开辟专栏【 社媒挖掘 】,利用自己主持开发中的中文社会媒体舆情挖掘系统追踪社会热点话题。特此通告,敬请垂注。所有话题的数据情报全部为电脑自动抽取整合,用的 是我们独家语言技术, 无任何人工干预 (of course, 对所挖数据情报的解说自然是主观的:不同的人对同样的世界的认识角度和理解不可能相同,也因此世界才变得多维、多层次,有新意)。除非特别说明,目前的数据源来自中文世界社会媒体过往一年的档案,繁体约五千五百万文档,简体文档高达三亿五千万。 大约有一亿论坛帖子来自百度(贴吧等),两千多万来自搜狐,两千五百万来自天涯论坛。 数据总量的70%为论坛的帖子,15% 来自博客。比较遗憾的是,社会媒体中影响最大的微博数据由于技术性原因暂时还未进入分析和索引。 【社媒挖掘专栏】网址在: http://blog.sciencenet.cn/home.php?mod=spaceuid=362400do=blogclassid=161685view=me 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 社媒挖掘|5157 次阅读|4 个评论
新鲜出炉:2012 热点话题五大盘点之四【三星vs苹果】
热度 1 liwei999 2012-12-29 15:11
新鲜出炉:2012 热点话题五大盘点之四【三星vs苹果】
【四】 三星和苹果,谁主沉浮? 做了N年的苹果饭,从乔布斯二进宫把苹果从 几乎破产边缘挽救出来那时候就开始,不知道给苹果贡献了了多少银子,单 iPod 就买了一两打,自用送礼加更新。 开始注意三星还是前不久的事情,苹果诉讼三星侵权的官司闹得沸沸扬扬,以苹果胜诉结束(于是它乘胜追击,企图在美国全面禁止三星手机,终因剥夺用户的选择权而败诉)。三星不服,网上有很多搞笑的三星取笑苹果的段子。 于是开始注意敢于与苹果叫板的三星。Mall 里面离苹果专卖店不远有三星临时设的铺子,展示其手机和平板。不试不知道,一试吓一跳。有些地方感觉比苹果还好。莫非 20 年河东河西,走上坡的三星,some day 要取代苹果? 一直以为苹果是打不败的巨无霸,其市值今年一度超过了微软和谷歌的总和。据报道,单 iPhone 一项的营销收入就赛过微软所有产品之和,包括每机必备的视窗和Office,包括企业软件,还包括最终挽救了微软帝国的游戏。 苹果把微软远远抛在后面(除了游戏以外)。谷歌似乎也无力抗衡它,虽然开放平台的 Android 装机量比封闭的 iOS 越来越大。从现在的态势看,只有三星有可能拿下苹果,或者稳拉第二小提琴。 于是,今天测试我们刚开发的中文系统,我就想看看究竟社会媒体对二者的评价和反应如何。 先看这些喜欢和讨厌的的大体比例:左图是品牌在社会媒体中的关联词云,右图是喜欢/讨厌的表述及其程度(字体越大,表述越多)。 所有图示中的颜色是:红贬绿褒,无论主观情绪还是客观理由。 情绪上,三星不让苹果。虽然二者褒贬各半,但三星的绿色也很耀眼。 再看人们为什么 喜欢/讨厌 苹果/三星? 从理由上看,专利官司输了是最大的不利因素,而喜欢三星的最大理由是其“标准的显示器”。而苹果还是长于“新”字,令人意外的是“便宜”居然成为其风行的一个理由。(以前还以为,三星是以便宜取胜苹果。) 这次测试的社交媒体数据跨度一年,苹果有 195 万个例证,三星有 108 万。苹果的褒贬指数(大体是褒减去贬后的一个指标,Net Sentiment)为 39%,落后于三星的褒贬指数 53% 不少。二者的热度(passion intensity)不相上下,苹果为27,三星26. 总的印象是,后来者可畏,三星不可小觑。 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 社媒挖掘|4951 次阅读|1 个评论
圣诞社媒印象: 简体世界狂欢,繁體世界分享。
liwei999 2012-12-26 05:27
圣诞社媒印象: 简体世界狂欢,繁體世界分享。
狂欢 vs. 分享 狂欢也应该,劳苦一年了。 不过,当然是分享高出狂欢一头。 狂欢没有问题,狂到找哪里有小姐就有些过了。 大众心理里,圣诞节的 pros and cons 呢? 商品社会嘛,离不开打折! 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 社媒挖掘|4127 次阅读|0 个评论
尝试揭秘百度的“哪里有小姐”: 小姐年年讲、月月讲、天天讲?
liwei999 2012-12-14 15:41
尝试揭秘百度的“哪里有小姐”: 小姐年年讲、月月讲、天天讲?
一个偶然的系统测试,暴露出百度与“哪里有小姐”身影相随。这个发现在朋友间立即引起轩然大波,有称妙的(way to go, u r onto sth),有调侃的(曰:百度本来就源自“众里寻她千百度”嘛),有怀疑的( the results are not faked? )。阴谋论者伊妹儿我,指责此云有侮辱百度之嫌。 我跟老友说:我没有结论。有牢骚的话也是借题发挥(讽刺据传是平西王当年以扫黄为名打压挤走谷歌,为百度开道),不是正经“结论”,不足采信。但是我有数据,怎么解读这个数据见仁见智。要想发现背后的真相,还需要一番深入调查的功夫。 先谈数据: 百度在所调查的一年跨度的社会媒体统计中共出现近 227 万次,其中“哪里有小姐”与它共现 50 万次,是关联度最高的 term (占据与其共现的 top 100 关联词语之首,share:22%),这就是词云出来的背景数据: 什么是词云呢? A word cloud displays the frequently occurring terms surfacing from a topic's text. 从一年到半年、三个月、一个月、一周、一日,永远是小姐为主题,邪门了 是不是百度上的某种广告,这么黏糊,百度甩也甩不开。竞价排名惹的祸? 请看六个月 的词云数据图: 三个月 的词云数据图: 一个月 的词云数据图: 一周的词云数据图: 一天 的词云数据图: 再看对同样的社会媒体同样的一年时段的“谷歌”的调查结果 谷歌 出现的总次数远不如 百度,只有 73万4千,但也足够多 到可以观察其关联词了 Let US Drill down: 百度小姐的真相在这里 是什么样的推手把 小姐 与 百度快照 弄得满世界都是 日期: 12/14/2012 17:40:43 一定是有人编制了程序,到各网站(包括宠物网站)张贴小姐的广告及其百度快照。 Drill down 发现很多链接,Spam 一样,点了链接进去大多已经失效了,大概已经被网管删除。 大概是删不胜删。 最后在百度直接做了一下“哪里有小姐”的搜索,果然是东土最响亮的广告词。 最后在百度直接做了一下“哪里有小姐”的搜索,果然是东土最响亮的广告词。 前一篇博文: 社会媒体测试知名品牌百度,有惊人发现 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 社媒挖掘|8461 次阅读|0 个评论
社会媒体测试知名品牌百度,有惊人发现
热度 2 liwei999 2012-12-13 08:54
社会媒体测试知名品牌百度,有惊人发现
今天测试知名品牌百度的TagCloud,有惊人发现 日期: 12/12/2012 18:51:14 在简体字的world里面,与百度最紧密关联的词语是: 哪里有小姐 在繁体字的 world,最关联的词是 美元 不知怎么就想起了 Google 被赶出中国前对谷歌的指责:说 Google 太黄了。 黄得过百度么? A follow-up post at: 小姐年年讲、月月讲、天天讲? 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 社媒挖掘|4380 次阅读|3 个评论
【『科学』预测:A-股 看好】
热度 1 liwei999 2012-12-4 13:37
【『科学』预测:A-股 看好】
有什么大众话题想要测试我的中文系统么? 作者: 立委 日期: 12/03/2012 17:40:25 RE: 老李,你这玩意儿能不能用来炒股啊?要是能预测股票走向,哪怕一点点,就牛大了。 能啊。见图: 自动舆情监测分析表明:A-股 看好 哎!!! 那谁谁,还不进场!据说外资已经陆续到位抄底了呢。股市应该不久会反弹。 【免责声明】 舆情检测虽然大数据,很客观,无人为干扰,但是过去和现在的舆情不能成为未来预测的保证。有网友听信陪钱,概不负责。 但有听信而赚钱者,务请捐款1/10至:大数据NLP立委基金,c/o 通天塔委员会 @ 牛市。 【立委名言】总统人气犹可预测,况股市走向乎? 想起前不久总统竞选辩论来。两位总统候选人比着对中国强硬。这是美国政客惯用的竞选伎俩。由于种种原因,起飞中的中国在美国选民中隐隐成为某种威胁,对中国强硬有利于吸引选票。在野总统候选人打中国牌比较有利,因为他不必顾忌对中国现实贸易的相互依赖和利害关系。于是,罗姆尼一直批评奥巴马对中国太软弱,宣称他一旦当选,就立即宣布中国是汇率操纵国,列入操纵者黑名单意味着贸易制裁的强硬态度。奥巴马反守为攻,辩论中告诉听众,千万不要相信罗姆尼的口头激进。他指着罗姆尼说:他对中国最不可能强硬,因为亿万家财的罗姆尼有大笔投资在中国呢。罗姆尼急了,反驳说,你奥巴马回去查查你自己的退休基金的流向,我担保里面有中国概念股,这么说你也有中国投资,因此影响你对中国的政策,笑话嘛。 确实,资本唯利是图。投资理财的美国资本顾问,一个个猴精,一方面不断唱衰中国,一方面绝不会放过中国经济这块蛋糕。一边把中国概念股系列弄得垃圾似的,一方面又不失时机进来抄底。总统候选人怎么可能摘得清呢。 【相关】 到底社媒曲线与股市曲线有没有、有多少相关度? 转载]ZT:牛津大学王宁博士:大数据与有限理性 舆情挖掘用于股市房市预测靠谱么? 【舆情挖掘:房市总体看好】 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 社媒挖掘|4306 次阅读|1 个评论
社会媒体舆情自动分析:马英九 vs 陈水扁
liwei999 2012-9-29 16:51
Different social images and social media sentiments for Ma Yingjiu, Taiwan President, and Chen Shuibian, Taiwan former president. 不同的社会媒体评价,截然不同的民间形象,台湾现总统马英九 vs 台湾前总统陈水扁,社会媒体自动分析的初步结果凸显二者的不同形象和风格。 (1) 高频情绪性词的词频分析的对照图示 (2) 高频褒贬描述性词的词频分析的对照图示 相关篇什: 研究发现,国人爱说反话:夸奖的背后藏着冷笑 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 社媒挖掘|4966 次阅读|0 个评论
舆情自动分析表明,谷歌的社会评价度高出百度一倍
liwei999 2012-9-8 20:32
拖了这么久,中文系统的初步试验终于开始 日期: 09/06/2012 21:04:35 本来核心系统的开发最难,最耗时间 ,结果在真实生活中,工程架构、存贮和搞定content这些纯技术性操作性环节往往也会成为时间瓶颈,怪也不怪。 这次试验只有海外twitter和百度贴吧天涯论坛等来源的半年数据,但做出的分析也蛮有意思。 I did a test on comparing Google and Baidu for side-by-side view of likes, dislikes, net sentiments, sources, etc. They make sense, even with such limited data. So to summarize the different opinions of these two search giants from social media in Chinese : 1. Google's net sentiment is very high, around 70 while Baidu's net sentiment is only 35: 谷歌社会评价度高出百度整整一倍! 2. most striking likes for Google are Cooperative, Innovation, Updated, Optimized and Robust. The likes for Baidu are optimized, updated, and new. The dislikes of Google are Monopoly, abandoning Android, cannot open it (that is in fact not a problem of Google, it is Chinese Great Wall's problem). The dislikes of Baidu are unstable, drop, and misleading. There are also a few obvious bugs too, like very easy misclassified as dislikes. 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 社媒挖掘|7645 次阅读|0 个评论
方韩大战的舆情自动分析:小方的评价比韩少差太多了
热度 1 liwei999 2012-9-8 20:11
非常初步的有限范围试验表明,方韩大战(其实也没有真大战过, 基本是小方的单方面攻击 ,从代笔到身高,无所不用其极,加上双方粉丝的大打出手)的舆情自动分析结果是:小方的评价比韩少差太多了。这次试验的数据来源主要是 Twitter,天涯论坛、百度贴吧等,时间跨度大约半年,今年四月到九月。整个过程全自动,没有参杂任何人工干预,比较的结论对于进入视野的数据应该是客观的。因为即便系统有缺陷,那对于所比双方及其数据也是一视同仁(黑)的。 国内最火的新浪微博、腾讯微信等暂时 out of reach,很遗憾。 小方评价比韩寒低太多了 作者: 立委 日期: 09/06/2012 21:21:27 所谓 net sentiment 大体上就是正面评价减去负面 评价的一个指标,小方是大负数,零下41度,小韩略大于零,毁誉参半。哈哈 再看各位的褒贬评价语的分布。 MD, 要是新浪微薄能算进来就好了 Download 方寒大战高频情绪性词的词频分析 日期: 09/20/2012 17:48:03 骂小方的前15高频情绪性用词的词频分析发现“不正常”高居首位: (方)不正常 (16.9%) 不喜欢 (方) (14.3%) 反对(方) (13.0%) (方)更烂 (9.1%) (方)讨厌 (7.8%) 难 (6.5%) 不支持(方) (5.2%) (方)果然够下贱 (3.9%) 骂韩少的前15高频情绪性用词的词频分析:第一位是“差”,第二位是“骗子” (韩)差 (20.0%) (韩)骗子 (17.9%) (韩)不尊重 (14.3%) 不相信(韩) (8.6%) 不喜欢(韩) (5.7%) (韩)造假 (5.0%) 问: 你的机器看得懂谁是撒旦海珊吗? 能,社会评价度低于零下70度是人民公敌,天怒人怨,等价于撒旦 。:=) 小方还好,才零下41度。 系统里面有一个对译词表 台湾译名与大陆译名不一致的在这里统一: 萨达姆:撒旦海珊 // Saddam Hussein 萨芬:沙芬 // Marat Safin 舒马赫:舒麥加 舒馬克 // Michael Schumacher 迈克尔:米高 麥克 // Michael Schumacher 斯大林:史達林 史太林 // Stalin 托洛茨基:托洛斯基 // Trotsky ...... 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 社媒挖掘|8473 次阅读|1 个评论
研究发现,国人爱说反话:夸奖的背后藏着嘲讽
热度 1 liwei999 2012-9-8 19:45
研究发现,国人爱说反话:夸奖的背后藏着嘲讽
国人爱说反话:夸奖的背后藏着冷笑,社会媒体尤其如此 作者: 立委 (*) 日期: 09/07/2012 15:42:32 大陆政客属于敏感词,这里不表。以台湾政客为例, 譬如说陈水扁是“中国最清廉的总统”,就明显是反话。 It is interesting to find that many positive comments about A Bian are sarcastic. In this test, the positive comments (likes) of Ma Yingjiu seem to be indeed positive. BUT 下面这段文字骂马英九,可是却以赞美的假言。 机器处理起来,很烦人。 define a topic for馬英九, most negatives are correct, but positives and neutrals are bad. Here are some sample sentences: • 馬總統干的好! 明天油價95一次漲3.1元,5月漲電費,那6月就改換漲水費吧~最好是行、衣、住、行全來給他大漲,這樣他的荷包才能賺的飽飽的,趁這四年好好大賺一筆,四年做滿後就能安心的退休去了~ • 不好意思我家連張機票錢都買不起,請問哪個國家接受偷渡過去打工的啊?? 馬總統介紹一下好咩? 還參加救國團? • 喜歡聼好話是人性,不是馬英九特別,問題出在奉承拍馬的人,而這種人會越來越多,官位越來越大,馬英九用人和作風要負責任。 • 廢物 ! 一次漲足又變成漲三次 ? 徵證所稅又變成三前提 ? 馬英九這麼喜歡當小三是怎樣 ? 政策到底搞定了嗎? 沒搞定就到處亂放話, 就是最標準的隨地便溺污染國家, 也是廢物政府的最大特徵 • 馬英九是該好好的從H5N2 美牛瘦肉精 都更案法條到現在的油電雙漲 解釋一番 最好是在就職言說時,公開對全國人民說清楚 • 一點都不覺得王建民救了馬英九一命。 馬英九又沒有任何危險,他一個月後才要開始第二個四年,想到這裡他應該又爽到做起伏地挺身來了。 • 那馬英九選前應該講清楚啊 選後汽油每公升漲30元也ok啊.. 重點是選前都凍漲 選後拼命漲... • 馬英九幹得好 漲吧 反正台灣人就是奴才命啦 沒路用的卡小 才在按回報封鎖別人 • 她馬的愛台灣的馬英九 原來是這樣愛台灣喔 國營企業一直提高薪水 卻在哭夭虧錢 真是的送你一個字 按 • 看到臉書上部份人的留言,真的覺得,嗯,原來真的有人相信馬英九是很有能力,只是有人在扯後腿之類的,喔幹,我好想在他面前大吼「你是哪隻眼睛看到的啊?」 • RT @4F 馬英九說,美牛通過後,國人不想吃,可以不吃,不必買,不會有事。 那麻煩一下,大麻也請來開放進口一下謝謝 • 馬總統用了一些蛋頭學者(博士) 蛋頭=豬頭. 因為沒事找事且弄到天怒人怨,怨聲載道! • 呵,戈巴契夫頭髮最多,海珊最愛和平,賓拉登不愛打仗,陳水扁最清廉,馬英九最有GUTS... • @octw 若說馬英九是有勇氣遠見的改革者,那真是天大的笑話。 1992年一群人台北火車站前靜坐五天,要求總統直選。 當時的總統,憑藉這股力道直接改成總統直選,而當時的法務部長,反對總統直選,要求維持現狀由國大選出。 那屆總統是李登輝,任法務部長是馬英九。 (via @aoi) • 王聖人:要馬英九『對的事』就勇敢做,不管別人罵! 台灣人:認同,『目前馬英九最對的事就是下台』。 马英九和陈水扁在社会媒体上的高频情绪性词的词频分析展示了二者截然不同的 民间形象: more 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 社媒挖掘|6500 次阅读|1 个评论
让别人了解比让别人认可更重要,不管是社会媒体还是科学传播
热度 2 cgh 2012-8-19 07:49
让别人了解比让别人认可更重,不管是社会媒体还是科学传播 各国国内媒体毫无疑问都会受到价值导向,各国也都限制外国媒体宣传尺度。虽然各国使馆的基本使命是为本国公民和侨民提供服务,但是各国使馆都是平等的对外宣传窗口,有效利用这个窗口让驻在国人民了解本国,应该是各国使馆的一个基本使命。 为什么美国总统候选人通过讨好以色列国来笼络犹太裔,而通过往死里整中国去笼络普通美国老百姓?犹太裔在美国的政治经济中地位很高,而普通美国人基本只能靠华盛顿邮报、纽约时报等关于中国的负面报道来了解中国。看看中国驻美使馆的英文网页和美国驻华使馆的中文网页,感觉还是有很多需要改进的地方。 国内的科学研究界很多人的最高境界是得到外国人的认可,而不是为国家的进步做了多少贡献,而评价为国家做的贡献的指标也在很大程度上是发了多少被外国人认可的文章。实实在在的成果拿出来让人去应用和了解了,自然都会被认可吧。 当看到《 nature 》和中国科学家很多精英在为叶诗文的奥运成绩“斗争”的时候,感觉很悲哀啊。中国人太需要别人的认可了,感觉像一群奴才在主子面前抱怨主子冤枉自己了。最终是一个被主子选为奴才头人的去安慰了一群奴才(我和许多不识时务的人一样,看不出来哪有真诚道歉)。我们不知道这群奴才和那个奴才头儿是不是以后还能得到主子的善待。 为什么不是换一种方式去平等、科学地表达自己呢?科学是可以质疑的,很多文章有 comment on “……”的对应形式的质疑文章啊。用其他的期刊(哪怕是中国人自己办的洋文刊物)同样可以去表达我们的观点,去严谨地回应。这中间的差别恐怕只是得不到《 nature 》的认可而已吧。我想,如果后人在查阅这一文章的时候看到还有十篇对它批评的文章,效果会比《 nature 》后面粘的那点随时风吹都能掉的 note 要精彩得多吧。 目前的国内办刊与发文基本成了这样一种不健康模式:国内的“大牛们”把自己认为牛的文章都拿到国外去申请外国人的认可去了,国内的“牛刊”只能死皮赖脸“改善稿源”,偶尔得到宠幸,大多刊登的是“牛人们”团体下“牛后们”的练武之作或者是中文版的“牛作”。跟牛没关的基本是去“牛刊”那里碰运气,偶尔中举以为自己也牛了。当然,很多有志向的“小牛”,直接也去申请外国人的认可去了,一旦成功也就“真牛了”。那些二流、中文刊物基本成了对“牛起来”失去雄心和兴趣的“慢牛们”聊以慰藉的地方,他们当中有些人还是觉得需要做一点对得起自己饭碗的事情的。 不知道中国的所谓“大牛们”将他们的大作都发表在《科学通报》、《中国科学》这样刊物的洋文版面,是不是他们去国外开会交流时外国人就拒绝去了解了呢? 不可否认,国内的“大牛们”一点也不比外国人差,也很容易得到外国人认可,但是为什么非得自降身份求别人认可呢?当然像《 nature 》这样的早就瞅准了这一点,正在窃喜呢。 这一点,还得从大飞机项目和北斗系统中吸取教训,经过沉痛的教训才明白自己需要自己的东西啊!别人是乐意看到你被栓死在那的。中国人需要波音和空客之外自己的大飞机,中国人需要 GPS 、 glonass 和伽利略之外自己的导航系统,为什么中国人就不能有《 nature 》《 science 》之外自己的明刊,而去做别人的奴才? 怀着希望别人认可的态度去让人了解,总会别人利用的;尊重别人的判断让别人去了解才是更重要的。
个人分类: 杂谈|3609 次阅读|2 个评论
社会媒体、政府体制与电子政务服务
huguangwei 2012-4-18 12:25
粗粗看了一下最近6个几度、6期的Government Information Quarterly(GIQ,政府信息季刊)上的文章,最近一期12篇文章有3篇讨论Social Media(社会媒体)在电子政务服务中的应用;所有6期近80篇文章中有1/5讨论体制问题对电子政务的影响;所有6期近80篇文章中有近一半讨论电子政务服务。
个人分类: 研海拾贝|3548 次阅读|0 个评论
社会媒体(围脖啦)火了,信息泛滥成灾,技术跟上了么?
热度 1 liwei999 2011-11-22 14:23
“三好”立委要做“三有”系统 面对呈指数增长的海量信息,人类面对信息获取的困境。唯一的出路是依靠电脑,其核心的技术是语言处理(NLP)。这不是王婆卖瓜,而是客观形势。 就说社会媒体对产品和服务的评价吧,每时每刻,无数用户的抱怨和赞美不断出现在网上,这些客户对产品的评价情报对于企业加强产品功能和研发新产品,具有很高的应用价值。可是怎么获取这些淹没在语言海洋中的情报呢? 出路就是:1 自动分析; 2. 自动抽取。这就是我们正在做而且已经取得amazing效果的工作。 社会媒体的特点是什么?概括来说,就是:1. 不断翻新的海量信息源;2. 满是不规范的字词和表达法。这就要求研发的系统,首先必须具有 scalability,其次是分析系统的 robustness,在这两者的基础上,如果再能做到有 depth,则更佳。深度分析的优势在于能够支持应用层面的以不变应万变。因为应用层面的变数大,不同的客户、不同的产品对于信息的关注点不同,所以抽取这些信息应该越简单越好,最好能做到象目前运用搜索引擎或数据库查询那样立等可取。要做到这一点,就需要一定的语言分析深度来支持。Parser 和 Extractor 的简单道理就是:parsing 越深,extraction 则浅;parsing 越浅,则extraction 就不得不繁复。总之,工作量是基本恒定的,分析偷懒了,抽取就要遭罪,反之亦然。问题不仅仅是偷懒的问题,问题往往出在研发者的能力身上。要一个系统既有 scalability,robustness,还要有 depth,不是一件容易的事儿。很多人信息抽取做得很辛苦,那是因为分析深入不下去。 笔者的目标就是,拼命也要做一个这样的 “三有” 系统。英语和欧洲语言的三有可以说已经做到了。现在面对的挑战是中文处理上的“三有”(突然想起当年拼命也要做“三好”学生的劲头来)。 耳边响起了林副主席关于系统开发的谆谆教导: 带着问题做,活做活用,做用结合,急用先做,立竿见影,在‘用’字上狠下功夫。 还是先看看语言数据吧。什么叫社会媒体的语言,它与规范语言(譬如新华社新闻)有什么不同。下面的从网络上摘取的客户评价的 random samples 可以给读者一个初步印象(这是断过词的samples): strong sentiments on Chinese social media 日期: 11/21/2011 16:53:36 IKEA 宜家 豆瓣小站 做 的 很 有 调性, 尤其 是 近期 的 电影 里 的 宜家 - 你的 梦想 空间 活动 短短 一 周 吸引 了 几千 粉丝 参与, 上传 作品 都 很 精致 有 想法 . 宜家家居 餐厅, 宜家 瑞典 食品屋, 和 宜家 小吃吧 的 各色美食 : 瑞典 肉圆, 烟熏 三文鱼, 中东 小米 三文鱼, 芝士 焗鳕鱼, 烟熏 鸡 胸 意粉, 当然 也 少 不了 元甜筒 冰淇淋 和 热狗, 丰富 美味 同样 值得 期待! @宜家家居IKEA 我 等 到 现在 还 没有 拿 到 我的 图纸 哟 ... 测量 的 员工 和 主管 倒是 很 热心 的 帮忙 询问, 倒是 你们 自己的 设计师, 投诉 到 主管 也 没有 一 句 当面 的 道歉 哦 . 宜家家居 意式烟熏 鸭胸饭, 跟 以前 的 奥尔良 鸡腿饭 比较, 虽然 价格 是 鸡腿饭 的 二倍 还 多, 但是 味道 物有所值 . 宜家 的 服务 很 贴心, 购物 清单 和 铅笔 方便 记 住 自己 要 买 的 东西; 深蓝色 的 纸张 是 商场 导航 图; 下面 挂 着 纸 做 的 简易 尺子, 方便 顾客 量 尺寸 . 我 在 这里:#宜家家居# 这里 可 真 热闹, 睡觉 的 画画 的 照相 的 吃饭 的 推 着 婴儿车 的 坐 着 轮椅 的 五花八门 做 什么 都 有 ! 我 在 宜家 家居 IKEA ( 四元桥店 ) . 一 来 家居店 就 会 有 想 把 家里 的 东西 全 都 扔 了 重新 装 的 冲动 . @宜家家居IKEA : 好 有 感染力 的 笑容, 在 电脑 前 看 到 让 人 不禁 一起 微笑 . 希望 以后 你 会 一直 在 宜家 找 到 快乐, 逛 的 开心 . @宜家家居IKEA / 这个 是 忠实 的 宜家 粉丝 了 / 我们的 宜家 简约 风格 住宅 Surprise !!!! 原来 接到 的 电话 是 真的, 非常 感谢 @宜家家居IKEA, 今天 收到 您们 送 的 幸运 奖品 了, 谢谢 ! :)爱 喔 . 虽然 只是 宜家家居 的 快餐厅, 但是 做 的 东西 真的 很 好吃 !! ! 最 喜欢 牛肉 饭 配 低卡 可乐, 虽然 很多 人 都 不 喜 可乐 . 上海 东方 航空 公司, 我 一共 托运 了 2 件 行李, 你 给 我 丢 了 一 件, 至今 仍然 没有 找到, 在 英国 买 的 东西 都 被 你 给 整 没 了 . 凌晨 1:20 东方 航空 给 我 加拿大 的 手机 打 越洋 电话 说 我 回 南方 的 那趟 飞机 航班 取消 . 我 觉得 国内 的 客户 服务 的 效率 实在是 高, 负责 通知 到底 的 精神 果然 敬业 . 东方 航空 的 飞行员 太 给力 了, 这 一路 各种 转弯 啊, 害 我 替 旁边 的 阿拉伯 大哥 担心 一路, 怕 他 胃里 的 羊肉 和 馕 溢 出来 啊 . 东方 航空 机长 在 飞机 起飞 前 30 分钟, 就 拒绝 乘客 登 机 实在是 没有 道理 . 一 个 小 机场, 乘客 寥寥无几, 岂 能 在 起飞 前 半 小时 关闭 电脑, 这 套 服务 完全 是 毫无道理 . @东方航空 95530 也 忒 难 打 了, 天亮 打 到 天黑, 累计 n 小时, 愣 是 对不起, 坐席 正 忙 . 我 在 萧山 机场 被 告知 飞机 要 晚点 半 小时, 不 喜欢 东方 航空 坑爹 的 东方 航空 啊, 上次 是 取消 这次 又 给 我 晚点, 再 上次 又 改签 ... 乃 跟 我 有 仇 吗 ? 为啥 这 东方 航空 公司 网站 经常性 地 打 不 开, 老是 搞 得 黑客 热爱 他们的 航班 似 的 ... 严重 表扬 @东方航空 . 又 一 次 被 早餐 惊喜 到, 竟然 是 荷叶 饼 夹 肉沫 炒鸡蛋 + 黑米粥 我 是 真 不 想 说 联想 电脑 坏 话, 但 确实 太 不 争气 了, 上 周三 刚 买 的 19 寸 一体机, 这才用了几天啊, 就出毛病了 . 联想 电脑 真是 垃圾, 但 更 垃圾 的 是 要 5 年 才能 更换, 这 是 电子 设备 啊, 怎么 跟 铁锹 榔头 一样 折旧 ? ? ? ? ? ? 地球 人 已经 阻挡 不了 中国 人 了, 连 日剧 里 都 用 联想 电脑, 那 是 多么 奢侈 的 事情 啊, 都 不 用 买 东芝 了 . 联想 电脑 很 结实 啊, 上次 看 到 一 只 小强, 没有 称手 的 工具, 我 就 把 手提 扔 了 出去, 小强 死 了, 电脑 完好无损 ! 联想 电脑 现在 越 来 越 烂 了, 还 变 得 和 小 日本 一样 狡猾, 一 过 保质 期 就 坏 ! 如果 说 我 对 星巴克 有 什么 最 感 骄傲 的 成就, 那 就 是 公司 里 员工 自信 与 互信 的 氛围 . 够乱吧。这样的语言可以自动分析和抽取么? 答案是肯定的。 当然也要看系统。也就是看人。 等有空再接着说怎么对付这样的语言 monster。 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|6813 次阅读|1 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-16 05:12

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部