科学网

 找回密码
  注册

tag 标签: 情感分析

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

如何用Python做情感分析?
wshuyi 2017-6-26 07:19
商品评论挖掘、电影推荐、股市预测……情感分析大有用武之地。本文帮助你一步步用Python做出自己的情感分析结果,难道你不想试试看? 需求 如果你关注数据科学研究或是商业实践,“情感分析”(sentiment analysis)这个词你应该不陌生吧? 维基百科上,情感分析的定义是: 文本情感分析(也称为意见挖掘)是指用自然语言处理、文本挖掘以及计算机语言学等方法来识别和提取原素材中的主观信息。 听着很高大上,是吧?如果说得具体一点呢? 给你一段文本,你就可以用情感分析的自动化方法获得这一段内容里包含的情感色彩是什么。 神奇吧? 情感分析不是炫技工具。它是闷声发大财的方法。早在2010年,就有学者指出,可以依靠Twitter公开信息的情感分析来预测股市的涨落,准确率高达87.6%! 在这些学者看来,一旦你能够获得大量实时社交媒体文本数据,且利用情感分析的黑魔法,你就获得了一颗预测近期投资市场趋势的水晶球。 这种用数据科学碾压竞争者的感受,是不是妙不可言啊? 大数据时代,我们可以获得的文本数据实在太多了。仅仅是大众点评、豆瓣和亚马逊上海量的评论信息就足够我们挥锹抡镐,深挖一通了。 你是不是疑惑,这么高深的技术,自己这个非计算机专业的文科生,如何才能应用呢? 不必担心。从前情感分析还只是实验室或者大公司的独门秘籍。现在早已飞入寻常百姓家。门槛的降低使得我们普通人也可以用Python的几行代码,完成大量文本的情感分析处理。 是不是摩拳擦掌,打算动手尝试了? 那我们就开始吧。 安装 为了更好地使用Python和相关软件包,你需要先安装Anaconda套装。详细的流程步骤请参考《 如何用Python做词云 》一文。 到你的系统“终端”(macOS, Linux)或者“命令提示符”(Windows)下,进入我们的工作目录demo,执行以下命令。 pip install snownlp pip install -U textblob python -m textblob.download_corpora 好了,至此你的情感分析运行环境已经配置完毕。 在终端或者命令提示符下键入: jupyter notebook 你会看到目录里之前的那些文件,忽略他们就好。 好了,下面我们就可以愉快地利用Python来编写程序,做文本情感分析了。 英文 我们先来看英文文本的情感分析。 这里我们需要用到的是 TextBlob包 。 其实,从上图可以看出,这个包可以做许许多多跟文本处理相关的事情。本文我们只专注于情感分析这一项。其他功能以后有时间我们再介绍。 我们新建一个Python 2笔记本,并且将其命名为“sentiment-analysis”。 先准备一下英文文本数据。 text = “I am happy today. I feel sad today.” 这里我们输入了两句话,把它存入了text这个变量里面。学了十几年英语的你,应该立即分辨出这两句话的情感属性。第一句是“我今天很高兴”,正面;第二句是“我今天很沮丧”,负面。 下面我们看看情感分析工具TextBlob能否正确识别这两句话的情感属性。 首先我们呼唤TextBlob出来。 from textblob import TextBlob blob = TextBlob(text) blob 按Shift+Enter执行,结果好像只是把这两句话原封不动打印了出来而已嘛。 别着急,TextBlob已经帮我们把一段文本分成了不同的句子。我们不妨看看它的划分对不对。 blob.sentences 执行后输出结果如下: 划分无误。可是你能断句有啥了不起?!我要情感分析结果! 你怎么这么着急啊?一步步来嘛。好,我们输出第一句的情感分析结果: blob.sentences .sentiment 执行后,你会看到有意思的结果出现了: 情感极性0.8,主观性1.0。说明一下,情感极性的变化范围是 ,-1代表完全负面,1代表完全正面。 既然我说自己“高兴”,那情感分析结果是正面的就对了啊。 趁热打铁,我们看第二句。 blob.sentences .sentiment 执行后结果如下: “沮丧”对应的情感极性是负的0.5,没毛病! 更有趣的是,我们还可以让TextBlob综合分析出整段文本的情感。 blob.sentiment 执行结果是什么? 给你10秒钟,猜猜看。 不卖关子了,是这样的: 你可能会觉得没有道理。怎么一句“高兴”,一句“沮丧”,合并起来最后会得到正向结果呢? 首先不同极性的词,在数值上是有区别的。我们应该可以找到比“沮丧”更为负面的词汇。而且这也符合逻辑,谁会这么“天上一脚,地下一脚”矛盾地描述自己此时的心情呢? 中文 试验了英文文本情感分析,我们该回归母语了。毕竟,互联网上我们平时接触最多的文本,还是中文的。 中文文本分析,我们使用的是 SnowNLP包 。这个包跟TextBlob一样,也是多才多艺的。 我们还是先准备一下文本。这次我们换2个形容词试试看。 text = u”我今天很快乐。我今天很愤怒。” 注意在引号前面我们加了一个字母u,它很重要。因为它提示Python,“这一段我们输入的文本编码格式是Unicode,别搞错了哦”。至于文本编码格式的细节,有机会我们再详细聊。 好了,文本有了,下面我们让SnowNLP来工作吧。 from snownlp import SnowNLP s = SnowNLP(text) 我们想看看SnowNLP能不能像TextBlob一样正确划分我们输入的句子,所以我们执行以下输出: for sentence in s.sentences: print(sentence) 执行的结果是这样的: 好的,看来SnowNLP对句子的划分是正确的。 我们来看第一句的情感分析结果吧。 s1 = SnowNLP(s.sentences ) s1.sentiments 执行后的结果是: 看来“快乐”这个关键词真是很能说明问题。基本上得到满分了。 我们来看第二句: s2 = SnowNLP(s.sentences ) s2.sentiments 执行结果如下: 这里你肯定发现了问题——“愤怒”这个词表达了如此强烈的负面情感,为何得分依然是正的? 这是因为SnowNLP和textblob的计分方法不同。SnowNLP的情感分析取值,表达的是“这句话代表正面情感的概率”。也就是说,对“我今天很愤怒”一句,SnowNLP认为,它表达正面情感的概率很低很低。 这么解释就合理多了。 小结 学会了基本招式,很开心吧?下面你可以自己找一些中英文文本来实践情感分析了。 但是你可能很快就会遇到问题。例如你输入一些明确的负面情绪语句,得到的结果却很正面。 不要以为自己又被忽悠了。我来解释一下问题出在哪儿。 首先,许多语句的情感判定需要上下文和背景知识,因此如果这类信息缺乏,判别正确率就会受到影响。这就是人比机器(至少在目前)更强大的地方。 其次,任何一个情感分析工具,实际上都是被训练出来的。训练时用的是什么文本材料,直接影响到模型的适应性。 例如SnowNLP,它的训练文本就是评论数据。因此,你如果用它来分析中文评论信息,效果应该不错。但是,如果你用它分析其他类型的文本——例如小说、诗歌等,效果就会大打折扣。因为这样的文本数据组合方式,它之前没有见过。 解决办法当然有,就是用其他类型的文本去训练它。见多识广,自然就“见惯不怪”了。至于该如何训练,请和相关软件包的作者联系咨询。 讨论 除了本文提到的文本分析应用领域,你还知道哪些其他的工作可以用情感分析来自动化辅助完成?除TextBlob和SnowNLP外,你还知道哪些开放免费软件包可以帮助我们完成情感分析工作?欢迎留言分享给大家,我们一起交流讨论。 作者信息 王树义,天津师范大学管理学院教师。终身学习者。稍微懂一点儿写作、演讲、Python和机器学习。欢迎关注我的公众号“玉树芝兰”。
16387 次阅读|0 个评论
【李白之32:从“没 de Vt” 聊开去】
热度 1 liwei999 2017-2-21 01:30
Me: 问一下各位老师 “没的吃”、“没的喝” ,算是个什么结构?与 “没吃的”、“没喝的” 有何异同?“没的害臊”、“没的不要脸” 这类大概是口语习惯表达法 不在此列。 没的 vt == have nothing to Vt VP 动宾结构 否定式宾语前置 “没 vt 的” 或者 “没的 vt 的”,也是 动宾结构的 VP,但否定式落在 v 不落在宾语身上,而且是 的字结构 做后置宾语。 梁: “没的” 应该是方言吧?wei老师,闽南话。 Me: 不仅是闽南 好像各地都有 至少是都能听懂的句式 . “没的吃” = “没有可吃的” = do not have anything to eat. 没吃的 意思有差别吗 do not have what to eat ? 没的 vt == 没的 可vt ? 问:“过得怎么样?” 答:“不怎样,这些年没的折腾。” “没的折腾” 怎么回事?跟 “没的害臊” 类似 也是成语用法 而不是有产生性的用法吗?? 白: 没的折腾,不懂啥意思 Me: 觉得就是 “净瞎折腾” 的意思。 字面是 “没什么可折腾” 没的害臊 是 真害臊 没的不要脸 是 真不要脸 嗨 别提了 没的生气呢 是 生气生不过来 的意思 太多气生了 咋回事 本来是说 nothing 没的生气 = 净生气了 白: 没的any more 先说这个“没”是副词还是动词。副词不好接名物化的“的”,所以是动词。如果“的”是“得”之讹误,更不具备结合条件 Me: “没” 是状态v,没有动作性,通常不带 【得字补语】 白: 这俩人有的一拼,这俩人有得一拼 Me: “没的 vt” 中 “没 比 vt” 谁主谁副? “没“” 主,那就是 v:have nothing to eat;Vt 为主的话,可以看作否定式 “的字结构”做前置宾语:nothing to eat,eat nothing 白: 没的,更像是存在量词的否定 对比:有人来了 有和来,谁主? Me: 我处理成 “来” 为主。“有” 虚晃一枪: 有人来 = somebidy 来 白: 我是把他俩合并,共享坑(不需要那么多萝卜),其他事情落地时再说。 Me: 形式上看,自然是“有”为句法的主要谓词。带 【宾+宾补】的 subcat pattern 结构。但实际中,把宾补当做主要谓语,把句首的 “有” 当做小词,处理起来有诸多便利,也更靠近语义实质。 白: 当小词,处理变式需要当心 Me: 有前条件的:必须位于句首。严格说是,跳过副词类小词,“有” 居于句首。有这么个约束。 白: “酱油有买的吗?” 有时又及物,有时又折腾出一个主语状语两可的萝卜 Me: “有” 是个很讨厌的词。台湾国语可以表达完成体,倒是与英语平行了。这个台湾国语的用法如今已经推广到整个华人世界了,算是丰富汉语时体系统的一个小贡献。 白: 闽南话 Me: “我有学琴过,就是一直没上路。” “你有看《长城》吗?据说巨烂,老谋子的好莱坞滑铁卢。” 还好紧随着动词,这种用法不太难识别。 白: 当助动词好了 Me: 查了一下,“我们没得吃,没得喝”,还真是用 “得” 的,比用 “的”的多。想不出来,这 “得” 怎么冒出来的。 白: 没得到吃,没得到喝。 没东西得以吃,没东西得以喝 Me: 我们没的(or 得)吃,没的(or 得)喝,已经好几天了。 这地儿没的(or 得)吃,没的(or 得)喝,我们来干啥? 从上例看,没 de Vt 作为谓语,可以要求一个 【human】 的主语,也可以要求一个 【location】 或 【org】 的主语。【human】或【location】常做主语。 【human】 have nothing to eat vs. 【@location】 there is nothing to eat “没的 Vt” 相对于 “有的 Vt”: 入伙吧,保你从此有的吃、有的喝。 可是除了 吃喝玩乐,这个 Vt 也不好延伸er而无歧义(歧义表现在“有的”做逻辑宾语还是作为不定代词【human】做逻辑主语,其实这种做逻辑主语歧义在上述吃喝玩乐的用法中也休眠隐藏在内,不过可能性较低而已): 有的喜欢,有的不喜欢: 1. there's some to like and some to dislike; 2. some (people) like it, some (people) dislike it 没的学习??? nothing to learn? 白: 没的项目做,散伙算了。 Me: 想得脑仁疼。就为对付这么个简单的破说法。 有一个简单的办法就是,对于这些个模模糊糊的结构,产生性不强,介于习惯用法的成语与非成语之间,见一个扔一个,统统进词典。“没的Vt” 也就不用琢磨这个 Vt 集合到底有多大了,哪些该词典化,哪些该规则化,各自的标配分析和休眠的种子又是怎样。譬如,大数据挖一把,trigram 频率就搞定大部该词典化的现象及其合适处置。而鸡零狗碎里面琢磨规律性,真心难,不值得也没时间花那个力气了。 嗨,奏酱紫了,好歹它了。 白: “酱油有买的吗?”这里有坑: 第一,“酱油”和“有”没有先结合,而是选择了Sh。第二,“有”和“买”没有立即结合,而是选择了Sh。 Me: 买的 = 买的人? 如果换成“卖”:卖的 == 卖的东西,回指 “酱油”。 “酱油有卖的吗?” “没有卖的,有赠的。” 白: 哈,卖的、送的,买的、偷的、拿的, Me: 酱油有买的吗 == 酱油有买的人吗?== 酱油有人要买吗? 这是最常见的理解。但不排除: 酱油有买的吗? == 酱油有买来的么?(还是全部是赠送的?or 全部是抢来的)。 这里,“买的” 回指 “酱油”。 有意思的是,如果是“买”,指人的概率大(hence 标配理解),回指的概率小。 如果是“卖”,则反过来,回指是标配理解,指人概率小。 白: 在我的处理里,都模糊掉了。 Me: hidden 歧义,句法模糊掉,是对的。 白: 在“卖”的场景下,不完全是回指,存在“整体-部分”关系。也许还有留一部分自用的、送人的。先行词是整体,含省略的搭配词+的是部分: 礼我只收脑白金。 也是同样。 Me: 我所谓 “回指” 包括 整体部分的关系。是我用词不确。以前说过类似的: hit sb on the head:hit 的是人 还是 人的头?其实都对:hit 了头 就 hit 了人。头”回指到人。 白: 白马非马 Me: i love iPhone for its screen I love the screen of iPhone 喜欢的是手机还是屏幕?我们做 sentiment 的认为 都算。喜欢部分就是喜欢整体。 白: Among the horses you gave me, I love the white one. 讲点逻辑的话,不算。爱屋及乌是有的,只爱屋不及乌也是有的。 说某些议员是狗婊子养的是骂人,说某些议员不是狗婊子养的也是骂人。 Me: 逻辑是这样的: I like the screen of iPhone and hate its battery life so this person has 2 votes for iPhone:1 positive and 1 negative。只有这样 sentiment 的统计才真正具有舆情的意义。世界上没有完美(脑残粉的视角不算)。喜欢一个 object 永远是喜欢它的(让人喜欢的)部分。有时候这个部分(Aspect)被明确表达出来作为理由。有时候不表达出来。从舆情的角度,就是投票。喜欢一个部分,就是对整体的正面的一票。喜欢整体,没有明确表达喜欢的部分,也算是一票,因为他心里其实是有部分的,理论上不可能是百分百从头到脚到细胞到令人讨厌的部分都喜欢。前者除了计入褒贬情绪(即舆情)的统计票数外,还提供了 actionable insight,具有具体的情报价值,后者只是舆情的发泄而已。 白: 往往,喜欢一部分而不提另一部分,就是委婉表示不喜欢另外部分 Me: 那么想,就没法做舆情统计了。你那是言外之意,正话反说;不是没有,总体是少量。 有一次应邀到一家公司给个 sentiment 的 talk,听众有问,讽刺如何识别,我说,讽刺的确是挑战,不仅对我们是挑战,对大家都是挑战。讽刺中的形式痕迹,也有可以识别的,但更多是缺乏形式痕迹的,或者形式表现在语气和表情这些 text 以外的方面。 可以识别的形式有: 1. thank you for 【BAD behaviour】 2. 【BAD behaviour】,great! 【BAD behaviour】是各种具体的负面表述或吐槽,而句首或句尾的正面情绪 thank you 或 great,形成反差,因此构成了形式上可捕捉的讽刺。通常的逻辑总是拿具体的正面(反面)证据来支持正面(反面)的情绪或评价。如果这个范式被打乱,就可以传达讽刺。 接着我说,但是很多讽刺是没有显式的文本痕迹。对于人的理解有时也构成困难,比较木的人或情商较低或经验不足的人,往往也无法 decode,对于机器自然也就难了。譬如 刚谈恋爱的愣头青 往往听不懂对象的话。但对象说 no 的时候,他不知道其实不一定是 no,很可能是 yes。 达令,给你买个你一直超喜欢的名包吧? No,这包太贵。 这个傻瓜居然就真地不买了。三个月后,对象跟隔壁阿二跑le。阿二不仅仅有钱,也有心,懂得察言观色 body language,善于 read between lines,尤其擅长 decode 女性的话语。 马: 看得懂这标题吗? 曝国王将考神交易至鹈鹕 联手浓眉组双塔 也许有背景知识的能秒懂,我是没懂,看了正文才懂 白: 这个例子好 “联手”的逻辑主语怎么确定很有看点。 Me: 我完全看不懂。不知道我的 parser “看懂了”没有: 从模拟domain专家理解的角度,几乎肯定错得离谱,因为根本没有domain的知识训练和词汇外挂。我们 domain-independent parser 的是语言学分析的“合理”。在 domain 化(domain porting 90% 涉及的是词汇表术语及其本体的引入,其次才是边缘规则的微调)之前,上面的这个parse,看上去应该说是合理的。 白: 需要知道,“国王、鹈鹕”是org,“考神、浓眉”是individual,联手individual的只能是individual,等等。“a联手b组c”,有兼语的味道。组,是动词,组成的缩写。 Me: “浓眉组和细眉组,分头出击。” “浓眉组双塔顶不过细眉组单塔,真是不可思议。” 白: 语义场在起作用 球队、球员、转会交易、阵型,暗中互相支持。这些命名实体很可能不用定义什么,就可以自动获得这些标签。大数据太丰富了。还需要知道,在NBA场景下,“浓眉组”是超低频的。 【相关】 【李白对话录系列】 中文处理 Parsing 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|2567 次阅读|1 个评论
【李白对话录之10:白老师的麻烦不是白老师的】
liwei999 2016-12-6 09:07
李: 突然想起一句话 怕忘了 写在这: 白老师的麻烦是 他懂的 我不懂 我懂的 他懂。 谁的麻烦? 乔姆斯基说 麻烦是白老师的 菲尔默说 麻烦是我的 后一种语义深度分析的结论是如何得出的? 语义要多茁壮 才能敌得过句法的标配啊。 而且这种语义的蛛丝马迹并非每个人都有捕捉的能力 它远远超出语言学 与一个人的背景知识和领悟力有关 遇到这种极深度的人工智慧 目前能想出来的形式化途径 还是词驱动比较靠谱 如果真想较真探索的话 “麻烦 问题 毛病” 这类词有两个与【human】有关的坑 一个是标配 表达的是所有关系 possessive 另一个是 about 要求填坑的是 【event】或【entity】 后者自然也包括 【human】 白: “他的教训我一辈子忘不了” 谁被教训? 李: 哈。 回到前面, 近水楼台的 【human】 “白老师” 是标配。 另一条词驱动的可能路径自然休眠。因为词驱动 也就埋下来唤醒的种子。 上下文中遇到另一个 【human】 candidate “我”,加上其他一时也整不清楚但终究可能抓到的蛛丝马迹, 于是 休眠唤醒 了。 白: 好像sentiment在休眠唤醒中起比较重要的作用 李: 此句是一例 本来是褒 可不唤醒就是贬了。 白: 标配的麻烦,把负面情感赋与那谁,等到后面说的都是正面,纠结了,另一个human就有空子钻了。 李: 对对对 这个 trick 我们做了n年 sentiment 摸索出来了就在用。典型案例是: “Thank you for misleading me” Thank 里表达的抽象的褒 由于遭遇了 misleading 的较为具体的贬 而转化为讽刺。 还有:“你做的好事儿 great”。这里 great 的讽刺也是有迹可寻的。 白: more specific expressions承载的sentiment优先 李: 遇到过两次记者采访,两次都被问到 你们教给机器 sentiment,机器可以理解正话反说 和 讽刺 吗? 我的回答是:这是一个挑战 但其中的一些常见的讽刺说法 是可以形式化 可以捕捉到的。举例就是上面。 白: 具体override抽象。 李: yes yes yes 白: 如果二者纠结,具体承载的sentiment才是基调,抽象的反向sentiment不是抵消而是修辞手法的开关。 李: 我一直在强调,sentiment 的世界里面,主要是两类东西:一类是情绪的表达,一类是情绪背后的理由。 有些人只表达情绪,但有些人为了说服或影响别人,好恶表态的前后,会说一通理由:you make a point,then you need to support your point with arguments 所谓 sentiment analysis 很长一段时间 领域里面以为那是一个简单的分类问题:thumbs up thumbs down。这个浅陋而流行的观点只是针对的情绪,而面对情绪背后千变万化的理由 就有些抓瞎了。可是没有后者,那个sentiment就没啥特别的价值。 所谓讽刺,只是情绪的转向,正话反说。具体的理由是不能转向的,否则人类的交流就没有一个 protocol 而可以相互理解了。褒贬里面具体的东西 我们叫 pros and cons, 那个东西因为其具体,所以语义是恒定的,不会轻易改变。 情绪却不同。人是一个奇怪的动物,爱极而恨,恨极而爱,都有。甚至很多时候 爱恨交织 自己都搞不清楚。表达为语言,就更诡异善变。 英语口语中 sick 是强烈的褒义情绪,shit 和 crap 等词也不是贬义,bad ass is very positive too: “The inside of a prius is bad ass no lie.” 是非常正面的褒奖。 人类在情绪表达中说反话,或者由于反话说常了 community 都理解成正话了,这种情形也屡见不鲜。 关键词的褒贬分类系统遇到这种东西不傻眼才怪:当然如果input很长,可以 assume 这类现象只是杂音,整个关键词分类还可以靠谱。但一旦是社会媒体的短消息,这种语言模型比丢硬币好不了多少。 汉语中 老婆太喜欢老公了 喜欢到不知道怎么好了 就说 杀千刀的。 再举一个今天遇到的 sentiment 实际案例: @Monster47_eNd nah, you have no idea how bad I would kill to eat taco bell or any kind of shit like that. 瞧瞧里面的 sentiment triggers: bad;kill;shit 三个都是强烈的 negative triggers 谈论的 topic 是 Taco Bell,一家流行的墨西哥快餐连锁品牌。 这条短消息通篇没有褒义词出现,因此没有理解、缺乏结构的关键词系统只能得出贬义的结论。但这句话其实是对 Taco Bell 异乎寻常的褒奖 用的是完全草根普罗的用语。 谷歌的神经翻译遇到口语化的句子也基本抓瞎,训练的数据严重口语不足(那是因为双语语料质量过得去的来源大多是正规文档,组织人力去标注口语,做地道的口语翻译,是一个浩大的工程,巨头也无能为力吧): @ Monster47_eNd nah,你不知道我會殺了多少吃塔可鐘或任何種類的狗屎。 尝试“人工”翻译一哈: @ Monster47_eNd nah,你不知道为了能吃上Taco Bell 的东东,我會怎样不惜代价(哪怕让我杀人都行)。 简单的译法是: 想吃 Taco Bell 这样的垃圾,我他妈都想疯了。 谁要再说 sentiment 好做,我TM跟他急。这无疑是 NLP 中最艰涩的果子之一。 【相关】 《泥沙龙笔记:parsing 的休眠反悔机制》 【立委科普:基于关键词的舆情分类系统面临挑战】 【立委科普:舆情挖掘的背后】 【李白对话录系列】 中文处理 Parsing 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|3781 次阅读|0 个评论
【语义计算沙龙:sentiment 中的讽刺和正话反说】
liwei999 2016-7-3 07:46
w: 看见前面的“降温”,这降温是何极性? “本来就防寒措施准备不足,这不现在又要降温了。” “他这几天高烧不退,还好刚才开始降温了。” 还有“降级” “他这学期实在太差,学校对他实行了降级处理。” “由防恐工作己经卓有成效,上面终于把防恐等级降级了。” 看这“随风倒”的词,在做情感分析,只看词的话也不大可靠。 我: 大小 多少 高低 长短 增减 之类 自身没有褒贬 根据它所修饰者而定 w: 这些中性词一看很清楚。降级这个偏向性应该很明显。 我: 那是。 降 中性。 w: 是 我: 级 级别 职称 等级 这些属于隐性正面词 在语言中被激发 被 increase、start or decrease、suspend 这类概念的词所激发。 w: 李老师研究是颇有心得啊!那存不存在褒义词贬义用,贬义词褒义用。 我: 当然存在 譬如讽刺 挖苦 自嘲 和 讥笑 w: 是的 我: 譬如 “谢谢你的完美误导”:“谢谢” 与 “完美” 的褒义 在“误导”前 转为讽刺 因此是负面 w: 呵呵! 那机器拿捏起来,就比较困难了。 我: 再如 “居然拿狐狸肉冒充牛肉上架 沃尔玛 你真行” 你真行 从褒奖转为讽刺贬义。 w: 例子,李老师也是随手拈来啊,这个真行 -都是用坏了。这些应该是属于超一般文本的自然语言处理。觉得,在NLP 特别棘手这种讽刺,隐喻,借代,拟人之类的 我: 我过去五年就是陷在 sentiment 泥淖呢。 w: 好不容易搭配个语义模板出来,总那么多非法的都是合法的而且是高水平的修辞手法 这让机器莫名其妙,莫衷一是 我: 上面这样的正好反说有迹可循,有套路,小心一点,还是可以抓住的。做过 sentiment 后 事实抽取为基础的知识图谱就是小菜了。 白: sentiment也是有结构的,仅仅正负面标签远远不够。 w: 同意白老师。独立标签 独立标签也许就如李老师之前所说的关键词 白: “坑挖深了”有歧义,和不同预期有关。 原来挖浅了,现在按照要求深挖,可以交差了。这是一个意思。 没预期挖那么深,一不留神用力过猛,挖深了,是“过深”的意思。 【相关】 【关于舆情挖掘】 《朝华午拾》总目录 【关于立委NLP的《关于系列》】 【置顶:立委NLP博文一览(定期更新版)】 【 立委NLP频道 】
个人分类: 立委科普|3941 次阅读|0 个评论
《扫了 sentiment,NLP 一览众山小:从“良性肿瘤”说起》
liwei999 2016-7-1 16:01
高,广,宽,深,大,粗,长 ...... 这些形容词很有意思,本来它们应该是中性的,因为作为逻辑形容词一极,在它所限定的逻辑名词没有确认之前,理论上是无法断定褒贬的:譬如 高收入 高品位 是优点,但高血压 高血脂 就不好。不过语言的逻辑是一回事儿,语言的心理是另一回事儿,从语言心理来看,如果逻辑名词阙如,这些词默认是褒义词。逻辑上说不通,因为落脚点都不知道,怎么知道褒贬呢?可几乎全人类都有这种迷信 高 大 上 远 粗 长 深 广 多 硬 。。。的趋向,这也反映在命名上,无论是给自己的产品、算法,还是给自己的孩子起名,大家都喜欢用形容词的这一极,而不喜欢用另一极 短 小 软 细 少 矮 窄 近 。HowNet 把两极以及中间的级的这些形容词 都命名为 X-Value, 我们还是把两极区别了一下,ValueUp and ValueDown。 ValueUp 的默认在 sentiment 系统中是有用的,它天生讨喜。这些都是客观形容词,理论上无褒贬,实际上有默认。主观形容词不同,它无需落脚到逻辑名词,就已经宣示了褒贬: 譬如,好/坏 优/劣 良/歹 善/恶 正/邪。哪怕它最终落脚到一个坏的名词身上,这种宣示还是有效的: 如,良性肿瘤。 肿瘤是坏东西,但检查出结果是“良性肿瘤”的时候,那就是喜讯。当然 这里面有些微妙 任何矛盾体的组合 都可能呈现这类微妙的问题 sentiment 这一行就更明显。微妙之处在于,局部来看语言结构,当褒义的主观形容词“良性”开始修饰贬义的名词“肿瘤”的时候,其作用是反转,贬义变褒义了。但是,这种反转在更大的上下文中,仍然是摇摆的。尽管良性,毕竟是肿瘤,毕竟是疾病。所以良性肿瘤仍然可以略带贬义。所以我说,自然语言中,最难缠的就是sentiment了,人类用主观语言(subjective language)表达 sentiment,比起用客观语言(objective language)表达事实,要微妙、歧义、模糊、摇摆得多。 NLP 做 sentiment 是吃硬果子。这个苦果吃下去消化了,那些个基于事实抽取的所谓知识图谱,就是小菜了。扫了 sentiment,就如登了泰山,NLP 可以一览众山小了。 【相关】 【立委科普:舆情挖掘的背后】 【置顶:立委NLP博文一览(定期更新版)】 《朝华午拾》总目录
个人分类: 立委科普|3356 次阅读|0 个评论
中美网民购物行为有何差异? 用电商网站产品评论来回答
热度 3 timy 2016-2-16 20:52
不同国家、地区或民族的网络用户,在购物行为上本来就存在差异。研究不同人群之间的购物行为差异,对产品设计、市场营销等都具有重要的参考价值。以往的关于不同人群购物行为的研究多以人工问卷调研(我们称之为传统问卷调研)为基础,调研成本高、周期长。当前电商网站上存在大量的购物评论,这些评论为研究网民的购物行为提供了充分的数据基础。为此,我们以亚马逊国际站 (amazon.com,主要为美国用户)与中国站(amazon.cn)上的购物评论为数据源,具体地以数码相机、智能手机以及平板电脑等三种IT产品的中英文评论为基础,提出基于问题答案自动生成与评论挖掘相结合的自动问卷调研方法,并给出关于中外用户购物行为差异的问卷调研结果。 机器自动问卷调研的结果表明:在数码相机、智能手机以及平板电脑等三个领域,中美用户购物时有较大差别,如:中国用户对产品表达看法时没有美国用户直接;美国用户更加关注产品的细节;中国用户对产品的外部特征(如外观、颜色等)关注度高、而美国用户对产品内部性能更加关心。 与传统问卷调研的方式相比,通过自动问卷调研方式研究用户购物行为,具有成本低、周期短的优点。进一步地通过海量的评论数据,研究不同国家、地区或民族的行为差异,可能是一个有趣的研究方向。当然,目前的自动问卷调研结果的质量还没有完全达到人工问卷一样的质量。我们现在还仅仅利用了最简单的基于模板的问题生成模型,今后我们拟采用QA中更好的问题与答案生成技术,来进一步提高自动问卷的质量。随着自动问卷调研、产品挖掘、情感分析等关键技术的不断发展和优化,我们相信,基于自动问卷调研技术的用户研究将是一个比较有前途的研究方向。 我们的具体工作可以参见如下论文: Qingqing Zhou, Rui Xia, Chengzhi Zhang*. Online shopping behavior study based on multi-granularity opinion mining: China vs. America . Cognitive Computation . 2016. http://dx.doi.org/10.1007/s12559-016-9384-x.
个人分类: 自然语言处理|10280 次阅读|6 个评论
[转载]如何对社交与互联网数据进行情感分析
leolin 2015-7-31 09:57
原文出处 :http://mp.weixin.qq.com/s?__biz=MjM5MTQ4NzgwNA==mid=201574084idx=1sn=fdab56c79b3066390758ef8c12857152utm_source=tuicool 情感分析(Sentiment Analysis) 1)What is Sentiment Analysis? 情感分析(Sentiment analysis),又称倾向性分析,意见抽取(Opinion extraction),意见挖掘(Opinion mining),情感挖掘(Sentiment mining),主观分析(Subjectivity analysis),它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程,如从评论文本中分析用户对“数码相机”的“变焦、价格、大小、重量、闪光、易用性”等属性的情感倾向。 更多例子如下: l 从电影评论中识别用户对电影的褒贬评价: l Google Product Search识别用户对产品各种属性的评价,并从评论中选择代表性评论展示给用户: l Bing Shopping识别用户对产品各种属性的评价: l Twitter sentiment versus Gallup Poll of Consumer Confidence :挖掘Twitter(中文:微博)中的用户情感发现,其与传统的调查、投票等方法结果有高度的一致性(以消费者信心和政治选举为例,corelation达80%),详细见论文:Brendan O'Connor, Ramnath Balasubramanyan, Bryan R. Routledge, and Noah A. Smith. 2010. From Tweets to Polls: Linking Text Sentiment to Public Opinion Time Series. In ICWSM-2010。(注:下图中2008年到2009年初,网民情绪低谷是金融危机导致,从2009年5月份开始慢慢恢复) l Twitter sentiment: 通过Twitter用户情感预测股票走势,2012年5月,世界首家基于社交媒体的对冲基金 Derwent Capital Markets 在屡次跳票后终于上线。它会即时关注Twitter 中的公众情绪指导投资。正如基金创始人保罗•郝汀(Paul Hawtin)表示:“长期以来,投资者已经广泛地认可金融市场由恐惧和贪婪驱使,但我们从未拥有一种技术或数据来量化人们的情感。”一直为金融市场非理性举动所困惑的投资者,终于有了一扇可以了解心灵世界的窗户——那便是 Twitter 每天浩如烟海的推文,在一份八月份的报道中显示,利用 Twitter 的对冲基金 Derwent Capital Markets 在首月的交易中已经盈利,它以1.85%的收益率,让平均数只有0.76%的其他对冲基金相形见绌。类似的工作还有预测电影票房、选举结果等,均是将公众情绪与社会事件对比,发现一致性,并用于预测,如将“冷静CLAM”情绪指数后移3天后和道琼斯工业平均指数DIJA惊人一致。详细见论文: Johan Bollen, Huina Mao, Xiaojun Zeng. 2011. Twitter mood predicts the stock market, Journal of Computational Science 2:1, 1-8.(注:DIJA,全称Dow Jones Industrial Average) l Target Sentiment on Twitter(Twitter Sentiment App): 对Twitter中包含给定query的tweets进行情感分类。对于公司了解用户对公司、产品的喜好,用于指导改善产品和服务,公司还可以据此发现竞争对手的优劣势,用户也可以根据网友甚至亲友评价决定是否购买特定产品。详细见论文:Alec Go, Richa Bhayani, Lei Huang. 2009. Twitter Sentiment Classification using Distant Supervision. 情感分析的意义何在?下面以实际应用为例进行直观的阐述: • Movie : is this review positive or negative? • Products : what do people think about the new iPhone? • Public sentiment : how is consumer confidence? Is despair increasing? • Politics : what do people think about this candidate or issue? • Prediction : predict election outcomes or market trends from sentiment 情感分析主要目的就是识别用户对事物或人的看法、态度(attitudes:enduring, affectively colored beliefs, dispositions towards objects or persons),参与主体主要包括: Holder (source) of attitude:观点持有者 Target (aspect) of attitude:评价对象 Type of attitude:评价观点 From a set of types: Like, love, hate, value, desire, etc. Or (more commonly) simple weighted polarity : positive, negative, neutral, together with strength Text containing the attitude:评价文本,一般是句子或整篇文档 更细更深入的还包括评价属性,情感词/极性词,评价搭配等、 通常,我们面临的情感分析任务包括如下几类: Simplest task: Is the attitude of this text positive or negative? More complex: Rank the attitude of this text from 1 to 5 Advanced: Detect the target, source, or complex attitude types 后续章节将以Simplest task为例进行介绍。 2)A Baseline Algorithm 本小节对影评进行情感分析为例,向大家展示一个简单、实用的情感分析系统。详细见论文: Bo Pang, Lillian Lee, and Shivakumar Vaithyanathan. 2002. Thumbs up? Sentiment Classification using Machine Learning Techniques. EMNLP-2002, 79—86. Bo Pang and Lillian Lee. 2004. A Sentimental Education: Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts. ACL, 271-278 我们面临的任务是 “ Polarity detection: Is an IMDB movie review positive or negative?”,数据集为“ Polrity Data 2.0: http://www.cs.cornell.edu/people/pabo/movie-review-data”.作者将情感分析当作分类任务,拆分成如下子任务: Tokenization: 正文提取,过滤时间、电话号码等,保留大写字母开头的字符串,保留表情符号,切词; Feature Extraction: 直观上,我们会认为形容词直接决定文本的情感,而Pang和Lee的实验表明,采用所有词(unigram)作为特征,可以达到更好的情感分类效果。 其中,需要对否定句进行特别的处理,如句子”I didn’t like this movie”vs “I really like this movie”,unigram只差一个词,但是有着截然不同的含义。为了有效处理这种情况,Das and Chen (2001)提出了“Add NOT_ to every word between negation and following punctuation”,根据此规则可以将句子“didn’t like this movie , but I”转换为“didn’t NOT_like NOT_this NOT_movie, but I”。 另外,在抽取特征时,直观的感觉“Word occurrence may matter more than word frequency”,这是因为最相关的情感词在一些文本片段中仅仅出现一次,词频模型起得作用有限,甚至是负作用,则使用多重伯努利模型事件空间代替多项式事件空间,实验也的确证明了这一点。所以,论文最终选择二值特征,即词的出现与否,代替传统的频率特征。log(freq( w ))也是一种值得尝试的降低频率干扰的方法。 Classification using different classifiers: 如Naïve Bayes 、 MaxEnt 、 SVM,以朴素贝叶斯分类器为例,训练过程如下: 预测过程如下: 实验表明,MaxEnt和SVM相比Naïve Bayes可以得到更好的效果。 最后,通过case review可以总结下,影评情感分类的难点是什么? 语言表达的含蓄微妙:“If you are reading this because it is your darling fragrance, please wear it at home exclusively, and tape the windows shut.”,“ She runs the gamut of emotions from A to B”。 挫败感表达方式:先描述开始的期待(不吝赞美之词),后表达最后失望感受,如“This film should be brilliant . It sounds like a great plot , the actors are first grade , and the supporting cast is good as well, and Stallone is attempting to deliver a good performance . However, it can’t hold up .”,“Well as usual Keanu Reeves is nothing special, but surprisingly, the very talented Laurence Fishbourne is not so good either, I was surprised.”。 3)Sentiment Lexicons 情感分析模型非常依赖于情感词典抽取特征或规则,以下罗列了较为流行且成熟的开放情感词典资源: GI(The General Inquirer):该词典给出了每个词条非常全面的信息,如词性,反义词,褒贬,等,组织结构如下: 详细见论文:Philip J. Stone, Dexter C Dunphy, Marshall S. Smith, Daniel M. Ogilvie. 1966.The General Inquirer: A Computer Approach to Content Analysis. MIT Press LIWC (Linguistic Inquiry and Word Count):该词典通过大量正则表达式描述不同类别的情感词规律,其类别体系与GI(The General Inquirer)基本一致,组织结构如下: 详细见论文:Pennebaker, J.W., Booth, R.J., Francis, M.E. (2007). Linguistic Inquiry and Word Count: LIWC 2007. Austin, TX MPQA Subjectivity Cues Lexicon:其中包含Positive words: 2718,Negative words: 4912,组织结构如下图所示: 详细见论文:Theresa Wilson, Janyce Wiebe, and Paul Hoffmann (2005). Recognizing Contextual Polarity in Phrase-Level Sentiment Analysis. Proc. of HLT-EMNLP-2005. Riloff and Wiebe (2003). Learning extraction patterns for subjective expressions. EMNLP-2003. Bing Liu Opinion Lexicon:其中包含Positive words: 2006,Negative words: 4783,需要特别说明的是,词典不但包含正常的用词,还包含了拼写错误、语法变形,俚语以及社交媒体标记等,详细见论文:Minqing Hu and Bing Liu. Mining and Summarizing Customer Reviews. ACM SIGKDD-2004. SentiWordNet:其通过对WordNet中的词条进行情感分类,并标注出每个词条属于positive和negative类别的权重大小,组织结构如下: 详细见论文:Stefano Baccianella, Andrea Esuli, and Fabrizio Sebastiani. 2010SENTIWORDNET 3.0: An Enhanced Lexical Resource for Sentiment Analysis and Opinion Mining. LREC-2010 以上给出了一系列可用的情感词典资源,但是,如何选择一个合适的为我所用呢?这里,通过对比同一词条在不同词典之间的分类,衡量词典资源的不一致程度,如下: 对于在不同词典中表现不一致的词条,我们至少可以做两件事情。第一,review这些词条,通过少量人工加以纠正;第二,可以得到一些存在褒贬歧义的词条。 给定一个词,如何确定其以多大概率出现在某种情感类别文本中呢?以IMDB下不同打分下影评为例,最简单的方法就是计算每个分数(星的个数)对应的文本中词条出现的频率,如下图所示为Count(“bad”)分布情况: 使用更多的是likelihood公式: 为了使得不同词条在不同类别下的概率可比,通常使用Scaled likelihood公式代替,如下: 如下图所示,列出了部分词条在不同类别下的Scaled likelihood,据此可以判断每个词条的倾向性。 另外,我们通常会有这么一个疑问:否定词(如 not, n’t, no, never )是否更容易出现在negative情感文本中?Potts, Christopher(2011)等通过实验给出了答案:More negation in negative sentiment,如下图所示: 4)Learning Sentiment Lexicons 我们在庆幸和赞扬众多公开情感词典为我所用的同时,我们不免还想了解构建情感词典的方法,正所谓知其然知其所以然。一方面在面临新的情感分析问题,解决新的情感分析任务时,难免会需要结合实际需求构建或完善情感词典,另一方面,可以将成熟的词典构建方法应用于其他领域,知识无边界,许多方法都是相通的。 常见的情感词典构建方法是基于半指导的bootstrapping学习方法,主要包括两步: Use a small amount of information(Seed) A few labeled examples A few hand-built patterns To bootstrap a lexicon 接下来,通过相关的几篇论文,详细阐述下构建情感词典的方法。具体如下: 1. Hatzivassiloglou McKeown: 论文见Vasileios Hatzivassiloglou and Kathleen R. McKeown. 1997. Predicting the Semantic Orientation of Adjectives. ACL, 174–181,基于这样的一种语言现象:“Adjectives conjoined by ‘ and ’ ’ have same polarity;Adjectives conjoined by ‘ but ‘ do not”,如下示例: Fair and legitimate, corrupt and brutal *fair and brutal, *corrupt and legitimate fair but brutal Hatzivassiloglou McKeown(1997)提出了基于bootstrapping的学习方法,主要包括四步: Step 1 :Label seed set of 1336 adjectives (all 20 in 21 million word WSJ corpus) 初始种子集包括657个 positive words(如adequate central clever famous intelligent remarkable reputed sensitive slender thriving…)和679个 negative words(如contagious drunken ignorant lanky listless primitive strident troublesome unresolved unsuspecting…) Step 2 :Expand seed set to conjoined adjectives,如下图所示: Step 3 :Supervised classifier assigns “polarity similarity” to each word pair, resulting in graph,如下图所示: Step 4 :Clustering for partitioning the graph into two 最终,输出新的情感词典,如下(加粗词条为自动挖掘出的词条): Positive: bold decisive disturbing generous good honest important large mature patient peaceful positive proud sound stimulating straightforward strange talented vigorous witty… Negative: ambiguous cautious cynical evasive harmful hypocritical inefficient insecure irrational irresponsible minor outspoken pleasant reckless risky selfish tedious unsupported vulnerable wasteful… 2. Turney Algorithm: 论文见Turney (2002): Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews,具体步骤如下: Step 1 :Extract a phrasal lexicon from reviews,通过规则抽取的phrasal如下图所示: Step 2 :Learn polarity of each phrase,那么,如何评价phrase的polarity呢?直观上,有这样的结论:“Positive phrases co-occur more with ‘excellent’ ,Negative phrases co-occur more with ’poor’ ”,这时,将问题转换成如何衡量词条之间的共现关系?于是,学者们引入了点互信息( Pointwise mutual information ,PMI),它经常被用于度量两个具体事件的相关程度,公式为: 两个词条的PMI公式为: 常用的计算PMI(word1, word2)方法是分别以”word1”,”word2”和”word1 NEAR word2”为query,根据搜索引擎检索结果,得到P(word)和P(word1, word2),如下: P(word) = hits(word)/N P(word 1 ,word 2 ) = hits(word1 NEAR word2)/N 2 则有: 那么,计算一个phrase的polarity公式为(excellent和poor也可以使用其它已知极性词代替): Turney Algorithm在410 reviews(from Epinions)的数据集上,其中170 (41%) negative,240 (59%) positive,取得了74%的准确率(baseline为59%,均标注为positive)。 Step 3 :Rate a review by the average polarity of its phrases 3. Using WordNet to learn polarity: 论文见S.M. Kim and E. Hovy. 2004.Determining the sentiment of opinions. COLING 2004,M. Hu and B. Liu. Mining and summarizing customer reviews. In Proceedings of KDD, 2004.该方法步骤如下: Create positive (“good”) and negative seed-words (“terrible”) Find Synonyms and Antonyms Positive Set: Add synonyms of positive words (“well”) and antonyms of negative words Negative Set: Add synonyms of negative words (“awful”) and antonyms of positive words (”evil”) Repeat, following chains of synonyms Filter 以上几个方法都有较好的领域适应性和鲁棒性,基本思想可以概括为“ Use seeds and semi-supervised learning to induce lexicons ”,即: Start with a seed set of words (‘good’, ‘poor’) Find other words that have similar polarity: Using “and” and “but” Using words that occur nearby in the same document Using WordNet synonyms and antonyms Use seeds and semi-supervised learning to induce lexicons 5)Other Sentiment Tasks 上面介绍了文档级或句子级情感分析,但是,实际中,一篇文档(评论)中往往会提及不同的方面/属性/对象(以下统称属性),且可能对不同的属性持有不同的倾向性,如“The food was great but the service was awful ”。一般通过Frequent phrases + rules的方法抽取评价属性,如下: Find all highly frequent phrases across reviews (“fish tacos”) Filter by rules like “occurs right after sentiment word”:“… great fish tacos” means fish tacos a likely aspect 通常,我们还会面临一种问题:评价属性缺失,准确的讲,评价属性不在句子中。这是很常见的现象,此时就需要结合上下文环境,如来自某电影的评论缺失的评价属性基本上就是电影名或演员,可以基于已知评价属性的句子训练分类器,然后对评价属性缺失的句子进行属性预测。 Blair-Goldensohn et al.提出了一套通用的aspect-based summarization models,如下图所示: 详细见论文:S. Blair-Goldensohn, K. Hannan, R. McDonald, T. Neylon, G. Reis, and J. Reynar. 2008. Building a Sentiment Summarizer for Local Service Reviews. WWW Workshop 另外,其他的一些情感分析的相关任务有: Emotion: 个人情绪 Detecting annoyed callers to dialogue system Detecting confused/frustrated versus confident students Mood : 个人情绪 Finding traumatized or depressed writers Interpersonal stances : 人际关系中的谈话方式 Detection of flirtation or friendliness in conversations Personality traits : 性格 Detection of extroverts
1625 次阅读|0 个评论
一个小故事引发的文本情感分析思考
hanhongqi 2015-3-6 10:00
前一段时间看了傅佩荣的《哲学与生活》这本书,里面讲了一个小故事。 海外很多国家都有唐人街。有一个外国人到唐人街去,走着看到一个中国年轻人随地吐了口痰,便说了一句“Chinese is Chinese”。然后他继续往前走,又看到一个中国年轻人扶着一个老人过马路,就又说了一句“Chinese is Chinese”。 下面我们来思考一下这里面的情感分析问题。先简要介绍一下文本情感分析的定义和研究层次。 所谓文本情感分析,就是对说话人的态度(或称观点、情感)进行分析,也就是对文本中的主观性信息进行分析。文本情感分析一般有四个研究层次:词语情感倾向性分析、句子情感倾向性分析、篇章情感倾向性研究和海量信息的整体倾向性预测。 情感分析是一件困难的工作,这从这个小故事可以看出端倪。首先“Chinese”和“is”这些词语从统计或认知上讲是中性词,所以从词语情感分析的角度来看,“Chinese is Chinese”是中性的,不带正向或负向的情感。但这个小故事前半段讲的是这个外国人对随地吐痰的看法,这时候说出的 “Chinese is Chinese ”就表达了负向的情感。而后半段显然是对中国尊老文化的认可,所以 “Chinese is Chinese ” 表达了正向的情感。 如果单纯根据词的情感属性来判断 “Chinese is Chinese ”这个句子的情感倾向,很可能得出中性的结论。而如果考虑到句子的情景来说,则其既可以是正向的,也可以是负向的情感。如果把这个小故事看作一个篇章,则从整体上很难说这个篇章是哪种情感了。
个人分类: 读书思考|2968 次阅读|0 个评论
第三届全国社会媒体处理大会总结
热度 1 wuxiaolananhui 2014-11-10 11:38
第三届全国社会媒体处理大会总结 2014 年 11 月 1 日 -2 日 特邀报告 特邀报告 1 : Big Data Analyticsin Business Environments ;演讲者:熊辉 ( 海外杰青,美国 罗格斯 - 新泽西州立大学教授) 熊教授主要介绍了商业环境下的数据挖掘分析。由于大数据自身的特性:巨大,细粒度,多样化,动态等,对于传统的数据挖掘方法都产生了巨大的改变和挑战。该报告着重分析了商业环境中的大数据分析技术和挑战,包括:( 1 )不同的商业应用的数据挖掘问题;( 2 )商业分析的数据预处理和后处理问题;( 3 )如何将计算模型用于管理不确定情况。具体报告中讲述了以下几种社交网络上用户行为分析:结合用户行动,传播的兴趣点, check-in 模式 ,他们主要用在 POI 推荐、 check in pattern 、 house ranking(kdd2104) 、 Mobile App Ranking(KDD2104) 。 特邀报告 2 :腾讯海量文本挖掘研究与实践;演讲者:王迪(腾讯工程与技术事业群搜索技术副总监 ) 王总主要介绍了腾讯研发的文本挖掘平台,包括自然语言处理平台(分词、新词、命名实体识别、同义词、纠错、并行化聚类 / 分类等)、知识挖掘平台、页面下载和抽取平台、舆情分析和预测平台,以及如何利用这些平台进行现今海量数据的自动挖掘,并且将挖掘结果应用于腾讯的多款产品。其中,以基于用户画像的语义标签搜索和基于社交关系的个性化新闻推荐为例,介绍文本挖掘平台如何在面向社交的语义搜索和推荐场景中发挥作用。该报告中 QQ 上内容上数据主要分为以下四类:行为类、内容类、情景类、属性类;腾讯研究上遇到的问题有:海量、成本控制、无截断问题;社交搜索及社交推荐:社交关系(关系链检索)拉取和 QQ 用户画像解决冷启动问题(新用户)( qq 用户画像有年龄、性别、职业等基本属性);分三个部分:基本属性、行为属性(用户兴趣、兴趣标注)、业务属性(电商兴趣、游戏属性)。 特邀报告 3 : Social InformationFiltering – A Case Study on Weibo ;演讲者:李航(华为技术有限公司诺亚方舟实验室首席科学家,北京大学,南京大学客座教授 ) 李航教授介绍了如何进行社交信息过滤,其目的是为用户构建信息助手从而有助于用户简单快速地获取信息,并举例了他们华为诺亚方舟实验室做的小诺机器人 ( @ 小诺 _Noah) 。通过微博机器人小诺的介绍,引出每个人都有一个智能信息助手,进行抽取信息、信息摘要、关系信息、回答问题、自然语言对话等。自动关注人、自动转发帖子、转发预测(这适合营销领域)。 特邀报告 4 :大数据机会与风险 —— 谈与人行为相关的大数据分析;演讲者:刘德寰 ( 北京大学传播学系教授,博士生导师 ) 刘教授主要介绍了他理解的大数据的理念误区,大数据的分析层次,大数据中的机会以及大数据中的伦理。他认为大数据中存在三个危险观念:对抽样的蔑视,无原则推崇相关以及全数据。大数据的到来引起了众多方法论的问题,并以 google 为例说明大数据的弊端。 特邀报告 5 :大数据改变世界;演讲者:林春雨(北京拓尔思信息技术股份有限公司高级副总裁,中关村大数据产业联盟副秘书长,国家信息安全专项舆情云服务项目组长 ) 林总主要介绍了大数据技术对各行各业的冲击和变化,大数据可以改进政府的决策,反馈真实民意,优化管理水平。除此之外,大数据可以助力优化企业的口碑管理,维护企业,改进服务流程,大数据正在成为目前所有行业的驱动力。随后介绍了拓尔思在大数据领域的一些实践,如关注健康医疗等。 特邀报告 6 :海量基于社会媒体的行业大数据实践;演讲者:郝玺龙(海量信息技术有限公司创始人董事长 ) 郝总主要介绍了如何将社会媒体信息转化为可以指导行动的情报。大数据具备数据规模大、数据多样性、数据在运动中及数据不确定性的特点,从纷繁复杂的海量数据进行收集整理后经过挖掘获得对组织和个人的决策形成支撑的知识或情报,对技术支撑平台的数据全面性、时效性和准确性提出了更高的要求。该报告介绍了 “ 海量 ” 基于十余年的中文智能计算和互联网数据挖掘技术的积累而打造的大数据技术体系,并将以大数据在娱乐行业的应用(爸爸去哪儿第二季)为例,展示海量在大数据时代为行业提供情报服务的独特竞争力。 特邀报告 7 :社会信号的解析与应用 - 从 CMO 到智慧管理;演讲者:王飞跃 ( 教授,中国科学院自动化研究所复杂系统管理与控制国家重点实验室主任 ) 王教授七主要介绍了闭环反馈自适应式的实时开放式社会管理与服务是否可能?能否成就一个崭新的社会自动化时代?该报告认为,社会信号的有效解析( Analytics) 和知识自动化将是实理这一目标的核心与关键,而研究并掌握各类 CyberMovement Organizations (CMOs) 的形态与发展更是实现智能企业和智慧社会管理的必经之路。 特邀报告 8 : Mining SocialMedia: Look Ahead ;演讲者:刘欢 ( 美国亚利桑那州立大学教授, IEEE Fellow) 刘教授主要介绍了社会媒体挖掘中他们的研究工作。社会媒体为我们提供了沟通与交流,也为研究人员了解人们创新的透镜的一种新方法。社会媒体挖掘是在规模化处理社会媒体的一种有效途径。我们目前面临的问题有:( 1 )大数据悖论( 2 )信任 VS 不信任社会媒体( 3 )数据样本的可信度问题( 4 )评价困境。这些挑战使得我们有机会了解社会媒体的数据及其特性,从而进行跨学科的研究与发现。 特邀报告 9 :社交网络信息与传播基础理论研究;演讲者:贾焰(博士,国防科学技术大学教授,博士生导师;现任教育部基础软件工程中心副主任,国家 863 计划 “ 十二五 ” 信息技术领域专家) 贾教授在线社交网络的出现和飞速发展,深深的影响了大家的学习、工作和生活模式,已成为一个公认的研究热点。社交网络分析在在掌握舆情、突发事件发现、网络营销等方面具有重要作用。本报告首先给出在线社交网络的基本概念和分类。然后,从在线社交网络的三个维度(结构、群体和信息),分析了在线社交网络的数据特点。进一步,给出了在线社交网络分析面临的挑战及问题,并对 973 课题组团队在线社交网络分析方面的研究进展进行简要介绍。最后,给出了对社交网络研究问题的思考,对在线社交网络下一步的研究方向进行了探索。通过本介绍,可以了解在线社交网络的基本概念、特点和最新研究进展。 特邀报告 10 :社会媒体环境下在线管理反馈对消费者行为的影响研究;演讲者:叶强(哈尔滨工业大学管理学院副院长,教授,国家杰青) 叶教授主要分析社会媒体环境下在线客户评论对消费者行为和企业绩效的影响。叶教授他们研究在这一背景下,探索企业针对在线用户评论的应对机制 —— 管理反馈,对企业绩效和消费者满意度的影响。该报告介绍了如何应对负面评价,提出用反馈取代删除的做法,利用携程网酒店客户评论数据,通过假设检验和满意度调查的方法进行管理视角的实证研究,发现了管理反馈对用户行为和用户满意度产生影响的一些基本规律,即管理反馈是有效的处理方法。 特邀报告 11 :基于社交媒体的用户理解与智能服务;演讲者:於志文(工学博士,西北工业大学计算机学院教授,博士生导师,洪堡学者, 2012 年首批国家优秀青年科学基金获得者) 於教授研究用户使用社交媒体产生的数据形成数字足迹,这些足迹反映用户和群体的在物理世界行为,如位置、时间、关系、偏好、情绪等,通过提取用户行为特征和行为规律,能够提供各种智能服务,如基于 LBSN 群体足迹旅游包推荐。与传统推荐不一样,他们研究的不是单个景点推荐,而是具有时间限制、地理位置的旅游线路推荐。 特邀报告 12 :社交江湖与媒体数据;演讲者:沈阳 ( 清华大学新闻与传播学院教授,博士生导师,清华大学新闻研究中心研究员 ) 沈博士讲述他理解的社交媒体上,他认为与真实物理时间一样,逐渐形成社交江湖,不再是是单向的索取,而应该需要资源的交换。
3827 次阅读|2 个评论
[转载]情感分析简述
zhaiyujia2013 2014-6-5 22:37
情感分析,我研究了也有半年有余了,ACL Anthology上关于情感分析的论文也基本看过了一遍,但是到目前还没有什么成就的。以下是我为一位同学毕业设计写的情感分析方面的综述,引用的论文基本上是ACL和COLING还有EMNLP上历年关于情感分析的论文,本文应该学术性比较强一点,本文虽不打算发表,但由于将来可能还有用,以及关于学术上的原因,请大家如果要引用请务必标明出处( http://blog.sina.com.cn/s/blog_48f3f8b10100irhl.html )。 概述 情感分析自从2002年由Bo Pang提出之后,获得了很大程度的研究的,特别是在在线评论的情感倾向性分析上获得了很大的发展,目前基于在线评论文本的情感倾向性分析的准确率最高能达到90%以上,但是由于深层情感分析必然涉及到语义的分析,以及文本中情感转移现象的经常出现,所以基于深层语义的情感分析以及篇章级的情感分析进展一直不是很大。情感分析还存在的一个问题是尚未存在一个标准的情感测试语料库,虽然Bo Pang实验用的电影评论数据集(http://www.cs.cornell.edu/people/pabo/movie-review-data/)以及Theresa Wilson等建立的MPQA(http://www.cs.pitt.edu/mpqa/)是目前广泛使用的两类情感分析数据集,但是并没有公认的标准加以确认。 目前情感分析的研究基本借鉴文本分类等机器学习的方法,还没有根据自身的特点形成一套独立的研究方法,当然在某种程度上也可以把情感分析看出一种特殊的文本分类。比较成熟的方法是基于监督学习的机器学习方法,半监督学习和无监督学习目前的研究不是很多,单纯的基于规则的情感分析这两年已很少研究了。既然目前很多情感分析的研究基于机器学习,那么特征选择就是一个很重要的问题,N元语法等句法特征是使用最多的一类特征,而语义特征(语义计算)和结构特征(树核函数)从文本分类的角度看效果远没有句法特征效果好,所以目前的研究不是很多的。 由于基于监督学习情感分析的研究已经很成熟了,而且在真实世界中由于测试集的数量要远远多于训练集的数量,并且测试集的领域也不像在监督学习中被限制为和训练集一致,也就是说目前情感分析所应用的归纳偏置假设在真实世界中显得太强的,为了和真实世界相一致,基于半监督学习或弱指导学习的情感分析和跨领域的情感分析势必是将来的研究趋势之一。 在情感分析的最初阶段基于语义和基于规则的情感分析曾获得了比较大的重视,但是由于本身实现的复杂性以及文本分类和机器学习方法在情感分析应用上获得的成功,目前关于这方面的研究以及很少了,但是事实上,语义的相关性和上下文的相关性正是情感分析和文本分类最大的不同之处,所以将基于语义和规则的情感分析与基于机器学习的情感分析相结合也将是未来的研究趋势之一。 以下将分别对情感分析的起源,目前基于监督学习,无监督学习,基于规则和跨领域的情感分析的一些研究工作进行简单的介绍。 起源 虽然之前也有一些相关工作,但目前公认的情感分析比较系统的研究工作开始于(Pang et al., 2002)基于监督学习(supervised learning)方法对电影评论文本进行情感倾向性分类和(Turney,2002)基于无监督学习(unsupervised learning)对文本情感情感倾向性分类的研究。(Pang et al., 2002)基于文本的N元语法(ngram)和词类(POS)等特征分别使用朴素贝叶斯(Naive Bayes),最大熵(Maximum Entropy)和支持向量机(Support Vector Machine,SVM)将文本情感倾向性分为正向和负向两类,将文本的情感进行二元划分的做法也一直沿用至今。同时他们在实验中使用电影评论数据集目前已成为广泛使用的情感分析的测试集。(Turney ,2002)基于点互信息(Pointwise Mutual Information,PMI)计算文本中抽取的关键词和种子词(excellent,poor)的相似度来对文本的情感倾向性进行判别(SO-PMI算法)。 在此之后的大部分都是基于(Pang et al., 2002)的研究。而相对来说,(Turney et al.,2002)提出的无监督学习的方法虽然在实现上更加简单,但是由于单词之间的情感相似度难以准确的计算和种子词的难以确定,继续在无监督学习方向的研究并不是很多的,但是利用SO-PMI算法计算文本情感倾向性的思想却被很多研究者所继承了。 监督学习 目前,基于监督学习的情感分析仍然是主流,除了(Li et al.,2009)基于非负矩阵三分解(Non-negative Matrix Tri-factorization),(Abbasi et al.,2008)基于遗传算法(Genetic Algorithm)的情感分析之外,使用的最多的监督学习算法是朴素贝叶斯,k最近邻(k-Nearest Neighbor, k -NN),最大熵和支持向量机的。而对于算法的改进主要在对文本的预处理阶段。 一个和文本分类不同地方就是情感分析有时需要提取文本的真正表达情感的句子。(Pang et al., 2004)基于文本中的主观句的选择和(Wilson el al.,2009)基于文本中的中性实例(neutral instances)的分析,都是为了能够尽量获得文本中真正表达情感的句子。(Abbasi et al.,2008)提出通过信息增益(Information Gain,IG)的方法来选择大量特征集中对于情感分析有益的特征。 而对于特征选择,除了N元语法和词类特征之外,(Wilson el al.,2009)提出混合单词特征,否定词特征,情感修饰特征,情感转移特征等各类句法特征的情感分析,(Abbasi et al.,2008)提出混合句子的句法(N元语法,词类,标点)和结构特征(单词的长度,词类中单词的个数,文本的结构特征等)的情感分析。 除了对于文本的预处理,对于监督学习中情感分析还进行了以下方面的研究的。(Melville et al., 2009)和(Li et al.,2009)提出结合情感词的先验的基于词典的情感倾向性和训练文本中后验的基于上下文的情感情感倾向性共同判断文本的情感倾向性。(Taboada et al.,2009)提出结合文本的题材(描述,评论,背景,解释等)和文本本身的特征共同判断文本的情感倾向性。(Tsutsumi et al.,2007)提出利用多分类器融合技术来对文本情感分类。(Wan, 2008)和(Wan, 2009)提出结合英文中丰富的情感分析资源来提高中文情感分析的效果。 基于规则 / 无监督学习 和基于监督学习的情感分析相比,基于规则和无监督学习方面的研究不是很多。除了(Turney,2002)之外,(朱嫣岚 et al.,2002)利用HowNet对中文词语语义的进行了情感倾向计算。(娄德成 et al.,2006)利用句法结构和依存关系对中文句子语义进行了情感分析,(Hiroshi et al.,2004)通过改造一个基于规则的机器翻译器实现日文短语级情感分析,(Zagibalov et al.,2008)在(Turney,2002)的SO-PMI算法的基础上通过对于中文文本特征的深入分析以及引入迭代机制从而在很大程度上提高了无监督学习情感分析的准确率。 跨领域情感分析 跨领域情感分析在情感分析中是一个新兴的领域,目前在这方面的研究不是很多,主要原因是目前的研究还没有很好的解决如何寻找两个领域之间的一种映射关系,或者说如何寻找两个领域之间特征权值之间的平衡关系。对于跨领域情感分析的研究开始于(Blitzer et al.,2007)将结构对应学习(Structural Correspondence Learning,SCL)引入跨领域情感分析,SCL是一种应用范围很广的跨领域文本分析算法,SCL的目的是将训练集上的特征尽量对应到测试集中。(Tan et al.,2009)将SCL引入了中文跨领域情感分析中。(Tan 2 et al.,2009)提出将朴素贝叶斯和EM算法的一种半监督学习方法应用到了跨领域的情感分析中。(Wu et al.,2009)将基于EM的思想将图排序(Graph Ranking)算法应用到跨领域的情感分析中,图排序算法可以认为是一种迭代的 k -NN算法。 从目前的研究可以看出,跨领域的情感分析主要问题在于寻找两个领域之间的一种映射关系,但是这样的映射关系或者很难寻找,或者需要相当强的数学证明。所以很多研究借用半监督学习的方法,通过逐次迭代逐渐减少训练集和测试集之间的差异。 参考文献: Xiaojun Wan.Using Bilingual Knowledge and Ensemble Techniques for Unsupervised Chinese Sentiment Analysis.Proceedings of EMNLP-08,553-561 Xiaoun Wan.Co-Training for Cross-Lingual Sentiment Classification.Proceedings of ACL-09,234-243 Theresa Wilson,Janyce Wiebe,Paul Hoffmann. Recognizing Contextual Polarity: An Exploration of Features for Phrase-Level. Computer Linguistics,25(3),399-433 Ahmed Abbasi,Hsinchun Chen,Arab,Salem.Sentiment Analysis in Multiple Languages:Feature Selection for Opinion Classification in Web Forums.ACM Transaction on Information Systems,26(3),12:1-12:34 Prem Melville,Wojciech Gryc,Richard D.Larence.Sentiment Analysis Of Blogs by Combining Lexical Knowledge with Text Classification.Proceedings of KDD-09,1275-1283 KANAYAMA Hiroshi,NASUKAWA Tetsuya,WATANBE Hideo.Deep Sentiment Analysis Using Machine Translation Technology.Proceedings of Coling -04 Maite Taboada,Julian Brooke,Manfred Stede.Genre-Based Paragraph Classification for Sentiment Analysis.Proceedings of SIGDIAL-09,62-70 Taras Zagibalov,John Carroll.Automatic Seed Word Selection for Unsupervised Sentiment Classification of Chinese Text.Proceedings of Coling-08,1073-1080 Bo Pang,Lillian Lee.A Sentimental Education:Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts.Proceedings of ACL-04 Bo Pang,Lillian Lee,Shivakumar Vaithyanathan.Thumbs up?Sentiment Classification using Machine Learning Techniques.Proceedings of EMNLP-02,79-86 Peter D. Turney.Thumbs Up or Thumbs Down?Senmantic Orientition Applied to Unsupervised Classification of Reviews.Proceedings of ACL-02,417-424 Kimitaka Tsutsumi, Kazutaka Shimada,Tsutomu Endo. Movie Review Classification Based on a Multiple Classifier. Proceedings of the 21st Pacific Asia Conference on Language, Information and Computation (PACLIC21), 481-488 John Blitzer,Mark Dredze, Fernando Pereira. Biographies, Bollywood, Boom-boxes and Blenders:Domain Adaptation for Sentiment Classification. Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, 440–447 Songbo Tan,Xueqi Cheng. Improving SCL Model for Sentiment-Transfer Learning. Proceedings of NAACL HLT 2009: Short Papers, 181–184 Songbo Tan, Xueqi Cheng, Yuefen Wang, Hongbo Xu. Adapting Naive Bayes to Domain Adaptation for Sentiment Analysis. ECIR 2009,337–349 Qiong Wu,Songbo Tan,Xueqi Cheng. Graph Ranking for Sentiment Transfer. Proceedings of the ACL-IJCNLP 2009 Conference Short Papers, 317–320 Tao Li Ti Zhang,Vikas Sindhwani.A Non-negative Matrix Tri-factorization Approach to Sentiment Classification with Lexical Prior Knowledge.Proceeding of ACL-09,244-252 娄德成,姚天妨.汉语与子语义极性分析和观点抽取方法的研究.计算机应用,2006,26(11),2622-2625 朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德. 基于HowNet的词汇语义倾向计算. 中文信息学 报,2006,20(1),14-20
个人分类: 情感分析|3064 次阅读|0 个评论
情感分析技术与应用
swb0802 2013-5-20 10:52
前一阵子在微博评论上做词项级的情感分析,手法十分简单,对评论中出现的词项,查找其在词典中的情感分级,然后对整个评论进行情感判定。最近查找了情感分析的相关文章。 根据情感分析(观点挖掘)的定义,其任务在于发现评论者对于特定产品的观点。人的决策过程受到思想领袖和普通大众共同营造而成的观点的影响。当人们打算在线购买一件产品时,通常会从查看其他人发表的各种评论开始。情感分析是计算机科学的一个热门研究领域,关于它已经出现了 7000 多篇论文。许多初创公司正在开发情感分析解决方案,一些主流统计软件,如 SAS 和 SPSS ,都包含专用的情感分析模块。 情感分析的最常见应用是消费产品和服务的评论。许多网站会对产品和产品特定属性的评论进行自动汇总,这方面的典型例子是 “Google 产品搜索 ” 。 通常,句子按照其主观性被划分为两个主要类别:客观句和主观句。客观句包含事实信息,主观句包含对特定对象的明确的观点、信念和看法。耶路撒冷希伯来大学教授 Ronen Feldman 的研究大多数以主观句为核心。 文档级情感分析 这是情感分析的最简单形式,其假定条件是文档中包含了文档撰写者针对一个主要对象表达的一个观点。这方面已经有大量论文问世。文档集情感分析有两种主要的方法:监督学习和非监督学习。 句子级情感分析 一篇文档可能包含多个观点,即使对于同一对象也是如此。如果我们希望对文档中表达的不同观点有更细致的观察,就必须提高句子级分析。 基于属性的( Aspect-based )情感分析 前两种方法在整个文档或单个句子指向单一对象时十分有效。不过很多时候,人们所谈论的对象有很多不同的方面(属性),对于这些不同的方面,人们各自有不同的观点。产品评论或特定产皮类别论坛中常常出现这种情况,如汽车、摄像机、手机等。 比较式情感分析 对于一件产品,人们往往不说出直接观点,而是说出比较观点,请看这些取自 Edmonds.com 用户论坛的例子: “300C Touring 汽车看上去比 Magnum 好多了 ” , “ 我开过本田思域,它的性能并不比 TSX 好,甚至不在同一个档次。 ” 在这种情况下,情感分析系统的目标是识别出包含比较观点的句子,然后提取每一种观点的倾向对象。 关于情感分析尚有许多研究领域有待完成,包括以下 6 个方面: 1 .需要面向综合情感建立更好的模型。在句子级上,这意味着对语气词( Sentiment-bearing Words )、情感转移因素( SentimentShifters )以及句子结构的整体情感进行更精确的计算。 2. 即使在同一份文档中或在标示明确的参考文档中,每一件产品都有好几个名称。 3. 在文档内容设计多个对象时,人情文本与每个对象的关系至关重要。目前,相关文本的识别正确度还远远谈不上让人满意。 4. 对于冷嘲热讽,尽管可以利用归类法加以识别,但这些方法尚未集成到自动情感分析系统中。 5. 对于大多数情感分析系统,噪声文本(打字错误、语法错误、缺失标点等)仍是一个大问题。 6. 许多管与对象的陈述实质上很客观,但仍然带有情感因素,这在新闻报道中很常见。目前的情感分析方法确定的是主观陈述的情感,却忽略了这一类客观陈述。需要找到一种算法,借助上下文将情感分值赋予客观描述 摘自《程序员》
个人分类: 推荐系统|5148 次阅读|0 个评论
一篇用LDA做的情感分析的文章
Austindglx 2013-1-12 20:06
一篇用LDA做的情感分析的文章.docx Holistic Sentiment Analysis Across Languages: Multilingual Supervised Latent Dirichlet Allocation 本文提出一个概率生成模型 M L SLDA ,借助其可以通过训练、收集某一种语言的数据来达到模型具有捕获其他语言特性的功能。 M L SLDA 完成上述功能主要通过融合文本的两个特性: ( 1 )如何将多语言概念聚成在主题层面上一致的话题; ( 2 ) how topics associated with text connect to an observed regression variable (such as ratings on a sentiment scale) 文中 concepts → general hierarchical framework , 可灵活的表达语义本体( semantic ontologies ),词典,聚类约束以及一种退化情形下的一般话题模型。 之前的情感分析只限于单语言的(一般为英语),然而事实上没有一种单语言可以涵盖大部分互联网上的内容,因此多语言模型是非常必要的。 为解决上述问题,最初是通过知识迁移—— resource-rich language → resource-less language ( Banea et al., 2008 ),或者是忽略将不同语言翻译成英语之后的差异性( Denecke, 2008 )。这些方法的缺点是:都仅限于以英语为中心的视角上,损失信息。 M L SLDA 模型通过对“话题”的学习为多语言情感提供了一个一致性视角。只需要对可用数据源进行很少的假设,不需要 parallel copora 和机器翻译。 1. Predictions from Multilingual Topics M L SLDA 输入:未标记的文档数据集。 M L SLDA 输出:一系列“话题”,每篇文档上标记的话题(都以概率的形式表示,话题 - 单词概率分布矩阵 以及 文档 - 话题 概率分布矩阵)。 1.1 捕获语义相关性 单语言模型中,话题通常服从一个狄利克雷分布。原因:( 1 )使得稀疏先验的指定比较容易( 2 )推理比较容易,因为狄利克雷分布是多项分布的共轭分布。 但是狄利克雷分布对于包含多语言的词汇来说是不可行的。 所建模型应该满足每种语言上的话题的一致性。狄利克雷分布不能将不同元素之间的相互关系包含进来。 一种解决办法:用多元正态分布!进而产生相关性多项分布。但是采用这种方法的模型不是在共轭条件下完成的推理过程。 本文: tree-based extensions of the Dirichlet distribution. Key idea :假设所有语言的词汇通过一个用树表达出来的共享语义结构组织起来。通过 WordNet ,当做语义传播的纽带。 WordNet 的语义结构是语言独立的,因为其不同的“近义词集合”可以通过其他的 语言以相同的结构表达出来。(比如:中文也可以表示 a “dog” is a “canine” is an “animal” is a “living thing,” )。这里我查了一下 WordNet 中的 hyponomy relationship 可以理解为上 / 下位关系,或者说是蕴含关系,也就是前面说的“ is a ”关系。 根据 WordNet 的结构,可以描述多语言词库上生成一个分布的过程,使其只关注不同单词之间的语义相关性,忽略单词属于哪门语言。对每个近义词集合 h ,创建一个多语言单词分布,如下: 为简洁,以上生成过程记做 ,即 multilingual Dirichlet hierarchy 。 每个被观察到的标记都可以看成是一个访问过的近义词集合λ的序列的最终结果。因为是个树,可以把每个被观察到(终止节点)之前访问过的节点看成是一条路径: ( 1 )对树的每个节点,这个路径终止于此节点的概率是 ,否则其继续以 的概率转移至其某个孩子近义词集合。 ( 2 )如果路径继续(就是没有终止,继续转移),则其会以 的概率访问子节点 j 。 ( 3 )如果路径终止于某近义词集合节点,则会以 的概率生成单词 k 。 综上,一条语言为 l ,访问过近义词集合 r 并结束于近义词集合 h 的路径产生出一个单词的概率可以记做: 本文模型 M L SLDA 是对 SLDA 的扩展(多语言上的全局一致性,通过使用 bridging 方法达到)。模型:( 1 )会生成多语言的文档,( 2 )为每篇文档进行一个实数打分。
7973 次阅读|0 个评论
《Identifying and Analyzing Judgment Opinions》论文笔记
热度 1 BlueGemini 2011-3-28 19:23
今天阅读了《Identifying and Analyzing Judgment Opinions》这篇论文,是关于情感分析中主观判断的识别和分析。这篇论文可以说是上一篇博文《Automatic detection of opinion bearing words and sentences》的延续,作者是同一个人Kim SM,来自韩国的一名女学者,目前在雅虎做情感分析。作者将情感分为两种:1、对于世界的信念:就是认为对错,可能不可能之类的。2、对于事物的判断,就是好、坏等。作者这篇论文主要研究的就是第二种,因为目前大家对于第一种是否是观点没有界定清楚,人工标注的结果很不一致,无法进行实验。选好目标之后,作者将主观判断的识别和分析分为四个任务:1、观点的识别 (主观句、主观表达式的识别)2、观点类型的识别(积极,中立,消极)3、观点持有人的识别 4、主题的识别。这里作者只对前三个任务进行了讨论。其实作者的这篇文章对前两个任务只是轻描淡写,运用的是《Automatic detection of opinion bearing words and sentences》里的方法,就是首先选取动词和形容词的种子词,进行人工标注,利用wordnet进行扩展,然后依据情感词判断情感句的强度,具体的方法可以看上一篇博文,这里就不在赘述。下面,我们主要讲一下观点持有人的识别,以及作者做的一些实验。 这篇论文中,作者采用了最大熵模型(ME)来解决完成这个任务。第一步,作者首先提取情感句中所有的候选观点持有人,作者采用的方法是根据词性标注将所有的名词短语包括常见的名词短语、名字实体(人或组织)和代词作为候选者,下一步的任务就是从候选短语中选取合适的。首先作者思考了观点持有者的识别方法的两种思路:定义为一个分类问题,分为两类“是观点持有人”和“不是观点持有人”或者是定义一个排序问题,对每一个候选短语进行概率估计,进行排序,取前几个。分类问题有个毛病就是如果所有候选短语都被归为“否定”一类的话,就没有候选者了,这样的答案往往不好。而且,根据作者和一些其他学者的实验表明,分类的效果很差。所以这里,作者决定采用最大熵模型对所有候选短语进行概率估计,算出概率值,然后排序。既然要用最大熵,那么就要进行特征选择,然后对训练集(采用的是MPQA训练集)进行标注。下面最重要的工作就是进行特征选择了。 判断一个短语是否是观点持有者,首先想到的方法,主要是看这个名词短语和评价词以及评价对象(就是主观表达式)之间的语法关系。这里作者就是采用了这种关系来作为特征。作者选用了候选短语和主观表达式之间的路径信息和节点之间的距离。听起来很抽象,其实这里作者是在句法分析树的基础进行的特征计算。首先作者利用Charniak parser对情感句进行了句法分析,然后定位到候选短语和主观表达式(关于主观表达式的识别,作者在她以前的论文中进行了阐述,这里也没有详细说明,如果同学们感兴趣可以看下Kim SM以前的论文)。接着就计算候选短语和主观表达式之间的特征。(1)路径信息:作者将所有候选短语组成部分的直接父节点标记为H,然后将主观表达式所有组成部分的直接父节点标记为E,包含H和E的直接父节点标记为HE。所谓的路径信息,其实就是H和E之间的节点类型序列。这里作者定义了三个和路径信息相关的特征:HPath、EPath和HEPath。HPath就是标记为H的节点到标记为HE的节点之间的路径,EPath就是标记为E的节点到标记为HE的节点之间的路径,而HEPath就是它到其子节点中包含了H节点或者E节点的孩子节点的路径。(2)距离:就是从H节点到E节点的路径的节点的个数。(3)短语类型:作者将候选短语分为NP,PERSON,ORGANIZATION和LOCATION。这里作者之所以采用句法分析树中的路径信息,原因是直接采用观点持有者和主观表达式之间的一些搭配作为特征肯定会导致数据稀疏的问题,所有作者利用结构信息来表示特征。运用上面五个特征,作者对训练集进行了标注,然后利用最大熵模型进行了概率值估计,排序取最大几个候选短语。 接下来,作者阐述了对德文邮件的情感分类实验,并没有用到观点持有者识别。所以这里也不赘述。最后作者对于观点持有者识别的方法进行了实验,在2822个句子上做个实验,首先将句子表示成三元组句子,主观表达式,持有者,然后进行10等份的交叉验证。实验分为两部分进行,一部分的候选短语中包含了代词,两一部分不包括。结果表明第一部分的效果较好,而且语法关系的加入明显提高了效果。即使如此,作者也表示观点持有者的识别是个很难的问题。 结论部分作者提出了两点改进的思路,首先在候选短语的选择上,作者提议采用语义特征去除一部分不可能的名词短语。其次,作者将文章开头的几个独立任务综合分析,同时进行,可能会带来更好的效果。 个人认为这篇文章不算是经典之作,而且作者的实验数据也显示效果并不是很好,观点持有者的识别率最好的才50.6%,如果取排名前三的观点持有者,也只达到76%。值得借鉴的是作者在特征选取上采用从句法分析树中得来的路径信息作为特征,以后如果有需要考虑语法关系时可以考虑这种特征表示。
个人分类: 情感分析|5066 次阅读|2 个评论
评论《竖起拇指?使用机器学习技术进行情感分析》
BlueGemini 2010-12-16 10:58
前几天看了号称是情感分析领域的开篇之作《Thumbs up?Sentiment Classification using Machine Learning Techniques》。看完后,感觉从学术角度考虑,这篇文章并没有太多的学术成就,大概只因为是开山之作吧,大家还是给予了很多的关注。下面就详细谈谈这篇文章的内容。 这篇文章主要通过实验的方法在电影评论集上做了分类实验,主要有三个步骤:特征选择、特征提取和分类。通过不同的组合进行实验,得出实验结果然后进行评定,分析总结。特征选择主要包括词频、词是否出现。特征提取主要是在词的选择上,这里主要实现了7种选择:最少出现4次的16165个一元组即单个词、最少出现4次的一元组和最少出现7次的二元组共32330个词、最少出现7次的二元组16165个词、最少出现4次的一元组和词性16695个词、情感形容词2633个、词频最高的2633个词和所有22430个一元组及其位置。分类方法主要采用了三种:NB(朴素贝叶斯)、ME(最大熵)和SVM(支持向量机)。 反正作者就是做实验,根据实验结果进行说话。最后的结论是以词的出现为特征要比以词频为特征要好,词频高可能说明这个词可能是关键词,但是并不能说明它对于情感色彩有什么影响,所以如果词频高的词作为特征可能会抵消一些情感词的效果。在特征提取上,虽然作者加入了一些词性和位置信息这些特征进去,但是实验结果表明分类效果并没有得到很大提高,反而有时会降低准确率,具体原因大概和前面相似,这个只是个人猜测,作者也没给出明确解释。在分类算法上,SVM明显要优于NB和ME,这和传统的文本分类是一致。虽然SVM的效果好,但是好像在建模的过程中花费的时间较多。最终的结论是,采用16165个一元组,特征是词是否出现,利用SVM进行分类,精确度最高,达到了82.9%。 本人按照论文中所述做了实验,采用了和作者相同的数据集,当然是作者提供的了,但是我用的版本比作者发论文时要大一些,总共有2000个分类好的训练集。我自己写程序进行了数据预处理,利用IK分词器进行分词,然后将两千个文本转化成了特征向量,其中采用词是否出现为特征值,提取了词频最高的2664个词作为特征。由于个人的入门级水平,这里采用了Weka进行分类实验,分别采用了决策树的C4.5算法、NB和SVM进行了分类实验。1400个作为训练集建立分类模型,700个作为测试集。最终结果依然是SVM胜出,C4.5的分类准确率只有可怜的62%,NB的准确率为83.3333%,SVM的准确率为82.3333%。虽然测试的结果NB比SVM要好,但是NB模型的预测准确率只有80.0714%,而SVM模型的预测准确率为82.0714%。总体来说SVM更好一些。 从实验结果来看效果很喜人,大家可能认为情感分类很简单。但是问题还是很多的,最大的就是中文的情感分类问题,分词依然是很头疼的问题,并不像英文那么简单;第二点就是跨领域的问题,在电影评论领域,很多词的作用相似,但是如果跨领域的分类例如对论坛评论的情感分析,则会碰到很多的问题。很多的研究工作需要去做,值得大家去努力。 论文
个人分类: 情感分析|8391 次阅读|0 个评论
计算机情感分析的价值
热度 1 limer 2010-2-16 17:21
情感分析是近几年来计算机科学领域的新兴热点,就本质上来说它还是一个文本挖掘研究。 目前,就我看到的情感分析往往是针对某一个特定的评价对象,利用社会性媒体上(BBS、论坛、博客、新闻、SNS)的文本信息进行积极、消极和中立性评价,并给出一个综合性的评价结果,常常以三者的比例出现。如果做的更细一点就是将评论人进行按地区、年龄、工作等人口属性进行分类,或者按照事物属性进行更详细更多维度的评价,这样的挖掘结果无疑符合营销管理的需求。 可问题是,这样的比例式结果到底有多大用处,是否有实用价值,我的疑问来自四个方面,或者说情感分析要走向实用还需过四关: 第一关: 情感分析通常是基于海量数据的,这似乎可以保障评价的客观性,问题是单个用户对某一特定事物的评价常常是依赖于不完全信息的,情报学的透视原理告诉我们海量数据比一定数量的抽样数据提供更多信息。事实上,我们对某一事物的评价完全可以通过少量关键信息获得,所以海量数据的采集是否有必要呢?如果你说海量数据采集成本不大,甚至完全可以忽略,好,这一关可以通过,对于不那么智能的计算机来说,数据多点总比数据少点更好,输出的结果更令人可信。 第二关: 情感分析的数据多来自社会性媒体,如BBS和论坛,这样的数据源内有很多噪音和虚假信息,很多利益相关人会开展社会性媒体营销,就是利用人工大规模发布虚假信息,也就是很多托,这些托们发表的评论数据显然会干扰最后的挖掘结果,并使其失去意义。这一关并不好过,在使用数据以前,你必须进行数据清洗,去除那些虚假信息,这并不容易。事实上,有些帖子的内容真假难辨,连大活人都经常被忽悠。如果你说,没问题,从整体上看虚假信息不会对最后的整体结果产生颠覆性影响,ok,你放弃了结果的精确性,这一关也可以过。 第3关: 情感分析的结果只有三面,这一形式过于简单,人类的情感何其复杂,仅仅利用消极、积极和中立三面难于概括人类的丰富而真实的情感,所以情感分析的结果对决策者到底有多大影响还很难说,这一方面的实证研究极其缺乏。也许你说,三种态度虽然简单,但基本上可以代表了人类的态度信息,好,你对此问题进行模糊处理,这一关也可以勉强通过。 第4关: 情感分析的结果多是静态的,而人类的态度是动态的,经常因为最新的消息和即时感受而发生改变,而这一改变不一定会进一步显示到互联网上,所以互联网挖掘的结果常常是跨时空的,这样的结果缺乏动态性所以其价值就大打折扣。也许你说可以区分意见发表时间,可问题是当初发表意见那波人不一定是现在发表意见那波人,从统计机制上看,结果仍存在瑕疵。 好了,这四关要全部通过并不容易,每一关都可能导致情感分析结果意义丧失。 当然,情感分析毕竟还处于幼儿阶段,它还有很大的改进空间,以上四个问题并非完全不可克服,嵌入语义、加入时间维度、识别并去除噪音都是可以努力和完善的地方。
个人分类: 生活点滴|7649 次阅读|1 个评论
利用网络评价公司好坏
timy 2010-1-24 21:27
我一个朋友李斌(科学网一博主 gothere )在念博士的时候,曾经做过一个研究,就是情感分析,利用情感词典,结合搜索引擎来对某一事物进行倾向性评价,比如关于DELL的评价,结合好、很好,差,槽糕,... 等情感词,根据网络上的资源,利用共现统计方式,得到关于DELL的好坏评价,结果得到DELL总体评价是正的,即正面评价,但如果粒度弄的细点,会得到DELL电池的评价是负的,即是负面的评价。 目前这个方面的研究在国内已经非常火了,NSFC近年来也资助了较多的相关研究项目。 今天遇到一件事,让我不得不用这个方法来评估下一个公司。事情是这样的:上午我要找个快递公司,从北京寄一些东西到南京,于是我根据我以前知道的公司名单(东西太重,所以没有选择EMS),选了宅急送(zjs)。10点半打电话给zjs,说两个小时之内上门取货。等到12点半,没人来,只好去和几个朋友去吃饭。吃饭的时候再打给zjs,说马上再催下。吃完午饭,没人来,再打过去,说再催下。整个下午又打了4次电话,他们一直说再催催。到了6点了,我终于怒了,打投诉电话(我已经确认这个电话是没有错误的),结果接电话的人说我打错了,打了两遍,都说打错了,真是杯具啊,那只能说明他们给的投诉电话是假的。晚上吃完晚饭,打了最后一个电话给zjs,结果他们说今天无法取货了,我当时也没啥反应,感觉就是,你的对手如果是个痞子,你难道还有和他斗的欲望吗? 既然你们做不了,你们zjs还承诺两个小时能取货干什么呢?就是送不了,你们为什么还不主动打电话给客户呢? 回到前面的情感分析话题,我这下将李斌博士的研究真的立地了(投入实际应用),结果如下: 上Google,弄了几个查询式进行检索,结果如下: 查询式为宅急送 垃圾时,返回 169,000 条结果 (a) 查询式为联邦快递 垃圾时,返回 29,700 条结果 (b) 查询式为DHL 垃圾时,返回 56,400 条结果 (c) 由于abc, 所以我以后选择联邦快递来邮寄东西。 有图有真相:
个人分类: 研究方法|4668 次阅读|5 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-16 18:44

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部