不同国家、地区或民族的网络用户,在购物行为上本来就存在差异。研究不同人群之间的购物行为差异,对产品设计、市场营销等都具有重要的参考价值。以往的关于不同人群购物行为的研究多以人工问卷调研(我们称之为传统问卷调研)为基础,调研成本高、周期长。当前电商网站上存在大量的购物评论,这些评论为研究网民的购物行为提供了充分的数据基础。为此,我们以亚马逊国际站 (amazon.com,主要为美国用户)与中国站(amazon.cn)上的购物评论为数据源,具体地以数码相机、智能手机以及平板电脑等三种IT产品的中英文评论为基础,提出基于问题答案自动生成与评论挖掘相结合的自动问卷调研方法,并给出关于中外用户购物行为差异的问卷调研结果。 机器自动问卷调研的结果表明:在数码相机、智能手机以及平板电脑等三个领域,中美用户购物时有较大差别,如:中国用户对产品表达看法时没有美国用户直接;美国用户更加关注产品的细节;中国用户对产品的外部特征(如外观、颜色等)关注度高、而美国用户对产品内部性能更加关心。 与传统问卷调研的方式相比,通过自动问卷调研方式研究用户购物行为,具有成本低、周期短的优点。进一步地通过海量的评论数据,研究不同国家、地区或民族的行为差异,可能是一个有趣的研究方向。当然,目前的自动问卷调研结果的质量还没有完全达到人工问卷一样的质量。我们现在还仅仅利用了最简单的基于模板的问题生成模型,今后我们拟采用QA中更好的问题与答案生成技术,来进一步提高自动问卷的质量。随着自动问卷调研、产品挖掘、情感分析等关键技术的不断发展和优化,我们相信,基于自动问卷调研技术的用户研究将是一个比较有前途的研究方向。 我们的具体工作可以参见如下论文: Qingqing Zhou, Rui Xia, Chengzhi Zhang*. Online shopping behavior study based on multi-granularity opinion mining: China vs. America . Cognitive Computation . 2016. http://dx.doi.org/10.1007/s12559-016-9384-x.
原文出处 :http://mp.weixin.qq.com/s?__biz=MjM5MTQ4NzgwNA==mid=201574084idx=1sn=fdab56c79b3066390758ef8c12857152utm_source=tuicool 情感分析(Sentiment Analysis) 1)What is Sentiment Analysis? 情感分析(Sentiment analysis),又称倾向性分析,意见抽取(Opinion extraction),意见挖掘(Opinion mining),情感挖掘(Sentiment mining),主观分析(Subjectivity analysis),它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程,如从评论文本中分析用户对“数码相机”的“变焦、价格、大小、重量、闪光、易用性”等属性的情感倾向。 更多例子如下: l 从电影评论中识别用户对电影的褒贬评价: l Google Product Search识别用户对产品各种属性的评价,并从评论中选择代表性评论展示给用户: l Bing Shopping识别用户对产品各种属性的评价: l Twitter sentiment versus Gallup Poll of Consumer Confidence :挖掘Twitter(中文:微博)中的用户情感发现,其与传统的调查、投票等方法结果有高度的一致性(以消费者信心和政治选举为例,corelation达80%),详细见论文:Brendan O'Connor, Ramnath Balasubramanyan, Bryan R. Routledge, and Noah A. Smith. 2010. From Tweets to Polls: Linking Text Sentiment to Public Opinion Time Series. In ICWSM-2010。(注:下图中2008年到2009年初,网民情绪低谷是金融危机导致,从2009年5月份开始慢慢恢复) l Twitter sentiment: 通过Twitter用户情感预测股票走势,2012年5月,世界首家基于社交媒体的对冲基金 Derwent Capital Markets 在屡次跳票后终于上线。它会即时关注Twitter 中的公众情绪指导投资。正如基金创始人保罗•郝汀(Paul Hawtin)表示:“长期以来,投资者已经广泛地认可金融市场由恐惧和贪婪驱使,但我们从未拥有一种技术或数据来量化人们的情感。”一直为金融市场非理性举动所困惑的投资者,终于有了一扇可以了解心灵世界的窗户——那便是 Twitter 每天浩如烟海的推文,在一份八月份的报道中显示,利用 Twitter 的对冲基金 Derwent Capital Markets 在首月的交易中已经盈利,它以1.85%的收益率,让平均数只有0.76%的其他对冲基金相形见绌。类似的工作还有预测电影票房、选举结果等,均是将公众情绪与社会事件对比,发现一致性,并用于预测,如将“冷静CLAM”情绪指数后移3天后和道琼斯工业平均指数DIJA惊人一致。详细见论文: Johan Bollen, Huina Mao, Xiaojun Zeng. 2011. Twitter mood predicts the stock market, Journal of Computational Science 2:1, 1-8.(注:DIJA,全称Dow Jones Industrial Average) l Target Sentiment on Twitter(Twitter Sentiment App): 对Twitter中包含给定query的tweets进行情感分类。对于公司了解用户对公司、产品的喜好,用于指导改善产品和服务,公司还可以据此发现竞争对手的优劣势,用户也可以根据网友甚至亲友评价决定是否购买特定产品。详细见论文:Alec Go, Richa Bhayani, Lei Huang. 2009. Twitter Sentiment Classification using Distant Supervision. 情感分析的意义何在?下面以实际应用为例进行直观的阐述: • Movie : is this review positive or negative? • Products : what do people think about the new iPhone? • Public sentiment : how is consumer confidence? Is despair increasing? • Politics : what do people think about this candidate or issue? • Prediction : predict election outcomes or market trends from sentiment 情感分析主要目的就是识别用户对事物或人的看法、态度(attitudes:enduring, affectively colored beliefs, dispositions towards objects or persons),参与主体主要包括: Holder (source) of attitude:观点持有者 Target (aspect) of attitude:评价对象 Type of attitude:评价观点 From a set of types: Like, love, hate, value, desire, etc. Or (more commonly) simple weighted polarity : positive, negative, neutral, together with strength Text containing the attitude:评价文本,一般是句子或整篇文档 更细更深入的还包括评价属性,情感词/极性词,评价搭配等、 通常,我们面临的情感分析任务包括如下几类: Simplest task: Is the attitude of this text positive or negative? More complex: Rank the attitude of this text from 1 to 5 Advanced: Detect the target, source, or complex attitude types 后续章节将以Simplest task为例进行介绍。 2)A Baseline Algorithm 本小节对影评进行情感分析为例,向大家展示一个简单、实用的情感分析系统。详细见论文: Bo Pang, Lillian Lee, and Shivakumar Vaithyanathan. 2002. Thumbs up? Sentiment Classification using Machine Learning Techniques. EMNLP-2002, 79—86. Bo Pang and Lillian Lee. 2004. A Sentimental Education: Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts. ACL, 271-278 我们面临的任务是 “ Polarity detection: Is an IMDB movie review positive or negative?”,数据集为“ Polrity Data 2.0: http://www.cs.cornell.edu/people/pabo/movie-review-data”.作者将情感分析当作分类任务,拆分成如下子任务: Tokenization: 正文提取,过滤时间、电话号码等,保留大写字母开头的字符串,保留表情符号,切词; Feature Extraction: 直观上,我们会认为形容词直接决定文本的情感,而Pang和Lee的实验表明,采用所有词(unigram)作为特征,可以达到更好的情感分类效果。 其中,需要对否定句进行特别的处理,如句子”I didn’t like this movie”vs “I really like this movie”,unigram只差一个词,但是有着截然不同的含义。为了有效处理这种情况,Das and Chen (2001)提出了“Add NOT_ to every word between negation and following punctuation”,根据此规则可以将句子“didn’t like this movie , but I”转换为“didn’t NOT_like NOT_this NOT_movie, but I”。 另外,在抽取特征时,直观的感觉“Word occurrence may matter more than word frequency”,这是因为最相关的情感词在一些文本片段中仅仅出现一次,词频模型起得作用有限,甚至是负作用,则使用多重伯努利模型事件空间代替多项式事件空间,实验也的确证明了这一点。所以,论文最终选择二值特征,即词的出现与否,代替传统的频率特征。log(freq( w ))也是一种值得尝试的降低频率干扰的方法。 Classification using different classifiers: 如Naïve Bayes 、 MaxEnt 、 SVM,以朴素贝叶斯分类器为例,训练过程如下: 预测过程如下: 实验表明,MaxEnt和SVM相比Naïve Bayes可以得到更好的效果。 最后,通过case review可以总结下,影评情感分类的难点是什么? 语言表达的含蓄微妙:“If you are reading this because it is your darling fragrance, please wear it at home exclusively, and tape the windows shut.”,“ She runs the gamut of emotions from A to B”。 挫败感表达方式:先描述开始的期待(不吝赞美之词),后表达最后失望感受,如“This film should be brilliant . It sounds like a great plot , the actors are first grade , and the supporting cast is good as well, and Stallone is attempting to deliver a good performance . However, it can’t hold up .”,“Well as usual Keanu Reeves is nothing special, but surprisingly, the very talented Laurence Fishbourne is not so good either, I was surprised.”。 3)Sentiment Lexicons 情感分析模型非常依赖于情感词典抽取特征或规则,以下罗列了较为流行且成熟的开放情感词典资源: GI(The General Inquirer):该词典给出了每个词条非常全面的信息,如词性,反义词,褒贬,等,组织结构如下: 详细见论文:Philip J. Stone, Dexter C Dunphy, Marshall S. Smith, Daniel M. Ogilvie. 1966.The General Inquirer: A Computer Approach to Content Analysis. MIT Press LIWC (Linguistic Inquiry and Word Count):该词典通过大量正则表达式描述不同类别的情感词规律,其类别体系与GI(The General Inquirer)基本一致,组织结构如下: 详细见论文:Pennebaker, J.W., Booth, R.J., Francis, M.E. (2007). Linguistic Inquiry and Word Count: LIWC 2007. Austin, TX MPQA Subjectivity Cues Lexicon:其中包含Positive words: 2718,Negative words: 4912,组织结构如下图所示: 详细见论文:Theresa Wilson, Janyce Wiebe, and Paul Hoffmann (2005). Recognizing Contextual Polarity in Phrase-Level Sentiment Analysis. Proc. of HLT-EMNLP-2005. Riloff and Wiebe (2003). Learning extraction patterns for subjective expressions. EMNLP-2003. Bing Liu Opinion Lexicon:其中包含Positive words: 2006,Negative words: 4783,需要特别说明的是,词典不但包含正常的用词,还包含了拼写错误、语法变形,俚语以及社交媒体标记等,详细见论文:Minqing Hu and Bing Liu. Mining and Summarizing Customer Reviews. ACM SIGKDD-2004. SentiWordNet:其通过对WordNet中的词条进行情感分类,并标注出每个词条属于positive和negative类别的权重大小,组织结构如下: 详细见论文:Stefano Baccianella, Andrea Esuli, and Fabrizio Sebastiani. 2010SENTIWORDNET 3.0: An Enhanced Lexical Resource for Sentiment Analysis and Opinion Mining. LREC-2010 以上给出了一系列可用的情感词典资源,但是,如何选择一个合适的为我所用呢?这里,通过对比同一词条在不同词典之间的分类,衡量词典资源的不一致程度,如下: 对于在不同词典中表现不一致的词条,我们至少可以做两件事情。第一,review这些词条,通过少量人工加以纠正;第二,可以得到一些存在褒贬歧义的词条。 给定一个词,如何确定其以多大概率出现在某种情感类别文本中呢?以IMDB下不同打分下影评为例,最简单的方法就是计算每个分数(星的个数)对应的文本中词条出现的频率,如下图所示为Count(“bad”)分布情况: 使用更多的是likelihood公式: 为了使得不同词条在不同类别下的概率可比,通常使用Scaled likelihood公式代替,如下: 如下图所示,列出了部分词条在不同类别下的Scaled likelihood,据此可以判断每个词条的倾向性。 另外,我们通常会有这么一个疑问:否定词(如 not, n’t, no, never )是否更容易出现在negative情感文本中?Potts, Christopher(2011)等通过实验给出了答案:More negation in negative sentiment,如下图所示: 4)Learning Sentiment Lexicons 我们在庆幸和赞扬众多公开情感词典为我所用的同时,我们不免还想了解构建情感词典的方法,正所谓知其然知其所以然。一方面在面临新的情感分析问题,解决新的情感分析任务时,难免会需要结合实际需求构建或完善情感词典,另一方面,可以将成熟的词典构建方法应用于其他领域,知识无边界,许多方法都是相通的。 常见的情感词典构建方法是基于半指导的bootstrapping学习方法,主要包括两步: Use a small amount of information(Seed) A few labeled examples A few hand-built patterns To bootstrap a lexicon 接下来,通过相关的几篇论文,详细阐述下构建情感词典的方法。具体如下: 1. Hatzivassiloglou McKeown: 论文见Vasileios Hatzivassiloglou and Kathleen R. McKeown. 1997. Predicting the Semantic Orientation of Adjectives. ACL, 174–181,基于这样的一种语言现象:“Adjectives conjoined by ‘ and ’ ’ have same polarity;Adjectives conjoined by ‘ but ‘ do not”,如下示例: Fair and legitimate, corrupt and brutal *fair and brutal, *corrupt and legitimate fair but brutal Hatzivassiloglou McKeown(1997)提出了基于bootstrapping的学习方法,主要包括四步: Step 1 :Label seed set of 1336 adjectives (all 20 in 21 million word WSJ corpus) 初始种子集包括657个 positive words(如adequate central clever famous intelligent remarkable reputed sensitive slender thriving…)和679个 negative words(如contagious drunken ignorant lanky listless primitive strident troublesome unresolved unsuspecting…) Step 2 :Expand seed set to conjoined adjectives,如下图所示: Step 3 :Supervised classifier assigns “polarity similarity” to each word pair, resulting in graph,如下图所示: Step 4 :Clustering for partitioning the graph into two 最终,输出新的情感词典,如下(加粗词条为自动挖掘出的词条): Positive: bold decisive disturbing generous good honest important large mature patient peaceful positive proud sound stimulating straightforward strange talented vigorous witty… Negative: ambiguous cautious cynical evasive harmful hypocritical inefficient insecure irrational irresponsible minor outspoken pleasant reckless risky selfish tedious unsupported vulnerable wasteful… 2. Turney Algorithm: 论文见Turney (2002): Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews,具体步骤如下: Step 1 :Extract a phrasal lexicon from reviews,通过规则抽取的phrasal如下图所示: Step 2 :Learn polarity of each phrase,那么,如何评价phrase的polarity呢?直观上,有这样的结论:“Positive phrases co-occur more with ‘excellent’ ,Negative phrases co-occur more with ’poor’ ”,这时,将问题转换成如何衡量词条之间的共现关系?于是,学者们引入了点互信息( Pointwise mutual information ,PMI),它经常被用于度量两个具体事件的相关程度,公式为: 两个词条的PMI公式为: 常用的计算PMI(word1, word2)方法是分别以”word1”,”word2”和”word1 NEAR word2”为query,根据搜索引擎检索结果,得到P(word)和P(word1, word2),如下: P(word) = hits(word)/N P(word 1 ,word 2 ) = hits(word1 NEAR word2)/N 2 则有: 那么,计算一个phrase的polarity公式为(excellent和poor也可以使用其它已知极性词代替): Turney Algorithm在410 reviews(from Epinions)的数据集上,其中170 (41%) negative,240 (59%) positive,取得了74%的准确率(baseline为59%,均标注为positive)。 Step 3 :Rate a review by the average polarity of its phrases 3. Using WordNet to learn polarity: 论文见S.M. Kim and E. Hovy. 2004.Determining the sentiment of opinions. COLING 2004,M. Hu and B. Liu. Mining and summarizing customer reviews. In Proceedings of KDD, 2004.该方法步骤如下: Create positive (“good”) and negative seed-words (“terrible”) Find Synonyms and Antonyms Positive Set: Add synonyms of positive words (“well”) and antonyms of negative words Negative Set: Add synonyms of negative words (“awful”) and antonyms of positive words (”evil”) Repeat, following chains of synonyms Filter 以上几个方法都有较好的领域适应性和鲁棒性,基本思想可以概括为“ Use seeds and semi-supervised learning to induce lexicons ”,即: Start with a seed set of words (‘good’, ‘poor’) Find other words that have similar polarity: Using “and” and “but” Using words that occur nearby in the same document Using WordNet synonyms and antonyms Use seeds and semi-supervised learning to induce lexicons 5)Other Sentiment Tasks 上面介绍了文档级或句子级情感分析,但是,实际中,一篇文档(评论)中往往会提及不同的方面/属性/对象(以下统称属性),且可能对不同的属性持有不同的倾向性,如“The food was great but the service was awful ”。一般通过Frequent phrases + rules的方法抽取评价属性,如下: Find all highly frequent phrases across reviews (“fish tacos”) Filter by rules like “occurs right after sentiment word”:“… great fish tacos” means fish tacos a likely aspect 通常,我们还会面临一种问题:评价属性缺失,准确的讲,评价属性不在句子中。这是很常见的现象,此时就需要结合上下文环境,如来自某电影的评论缺失的评价属性基本上就是电影名或演员,可以基于已知评价属性的句子训练分类器,然后对评价属性缺失的句子进行属性预测。 Blair-Goldensohn et al.提出了一套通用的aspect-based summarization models,如下图所示: 详细见论文:S. Blair-Goldensohn, K. Hannan, R. McDonald, T. Neylon, G. Reis, and J. Reynar. 2008. Building a Sentiment Summarizer for Local Service Reviews. WWW Workshop 另外,其他的一些情感分析的相关任务有: Emotion: 个人情绪 Detecting annoyed callers to dialogue system Detecting confused/frustrated versus confident students Mood : 个人情绪 Finding traumatized or depressed writers Interpersonal stances : 人际关系中的谈话方式 Detection of flirtation or friendliness in conversations Personality traits : 性格 Detection of extroverts
前一段时间看了傅佩荣的《哲学与生活》这本书,里面讲了一个小故事。 海外很多国家都有唐人街。有一个外国人到唐人街去,走着看到一个中国年轻人随地吐了口痰,便说了一句“Chinese is Chinese”。然后他继续往前走,又看到一个中国年轻人扶着一个老人过马路,就又说了一句“Chinese is Chinese”。 下面我们来思考一下这里面的情感分析问题。先简要介绍一下文本情感分析的定义和研究层次。 所谓文本情感分析,就是对说话人的态度(或称观点、情感)进行分析,也就是对文本中的主观性信息进行分析。文本情感分析一般有四个研究层次:词语情感倾向性分析、句子情感倾向性分析、篇章情感倾向性研究和海量信息的整体倾向性预测。 情感分析是一件困难的工作,这从这个小故事可以看出端倪。首先“Chinese”和“is”这些词语从统计或认知上讲是中性词,所以从词语情感分析的角度来看,“Chinese is Chinese”是中性的,不带正向或负向的情感。但这个小故事前半段讲的是这个外国人对随地吐痰的看法,这时候说出的 “Chinese is Chinese ”就表达了负向的情感。而后半段显然是对中国尊老文化的认可,所以 “Chinese is Chinese ” 表达了正向的情感。 如果单纯根据词的情感属性来判断 “Chinese is Chinese ”这个句子的情感倾向,很可能得出中性的结论。而如果考虑到句子的情景来说,则其既可以是正向的,也可以是负向的情感。如果把这个小故事看作一个篇章,则从整体上很难说这个篇章是哪种情感了。
情感分析,我研究了也有半年有余了,ACL Anthology上关于情感分析的论文也基本看过了一遍,但是到目前还没有什么成就的。以下是我为一位同学毕业设计写的情感分析方面的综述,引用的论文基本上是ACL和COLING还有EMNLP上历年关于情感分析的论文,本文应该学术性比较强一点,本文虽不打算发表,但由于将来可能还有用,以及关于学术上的原因,请大家如果要引用请务必标明出处( http://blog.sina.com.cn/s/blog_48f3f8b10100irhl.html )。 概述 情感分析自从2002年由Bo Pang提出之后,获得了很大程度的研究的,特别是在在线评论的情感倾向性分析上获得了很大的发展,目前基于在线评论文本的情感倾向性分析的准确率最高能达到90%以上,但是由于深层情感分析必然涉及到语义的分析,以及文本中情感转移现象的经常出现,所以基于深层语义的情感分析以及篇章级的情感分析进展一直不是很大。情感分析还存在的一个问题是尚未存在一个标准的情感测试语料库,虽然Bo Pang实验用的电影评论数据集(http://www.cs.cornell.edu/people/pabo/movie-review-data/)以及Theresa Wilson等建立的MPQA(http://www.cs.pitt.edu/mpqa/)是目前广泛使用的两类情感分析数据集,但是并没有公认的标准加以确认。 目前情感分析的研究基本借鉴文本分类等机器学习的方法,还没有根据自身的特点形成一套独立的研究方法,当然在某种程度上也可以把情感分析看出一种特殊的文本分类。比较成熟的方法是基于监督学习的机器学习方法,半监督学习和无监督学习目前的研究不是很多,单纯的基于规则的情感分析这两年已很少研究了。既然目前很多情感分析的研究基于机器学习,那么特征选择就是一个很重要的问题,N元语法等句法特征是使用最多的一类特征,而语义特征(语义计算)和结构特征(树核函数)从文本分类的角度看效果远没有句法特征效果好,所以目前的研究不是很多的。 由于基于监督学习情感分析的研究已经很成熟了,而且在真实世界中由于测试集的数量要远远多于训练集的数量,并且测试集的领域也不像在监督学习中被限制为和训练集一致,也就是说目前情感分析所应用的归纳偏置假设在真实世界中显得太强的,为了和真实世界相一致,基于半监督学习或弱指导学习的情感分析和跨领域的情感分析势必是将来的研究趋势之一。 在情感分析的最初阶段基于语义和基于规则的情感分析曾获得了比较大的重视,但是由于本身实现的复杂性以及文本分类和机器学习方法在情感分析应用上获得的成功,目前关于这方面的研究以及很少了,但是事实上,语义的相关性和上下文的相关性正是情感分析和文本分类最大的不同之处,所以将基于语义和规则的情感分析与基于机器学习的情感分析相结合也将是未来的研究趋势之一。 以下将分别对情感分析的起源,目前基于监督学习,无监督学习,基于规则和跨领域的情感分析的一些研究工作进行简单的介绍。 起源 虽然之前也有一些相关工作,但目前公认的情感分析比较系统的研究工作开始于(Pang et al., 2002)基于监督学习(supervised learning)方法对电影评论文本进行情感倾向性分类和(Turney,2002)基于无监督学习(unsupervised learning)对文本情感情感倾向性分类的研究。(Pang et al., 2002)基于文本的N元语法(ngram)和词类(POS)等特征分别使用朴素贝叶斯(Naive Bayes),最大熵(Maximum Entropy)和支持向量机(Support Vector Machine,SVM)将文本情感倾向性分为正向和负向两类,将文本的情感进行二元划分的做法也一直沿用至今。同时他们在实验中使用电影评论数据集目前已成为广泛使用的情感分析的测试集。(Turney ,2002)基于点互信息(Pointwise Mutual Information,PMI)计算文本中抽取的关键词和种子词(excellent,poor)的相似度来对文本的情感倾向性进行判别(SO-PMI算法)。 在此之后的大部分都是基于(Pang et al., 2002)的研究。而相对来说,(Turney et al.,2002)提出的无监督学习的方法虽然在实现上更加简单,但是由于单词之间的情感相似度难以准确的计算和种子词的难以确定,继续在无监督学习方向的研究并不是很多的,但是利用SO-PMI算法计算文本情感倾向性的思想却被很多研究者所继承了。 监督学习 目前,基于监督学习的情感分析仍然是主流,除了(Li et al.,2009)基于非负矩阵三分解(Non-negative Matrix Tri-factorization),(Abbasi et al.,2008)基于遗传算法(Genetic Algorithm)的情感分析之外,使用的最多的监督学习算法是朴素贝叶斯,k最近邻(k-Nearest Neighbor, k -NN),最大熵和支持向量机的。而对于算法的改进主要在对文本的预处理阶段。 一个和文本分类不同地方就是情感分析有时需要提取文本的真正表达情感的句子。(Pang et al., 2004)基于文本中的主观句的选择和(Wilson el al.,2009)基于文本中的中性实例(neutral instances)的分析,都是为了能够尽量获得文本中真正表达情感的句子。(Abbasi et al.,2008)提出通过信息增益(Information Gain,IG)的方法来选择大量特征集中对于情感分析有益的特征。 而对于特征选择,除了N元语法和词类特征之外,(Wilson el al.,2009)提出混合单词特征,否定词特征,情感修饰特征,情感转移特征等各类句法特征的情感分析,(Abbasi et al.,2008)提出混合句子的句法(N元语法,词类,标点)和结构特征(单词的长度,词类中单词的个数,文本的结构特征等)的情感分析。 除了对于文本的预处理,对于监督学习中情感分析还进行了以下方面的研究的。(Melville et al., 2009)和(Li et al.,2009)提出结合情感词的先验的基于词典的情感倾向性和训练文本中后验的基于上下文的情感情感倾向性共同判断文本的情感倾向性。(Taboada et al.,2009)提出结合文本的题材(描述,评论,背景,解释等)和文本本身的特征共同判断文本的情感倾向性。(Tsutsumi et al.,2007)提出利用多分类器融合技术来对文本情感分类。(Wan, 2008)和(Wan, 2009)提出结合英文中丰富的情感分析资源来提高中文情感分析的效果。 基于规则 / 无监督学习 和基于监督学习的情感分析相比,基于规则和无监督学习方面的研究不是很多。除了(Turney,2002)之外,(朱嫣岚 et al.,2002)利用HowNet对中文词语语义的进行了情感倾向计算。(娄德成 et al.,2006)利用句法结构和依存关系对中文句子语义进行了情感分析,(Hiroshi et al.,2004)通过改造一个基于规则的机器翻译器实现日文短语级情感分析,(Zagibalov et al.,2008)在(Turney,2002)的SO-PMI算法的基础上通过对于中文文本特征的深入分析以及引入迭代机制从而在很大程度上提高了无监督学习情感分析的准确率。 跨领域情感分析 跨领域情感分析在情感分析中是一个新兴的领域,目前在这方面的研究不是很多,主要原因是目前的研究还没有很好的解决如何寻找两个领域之间的一种映射关系,或者说如何寻找两个领域之间特征权值之间的平衡关系。对于跨领域情感分析的研究开始于(Blitzer et al.,2007)将结构对应学习(Structural Correspondence Learning,SCL)引入跨领域情感分析,SCL是一种应用范围很广的跨领域文本分析算法,SCL的目的是将训练集上的特征尽量对应到测试集中。(Tan et al.,2009)将SCL引入了中文跨领域情感分析中。(Tan 2 et al.,2009)提出将朴素贝叶斯和EM算法的一种半监督学习方法应用到了跨领域的情感分析中。(Wu et al.,2009)将基于EM的思想将图排序(Graph Ranking)算法应用到跨领域的情感分析中,图排序算法可以认为是一种迭代的 k -NN算法。 从目前的研究可以看出,跨领域的情感分析主要问题在于寻找两个领域之间的一种映射关系,但是这样的映射关系或者很难寻找,或者需要相当强的数学证明。所以很多研究借用半监督学习的方法,通过逐次迭代逐渐减少训练集和测试集之间的差异。 参考文献: Xiaojun Wan.Using Bilingual Knowledge and Ensemble Techniques for Unsupervised Chinese Sentiment Analysis.Proceedings of EMNLP-08,553-561 Xiaoun Wan.Co-Training for Cross-Lingual Sentiment Classification.Proceedings of ACL-09,234-243 Theresa Wilson,Janyce Wiebe,Paul Hoffmann. Recognizing Contextual Polarity: An Exploration of Features for Phrase-Level. Computer Linguistics,25(3),399-433 Ahmed Abbasi,Hsinchun Chen,Arab,Salem.Sentiment Analysis in Multiple Languages:Feature Selection for Opinion Classification in Web Forums.ACM Transaction on Information Systems,26(3),12:1-12:34 Prem Melville,Wojciech Gryc,Richard D.Larence.Sentiment Analysis Of Blogs by Combining Lexical Knowledge with Text Classification.Proceedings of KDD-09,1275-1283 KANAYAMA Hiroshi,NASUKAWA Tetsuya,WATANBE Hideo.Deep Sentiment Analysis Using Machine Translation Technology.Proceedings of Coling -04 Maite Taboada,Julian Brooke,Manfred Stede.Genre-Based Paragraph Classification for Sentiment Analysis.Proceedings of SIGDIAL-09,62-70 Taras Zagibalov,John Carroll.Automatic Seed Word Selection for Unsupervised Sentiment Classification of Chinese Text.Proceedings of Coling-08,1073-1080 Bo Pang,Lillian Lee.A Sentimental Education:Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts.Proceedings of ACL-04 Bo Pang,Lillian Lee,Shivakumar Vaithyanathan.Thumbs up?Sentiment Classification using Machine Learning Techniques.Proceedings of EMNLP-02,79-86 Peter D. Turney.Thumbs Up or Thumbs Down?Senmantic Orientition Applied to Unsupervised Classification of Reviews.Proceedings of ACL-02,417-424 Kimitaka Tsutsumi, Kazutaka Shimada,Tsutomu Endo. Movie Review Classification Based on a Multiple Classifier. Proceedings of the 21st Pacific Asia Conference on Language, Information and Computation (PACLIC21), 481-488 John Blitzer,Mark Dredze, Fernando Pereira. Biographies, Bollywood, Boom-boxes and Blenders:Domain Adaptation for Sentiment Classification. Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, 440–447 Songbo Tan,Xueqi Cheng. Improving SCL Model for Sentiment-Transfer Learning. Proceedings of NAACL HLT 2009: Short Papers, 181–184 Songbo Tan, Xueqi Cheng, Yuefen Wang, Hongbo Xu. Adapting Naive Bayes to Domain Adaptation for Sentiment Analysis. ECIR 2009,337–349 Qiong Wu,Songbo Tan,Xueqi Cheng. Graph Ranking for Sentiment Transfer. Proceedings of the ACL-IJCNLP 2009 Conference Short Papers, 317–320 Tao Li Ti Zhang,Vikas Sindhwani.A Non-negative Matrix Tri-factorization Approach to Sentiment Classification with Lexical Prior Knowledge.Proceeding of ACL-09,244-252 娄德成,姚天妨.汉语与子语义极性分析和观点抽取方法的研究.计算机应用,2006,26(11),2622-2625 朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德. 基于HowNet的词汇语义倾向计算. 中文信息学 报,2006,20(1),14-20
一篇用LDA做的情感分析的文章.docx Holistic Sentiment Analysis Across Languages: Multilingual Supervised Latent Dirichlet Allocation 本文提出一个概率生成模型 M L SLDA ,借助其可以通过训练、收集某一种语言的数据来达到模型具有捕获其他语言特性的功能。 M L SLDA 完成上述功能主要通过融合文本的两个特性: ( 1 )如何将多语言概念聚成在主题层面上一致的话题; ( 2 ) how topics associated with text connect to an observed regression variable (such as ratings on a sentiment scale) 文中 concepts → general hierarchical framework , 可灵活的表达语义本体( semantic ontologies ),词典,聚类约束以及一种退化情形下的一般话题模型。 之前的情感分析只限于单语言的(一般为英语),然而事实上没有一种单语言可以涵盖大部分互联网上的内容,因此多语言模型是非常必要的。 为解决上述问题,最初是通过知识迁移—— resource-rich language → resource-less language ( Banea et al., 2008 ),或者是忽略将不同语言翻译成英语之后的差异性( Denecke, 2008 )。这些方法的缺点是:都仅限于以英语为中心的视角上,损失信息。 M L SLDA 模型通过对“话题”的学习为多语言情感提供了一个一致性视角。只需要对可用数据源进行很少的假设,不需要 parallel copora 和机器翻译。 1. Predictions from Multilingual Topics M L SLDA 输入:未标记的文档数据集。 M L SLDA 输出:一系列“话题”,每篇文档上标记的话题(都以概率的形式表示,话题 - 单词概率分布矩阵 以及 文档 - 话题 概率分布矩阵)。 1.1 捕获语义相关性 单语言模型中,话题通常服从一个狄利克雷分布。原因:( 1 )使得稀疏先验的指定比较容易( 2 )推理比较容易,因为狄利克雷分布是多项分布的共轭分布。 但是狄利克雷分布对于包含多语言的词汇来说是不可行的。 所建模型应该满足每种语言上的话题的一致性。狄利克雷分布不能将不同元素之间的相互关系包含进来。 一种解决办法:用多元正态分布!进而产生相关性多项分布。但是采用这种方法的模型不是在共轭条件下完成的推理过程。 本文: tree-based extensions of the Dirichlet distribution. Key idea :假设所有语言的词汇通过一个用树表达出来的共享语义结构组织起来。通过 WordNet ,当做语义传播的纽带。 WordNet 的语义结构是语言独立的,因为其不同的“近义词集合”可以通过其他的 语言以相同的结构表达出来。(比如:中文也可以表示 a “dog” is a “canine” is an “animal” is a “living thing,” )。这里我查了一下 WordNet 中的 hyponomy relationship 可以理解为上 / 下位关系,或者说是蕴含关系,也就是前面说的“ is a ”关系。 根据 WordNet 的结构,可以描述多语言词库上生成一个分布的过程,使其只关注不同单词之间的语义相关性,忽略单词属于哪门语言。对每个近义词集合 h ,创建一个多语言单词分布,如下: 为简洁,以上生成过程记做 ,即 multilingual Dirichlet hierarchy 。 每个被观察到的标记都可以看成是一个访问过的近义词集合λ的序列的最终结果。因为是个树,可以把每个被观察到(终止节点)之前访问过的节点看成是一条路径: ( 1 )对树的每个节点,这个路径终止于此节点的概率是 ,否则其继续以 的概率转移至其某个孩子近义词集合。 ( 2 )如果路径继续(就是没有终止,继续转移),则其会以 的概率访问子节点 j 。 ( 3 )如果路径终止于某近义词集合节点,则会以 的概率生成单词 k 。 综上,一条语言为 l ,访问过近义词集合 r 并结束于近义词集合 h 的路径产生出一个单词的概率可以记做: 本文模型 M L SLDA 是对 SLDA 的扩展(多语言上的全局一致性,通过使用 bridging 方法达到)。模型:( 1 )会生成多语言的文档,( 2 )为每篇文档进行一个实数打分。
今天阅读了《Identifying and Analyzing Judgment Opinions》这篇论文,是关于情感分析中主观判断的识别和分析。这篇论文可以说是上一篇博文《Automatic detection of opinion bearing words and sentences》的延续,作者是同一个人Kim SM,来自韩国的一名女学者,目前在雅虎做情感分析。作者将情感分为两种:1、对于世界的信念:就是认为对错,可能不可能之类的。2、对于事物的判断,就是好、坏等。作者这篇论文主要研究的就是第二种,因为目前大家对于第一种是否是观点没有界定清楚,人工标注的结果很不一致,无法进行实验。选好目标之后,作者将主观判断的识别和分析分为四个任务:1、观点的识别 (主观句、主观表达式的识别)2、观点类型的识别(积极,中立,消极)3、观点持有人的识别 4、主题的识别。这里作者只对前三个任务进行了讨论。其实作者的这篇文章对前两个任务只是轻描淡写,运用的是《Automatic detection of opinion bearing words and sentences》里的方法,就是首先选取动词和形容词的种子词,进行人工标注,利用wordnet进行扩展,然后依据情感词判断情感句的强度,具体的方法可以看上一篇博文,这里就不在赘述。下面,我们主要讲一下观点持有人的识别,以及作者做的一些实验。 这篇论文中,作者采用了最大熵模型(ME)来解决完成这个任务。第一步,作者首先提取情感句中所有的候选观点持有人,作者采用的方法是根据词性标注将所有的名词短语包括常见的名词短语、名字实体(人或组织)和代词作为候选者,下一步的任务就是从候选短语中选取合适的。首先作者思考了观点持有者的识别方法的两种思路:定义为一个分类问题,分为两类“是观点持有人”和“不是观点持有人”或者是定义一个排序问题,对每一个候选短语进行概率估计,进行排序,取前几个。分类问题有个毛病就是如果所有候选短语都被归为“否定”一类的话,就没有候选者了,这样的答案往往不好。而且,根据作者和一些其他学者的实验表明,分类的效果很差。所以这里,作者决定采用最大熵模型对所有候选短语进行概率估计,算出概率值,然后排序。既然要用最大熵,那么就要进行特征选择,然后对训练集(采用的是MPQA训练集)进行标注。下面最重要的工作就是进行特征选择了。 判断一个短语是否是观点持有者,首先想到的方法,主要是看这个名词短语和评价词以及评价对象(就是主观表达式)之间的语法关系。这里作者就是采用了这种关系来作为特征。作者选用了候选短语和主观表达式之间的路径信息和节点之间的距离。听起来很抽象,其实这里作者是在句法分析树的基础进行的特征计算。首先作者利用Charniak parser对情感句进行了句法分析,然后定位到候选短语和主观表达式(关于主观表达式的识别,作者在她以前的论文中进行了阐述,这里也没有详细说明,如果同学们感兴趣可以看下Kim SM以前的论文)。接着就计算候选短语和主观表达式之间的特征。(1)路径信息:作者将所有候选短语组成部分的直接父节点标记为H,然后将主观表达式所有组成部分的直接父节点标记为E,包含H和E的直接父节点标记为HE。所谓的路径信息,其实就是H和E之间的节点类型序列。这里作者定义了三个和路径信息相关的特征:HPath、EPath和HEPath。HPath就是标记为H的节点到标记为HE的节点之间的路径,EPath就是标记为E的节点到标记为HE的节点之间的路径,而HEPath就是它到其子节点中包含了H节点或者E节点的孩子节点的路径。(2)距离:就是从H节点到E节点的路径的节点的个数。(3)短语类型:作者将候选短语分为NP,PERSON,ORGANIZATION和LOCATION。这里作者之所以采用句法分析树中的路径信息,原因是直接采用观点持有者和主观表达式之间的一些搭配作为特征肯定会导致数据稀疏的问题,所有作者利用结构信息来表示特征。运用上面五个特征,作者对训练集进行了标注,然后利用最大熵模型进行了概率值估计,排序取最大几个候选短语。 接下来,作者阐述了对德文邮件的情感分类实验,并没有用到观点持有者识别。所以这里也不赘述。最后作者对于观点持有者识别的方法进行了实验,在2822个句子上做个实验,首先将句子表示成三元组句子,主观表达式,持有者,然后进行10等份的交叉验证。实验分为两部分进行,一部分的候选短语中包含了代词,两一部分不包括。结果表明第一部分的效果较好,而且语法关系的加入明显提高了效果。即使如此,作者也表示观点持有者的识别是个很难的问题。 结论部分作者提出了两点改进的思路,首先在候选短语的选择上,作者提议采用语义特征去除一部分不可能的名词短语。其次,作者将文章开头的几个独立任务综合分析,同时进行,可能会带来更好的效果。 个人认为这篇文章不算是经典之作,而且作者的实验数据也显示效果并不是很好,观点持有者的识别率最好的才50.6%,如果取排名前三的观点持有者,也只达到76%。值得借鉴的是作者在特征选取上采用从句法分析树中得来的路径信息作为特征,以后如果有需要考虑语法关系时可以考虑这种特征表示。