leolin的个人博客分享 http://blog.sciencenet.cn/u/leolin

博文

文本分析总结

已有 5910 次阅读 2015-7-16 10:57 |系统分类:科研笔记|关键词:学者| 文本分析, 深度学习

文本分析又称为观点挖掘,旨在通过对文本特征的选取并量化来实现文本信息表达。传统文本分析是通过对人们的观点、情绪、评论和态度进行有效挖掘的一项技术。主要内容包括文本信息分类、抽取和应用[1]。文本分析将文本从一个无结构的原始文本转化为结构化的计算机可以识别的矢量信息。通过对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本,使计算机能够通过对这种模型的计算和操作来实现对文本的识别。由于文本是非结构化数据,要想从大量的文本中挖掘有用的信息就必须首先将文本转化为可处理的结构化形式。目前人们通常采用向量空间模型来结构化文本向量,即直接用分词算法和词频统计方法得到的特征项来表示文本向量中的各个维(向量的维度数目将高达几万维,造成“维度灾难”)。这种未经处理的文本矢量不仅给后续工作带来巨大的计算开销,使整个处理过程的效率非常低下,而且会损害分类、聚类算法的精确性,从而使所得到的结果很难令人满意。因此,除了对文本做预处理外,我们还通过卡方检测、词频逆文档和信息增益等方法来降维。之后再利用支持向量机、贝叶斯、最大熵和随机森林等机器学习方法构建合适的分类回归模型。

以上文本分析所用的机器学习策略,被称为浅层学习。针对浅层学习的研究最早由Pang等人[2] 在由两个类别组成的电影评论领域进行了实验,结果表明借助于naiveBayesian SVM  都能取得较好的分类效果。Bo Pang 等人[3]对文本分析的发展历史做出归纳,指出对认知系统的研究[4,5] 可以作为文本分析的先驱。之后文本分析的研究主要集中在文本中隐喻、叙述的解释,文本的观念、情感和与之相关的领域实践。浅层学习在实际建模的过程中使用到的函数简单,计算方法容易实现,计算量小,在有限的样本和计算单元的条件下导致其对复杂函数的表达能力受到限制,同时对于复杂的分类问题的泛化能力也在一定程度上受到制约。

相对浅层机器学习,Hinton[19]提出了深度学习(Deep Learning)。深度学习概念是来自于对人工神经网络的研究(多层感知器(MLPMultilayerPerceptron)就是一种前馈人工神经网络模型,属于一种深度学习结构)。分布式的特征表示方式是深度学习相较于浅层学习的一个重大进步。深度学习通过将底层特征进行组合,形成更加抽象的高层特征形式,并在此基础上获得样本数据的分布式表示[6,7]。这些分布式特征通过深度学习神经网络结构中的多个隐层结构逐层计算获得。然而,深度学习的网络结构因其涉及到多个非线性的处理单元层而导致它的非凸目标的代价函数计算过程中普遍存在着局部最小的问题,优化的过程中极有可能在找到全局最小值之前因局部最小值的出现而终止了优化的计算,这也正是深度学习在训练上比较困难的主要原因。尽管深度学习有着这样的困难,但深度学习具有多层结构,且这些结构之间均是非线性映射的,这使得深度学习可以很好的完成复杂函数的逼近,这也是深度学习能够成功应用的优势之一,让很多研究者趋之若鹜,让深度学习成为当前机器学习研究的热点课题。

国内外关于文本分析研究现状如下:

目前,文本分析研究的方法可以分为采取基于规则的方法和基于统计学习的方法。就前者而言,大部分的工作集中于分析规则的制定,这部分工作需要消耗大量的人力和时间,而且当目标样本中的语言现象较多或者较为复杂的时候,规则的制定就是一项非常艰难的任务。而且这种方法与研究目标紧密关联,导致制定的规则的迁移性非常差。这种方法往往利用情感词典、领域词典以及文本中的组合评价单元来获取最终的文本情感极性、评价词抽取和评价词语判别[8,9,10,11,12]。目前,多数研究文本分析的学者采用基于统计学习的方法学习目标样本的特征,并根据特征的分布对文本做出类别的判断。文本分析根据研究的任务可划分为文本信息分类和文本信息抽取两类。文本信息分类又可以依据划分的类别分为二元分类,即褒贬分类,和多元分类,如褒义,贬义和中性三类。根据研究的粒度可划分为篇章级分析、段落级分析、句子级分析以及属性级分析四类(已有文献中大多数的研究成果都是篇章级或者是句子级的文本分析研究)。基于统计学习的方法,大致可以归纳为三类:有监督方法,无监督方法以及半监督方法。其中有监督学习方法以pang2002年的文献[2]为代表,学习方法有朴素贝叶斯、支持向量机和最大熵。

文本分析除了情感分析外,还有情感文摘、实体抽取、新闻文摘和文本分类等其他运用。实质上,这些运用都是使用不同的文本特征提取方法,使用机器学习或者规则作为工具的分类任务。以观点持有者实体抽取为例:有学者[13]将句子分词序列化后借助于命名实体识别规则来获取观点持有者,也有学者[14]曾尝试借助语义角色规则标注来完成观点持有者的抽取。还有学者将观点持有者的抽取定义为分类任务,这种方法的关键在于分类器和特征的选取。如 Choi[15]将其看作一个序列标注问题,并使用 CRF (conditional random field)模型融合各种特征来完成观点持有者的抽取。相似地,Kim[16]将所有名词短语都视为候选观点持有者,使用 ME(maximumentropy)模型来进行计算。这些方法较为依赖自然语言处理的基础技术,语言覆盖低和领域适应性差。

随着技术的发展和科技的进步,人们对分类与回归任务的要求也随之增高。就在此时,深度学习兴起。深度学习的提出者Hinton曾经非正式的指出的:“机器学习的第一次浪潮是浅层学习,深度学习则是机器学习的第二次发展浪潮”。目前,Hinton的观点越来越被人们所接受。人们将焦点转移到深度学习的研究上,掀起了深度学习的研究热潮。

早期的深度学习应用于文本分析围绕语言模型(语言模型即判别一句话是否符合人类语法要求和使用习惯的模型)进行。用神经网络训练语言模型的思想最早由百度 IDL 的徐伟[17] 2000 提出,提出一种用神经网络构建二元语言模型的方法。Bengio [18] 2003 提出三层的神经网络来构建语言模型, 同样也是 n-gram 模型, 根据这已知的 n−1 )个词,预测下一个词 。整个模型中使用的是一套唯一的词向量,并使用随机梯度下降法把这个优化模型,得到的语言模型自带平滑,无需传统 n-gram 模型中那些复杂的平滑算法。2006年,GeoffreyHinton在《Science》发表了文献,指出两个重要观点:其一,多隐层的人工神经网络具备着优异的学习特征的能力,它学习到的特征对样本数据有着更加本质的刻画,使其更加有利于图像可视化或者文本等的分类任务;其二,深度神经网络在训练的时候存在一定的难度,可通过“逐层初始化”(layer-wise pre-training)的方法有效克服。Hinton在文章采用无监督学习实现逐层初始化工作[19]Hinton在文献[20]中提到的深度学习方法是机器学习研究的一个新的领域,它的动机是建立、模拟人脑的分析学习的神经网络,模仿人脑的机制进行数据的解释,比如声音,图像和文本。深度学习方法的自编码网络是无监督的一种,在文章中提出了使用快速学习的办法,主要分为两步:第一步,每次训练其中一层网络,第二步是调优,保证原始的表示 x 向上产生的高级表示 r 和向下产生的表示 x’尽可能的保持一致。这一思想在本文提出的基于深度学习的方法处理文本分析问题时依然被采纳。

除此之外,Lecun 等人在文献[21]中采用的是卷积神经网络(CNNsConvolutional Neural Networks),这是第一个真正具有多层结构的学习算法,它使用空间的相对关系来减少参数数目进而提高 BPBackPropagation)训练性能。深度学习研究中还有许多的变形结构,比如文献[22]中采用的去噪自动编码器(DenoisingAutoencoders),文献[23]中使用的 DCN 方法,文献[24]中提出的 sum-product 方法等。

目前,深度学习的方法在词编码(Word Embedding)上取得了卓越的成效。词编码不同于传统词向量。传统词向量使用的每个维度表示特定的词,出现为1,否则为0,词编码的每个维度表示某种语义信息,从大量未标注的普通文本数据中无监督地学习出词向量。目前词向量研究最经典的文献为C&W 2011[25]M&H 2008[26]Mikolov 2012[27]C&W的工作而在于用这份词向量去完成 NLP 里面的各种任务,比如词性标注、命名实体识别、短语识别和语义角色标注等。直接去尝试近似 t个词的概率P(w1,w2,…,wt),求窗口连续 n 个词的打分 ff 越高的说明这句话越正常;打分低的说明这句话不是太合理;如果是随机把几个词堆积在一起将会是负分。打分只有相对高低之分,并没有概率的特性。有了这个对 f 的假设,C&W 就直接使用 pair-wise 的方法训练词向量。他们在实验中取窗口大小 n=11,字典大小 |V|=130000,在维基百科英文语料和路透社语料中一共训练了 7 周,终于得到了所需要的词向量。M&H的工作提出了一种层级的思想替换了 Bengio[18]的方法中最后隐藏层到输出层最花时间的矩阵乘法,在保证效果的基础上,同时也提升了速度,MikolovBengio[18]的研究基础上,使用循环神经网络(Recurrent neural network)降低参数个数,并在准确率和算法效率上进行各种尝试。循环神经网络与前面各方法中用到的前馈网络在结构上有比较大的差别,但是原理还是基于多层神经网络模型。

目前深度学习用到文本分析的方法中可以归纳为两种:1.训练词向量直接用于神经网络模型的输入层。如 C&W[25] SENNA 系统中,将训练好的词向量作为输入,用前馈网络和卷积网络完成了词性标注、语义角色标注等一系列任务。再如 Socher[28] 将词向量作为输入,用递归神经网络完成了句法分析、情感分析等多项任务。2.作为辅助特征扩充现有模型。如Turian[29] 将词向量作为额外的特征加入到接近 state of the art 的方法中,进一步提高了命名实体识别和短语识别的效果。

国内使用词编码或者深度学习的研究学者并不多,但是正处于上升阶段,其中以贺宇和梁军等人为代表。贺宇等人[30]使用自编码算法,研究中文评论具有是否具有解释性的二分类问题 。梁军[31]使用递归神经网络对微博情感进行划分。两人工作都具有一定的创新性。

 

 

参考文献:

[1]赵妍妍, 秦兵, 刘挺. 文本情感分析[J]. 软件学报,2010,08:1834-1848.

[2] Pang B, Lee L,Vaithyanathan S. Thumbs up?: sentiment classification using machine learningtechniques[C]//Proceedings of the ACL-02 conference on Empirical methods innatural language processing-Volume 10. Association for ComputationalLinguistics, 2002: 79-86.

[3] Pang B, Lee L.Opinion mining and sentiment analysis[J]. Foundations and trends in informationretrieval, 2008, 2(1-2): 1-135.

[4] Carbonell J G.Subjective Understanding: Computer Models of Belief Systems[R]. YALE UNIV NEWHAVEN CONN DEPT OF COMPUTER SCIENCE, 1979.

[5] Wilks Y, Bien J.Beliefs, Points of View, and Multiple Environments*[J]. Cognitive Science,1983, 7(2): 95-119.

[6] Carbonell J G.Subjective Understanding: Computer Models of Belief Systems[R]. YALE UNIV NEWHAVEN CONN DEPT OF COMPUTER SCIENCE, 1979.

[7] Esuli A, SebastianiF. Sentiwordnet: A publicly available lexical resource for opinionmining[C]//Proceedings of LREC. 2006, 6: 417-422.

[8] Turney P. Mining theweb for synonyms: PMI-IR versus LSA on TOEFL[J]. 2001.

[9] Riloff E, Wiebe J,Phillips W. Exploiting subjectivity classification to improve informationextraction[C]//Proceedings of the National Conference On ArtificialIntelligence. Menlo Park, CA; Cambridge, MA; London; AAAI Press; MIT Press;1999, 2005, 20(3): 1106.

[10] Bakliwal A, Arora P,Madhappan S, et al. Mining sentiments from tweets[J]. Proceedings of the WASSA,2012, 12.

[11] Kamps J, Marx M J,Mokken R J, et al. Using wordnet to measure semantic orientations of adjectives[J].2004.

[12] Dave K, Lawrence S,Pennock D M. Mining the peanut gallery: Opinion extraction and semanticclassification of product reviews[C]//Proceedings of the 12th internationalconference on World Wide Web. ACM, 2003: 519-528. [4] Golder S A, Macy M W.Diurnal and seasonal mood vary with work, sleep, and daylength across diversecultures[J]. Science, 2011, 333(6051): 1878-1881.

[13] Kim SM, Hovy E.Determining the sentiment of opinions. In: Nirenburg S, ed. Proc. of the Coling2004. Morristown: ACL, 2004. 1367−1373.

[14] Kim SM, Hovy E.Extracting opinions, opinion holders, and topics expressed in online news mediatext. In: Dale R, Paris C, eds. Proc. of the ACL Workshop on Sentiment andSubjectivity in Text. 2006. 1−8.

[15] Choi Y, Cardie C,Riloff E. Identifying sources of opinions with conditional random fields andextraction patterns. In: Mooney RJ, ed. Proc. of the HLT/EMNLP 2005.Morristown: ACL, 2005. 355−362.

[16] Kim SM, Hovy E.Identifying and analyzing judgment opinions. In: Bilmes J, et al., eds. Proc.of the Joint Human Language Technology/North American Chapter of the ACL Conf.(HLT-NAACL). Morristown: ACL, 2006. 200−207.

[17] Xu W, Rudnicky A I.Can artificial neural networks learn language models?[J]. 2000.]

[18] Bengio Y, DucharmeR, Vincent P, et al. A neural probabilistic language model[J]. The Journal ofMachine Learning Research, 2003, 3: 1137-1155.

[19] Hinton G. E.,Salakhutdinov R. R. Reducing the Dimensionality of Data withNeural Networks[J]. Science, Vol. 313. No. 5786, 2006, 28(7): 504-507 .

[20] Hinton G. E.,Osindero S. A fast learning algorithm for deep belief nets [J].NeuralComputation, 18, 2006: 1527-1554

[21]Joachims T.Transductive inference for text classification using support vectormachines[C]. Proceedings of the 16th International Conference on MachineLearning. SanFrancisco, CA, USA: Morgan Kaufmann, 1999: 200-209 .

[22]Blum A, Chawla S.Learning from labeled and unlabeled data using graphmincuts [C]. Proceedings ofthe 18th International Conference on Machine Learning. San Francisco, CA, USA:Morgan Kaufmann, 2001: 19-26 .

[23]Szummer M, JaakkolaT. Partially labeled classification with Markov random walks [C]. Advances inNeural Information Processing Systems 14: Proceedings of the 2001 Conference.Cambridge, MA, USA: MIT Press, 2001: 945-952 .

[24]Chapelle O, Weston J,Schoelkopf B. Cluster kernels for semi-supervised learning [C]. Advances inNeural Information Processing Systems 15: Proceedings of the 2002 Conference.Cambridge, MA, USA: MIT Press, 2002:585-592 .

[25] Ronan Collobert,Jason Weston, Léon Bottou, Michael Karlen, Koray Kavukcuoglu and Pavel Kuksa.Natural Language Processing (Almost) fromScratch. Journal of Machine Learning Research (JMLR), 12:2493-2537,2011.

[26] Andriy Mnih &Geoffrey Hinton. A scalable hierarchical distributed language model. TheConference on Neural Information Processing Systems (NIPS) (pp. 1081–1088).2008.

[27] Mikolov Tomáš.Statistical Language Models based on Neural Networks. PhD thesis, BrnoUniversity of Technology. 2012.

[28] Eric Huang, RichardSocher, Christopher Manning and Andrew Ng. Improving word representations via globalcontext and multiple word prototypes.Proceedings of the 50th Annual Meeting of the Association forComputational Linguistics: Long Papers-Volume 1. 2012.

[29] Turian Joseph, LevRatinov, and Yoshua Bengio. Wordrepresentations: a simple and general method for semi-supervised learning.Proceedings of the 48th Annual Meeting of the Association for ComputationalLinguistics (ACL). 2010.

[30]贺宇, 潘达, 付国宏. 基于自动编码特征的汉语解释性意见句识别[J]. 北京大学学报 (自然科学版), 2015, 2: 006.

[31] 梁军, 柴玉梅, 原慧斌, . 基于深度学习的微博情感分析[J]. 中文信息学报, 2014, 28(5): 155-161.






https://m.sciencenet.cn/blog-2630186-905798.html


1 许培扬

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-8 20:17

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部