科学网

 找回密码
  注册

tag 标签: 文本分析

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

typical example of teaching, management, learning, using
geneculture 2019-6-22 15:47
This topic is a typical example of teaching, management, learning, using social system engineering methods and the principles of philosophical knowledge, in the research, teaching, research and teaching of the cross-integrated subject of the knowledge center. The characteristics are: With the help as the technology of information processing, artificial intelligence and big data, through the construction of practical application system platforms such as computer aided and human-computer interaction, the basic theoretical research and applied research and comprehensive research of intelligent computing and several related disciplines involved in it are in the class. The interpersonal social practice activities of the lectures are integrated, and the combination of the seven stapes passes and the eight-persons groups is a bright spot. The mental activities such as personal perception, cognition, thinking and memory are in the teaching, management, learning, and multi-class practice activities. Activated, the standardized process of knowledge module finishing and the personalized mental and mental activity process in the process of understanding, can be using, familiar, clever or smart, and recycling or reused, further embodies how the comprehensive ability of superior skills can be improved. This is a typical fusion of wisdom. -Zou Xiaohui 2019-06-04 in Oxford, UK (Joint Laboratory of Sino-UK Research Center and Sino-US Searle Research Center) 本课题是教、管、学、用社会化系统工程方法及其融智学原理,在知识中心这门交叉综合学科的科研、教研和教学三方面,质量显著提升的一个典型,其特征就在于:借助信息处理、人工智能和大数据最新技术,通过计算机辅助和人机交互等实际应用系统平台的建构,把智能计算以及它涉及的几个相关学科的基础理论研究与应用研究以及综合研究在班级授课的人际社会实践活动中融会贯通,其中七遍通与八人组的结合是个亮点,个人的感知、认知、思维和记忆等心智活动,在教、管、学、用多类实践活动中都被激活,知识模块精加工的标准化流程与个性化的心理心智活动过程在懂、会、熟、巧、用循环过程中,进一步体现了技艺超群的综合能力如何得到提升。这是一种典型的智慧融通融合。-邹晓辉2019-06-04于英国牛津(中英塞尔研究中心与中美塞尔研究中心联合实验室)
个人分类: 学术研究|1132 次阅读|0 个评论
试想:瞬间完成一系列知识模块精加工是一个什么光景?
geneculture 2018-5-9 07:35
试想:瞬间完成论文摘要(或:基本概念、基本原理、基本方法、典型示例,即:“三基一例”等知识模块)的智能化文本分析)或知识模块的精加工,对于教育和学习将会产生怎样的影响? 中国是人口大国和教育大国 但还远远不是教育强国 西方有语言工程(MIT是一个代表)、知识工程(斯坦福是一个代表)和软件工程(伯克利是一个代表) 但是仍然没有突破自然语言理解与专家知识表达及语义模式识别的瓶颈 信息处理技术,人工智能技术,大数据处理技术,可以通过通过数据中心实行数据挖掘、信息抽取和知识查询,但是,却还没有最强的语言中心、知识中心和软件中心 因为,它们需要有言识软硬结合的形式化系统工程、教管学用结合的社会化系统工程和广义文本基因的智能化系统工程的支撑 否则不足以自动排出一系列千变万化的歧义,完全人工的又太慢(最关键的是也搞不定) 只能采用人机双脑智慧能力协同创新的方式才能当此重任! 语言学家索绪尔发现语言即棋 语言哲学家维特根斯坦发现人就是会做语言游戏的高等动物 塞尔从心智角度假想“中文房间” 即“中文字屋” 我们把它们贯通而建构了双字棋 与七遍通结合发挥了很好的作用 对语言教学、思维训练和记忆训练,既能促进广大师生的学习进步,又能提高各级各类学校的教学质量和研究水平,还能延缓老年痴呆,具有多方面的实际应用前景,都有显著的效果 尤其是它们一旦做成双矩阵芯片暨新一代智能计算机,其功用是超凡脱俗的 因为,可直接调用各种最优算法和最好的数据结构 还能实现专家知识获取与形式化表达(反之就是自然语言处理与形式化理解-当然还有语义模式识别与形式化转换)的超傻编程(与数码相机暨傻瓜相机类似) 其中蕴含一连串的发现和发明 � � � �
个人分类: 学术研究|2305 次阅读|0 个评论
读“机制主义人工智能理论”
geneculture 2018-5-8 17:20
读“机制主义人工智能理论” 作者:邹晓辉 2018-5-8下午4:55-5:15 首先,对其提要做文本分析。请见截图和链接! 进而,对其全文做文本分析。请见系列思维导图(逐步上传)! 最后,点评(讨论时候再介绍)与感想(结合我们的研究发言) 可让一个班,十个班,百个班,……,通过互联网+的方式,瞬间找出一段文本的语言点和知识点 最后,由原创人即原创作者本人来圈定原创点 这样的信息抽取和知识提取属于大生产方式。它和以往的小生产方式不同! 首先,从435个字符自动找出159个不重复的字符,建立该文本独一无二的双字棋(其中蕴含语言棋理、知识棋谱和原创棋魂),即可获得人机交互的基准和人际交流的裁判(每个人选择“三点” 的心路历程会通过其ID而自动记录,落棋无悔,非常公正。当然,也可允许学习和改进) 这是手机上看到的(平板和电脑上会看得更完整) 接着,让大家来找“三点”(有组织或无组织地进行皆可) 最后,找出(相当于“诗眼”的) 关键点 允许各自的选择不一样! 试想:瞬间完成论文摘要(或:基本概念、基本原理、基本方法、典型示例,即:“三基一例”等知识模块)的智能化文本分析)或知识模块的精加工,对于教育和学习将会产生怎样的影响? 中国是人口大国和教育大国 但还远远不是教育强国 西方有语言工程(MIT是一个代表)、知识工程(斯坦福是一个代表)和软件工程(伯克利是一个代表) 但是仍然没有突破自然语言理解与专家知识表达及语义模式识别的瓶颈 信息处理技术,人工智能技术,大数据处理技术,可以通过通过数据中心实行数据挖掘、信息抽取和知识查询,但是,却还没有最强的语言中心、知识中心和软件中心 因为,它们需要有言识软硬结合的形式化系统工程、教管学用结合的社会化系统工程和广义文本基因的智能化系统工程的支撑 否则不足以自动排出一系列千变万化的歧义,完全人工的又太慢(最关键的是也搞不定) 只能采用人机双脑智慧能力协同创新的方式才能当此重任! 语言学家索绪尔发现语言即棋 语言哲学家维特根斯坦发现人就是会做语言游戏的高等动物 塞尔从心智角度假想“中文房间” 即“中文字屋” 我们把它们贯通而建构了双字棋 与七遍通结合发挥了很好的作用 对语言教学、思维训练和记忆训练以及延缓老年痴呆等多方面都有显著的效果 尤其是它们一旦做成双矩阵芯片暨新一代智能计算机,其功用是超凡脱俗的 因为,可直接调用各种最优算法和最好的数据结构 还能实现专家知识获取与形式化表达(反之就是自然语言处理与形式化理解-当然还有语义模式识别与形式化转换)的超傻编程(与数码相机暨傻瓜相机类似) 其中蕴含一连串的发现和发明 ……… 其作用、价值和意义及其重要性是毋庸置疑的 现在,我们不仅已完成了其逻辑论证、数学验算以及广义翻译的实际验证 而且,还找到了证明途径 最关键地是:找到了实际应用的一系列重要场景 其中一个应用的亮点,就是文本分析智能化或知识加工精细化 可用于对任何一篇论著的三基一例做文本分析和知识加工 � � �
个人分类: 学术研究|2224 次阅读|0 个评论
基于文本分析和模块加工的知识大生产方式将拉开序幕
geneculture 2018-4-26 14:11
经过上海的预演,明天在北京将开启划时代的序幕: 正式公布基于文本分析和模块加工的知识大生产方式 z
个人分类: 学术研究|1933 次阅读|0 个评论
明天将开启划时代的序幕:正式公布知识大生产方式
geneculture 2018-4-26 14:06
机上记录的灵感: 经过上海的预演,明天在北京将开启划时代的序幕:正式公布知识大生产方式
个人分类: 学术研究|1575 次阅读|0 个评论
领域自然语言理解与专家知识模块精加工
geneculture 2018-4-16 15:00
从某个方面的自然语言理解暨专家知识表达涉及的有限概念、原理和方法及其典型案例入手,可把机器人的软件与数据有针对性地充实起来。-邹晓辉 把一个一个受限领域的专家知识获取与形式化表达及其有针对性地重复调用做到极限之后,再来做跨学科、跨领域和跨行业切换的对接平台,进而,做跨语种和跨媒体平台。这就可逐步化解掉各式各样的歧义。基于知识模块精加工暨知识大生产方式新一代精品课程即可为其奠基(试想当所有课程的语言点、知识点以及原创点在每一个文本暨言语片段都被穷举了之后将会怎样?) - 邹晓辉 \0 \0
个人分类: 学术研究|1947 次阅读|0 个评论
发现彼此内心的灵魂伴侣:人文艺术与科学技术联姻的实质
geneculture 2018-4-6 12:24
灵魂伴侣(即兴创作一首诗或一段文本) 这是即兴之作,仅供参考。 旨在帮助人们初步理解双字棋盘的应用,同时,可通过窥斑知豹,以便于大家快速感知一个具体的言语片段即文本分析或知识模块精加工,以及局部地做到微观的知识导航即微观的思维路径的直观呈现,让人们大致感知它是怎么回事。 http://kb3.sloud.cn/article/100/group
个人分类: 自制双语文库|1814 次阅读|0 个评论
当前孝德模范评选的现实解读与理性反思
热度 1 lansui2013 2016-4-6 09:33
新世纪以来,政府相关部门加大了对孝德的弘扬力度。 2007 年中宣部牵头评选了全国“孝老爱亲”道德模范,地方各级党委、政府也先后启动并开展了孝德模范评选表彰工作,此举表明孝老爱亲仍是社会主义家庭伦理的重要内容。这些孝德模范的评出背后折射出怎样的孝德观?这种孝德观与现代社会的发展方向是否相符?笔者选择湖北省 G 市 5 届“十大孝子”典型人物事迹(计 50 人)为研究样本,采用文本分析、定量统计等方法,重点分析孝子报道中的价值取向以及背后的社会文化心理,指出此类评选所反映的思维定势和认识误区,提出相应的对策和建议。 一、现实解读:基于孝德模范报道的文本分析 G 市是全国知名的孝文化之乡,自古以来孝风淳厚,孝子辈出。为了传承该市源远流长的孝文化,在全社会弘扬孝老爱亲的美德,早在 1996 年, G 市市委宣传部、老龄办等单位即着手开展了“十大孝子”评选表彰活动,到 2013 年已经举办了 7 届,树立了一批孝老爱亲的模范群体,发挥了较好的宣传和示范作用。笔者从 G 市政府门户网站搜集整理了 1996 年到 2009 年 5 届“十大孝子”的简要事迹,合计 50 篇, 13005 字。 1、孝德模范的年龄性别 对孝德模范的性别年龄统计数据显示,孝德模范(以下又称“孝子”)在年龄层次分布上呈现“两头小,中间大”的纺锤形,青年时期( 18-35 岁)男性孝子和女性孝子的比例分别为 7.7% 和 8.3% ,均不超过 10% 。老年时期( 56-80 岁)的比例略高,分别是 19.2% 和 16.7% ,中年时期( 36-55 岁)的孝子比例最高,男女比例分别为 73.1% 和 75% 。数据说明,评选出来的孝子中绝大多数是中年人,这与人到中年后适逢上一代人进入疾病多发的老年时期的人生阶段有关。总体来看,孝子的平均年龄偏大,有一部分本该安享晚年的老年人仍然扮演着孝子的角色。 在性别分布比例方面,男女孝子的比例基本持平,男性孝子的比例略高于女性孝子。这可能是由于主办单位在评选时有意照顾到两性比例的平衡所致。 表 1 孝德模范性别年龄比例统计 年龄段 男性数量 百分比 女性数量 百分比 18-35 2 7.7% 2 8.3% 36-55 19 73.1% 18 75% 56-80 5 19.2% 4 16.7% 合计 26 52% 24 48% 2、孝德模范的职业身份 对孝子的职业身份统计结果显示,在孝子从事的职业中,占比最高的分别是福利院院长、职工和公务员、基层干部,分别为 9 位,占比数高于三分之一。其次是农民,共 8 位,占比 16% 。接下来是企业主、经理或会计,教师和职工,各有 6 位,分别占比 12% 。城镇居民次之,有 5 位。大学生孝子数量最少,仅 1 位,占 2% 。从时间上来看,直到 2007 年孝子评选活动中才首次出现大学生的身影。表 2 显示,福利院院长或职工因为工作性质的缘故,当选为孝德模范的比例较高;其次是公务员、基层干部、农民、教师、职工等职业群体。总的来看,孝德模范从事的职业相对单一,除去我们熟知的工人、农民、教师、干部等传统职业以外,从事其它职业的较少。 表 2 孝德模范职业身份统计 职业 数量 百分比 福利院院长或职工 9 18% 公务员、基层干部 9 18% 农民 8 16% 企业主、经理或会计 6 12% 教师 6 12% 职工 6 12% 城镇居民(无固定职业) 5 10% 大学生 1 2% 3、孝德模范与行孝对象的关系 我们对孝德模范与行孝对象的关系进行了统计,参见表 3 。结果显示,在 26 位男性孝子中,以父亲、母亲为行孝对象的比例各为 23.1% 和 50% ,均高于以岳父、岳母为行孝对象的孝子比例(分别为 7.7% 和 19.2% )。对岳父、岳母的行孝比例与男性孝子对旁系长辈和其它老人(无亲属、血缘关系)行孝比例持平(分别为 7.7% 和 19.2% )。在 24 位女性孝子中,以父亲、母亲为行孝对象的比例各为 16.7% 和 25% ,两个数据均不超过四分之一。女性孝子以公公、公婆为行孝对象的比例分别为 54.2% 和 66.7% ,均超过半数,比例较高。值得注意的是,女性孝子以旁系长辈为行孝对象的比例是 21% ,这个比例是男性相同比例的 3 倍,相对高企。以其他老人(无血缘关系)为行孝对象的比例两性基本持平,这部分多是养老从业人员。从绝对值来看,女性在 6 类行孝对象中的比例均高于男性,这意味着女性孝子行孝的对象面广、人众。 表 3 孝德模范与行孝对象关系统计 孝德模范 行孝对象 男性 N=26 父亲 母亲 岳父 岳母 旁系长辈 其他老人 6 13 2 5 2 5 23.1% 50% 7.7% 19.2% 7.7% 19.2% 女性 N=24 父亲 母亲 公公 公婆 旁系长辈 其他老人 4 6 13 16 5 5 16.7% 25% 54.2% 66.7% 21% 21% 4、孝德模范的行孝内容 《孝经·纪孝行章第十》言:“孝子之事亲也,居则致其敬,养则致其乐,病则致其忧,丧则致其哀,祭则致其严,五者备矣,然后能事亲。”封建社会的孝子孝行,基本没有脱离“居、养、病、丧、祭”五个方面。发展至现代社会,由于政府移风易俗的努力,“丧”、“祭”层面的孝行有所淡化,“居”、“养”、“病”三个层面就成了主要的考量标准。我们统计了孝子报道中描述孝子和行孝对象的高频主题词,列出表 4 。 表 4 主题词统计 孝德模范 出现次数 千字比 行孝对象 出现次数 千字比 “照顾”“照料” 58 8.9 “病” 84 6.5 “药”“医” 89 6.8 “卧床” 36 5.5 “送饭”“喂饭” 26 4.4 “中风” 21 3.2 “每天”“天天” 24 3.7 “瘫痪” 21 3.2 “体贴”“精心”“细心” 21 3.2 “痴呆”“精神分裂” 13 2.7 “侍候”“服侍” 18 2.8 “患” 26 2.0 “屎”“尿”“便” 34 2.6 “住院” 10 1.5 “换洗”“洗换” 15 2.3 “癌” 6 0.4 “坚持” 6 0.9 表 4 表明,孝德模范们从事的孝行主要内容有以下几个方面: 日常照料。 包括衣食住行等日常生活方面的照料,因此“照顾”、“照料”等词的使用频度较高,千字比达到 8.9 。另外“送饭”、“喂饭”的千字比达到 4.4 。日常生活照料最难的就是坚持,所以报道中“天天”、“每天”的千字比为 3.7 ,突出孝子们践行孝道的坚持不懈,数十年如一日。 侍病。 俗话说“久病床前无孝子”,反过来理解就是,子女孝顺与否要看他(她)在父母病重期间的表现。表 4 描述“行孝对象”的主题词说明,孝子孝敬的对象大多疾病缠身,而且多是导致生活不能自理的重症,出现频次较多的有“卧床”、“中风”、“瘫痪”、“痴呆”、“精神分裂”等主题词。 其他。 除“日常照料”和“侍病”这两大主题之外,其它内容的孝行不太多见。报道中有 1 例为母亲寻亲的孝行,缘于解放前社会动荡不安,亲人流离失所,是一种前现代社会的孝行孓遗。 二、对当前孝德模范评选的理性反思 根据上面对 G 市 5 届“十大孝子”报道的文本分析,我们认为现阶段孝德模范评选中存在一些不容忽视的误区。 1、“孝”道德定义不清,公、私德淆乱。 “孝”是公德还是私德?应该说,“孝”属于私德。孝敬父母、关爱妻儿等在当代西方和中国大多数人看来,属于一个人的私德范畴,而非其公德领域。既然孝属于私德,那么“十大孝子”的评选目的应该是在私德领域弘扬孝道德,调节的是“自我和那些与自己有恒常联系的而且有直接利害关系的特殊‘他者’的伦理关系”。厘清了“孝属于私德”这一属性,我们再来反观“十大孝子”评选中的人物取向标准。表 2 显示,在孝德模范评选中,占比最多的职业是福利院院长或职工,一共是 9 人,其中院长 7 人,另外 2 人分别是福利院职工、康复医院的护士。福利院、敬老院或康复医院等单位从业人员由于职业性质的关系,他们的工作对象有很大一部分是老年人,照顾和关爱老年人是出于他们的职业道德,而职业道德是典型的公共道德,不属于私德领域,更不是“孝”。如果这些人在自己的岗位上尽忠职守,得到了工作对象的一致称赞,那么他们应该成为本行业的“爱岗敬业”模范,而不应该被冠以“孝子”之名,否则就是公、私德不分,这是“十大孝子”评选中最大的误区。 2、人物形象刻板单一,争相“比苦”。 明清之时的学者就认识到,孝行属于“庸行”,说的是孝子事迹不外乎庸常小事,不容易出彩,所以孝子报道大多集中在“侍病”上做文章,造成的结果就是孝子报道成了“比苦”报道,缺乏打动人心的细节描写。 在“侍病”这个主题之下,为了突出孝子形象,“用手替长辈掏大便”这类较为极端和私密的行为出现了5次,占全部报道的10%,“大小便失禁”之类的描述也屡见不鲜。 孝子们没有自我的任何需求,“为了父亲(母亲、岳父、岳母等),他(她)甘愿……”,“喂饭”、“换洗”、“端屎端尿”频频出现,行孝成为他们生活的全部,牺牲和奉献成为常态。 这样叙述本来是为了突出孝子形象,达到“平中见奇”的目的,但负面效果也是显而易见的。一是未能充分尊重行孝对象的隐私权。人性关怀应是“孝”的终极意义,报道应该尽量凸显尽孝双方的体面与尊严;二是容易引起受众的厌倦乃至反感。孝子报道如果尽是一些“苦情戏”,受众容易产生“审美疲劳”,遑论见贤思齐,对孝德模范的宣传和推广带来不利影响。 3、因袭男权本位观念,漠视女性孝子权利。 样本中的孝子在性别取向上虽然基本持平,男性孝子的数量略高于女性孝子( 26 : 24 )。但是分析发现,女性孝子的行孝对象人众面广,她们赡养最多的是自己的公公、公婆,其次才是自己的父母、旁系长辈和其它老人。评选中潜藏的一套逻辑是,女性赡养婆家父母是应该的,而赡养生身父母则是出于不得已的特殊情况,这样有意无意剥夺了女性孝子对生身父母行孝的权利。反映在报道中就是女性孝子行孝的压力无形中大大高出于男性孝子,样本中凡是赡养多位长辈的几乎都是女性孝子(仅 1 位男性孝子连带赡养了妻子的姑婆),女性孝子当选的角色多是“孝媳”,乃至“孝孙媳”,但如果要做“孝女”的话,前提条件是先做好“孝媳”。这种现象背后体现了中国传统家庭伦理由来已久的“男权”本位,固化了两性在家庭中的性别角色。这种观念强调了已婚女性对公婆行孝的义务,漠视了她们对生身父母行孝的权利。从某种意义上说,当前的孝子评选暗中迎合了“养儿才能防老”的旧观念,对女性以及育女家庭在养老问题上造成了事实上的不公平。 三、对当前孝德模范评选的建议与思考 鉴于现阶段的孝德模范评选存在以上误区,为了使相关单位在今后类似的宣传推广活动中扬长避短,更好地开展道德模范评选和表彰工作,更好地发挥道德模范人物在社会生活中的引领作用,特提出以下建议。 更新孝德观念是根本前提。 一些学者提出新型孝道要具备以下一些特征,如“局限性(只涉及家庭内亲子间的人际关系)”、“权利义务对等性”、“自律性”、“感情性”,旨在从理论上改进传统孝道的不足,使之适应社会的发展。就评选出来的孝德模范来看,当前社会的孝德观较多地因袭了传统孝德观,现代性、开创性似有不足。如将相关老年服务业从业人员评为“孝子”,究其实质是因袭历史上将孝德泛化的做法;再比如女性孝子权利缺失主要是由于传统孝道中贯穿的“男权本位”观念仍然占据着相当一部人的头脑。现行法律和国家制度对家庭子女权利和义务的规定是公平对等的,但这种法律层面的公平和对等尚未进入底层民众的视野,因此,以政府为主导的道德模范评选应贯彻这种男女平权的原则,实现女性赡养父母的权利和义务的积极对等。从思想上自觉剔除旧式孝德观的不良影响,弘扬新型孝德观是保证此类活动良性开展的根本前提。 调整政策导向是着力方向。 相关部门应着力于政策的互动性和系统性来调整相关导向标准。如将孝德模范评选与计划生育工作联动起来考虑,认清其在“男女生育比例失调”中的关键作用,从而在孝德模范评选中平衡男女尽孝义务,帮助树立“女儿也是传后人”的新型生育观。民间历来有“嫁出去的女儿泼出去的水”,“养儿才能防老”的说法,这些观念对社会的良性发展带来了一些不利影响,最突出的恶果是造成男女出生性别比例失衡,引发人口结构性矛盾,制约了社会的正常发展。因此政府应该帮助树立“养女也能防老”的新观念,并相应增加“孝女”、“孝婿”的宣传力度,在相关报道中尽量突破对传统性别陈规的固守,提高这方面的认识水平,平衡男女尽孝义务,一方面会有效降低出生人口性别比例,同时也有助于在全社会构建和谐、健康的养老生态。 优化评选标准是实践策略。 随着我国经济社会的发展,人民群众教育水平的提高,受众的道德观念、审美意识、阅读心理出现了多种层级和角度的变化。尤其是逐渐成长起来的 80 、 90 后一代,他们的自主思考能力和独立判断能力明显强于上一代人。对于已经或即将承担起家庭养老重任的他们,孝德模范评选要想走进他们的心灵,引起他们的情感共鸣,必须优化评选标准。一方面,在报道形式上采取创新手段,增加阳光、温暖的孝行细节,激起更多情感的共鸣,从而达到“见贤思齐”的效果。另一方面,评选过程适当增加年轻人、新兴行业人员、“孝女”“孝婿”等的入选比例。 G 市“十大孝子”中不乏孝顺岳父母的好女婿,其中有杨某贵、娄某安、易某望、祝某安和熊某斌等 5 人入选。这 5 名孝顺女婿的事迹体现了政府为实现男女平等享有尽孝权利和义务所作出的努力,有利于构建符合社会主义核心价值观的家庭伦理观念,因此具有积极的现实意义。 参考文献: 1. 李春城:《孝行与官德:公德与私德间关系的案例分析》,载《复旦学报(社会科学版)》, 2010 年第 3 期。 2. 蔡骐、张萍:《人物报道与性别陈规——对中国媒介典型人物报道的性别框架结构分析》,《淮海工学院学报(社会科学版)》, 2006 年第 1 期。 3. 唐灿、马春华、石金群:《女儿赡养的伦理与公平——浙东农村家庭代际关系的性别考察》,《社会学研究》, 2009 年第 6 期。 4. 朱清河:《典型报道:理论、应用与反思》,武汉大学出版社 2006 年版。 5. 余新忠:《明清时期孝行的文本解读——以江南方志记载为中心》,载《中国社会历史评论》第七卷, 2006 年。
个人分类: 伦理文化研究|1422 次阅读|3 个评论
文本分析总结
热度 1 leolin 2015-7-16 10:57
文本分析又称为观点挖掘,旨在通过对文本特征的选取并量化来实现文本信息表达。传统文本分析是通过对人们的观点、情绪、评论和态度进行有效挖掘的一项技术。主要内容包括文本信息分类、抽取和应用 。文本分析将文本从一个无结构的原始文本转化为结构化的计算机可以识别的矢量信息。通过对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本,使计算机能够通过对这种模型的计算和操作来实现对文本的识别。由于文本是非结构化数据,要想从大量的文本中挖掘有用的信息就必须首先将文本转化为可处理的结构化形式。目前人们通常采用向量空间模型来结构化文本向量,即直接用分词算法和词频统计方法得到的特征项来表示文本向量中的各个维(向量的维度数目将高达几万维,造成“维度灾难”)。这种未经处理的文本矢量不仅给后续工作带来巨大的计算开销,使整个处理过程的效率非常低下,而且会损害分类、聚类算法的精确性,从而使所得到的结果很难令人满意。因此,除了对文本做预处理外,我们还通过卡方检测、词频逆文档和信息增益等方法来降维。之后再利用支持向量机、贝叶斯、最大熵和随机森林等机器学习方法构建合适的分类回归模型。 以上文本分析所用的机器学习策略,被称为浅层学习。针对浅层学习的研究最早由 Pang 等人 在由两个类别组成的电影评论领域进行了实验,结果表明借助于 naiveBayesian 和 SVM 都能取得较好的分类效果。 Bo Pang 等人 对文本分析的发展历史做出归纳,指出对认知系统的研究 可以作为文本分析的先驱。之后文本分析的研究主要集中在文本中隐喻、叙述的解释,文本的观念、情感和与之相关的领域实践。浅层学习在实际建模的过程中使用到的函数简单,计算方法容易实现,计算量小,在有限的样本和计算单元的条件下导致其对复杂函数的表达能力受到限制,同时对于复杂的分类问题的泛化能力也在一定程度上受到制约。 相对浅层机器学习, Hinton 等 提出了深度学习( Deep Learning )。深度学习概念是来自于对人工神经网络的研究(多层感知器( MLP , MultilayerPerceptron )就是一种前馈人工神经网络模型,属于一种深度学习结构 ) 。分布式的特征表示方式是深度学习相较于浅层学习的一个重大进步。深度学习通过将底层特征进行组合,形成更加抽象的高层特征形式,并在此基础上获得样本数据的分布式表示 。这些分布式特征通过深度学习神经网络结构中的多个隐层结构逐层计算获得。然而,深度学习的网络结构因其涉及到多个非线性的处理单元层而导致它的非凸目标的代价函数计算过程中普遍存在着局部最小的问题,优化的过程中极有可能在找到全局最小值之前因局部最小值的出现而终止了优化的计算,这也正是深度学习在训练上比较困难的主要原因。尽管深度学习有着这样的困难,但深度学习具有多层结构,且这些结构之间均是非线性映射的,这使得深度学习可以很好的完成复杂函数的逼近,这也是深度学习能够成功应用的优势之一,让很多研究者趋之若鹜,让深度学习成为当前机器学习研究的热点课题。 国内外关于文本分析研究现状如下: 目前,文本分析研究的方法可以分为采取基于规则的方法和基于统计学习的方法。就前者而言,大部分的工作集中于分析规则的制定,这部分工作需要消耗大量的人力和时间,而且当目标样本中的语言现象较多或者较为复杂的时候,规则的制定就是一项非常艰难的任务。而且这种方法与研究目标紧密关联,导致制定的规则的迁移性非常差。这种方法往往利用情感词典、领域词典以及文本中的组合评价单元来获取最终的文本情感极性、评价词抽取和评价词语判别 。目前,多数研究文本分析的学者采用基于统计学习的方法学习目标样本的特征,并根据特征的分布对文本做出类别的判断。文本分析根据研究的任务可划分为文本信息分类和文本信息抽取两类。文本信息分类又可以依据划分的类别分为二元分类,即褒贬分类,和多元分类,如褒义,贬义和中性三类。根据研究的粒度可划分为篇章级分析、段落级分析、句子级分析以及属性级分析四类(已有文献中大多数的研究成果都是篇章级或者是句子级的文本分析研究)。基于统计学习的方法,大致可以归纳为三类:有监督方法,无监督方法以及半监督方法。其中有监督学习方法以 pang 在 2002 年的文献 为代表,学习方法有朴素贝叶斯、支持向量机和最大熵。 文本分析除了情感分析外,还有情感文摘、实体抽取、新闻文摘和文本分类等其他运用。实质上,这些运用都是使用不同的文本特征提取方法,使用机器学习或者规则作为工具的分类任务。以观点持有者实体抽取为例:有学者 将句子分词序列化后借助于命名实体识别规则来获取观点持有者,也有学者 曾尝试借助语义角色规则标注来完成观点持有者的抽取。 还有学者将观点持有者的抽取定义为分类任务,这种方法的关键在于分类器和特征的选取。如 Choi 将其看作 一个序列标注问题 , 并使用 CRF (conditional random field) 模型融合各种特征来完成观点持有者的抽取。相似地, Kim 将所有名词短语都视为候选观点持有者,使用 ME(maximumentropy) 模型来进行计算。这些方法较为依赖自然语言处理的基础技术,语言覆盖低和领域适应性差。 随着技术的发展和科技的进步,人们对分类与回归任务的要求也随之增高。就在此时,深度学习兴起。深度学习的提出者 Hinton 曾经非正式的指出的:“机器学习的第一次浪潮是浅层学习,深度学习则是机器学习的第二次发展浪潮”。目前, Hinton 的观点越来越被人们所接受。人们将焦点转移到深度学习的研究上,掀起了深度学习的研究热潮。 早期的深度学习应用于文本分析围绕语言模型(语言模型即判别一句话是否符合人类语法要求和使用习惯的模型)进行。用神经网络训练语言模型的思想最早由百度 IDL 的徐伟 于 2000 提出,提出一种用神经网络构建二元语言模型的方法。 Bengio 等 在 2003 提出三层的神经网络来构建语言模型 , 同样也是 n-gram 模型 , 根据这已知的 ( n−1 )个词,预测下一个词 。整个模型中使用的是一套唯一的词向量,并使用随机梯度下降法把这个优化模型,得到的语言模型自带平滑,无需传统 n-gram 模型中那些复杂的平滑算法。 2006 年, GeoffreyHinton 在《 Science 》发表了文献,指出两个重要观点:其一,多隐层的人工神经网络具备着优异的学习特征的能力,它学习到的特征对样本数据有着更加本质的刻画,使其更加有利于图像可视化或者文本等的分类任务;其二,深度神经网络在训练的时候存在一定的难度,可通过“逐层初始化”( layer-wise pre-training )的方法有效克服。 Hinton 在文章采用无监督学习实现逐层初始化工作 。 Hinton 在文献 中提到的深度学习方法是机器学习研究的一个新的领域,它的动机是建立、模拟人脑的分析学习的神经网络,模仿人脑的机制进行数据的解释,比如声音,图像和文本。深度学习方法的自编码网络是无监督的一种,在文章中提出了使用快速学习的办法,主要分为两步:第一步,每次训练其中一层网络,第二步是调优,保证原始的表示 x 向上产生的高级表示 r 和向下产生的表示 x ’尽可能的保持一致。这一思想在本文提出的基于深度学习的方法处理文本分析问题时依然被采纳。 除此之外, Lecun 等人在文献 中采用的是卷积神经网络( CNNs , Convolutional Neural Networks ),这是第一个真正具有多层结构的学习算法,它使用空间的相对关系来减少参数数目进而提高 BP ( BackPropagation )训练性能。深度学习研究中还有许多的变形结构,比如文献 中采用的去噪自动编码器( DenoisingAutoencoders ),文献 中使用的 DCN 方法,文献 中提出的 sum-product 方法等。 目前,深度学习的方法在词编码( Word Embedding )上取得了卓越的成效。词编码不同于传统词向量。传统词向量使用的每个维度表示特定的词,出现为 1 ,否则为 0 ,词编码的每个维度表示某种语义信息,从大量未标注的普通文本数据中无监督地学习出词向量。目前词向量研究最经典的文献为 CW 2011 、 MH 2008 和 Mikolov 2012 。 CW 的工作而在于用这份词向量去完成 NLP 里面的各种任务,比如词性标注、命名实体识别、短语识别和语义角色标注等。直接去尝试近似 t 个词的概率 P(w1,w2,…,wt) ,求窗口连续 n 个词的打分 f , f 越高的说明这句话越正常;打分低的说明这句话不是太合理;如果是随机把几个词堆积在一起将会是负分。打分只有相对高低之分,并没有概率的特性。有了这个对 f 的假设, CW 就直接使用 pair-wise 的方法训练词向量。他们在实验中取窗口大小 n=11 ,字典大小 |V|=130000 ,在维基百科英文语料和路透社语料中一共训练了 7 周,终于得到了所需要的词向量。 MH 的工作提出了一种层级的思想替换了 Bengio 的方法中最后隐藏层到输出层最花时间的矩阵乘法,在保证效果的基础上,同时也提升了速度, Mikolov 在 Bengio 的研究基础上,使用循环神经网络( Recurrent neural network )降低参数个数,并在准确率和算法效率上进行各种尝试。循环神经网络与前面各方法中用到的前馈网络在结构上有比较大的差别,但是原理还是基于多层神经网络模型。 目前深度学习用到文本分析的方法中可以归纳为两种: 1. 训练词向量直接用于神经网络模型的输入层。如 CW 的 SENNA 系统中,将训练好的词向量作为输入,用前馈网络和卷积网络完成了词性标注、语义角色标注等一系列任务。再如 Socher 将词向量作为输入,用递归神经网络完成了句法分析、情感分析等多项任务。 2. 作为辅助特征扩充现有模型。如 Turian 将词向量作为额外的特征加入到接近 state of the art 的方法中,进一步提高了命名实体识别和短语识别的效果。 国内使用词编码或者深度学习的研究学者并不多,但是正处于上升阶段,其中以贺宇和梁军等人为代表。贺宇等人 使用自编码算法,研究中文评论具有是否具有解释性的二分类问题 。梁军 使用递归神经网络对微博情感进行划分。两人工作都具有一定的创新性。 参考文献: 赵妍妍 , 秦兵 , 刘挺 . 文本情感分析 . 软件学报 ,2010,08:1834-1848. Pang B, Lee L,Vaithyanathan S. Thumbs up?: sentiment classification using machine learningtechniques //Proceedings of the ACL-02 conference on Empirical methods innatural language processing-Volume 10. Association for ComputationalLinguistics, 2002: 79-86. Pang B, Lee L.Opinion mining and sentiment analysis . Foundations and trends in informationretrieval, 2008, 2(1-2): 1-135. Carbonell J G.Subjective Understanding: Computer Models of Belief Systems . YALE UNIV NEWHAVEN CONN DEPT OF COMPUTER SCIENCE, 1979. Wilks Y, Bien J.Beliefs, Points of View, and Multiple Environments* . Cognitive Science,1983, 7(2): 95-119. Carbonell J G.Subjective Understanding: Computer Models of Belief Systems . YALE UNIV NEWHAVEN CONN DEPT OF COMPUTER SCIENCE, 1979. Esuli A, SebastianiF. Sentiwordnet: A publicly available lexical resource for opinionmining //Proceedings of LREC. 2006, 6: 417-422. Turney P. Mining theweb for synonyms: PMI-IR versus LSA on TOEFL . 2001. Riloff E, Wiebe J,Phillips W. Exploiting subjectivity classification to improve informationextraction //Proceedings of the National Conference On ArtificialIntelligence. Menlo Park, CA; Cambridge, MA; London; AAAI Press; MIT Press;1999, 2005, 20(3): 1106. Bakliwal A, Arora P,Madhappan S, et al. Mining sentiments from tweets . Proceedings of the WASSA,2012, 12. Kamps J, Marx M J,Mokken R J, et al. Using wordnet to measure semantic orientations of adjectives .2004. Dave K, Lawrence S,Pennock D M. Mining the peanut gallery: Opinion extraction and semanticclassification of product reviews //Proceedings of the 12th internationalconference on World Wide Web. ACM, 2003: 519-528. Golder S A, Macy M W.Diurnal and seasonal mood vary with work, sleep, and daylength across diversecultures . Science, 2011, 333(6051): 1878-1881. Kim SM, Hovy E.Determining the sentiment of opinions. In: Nirenburg S, ed. Proc. of the Coling2004. Morristown: ACL, 2004. 1367−1373. Kim SM, Hovy E.Extracting opinions, opinion holders, and topics expressed in online news mediatext. In: Dale R, Paris C, eds. Proc. of the ACL Workshop on Sentiment andSubjectivity in Text. 2006. 1−8. Choi Y, Cardie C,Riloff E. Identifying sources of opinions with conditional random fields andextraction patterns. In: Mooney RJ, ed. Proc. of the HLT/EMNLP 2005.Morristown: ACL, 2005. 355−362. Kim SM, Hovy E.Identifying and analyzing judgment opinions. In: Bilmes J, et al., eds. Proc.of the Joint Human Language Technology/North American Chapter of the ACL Conf.(HLT-NAACL). Morristown: ACL, 2006. 200−207. Xu W, Rudnicky A I.Can artificial neural networks learn language models? . 2000.] Bengio Y, DucharmeR, Vincent P, et al. A neural probabilistic language model . The Journal ofMachine Learning Research, 2003, 3: 1137-1155. Hinton G. E.,Salakhutdinov R. R. Reducing the Dimensionality of Data withNeural Networks . Science, Vol. 313. No. 5786, 2006, 28(7): 504-507 . Hinton G. E.,Osindero S. A fast learning algorithm for deep belief nets .NeuralComputation, 18, 2006: 1527-1554 Joachims T.Transductive inference for text classification using support vectormachines . Proceedings of the 16th International Conference on MachineLearning. SanFrancisco, CA, USA: Morgan Kaufmann, 1999: 200-209 . Blum A, Chawla S.Learning from labeled and unlabeled data using graphmincuts . Proceedings ofthe 18th International Conference on Machine Learning. San Francisco, CA, USA:Morgan Kaufmann, 2001: 19-26 . Szummer M, JaakkolaT. Partially labeled classification with Markov random walks . Advances inNeural Information Processing Systems 14: Proceedings of the 2001 Conference.Cambridge, MA, USA: MIT Press, 2001: 945-952 . Chapelle O, Weston J,Schoelkopf B. Cluster kernels for semi-supervised learning . Advances inNeural Information Processing Systems 15: Proceedings of the 2002 Conference.Cambridge, MA, USA: MIT Press, 2002:585-592 . Ronan Collobert,Jason Weston, Léon Bottou, Michael Karlen, Koray Kavukcuoglu and Pavel Kuksa.Natural Language Processing (Almost) fromScratch. Journal of Machine Learning Research (JMLR), 12:2493-2537,2011. Andriy Mnih Geoffrey Hinton. A scalable hierarchical distributed language model. TheConference on Neural Information Processing Systems (NIPS) (pp. 1081–1088).2008. Mikolov Tomáš.Statistical Language Models based on Neural Networks. PhD thesis, BrnoUniversity of Technology. 2012. Eric Huang, RichardSocher, Christopher Manning and Andrew Ng. Improving word representations via globalcontext and multiple word prototypes.Proceedings of the 50th Annual Meeting of the Association forComputational Linguistics: Long Papers-Volume 1. 2012. Turian Joseph, LevRatinov, and Yoshua Bengio. Wordrepresentations: a simple and general method for semi-supervised learning.Proceedings of the 48th Annual Meeting of the Association for ComputationalLinguistics (ACL). 2010. 贺宇 , 潘达 , 付国宏 . 基于自动编码特征的汉语解释性意见句识别 . 北京大学学报 ( 自然科学版 ), 2015, 2: 006. 梁军 , 柴玉梅 , 原慧斌 , 等 . 基于深度学习的微博情感分析 . 中文信息学报 , 2014, 28(5): 155-161.
5956 次阅读|2 个评论
建议科学网开发一个文本分类和排名的后台程序
热度 2 hyperthink 2012-12-5 14:05
之前看到有人讨论过科学网博文推荐、加精之类的话题,加之科学网诸编辑老师的编辑工作不一定都能透明的为大家所了解,所以建议科学网开发一个文本分类和排名的后台程序。设想如下: 程序主要的功能: 1、对所有博文自动进行文本分类,从而为读者提供更好的检索体验,同时也可以作为编辑老师的辅助工具,还能够建立科学网自己的知识地图; 2、为所有博文开发一个排名模型和工具,如同Google的PageRank,提供更加透明的排名机制,作为编辑老师的辅助工具; 3、开发一些统计、分析工具,这样就能够对一个时期科学网博文所反映的科研趋势、热点词汇等进行数据挖掘和分析,也能够对科学网用户的研究领域进行聚类分析,从而为科学网的用户寻找志趣相投的好友或进行科研合作等提供帮助。 当然,这样的一个程序是具有通用性的,还有其他的价值。呵呵,本人愿意参与这项工作。
1593 次阅读|6 个评论
[转载]“走饭”的微博明显不正常
seawan 2012-3-22 13:35
【 按:下面转载自: http://www.p358.com/news/society/2012/0321/133027.html , 如果有文本分析或者语义学方面的专家,可以将这些微博文本数据分析下, (当然可以扩大采样范围) 总结出来一些规律,用以指导对其他微博文本的自动分级判别预警等。 】 “走饭”的微博明显不正常 “失眠、闭锁、焦躁、容易生气、对所有事情失去兴趣,这些都是抑郁症的典型表现,从她的微博中其实都能看得出来。”杰夫说:“我们平时也会有说类似‘真想死,真不想活了’这种话,但是‘想死’的念头绝不会每时每刻都浮现在我们脑海中,且不会付诸于行动。但是对‘走饭’来说,‘自杀’的念头一直存在,更可怕的是,对于死,她也一直在有所准备。” 杰夫说,从她的微博中,很容易就能发现“不正常”,几乎没有什么转发,所有的原创微博没有任何一条是在述说快乐的事情,频繁地提到死亡,并且会出现诸如“我要是白天思绪像现在如此活跃估计会杀十个人”这样让人匪夷所思的话。 “微博是她唯一的倾诉平台。”杰夫说,其实之前的所有微博都是她的呼救信号,但始终没有人关注到她。
个人分类: 周围|2487 次阅读|0 个评论
Cambridge《自然语言工程》被SCI、SSCI、A&HCI收录
wanyuehua 2010-9-4 08:17
Cambridge《自然语言工程》被SCI、SSCI、A&HCI收录
1995 年创刊的Natural Language Engineering 《自然语言工程》, ISSN: 1351- 3249,季刊,英国剑桥大学出版社(CAMBRIDGE UNIV PRESS, EDINBURGH BLDG, SHAFTESBURY RD, CAMBRIDGE, ENGLAND, CB2 8RU)出版, 2010 年入选 Web of Science 的 Science Citation Index Expanded 、 Social Sciences Citation Index 、 Arts Humanities Citation Index , 目前在SCI数据库可以检索到该期刊2009年的第15卷第1期到2010年第16卷第2期共40篇论文。 该刊是 EI 收录期刊, EI 从 1996 年开始收录, 1997 年被 EI 剔除, 2003 年开始被 EI 重新收录, EI 共收录了该刊 1996 , 2003-2010 年 170 篇论文。 40 篇文章包括学术论文31篇、书评6篇、社论2篇、更正1篇。 40 篇文章的主要国家分布:美国15篇,英国13篇,德国、意大利、荷兰各4篇,法国、土耳其各2篇,中国、瑞士、加拿大、奥地利、澳大利亚、芬兰、以色列各1篇等。 中国学者以通讯作者单位在Natural Language Engineering《自然语言工程》上发表论文的是哈尔滨工业大学(Harbin Inst Technol)1篇。 40 篇文章共被引用8次(其中2009年被引用2次、2010年被引用6次),平均引用0.20次。 Natural Language Engineering《自然语言工程》投稿指南: 该刊主要刊登自然语言工程方面的研究论文、评论、社论、会议论文等,涉及计算机的机器翻译、信息检索、语言识别及生成、对话系统、自然语言加工基础、文本分析、集成系统等。 网址: http://journals.cambridge.org/action/displayJournal?jid=NLE 编委会: http://journals.cambridge.org/action/displayMoreInfo?jid=NLEtype=eb 作者指南: http://journals.cambridge.org/action/displayMoreInfo?jid=NLEtype=ifc
个人分类: SCI投稿|8944 次阅读|1 个评论
中国地方政府创新:动因、特征与绩效——基于“中国地方政府创新奖”的多案例文本分析
mliang 2010-1-1 00:41
吴建南 , 马亮 , 杨宇谦 . 中国地方政府创新:动因、特征与绩效 基于 中国地方政府创新奖 的多案例文本分析 . 管理世界 , 2007, (8): 43-51. (摘录转载于《中国社会科学文摘》, 2008 年第 1 期, 4 页) 论文
个人分类: 发表论文|3248 次阅读|0 个评论
自动标引研究的回顾与展望
热度 2 timy 2008-1-17 16:48
章成志 1, 2    1 (南京理工大学信息管理系 南京 210094 ) 2 (中国科学技术信息研究所 北京 100038 ) 本文对自动标引的研究进行总结与回顾。首先对标引对象进行界定;然后分析自动标引研究的三个阶段、并给出 50 年研究历程中的代表性方法;接着详细描述自动标引研究路线图、并对抽词标引与赋词标引方法进行详细分类;最后指出自动标引中存在的问题、并对今后的自动标引研究和应用方向进行展望。 自动标引;抽词标引;赋词标引 TP391 ; G252 Review and Prospect of Automatic Indexing Research Zhang Chengzhi 1, 2 1 (Department of Information Management , Nanjing University of Science Technology , Nanjing 210094, China ) 2 (Institute of Scientific Technical Information of China , Beijing 100038, China ) The re view of the automatic indexing research is presented. Firstly, the indexing object in the automatic indexing is proposed. Then, three phases and the representative methods of the automatic indexing in the past 50 years are described respectively . The road map of automatic indexing research is explained in detail. The classification of the keyword extraction and keyword assignment methods is put forward respectively . Finally, the issues in the automatic indexing are summarized, and the future research topics and application related to the automatic indexing are discussed. Automatic Indexing, Keyword extraction, Keyword Assignment 1 引 言 自动标引包括关键词自动提取(又称自动抽词标引)与自动赋词标引两种类型。 关键词自动提取是一种识别有意义且具有代表性片段或词汇的自动化技术 。 关键词自动提取 在文本挖掘领域被称为关键词抽取( Keyword Extraction ),在计算语言学领域通常着眼于术语自动识别( Automatic Term Recognition ) ,在信息检索领域,就是指自动标引( Automatic Indexing )。自动标引属于文本信息抽取的范畴。文本信息抽取是从文本数据中抽取人们关注的特定的信息。 由于关键词是表达文件主题意义的最小单位,因此大部分对非结构化文件的自动处理,如自动标引、自动摘要、自动分类、自动聚类、相关反馈、自动过滤、事件检测与跟踪、知识挖掘、信息可视化、概念检索、检索提示、关联知识分析、自动问答等,都必须先进行关键词提取的动作,再进行其他的处理。可以说,关键词提取是所有文件自动处理的基础与核心技术 。 目前大多文档都不具有关键词 , 同时手工标引费力费时且主观性较强 , 因此关键词自动标引是一项值得研究的技术 。 2 标引对象的界定 在对自动标引的研究做比较分析时,首先要明确自动标引的对象,即关于标引主体的问题。与自动标引比较相关的概念,主要有标引词、主题词、关键短语、术语等,本节对这些概念做个简要介绍。 标引词是指表示文献内容特征的词语,包括主题词、关键词、关键词短语(也称关键短语)等。 在图书情报领域,关键词是指揭示文献主题的、有实质意义的语词,一般来源于文献的标题、摘要、正文等部分 。 在图书情报界,主题是指能概括文献的主要内容、具有一定描述规则的规范化词语。在自然语言处理研究领域中的话题检测与跟踪( Topic Detection and Tracking )研究中,话题通常被定义为由某些原因或条件引起的发生于特定时间和地点、并可能伴随某些必然结果的一个事件 。在语言学界,与主题这一概念相关概念的还有话题。本文对主题的研究仅限于图书情报领域所研究的主题。主题词又称叙词。它是以概念为基础从自然语言中优选出来,经过规范化处理的具有组配功能的动态性词或词组。在情报检索中,用它来描述文献和检索提问的主题内容。它是构成主题词表的最小词汇单元。主题词包括正式主题词和非正式主题词两种。正式主题词是规范化的、用于标引和检索的词或词组;非正式主题词是收在主题词表中,提供从非规范词指向规范词的检索入口的引导词。主题词或主题词集合是浓缩程度最高、涵义最明确的替代文献形式 。 关键短语是具有强文本表示功能的特征短语。所谓强文本表示功能,是指在文本表示时,能将文本的内容特征(例如领域类别、主题思想、中心意义等)鲜明地表示出来 。通常所说的短语范围很广,包括自由短语、固定短语和半固定短语三类 。 术语是各门学科为确切表达本领域内的概念而创造和使用的专门词语 。 可以看出关键词概念比较模糊,有的关键词本身就是关键短语。图 1 给出术语、主题和标引词的关系。如图 2 所示,根据文本描述颗粒度不同,可将信息描述粗分为自然语言和控制词表两种方法,其中自然语言途径主要有全文、文摘、标题、关键短语、关键词等,控制词表途径主要有描述符、标题词、分类号、主题词等。 需要指出的是,本文对自动标引中的标引对象界定为关键词、关键短语或主题词。 3 自动标引的五十年 研究历程 3.1 自动标引研究的三个阶段 从 Luhn 于 1957 年开始进行自动标引后开始,到目前为止,自动标引研究经历了 50 年的发展历程。一直到 20 世纪 90 年代初,关于关键词自动提取的研究一直就没有停止过。 20 世纪 90 年代初到 90 年代末,自动标引研究渐渐冷却,原因主要包括: ① 全文索引逐渐被人采用,并且基本上能满足用户需要; ② 传统的自动标引方法的效率到了极限; ③ 网络兴起之初的冲击与信息需求环境的改变。 20 世纪 90 年代末一直到现在,关键词自动提取的研究逐渐升温,尤其是最近几年, 关键词自动提取研究进行的如火如荼,产生该现象的主要原因为: ① 全文索引的功能越来越难以满足实际需求,用户需要更加精确的结果; ② 另外互联网的很多服务,例如自动摘要,文档分类与聚类,文本分析,主题检索等都要依赖于关键词自动提取的结果,只有这样才能有希望从根本上提高信息服务质量。 3.2 五十年研究的代表方法 根据见诸于报道的自动标引研究情况,结合自动标引研究领域的影响程度和自动标引方法的创新程度,笔者归纳出 1957~2007 年五十年时间里比较有代表性的自动标引方法。 1957年,Luhn开始自动标引研究,首次将计算机技术引入文献标引领域,开创了以词频为特征的统计标引方法,其理论基础是Zipf定律,该方法具有一定的客观性和合理性,并且简单易行,在自动标引中占有重要地位 ; 1958年,Luhn提出基于绝对频率加权法的自动标引方法 ;P.B.Baxendale提出从论题句和介词短语中自动提取关键词 ; 1959年,Edmundson与Oswald提出基于相对频率加权法的自动标引方法 ; 1960年,Maron Kuhns提出基于相关概率的赋词标引方法 ; 1969年,H.P.Edmundson提出了一些新的加权方法,如提示词(预示词)加权法、题名加权法、位置加权法,并探讨了不同加权法的最优组合问题 ; 1970年,Lois L. Earl利用句法分析等语言学方法与词频统计方法相结合的方法来提取关键词 ; 1973年,Salton等提出基于词区分值的自动标引方法 ; 1975年,Salton等将VSM模型用于自动标引中 ; 1983年,Dillon等提出一种基于概念的自动标引方法,研制了FASIT系统 ; 1985年,Devadason提出基于深层结构标引方法 ; 1990年,Deerwester Dumais等提出潜在语义分析标引法 ; 1993年,Silva Milidiu提出基于相信函数模型的赋词标引方法 ; 1995年,Cohen提出N-Gram分析法的自动标引方法 。 1997年,简立峰提出基于PAT树的关键词提取方法 ; 1999年,Frank等人提出基于朴素贝叶斯(Naive Bayes,NB)的关键词提取方法 ; Turney 利用遗传算法和C4.5决策树算法等机器学习方法进行关键短语提取的研究 ; 2001年,Anjewierden Kabel提出基于本体的自动标引方法 ; 2003年,Tomokiyo Hurst提出了基于语言模型的关键词提取方法 ;Hulth利用Bagging算法进行了基于集成学习的关键词抽取 ; 2004年,李素建提出基于最大熵模型的关键词提取方法 ; 2006年,张阔提出基于SVM自动标引模型 ; 2007年,Ercan, G. Cicekli, I提出基于词汇链的自动标引方法 。 4 自动标引研究路线图 与方法分类 通过对自动标引研究的综述,本文总结出自动标引的研究路线图( Road Map )如图 3 所示。主要有三个领域的研究者对自动标引进行了不同角度的研究,即:图书情报领域,主要从资源构建角度进行研究,为主题标引提供了丰富的词表资源;语言学领域从语言分析的角度研究了主题提取的机制与方法,利用词法知识、句法知识、语义知识以及篇章知识进行不同层次的主题提取研究;人工智能领域主要从机器学习角度对自动标引进行了大量的研究,如利用启发式知识、标记数据的机器学习、无标记的机器学习、集成学习等方法的运用。 如图 3 所示,这三个领域分别从两个维度对自动标引进行研究,即:自动化程度维度,先后经历人工标引、机器辅助标引、自动标引等阶段;知识复杂程度维度,先后经历字、词、短语、语块、句法、语义、篇章结构等不同颗粒度的多种知识。 4.1 自动标引方法分类 根据标引结果的来源不同,可以将自动标引分为抽词标引和赋词标引。表 1 对抽词标引和赋词标引方法做了详细的分类,描述了具体的方法,并给出了各种方法的优缺点。 4.2 抽词标引方法的详细分类 如前所述,根据标引的词语的来源不同,可以将自动标引分为自动抽词标引和自动赋词标引。自动抽词标引是指直接从原文中抽取词或短语作为标引词来描述文献主题内容的过程。它涉及到如何从原文中抽取能够表达其实质意义的词汇,以及如何根据这些词汇确定标引词 。赋词标引是指使用预先编制的词表中词来代替文本中的词汇进行标引的过程。即,将反映文本主题内容的关键词(欲用作标引的关键词)转换为词表中的主题词(或叙词等),并用其标引的方法 。 自动抽词标引,可以进行如下的大致分类。 4.2.1 从机器学习角度分类 l 监督学习:将关键词自动提取看成一种分类问题: NB , SVM 等; l 非监督学习:利用非监督学习方法,如聚类方法获取关键词。 图 4 给出了基于机器学习的自动抽词方法的逻辑视图。 4.2.2 从所使用的特征分类 l 规则信息,多为语言学特征,如标题、章节名、名词等作为关键词的概率大,相应的对这些特征赋予较高权重。其他的规则信息还包括对首次出现位置(DEP)靠前的、词性(POS)名词性成分高的词语赋较大权重等; l 统计信息,TF*IDF 、长度,短语的独立性等。 4.3 赋词标引方法详细分类 通常的赋词标引方法是借助于外部资源,如后控词表(包括同义词、上下位词、相关词等)、叙词表、本体等资源,将自动赋词过程转换为主题词的分类过程,或将文本的关键词转换为主题词。如图 5 所示,根据赋词标引所依据的外部资源对赋词标引方法进行详细分类。 5 自动标引存在的问题 与研究展望 5.1 自动标引存在的问题 自动标引中存在的问题包括标引数据集不平衡问题、标引代价敏感问题、标引数据标注瓶颈问题、标引颗粒度问题、标引关键词数问题、标引结果评价问题、标引系统实用化问题等 7 个方面的问题。下面分别对这 7 个问题进行说明。 5.1.1 标引数据集不平衡问题 对于一个文本来说,通常标引的关键词词数为 3-5 个,标引的关键词词数要远小于标引的非关键词词数。从自动分类角度来看,这个问题一般被称为分类数据集不平衡问题。在数据偏斜的情况下,样本无法准确反映整个空间的数据分布,分类器容易被大类淹没而忽略小类,分类不平衡问题是导致分类效果不理想的一个重要因素 。 5.1.2 标引代价敏感问题 在实际的关键词标引中,人们一般不希望将关键词误标为非关键词, 一个关键词漏标的代价比将一个非关键词标为关键词的代价高。 这个问题一般被称为 代价敏感问题。 5.1.3 标引数据标注瓶颈问题 机器 学习算法需要大量的标引样本,但已标引的样本所能提供的信息有限。另一方面,容易获得的未标引样本(如互联网上网页)数量相对于标引样本较多,且更接近整个样本空间上的数据分布。提供尽可能多的标引样本需要艰苦而缓慢的手工劳动,制约了整个系统的构建,这就产生了一个标注瓶颈的问题 。因此 , 如何用少量的已标引样本和大量的未标引样本训练出一个好分类器,逐渐引起人们的关注 。 5.1.4 标引颗粒度问题 一般说来,较专指的词适合作关键词,但专指度并不是越大越好。过于专指,不仅增加了自动标引的难度,而且,在实际应用中,比如信息检索中,由于该词过于专指,不被一般用户所接受,使得该词作为检索入口的概率就会减小。在文本聚类中,专指越多,则特征向量越容易稀疏,增加了聚类的难度。因此,应该根据应用的场合,进行专指度自适应式的关键词自动标引。 5.1.5 标引关键词数问题 对标引的关键词数有限制。根据应用场合选择合适的数目。在信息检索中,关键词作为一个揭示文本主题的单位,标引的关键词数适合定在 9 个词以内。主要原因为:首先,根据 7 (+/-) 2 认知规则 , 9 是一般用户不需要特别努力,能够记住的词条个数 ;其次,文献的关键词手工标引词一般为 3~5 个,最多小于 10 个。值得注意的是,在某些文件自动处理(如自动分类、自动聚类)应用中,为了增加特征数目,同时又不至于产生高维数据问题,一般将关键词数目控制在 50 左右即可达到很好的特征选择效果 。 5.1.6 标引结果评价问题 传统的作法是对照人工标引的结果或者专家打分的方式,如 863 自动文摘测评中关于关键词提取的评估方法,这种方法比较主观,成本也比较高。因此,构建一个自动标引的通用评价模型,以减少自动标引的主观性,节省评价成本,是一项有意义的工作 。 5.1.7 标引系统实用化问题 绝大多数标引系统不是完全自动的,标引技术仍然处于实验阶段。正如十几年前 Wellisch 的比喻:自动标引系统的研制在某种意义上恰似机械鸟的制造,经过 20 多年的试验,有些外貌开始像鸟,有些能够模仿几声鸟鸣,有些能扑打一番翅膀,但至今还没有一只会飞、会鸣 。十多年过去了,标引系统的进一步实用化依然是人们追求的目标。 5.2 自动标引研究与应用展望 从自动标引研究路线图可以看出,自动标引的研究主流方法为 统计学习模型与语言知识(如词类、句法、语义、篇章结构等)的结合。今后的研究趋势主要存在如下四个方向。 5.2.1 本体的自动构建,并用于自动赋词标引中 从自动标引的研究历史可以看出,绝大部分研究集中在抽词标引上面,图书情报、语言学、人工智能三个领域的研究者都对抽词标引进行了大量的研究与应用。由于资源的匮乏或词表造价昂贵,使得赋词标引研究与应用相对较少。即便如此,机器辅助编制词表的研究一直没有停止过,该研究成果可以直接用于赋词标引。近年来,随着本体学习的研究的不断深入,本体有望自动或半自动地被构建,并且可用于自动赋词标引当中。基于本体的自动赋词方法是在概念层面上对文本进行标引,并能识别概念之间的关系,标引结果可以用于语义检索当中。 5.2.2 多种标引方法的集成学习、更理想的机器学习方法的运用 标引是一项富有智能性的工作。我们可以借助认知理论对标引任务进行分析和理解 。自动标引模型,从最初依据启发式知识进行标引,发展到后来利用监督学习与非监督学习方法进行标引,都只是从一定程度上对标引行为进行拟合。目前还没有一种方法能完全能模拟并达到标引员的标引能力。多种模型或方法的集成,能在一定程度上提高自动标引的质量。多种标引模型或方法的集成学习要求每个标引模型标引结果存在差别,同时保证标引结果优于随机猜测的结果。因此,寻求更加理想的机器学习方法,并用于自动标引任务中,是今后自动标引研究的趋势之一。 5.2.3 深层语言知识的获取及其在自动标引任务中的运用 自动标引主要依据候选对象的若干特征进行分析,将主题表达能力强的候选对象作为标引结果,如本文的标引结果为 自动标引;抽词标引;赋词标引。在所使用的特征当中,绝大部分是通过词法分析或少量的句法分析而来。随着深层语义分析和篇章分析研究的不断深入,这些研究成果可用于自动标引任务,提高标引质量。 5.2.4 自动标引的应用领域将不断扩展 最初,自动标引被用来解决文献缺少关键词这一问题。自动标引发展到今天,应用早已超过这一范围,它已经被广泛用于文本检索、自动问答、文本知识发现(或称文本挖掘)等领域。今后,随着互联网海量数据规模的进一步扩大,信息爆炸问题将变得更加紧迫。对信息资源进行基于主题的自动标引,并进行后续的数据挖掘,不仅能解决高维数据计算问题,并且能从主题或语义层次上对信息资源进行揭示和控制。随着语义网的不断深入研究和应用,作为一个传统的研究课题,自动标引将不断被赋予新的含义和特定任务。同时,自动标引的应用领域将不断扩展。 参考文献 : 1 曾元显 . 关键词自动提取技术与相关词反馈 . 中国图书馆学会会报 , 1997, 59: 59-64. 2 王强军 , 李芸 , 张普 . 信息技术领域术语提取的初步研究 . 术语标准化与信息技术 ,2003, 1: 32-33, 37. 3 Xun E, Huang C, Zhou M. A Unified Statistical Model for the Identification of English baseNP. In: Proceedings of 4th ACM Conference on Digital Libraries, Beakeley , CA , USA , 2000: 254-255. 4 李素建 , 王厚峰 , 俞士汶 , 辛乘胜 . 关键词自动标引的最大熵模型应用研究 . 计算机学报 , 2004, 27(9):1192-1197. 5 张燕飞 . 信息组织的主题语言 . 武汉 : 武汉大学出版社 , 2005: 226. 6 Allan J, Carbonell J, Doddington G, Yamron J, Yang Y. Topic Detection and Tracking Pilot Study: Final Report. In: Proceedings of DARPA Broadcast News Transcription and Understanding Workshop. Lansdowne , Virginia , USA , 1998: 194-218. 7 侯汉清 , 马张华 . 主题法导论 . 北京 : 北京大学出版社 , 1991: 1. 8 刘华 . 基于关键短语的文本内容标引研究 . 北京语言大学博士学位论文 . 2005: 11-13. 9 戚雨春 , 董达武 , 许以理 , 陈光磊 . 语言学百科词典 . 上海 : 上海辞书出版社 , 1993: 97. 10 Lahtinen T. Automatic Indexing: an Approach Using an Index Term Corpus and Combining Linguistic and Statistical Methods. Academic Dissertation, University of Helsinki , Finland , 2000: 34. 11 Harter S P. Online Information Retrieval: Concepts, Principles and Techniques. Orlando , Florida : Academic Press, Inc., 1986: 42. 12 Luhn H P. A Statistical Approach to Mechanized Encoding and Searching of Literary Information. IBM Journal of Research and Development, 1957, 1(4): 309-317 13 Luhn H P. The Automatic Creation of Literature Abstracts. IBM Journal of Research and Development. 1958. 2(2): 159-165. 14 Baxendale P E. Machine-made Index for Technical Literature an Experiment. IBM. Journal of Research and Development, 1958, 2(4): 354-361. 15 Edmundson H P, Oswald V A. Automatic Indexing and Abstracting of the Contents of Documents. Planning Research Corp, Document PRC R-126, ASTIA AD No. 231606, Los Angeles , 1959: 1-142. 16 Maron M E, Kuhns J L. On Relevance, Probabilistic Indexing and Information Retrieval. Journal of the Association for Computer Machinery, 1960, 7(3): 216-244. 17 Edmundson H P. New Methods in Automatic Abstracting Extracting. Journal of the Association for Computing Machinery, 1969, 16(2): 264-285. 18 Lois L E. Experiments in Automatic Indexing and Extracting. Information Storage and Retrieval, 1970, 6: 313-334. 19 Salton G, Yang C S. On the Specification of Term Values in Automatic Indexing, Journal of Documentation, 1973, 29(4): 351-72. 20 Salton G, Wong A, Yang C S. A Vector Space Model for Automatic Indexing. Communications of ACM, 1975, 18(11): 613-620. 21 Dillon M, Gray A S. FASIT: A Fully Automated Syntactically Based Indexing System. Journal of the American Society for Information Science, 1983, 34(2): 99-108. 22 Devadason F. Computerization of Deep Structure Based Indexes. International Classification, 1985, 12(2): 87-94. 23 Deerwester S, Dumais S T, Landauer T K, Furnas G W, Harshman R A. Indexing by Latent Semantic Analysis. Journal of the American Society for Information Science, 1990, 41(6): 391-407. 24 Silva W T, MiliDiu R L. Belief Function Model for Information Retrieval. Jounral of the American Society for Information Science, 1993, 44(1): 10-18. 25 Cohen J D. Highlights: Language and Domain-independent Automatic Indexing Terms for Abstracting. Journal of the American Society for Information Science, 1995, 46(3): 162-174. 26 Chien L F. PAT-tree-based Keyword Extraction for Chinese Information Retrieval. In: Proceedings of the 20th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR1997), Philadelphia, PA, USA, 1997: 50-59. 27 Frank E, Paynter G W, Witten I H. Domain-Specific Keyphrase Extraction. In: Proceedings of the 16th International Joint Conference on Aritifcal Intelliegence, Stockholm, Sweden, Morgan Kaufmann, 1999: 668-673. 28 Turney P D. Learning to Extract Keyphrases from Text. NRC Technical Report ERB-1057, National Research Council , Canada . 1999: 1-43. 29 Anjewierden A, Kabel S. Automatic Indexing of Documents with Ontologies. In: Proceedings of the 13th Belgian/Dutch Conference on Artificial Intelligence (BNAIC-01), Amsterdam , Neteherlands, 2001: 23-30. 30 Tomokiyo T, Hurst M. A language Model Approach to Keyphrase Extraction. In: Proceedings of the ACL Workshop on Multiword Expressions: Analysis, Acquisition Treatment, Sapporo , Japan , 2003: 33-40. 31 Hulth A. Improved Automatic Keyword Extraction Given More Linguistic Knowledge. In: Proceedings of the 2003 Conference on Emprical Methods in Natural Language Processing, Sapporo , Japan , 2003: 216-223. 32 Zhang K, Xu H, Tang J, Li J Z. Keyword Extraction Using Support Vector Machine. In: Proceedings of the Seventh International Conference on Web-Age Information Management (WAIM2006), Hong Kong , China , 2006: 85-96. 33 Ercan G, Cicekli I. Using Lexical Chains for Keyword Extraction. Information Processing and Management, 2007, 43(6): 1705-1714. 34 韩客松 , 王永成 . 中文全文标引的主题词标引和主题概念标引方法 . 情报学报 , 2001, 20(2): 212-216. 35 索红光 , 刘玉树 , 曹淑英 . 一种基于词汇链的关键词抽取方法 . 中文信息学报 , 2006, 20(6): 25-30. 36 Dennis S F. The Design and Testing of a Fully Automatic Indexing-searching System for Documents Consisting of Expository Text. In: G. Schecter eds. Information Retrieval: a Critical Review, Washington D. C.: Thompson Book Company, 1967: 67-94. 37 Salton G, Buckley C. Automatic Text Structuring and Retrieval Experiments in Automatic Encyclopaedia Searching. In: Proceedings of the Fourteenth SIGIR Conference, New York : ACM, 1991: 21-30. 38 Salton G, Yang C S, Yu C T. A Theory of Term Importance in Automatic Text Analysis, Journal of the American society for Information Science, 1975, 26(1): 33-44. 39 马颖华 , 王永成 , 苏贵洋 , 张宇萌 . 一种基于字同现频率的汉语文本主题抽取方法 . 计算机研究与发展 , 2004, 40(6): 874-878. 40 Matsuo Y, Ishizuka M. Keyword Extraction from a Single Document Using Word Co-ocuurrence Statistical Information. International Journal on Artificial Intelligence Tools, 2004, 13(1): 157-169. 41 Witten I H, Paynter G W, Frank E, Gutwin C, Nevill-Manning C G. KEA: Practical Automatic Keyphrase Extraction. In: Proceedings of the 4th ACM Conference on Digital Library (DL99) , Berkeley , CA , USA , 1999: 254-26. 42 张庆国 , 薛德军 , 张振海 , 张 君玉 . 海量数据集上基于特征组合的关键词自动抽取 . 情报学报 , 2006, 25(5): 587-593. 43 Keith Humphreys J B. Phraserate: An Html Keyphrase Extractor. Technical Report, University of California , Riverside , 2002: 1-16. 44 侯汉清 , 章成志 , 郑红 . Web 概念挖掘中标引源加权方案初探 . 情报学报 , 24(1): 87-92. 45 Boris L, Andreas H. Automatic Multi-lable Subject Indexing in a Multilingual Environment. In: Proceedings of 7th European Conference in Research and Advanced Technology for Digital Libraries (ECDL 2003), Trondheim , Norway , 2003: 140-151. 46 苏新宁 . 信息检索理论与技术 , 北京 : 科学技术文献出版社 , 2004: 215-217. 47 曾蕾 . 知识组织系统 . 见 : 曾民族主编 . 知识技术及其应用 . 北京 : 科学技术文献出版社 , 2006: 122. 48 苏金树 , 张博锋 , 徐昕 . 基于机器学习的文本分类技术研究进展 . 软件学报 , 2006, 17(9): 1848-1859. 49 Yaakov H-K. Automatic Extraction of Keywords from Abstracts. In: Proceedings of the 7th Internationl Conference on Knowledge-Based Intelligent Information and Engineering Systems (KES2003), Oxford , UK , 2003: 843-946. 50 Leouski A V, Croft W B. An Evaluation of Techniques for Clustering Search Results. Technical Report IR-76, Department of Computer Science, University of Massachusetts , Amherst , 1996: 1-19. 51 章成志 . 主题聚类及其应用研究 , 南京大学博士学位论文 , 2007: 28-50. 52 储荷婷 . 索引自动化 : 自动标引的主要方法 . 情报学报 , 1993,12(3): 218-229. 53 Medelyna O. Automatic Keyphrase Indexing with a Domain-Specific Thesaurus. Master Thesis, University of Freiburg , Germany , 2005: 23-26. 注:本文发表于《现代图书情报技术》2007年第11期。 全文链接地址: http://www.sciencenet.cn/upload/blog/file/2008/8/200882621585975867.pdf 相关论文: Automatic Keyword Extraction from Documents Using Conditional Random Fields ( PPT ) 基于Citation-KNN的语义隐含主题词自动抽取方法
个人分类: 文本挖掘|10267 次阅读|11 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-5 04:21

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部