科学网

 找回密码
  注册

tag 标签: 文本信息分析

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

面向传统文化的文本信息分析——中信所《情报分析技术》第十次课
huabolin 2011-5-10 09:23
本次课主要讨论面向传统文化的文本信息分析,包括成语接龙系统、对联测评与生成系统、计算机辅助写诗系统。通过对这些系统的剖析、设计与讨论,发现所谓的智能系统也无非是知识库加上个检索接口。本来看似和情报学无关的东西,但核心技术竟是检索,而检索曾经是情报学的看家本领。遂得出以下两点结论: 1 .万事万物皆检索(有点夸张了) 2 .智能是相对的,知之为知识,不知为智能 。 现代情报分析技术课程讲到中国传统文化,课程也该画句号了。 点击下载: 第十讲 面向传统文化的文本信息分析.pdf
个人分类: 文本分析|3860 次阅读|0 个评论
面向学术问题的文本信息分析——中信所《情报分析技术》第九次课
huabolin 2011-5-10 09:00
本次课探讨面向学术问题的文本信息分析,包括学术抄袭与科学引用检测系统,文献自动综述系统,基于学位论文致谢的导师评价系统。 学术抄袭检测系统与科学引用自动标注系统是一种技术,只不过应用不同而已,前者用于论文出手以后,后者用于论文出手以前;前者是“整人”的,后者是“帮人”的。每次写文章或写书,用于参考文献标注的时间都很多,如果有个系统能自动标注就好了。现在有一些参考文献管理软件,如 EndNote, NoteExpress 等,但是来自于哪个文献,标注在哪个地方,这些软件并不能自动实现。 抄袭检测系统把相同的句段检测出来,如果把文章的不同部分抽取来,集成到一起,不就形成文献自动综述?每一个主题都有成百上千篇论文,这些论文中又有很多相同的部分,如果把相同部分滤掉,不同部分重组不就形成了文献自动综述? 基于学位论文致谢可以对导师的风格进行评价。对学位论文致谢中的形容词与副词(大部分是四字成语)进行词频统计确定导师的特点。致谢中大都使用褒义词或中性词,很少会有贬义词。但是褒义词的数量、侧重会有所不同。 以上这些系统说到底,也是检索与计量分析的问题,而检索与计量是情报学的两大支柱。 点击下载: 第九讲 面向学术问题的文本信息分析.pdf
个人分类: 文本分析|4290 次阅读|0 个评论
情报分析前沿技术——中信所研究生《情报分析技术》第八次课
热度 2 huabolin 2011-5-4 15:47
从本次课开始,进入前沿探讨阶段,以专题形式探讨情报分析技术的前沿进展,开拓大家的视野与思路,并为情报技术方向的同学选题提供参考。本次课内容主要从快、准、精、专、新五个方面进行探讨。具体如下: 快:信息获取与信息检索 准:信息抽取与自动问答 精:自动摘要与自动综述 专:知识管理与知识工程 新:数据挖掘与知识发现 点击下载 第八讲 文本信息分析前沿技术.pdf
个人分类: 情报探讨|4202 次阅读|2 个评论
知识抽取中的停用词处理技术
huabolin 2008-10-24 13:13
知识抽取中的停用词处理技术 化柏林 ( 中国科学技术信息研究所,北京 100038) (发表于《现代图书情报技术》2007年第8期) 【摘要】 在知识抽取的分词过程中,需要提前把停用词标引出来。停用词处理的关键在于停用词的认定、停用词表的获取与组织技术以及停用词匹配技术。停用词的识别常常需要停用词表,识别过程中需要判断假停用词以降低噪声。实验表明,对停用词进行单独处理可以大大加快词语切分速度以及后续的句法分析归约速度。 知识抽取中的停用词处理技术
个人分类: 知识抽取|4597 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-11 14:08

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部