科学网

 找回密码
  注册

tag 标签: 停用词

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

不做特征选择,就不知道去停词的重要性
lixiangdong 2012-5-10 21:01
之前,我曾经觉得不去停词也可以。这两天试做特征选择,才意识到去停词的重要性。 一个包含984个实例的中文文本训练集(含数字和英文字母单词等),竟然有3500多个特征,做一次Greedstepwise的特征选择用了14个小时还没有结果。 我决定必须去停词,而且打算使用大停词表。 处理如下: (stopword.is(word)|| word.length()2||word.charAt(0)='0'word.charAt(0)='9' ||word.charAt(0)='a'word.charAt(0)='z') 其中stopword是用的weka的Stopwords类,停词表是去掉单字的哈工大表。 确实去掉了很多词。但对1084个中文文本实例进行分析,仍然有4880个特征。对分词后的训练集进行特征选择(filter),发现耗费时间的主要是调用 evaluateSubset 处理非数字字段,weka 文件名 CfsSubsetEval.java。而且,处理速度一开始还挺快,越来越慢,到1000个特征以后就几乎慢得1秒一个了。 开始怀疑是IK的分词效果不好,换了JE,结果竟然完全一样,一个数都不差!这可怎么办?
个人分类: weka|5097 次阅读|0 个评论
知识抽取中的停用词处理技术
huabolin 2008-10-24 13:13
知识抽取中的停用词处理技术 化柏林 ( 中国科学技术信息研究所,北京 100038) (发表于《现代图书情报技术》2007年第8期) 【摘要】 在知识抽取的分词过程中,需要提前把停用词标引出来。停用词处理的关键在于停用词的认定、停用词表的获取与组织技术以及停用词匹配技术。停用词的识别常常需要停用词表,识别过程中需要判断假停用词以降低噪声。实验表明,对停用词进行单独处理可以大大加快词语切分速度以及后续的句法分析归约速度。 知识抽取中的停用词处理技术
个人分类: 知识抽取|4607 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-18 06:10

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部