博文

不做特征选择，就不知道去停词的重要性

已有 5121 次阅读 2012-5-10 21:01 |个人分类:weka|系统分类:科研笔记|关键词:学者| 停用词, 特征选择, 中文文本分类, 停词

之前，我曾经觉得不去停词也可以。这两天试做特征选择，才意识到去停词的重要性。

一个包含984个实例的中文文本训练集（含数字和英文字母单词等），竟然有3500多个特征，做一次Greedstepwise的特征选择用了14个小时还没有结果。

我决定必须去停词，而且打算使用大停词表。

处理如下：

(stopword.is(word)|| word.length()<2||word.charAt(0)>='0'&&word.charAt(0)<='9'
||word.charAt(0)>='a'&&word.charAt(0)<='z')

其中stopword是用的weka的Stopwords类，停词表是去掉单字的哈工大表。

确实去掉了很多词。但对1084个中文文本实例进行分析，仍然有4880个特征。对分词后的训练集进行特征选择（filter），发现耗费时间的主要是调用evaluateSubset 处理非数字字段，weka文件名 CfsSubsetEval.java。而且，处理速度一开始还挺快，越来越慢，到1000个特征以后就几乎慢得1秒一个了。

开始怀疑是IK的分词效果不好，换了JE，结果竟然完全一样，一个数都不差！这可怎么办？

转载本文请联系原作者获取授权，同时请注明本文来自李向东科学网博客。
链接地址：https://m.sciencenet.cn/blog-713110-569413.html

上一篇：Weka中的特征选择(Attribute selection)
下一篇：一个分类模型的评估数据

收藏分享

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

李向东

扫一扫，分享此博文

lixiangdong的个人博客分享 http://blog.sciencenet.cn/u/lixiangdong

博文

不做特征选择，就不知道去停词的重要性

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

李向东

全部精选博文导读

相关博文

lixiangdong的个人博客分享 http://blog.sciencenet.cn/u/lixiangdong

博文

不做特征选择，就不知道去停词的重要性

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

李向东

全部精选博文导读

相关博文

该博文允许注册用户评论请点击登录评论 (0 个评论)