老码农分享 http://blog.sciencenet.cn/u/seawan //敲键读书打酱油;

博文

按标题搜索
TermDocumentMatrix的几个参数
2012-6-17 20:29
从网上找到的代码片段, 在对分词后的中文文本进行处理时, 往往仅仅使用类似: c - Corpus(VectorSource(re)) 的代码,来构造语料库,然后使用 TermDocumentMatrix(c) 函数,来求词汇文档矩阵。 例如这个博文: 中文文本挖掘小例子及程序 http://blog.sina.com.cn/s/blog_04f7e6c10100pwt2.ht ...
个人分类: tm|11019 次阅读|没有评论
两句最简单R命令,竟然频繁出错~~~
2012-6-12 14:15
library(rJava) .jpackage(name="rJava") 命令行提示符下,手敲进去,不出错。 放到.R脚本中,就经常出错(有时候又正常了),什么不能加载JVM。。。: 错误于.jinit() : Cannot create Java virtual machine (-4) 郁闷。。。。。
个人分类: tm|2968 次阅读|没有评论
在R下使用MMSeg4j中文分词
2012-6-9 07:16
中文分词程序:MMSeg4j: http://code.google.com/p/mmseg4j/ 根据程序的结构(现在是1.8版了,mmseg4j-all-1.8.5-with-dic.jar)和rJava接口包的要求,我使用下面的方法直接在R中生成MMSeg4j的Java对象,并调用该对象的方法来获取分词结果: R命令 (预先要安装rJava包): library(rJava ...
个人分类: tm|7594 次阅读|没有评论
mmseg4j: 中文分词
2012-6-4 19:50
http://code.google.com/p/mmseg4j/ 这是一个96年发表的分词算法 的一个实现。算法页面: http://technology.chtsai.org/mmseg/ 下载试了试,对古文的效果也不错。估计使用自定义的词典后效果更好。 =============随便跳了两段话,直接在命令行中分词的结果==================== mmseg4j-complex ...
个人分类: tm|4356 次阅读|没有评论

本页有 3 篇博文因作者的隐私设置或未通过审核而隐藏

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-20 13:09

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部