老码农分享 http://blog.sciencenet.cn/u/seawan //敲键读书打酱油;

博文

TermDocumentMatrix的几个参数: 2012-6-17 20:29; 从网上找到的代码片段，在对分词后的中文文本进行处理时，往往仅仅使用类似： c - Corpus(VectorSource(re)) 的代码，来构造语料库，然后使用 TermDocumentMatrix(c) 函数，来求词汇文档矩阵。例如这个博文：中文文本挖掘小例子及程序 http://blog.sina.com.cn/s/blog_04f7e6c10100pwt2.ht ...; 个人分类: tm|11019 次阅读|没有评论

两句最简单R命令，竟然频繁出错～～～: 2012-6-12 14:15; library(rJava) .jpackage(name="rJava") 命令行提示符下，手敲进去，不出错。放到.R脚本中，就经常出错（有时候又正常了），什么不能加载JVM。。。：错误于.jinit() : Cannot create Java virtual machine (-4) 郁闷。。。。。; 个人分类: tm|2968 次阅读|没有评论

在R下使用MMSeg4j中文分词: 2012-6-9 07:16; 中文分词程序：MMSeg4j： http://code.google.com/p/mmseg4j/ 根据程序的结构（现在是1.8版了，mmseg4j-all-1.8.5-with-dic.jar）和rJava接口包的要求，我使用下面的方法直接在R中生成MMSeg4j的Java对象，并调用该对象的方法来获取分词结果： R命令（预先要安装rJava包）： library(rJava ...; 个人分类: tm|7594 次阅读|没有评论

mmseg4j: 中文分词: 2012-6-4 19:50; http://code.google.com/p/mmseg4j/ 这是一个96年发表的分词算法的一个实现。算法页面： http://technology.chtsai.org/mmseg/ 下载试了试，对古文的效果也不错。估计使用自定义的词典后效果更好。 =============随便跳了两段话，直接在命令行中分词的结果==================== mmseg4j-complex ...; 个人分类: tm|4356 次阅读|没有评论

本页有 3 篇博文因作者的隐私设置或未通过审核而隐藏

王水

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-20 13:09

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部