博文

文献挖掘工具

已有 8875 次阅读 2011-4-12 22:14 |个人分类:科研进行时|系统分类:科研笔记|关键词:学者| 互联网, 关键词, 网页, 编程语言

如何从数以亿计的文献中，挖掘自己所需要的信息是一件十分复杂的事情。尽管，我们可以通过编程语言的处理就可达到目的，但是互联网中各种不同格式的网页或文本，其字段、关键词、数据、表格、链接抓取等并不是那么容易，特别是pdf文献中那些各种版式的表格、图片、关键语句的获取更是不太容易。这里首推SciMiner。

SciMiner是一个基于网页服务的生物文献挖掘工具。具体可从这个站点了解：http://jdrf.neurology.med.umich.edu/SciMiner/。这个工具采用lighttpd驱动，结合数据库Mysql，进行文献的批量挖掘。要下载它，需要使用学术单位邮件地址向进行申请。当前，这个软件包有两种类型，一种可以自行安装配置的核心包，大小145M，而另一种则是预配置好的VmwarePlayer包（即是说，可以利用虚拟机VmwarePlayer直接使用），大小1.1G。核心包的安装需要以下组件或库文件支持（来自SciMiner安装手册）：

MySQL database
ImageMagick
Web-server (如Lighttpd)
CGI
Perl
Perl模组： Boulder::Medline；YAML；Text::NSP；CGI::Debug；CGI::Simple；CGI::Session；CGI::Application； HTML::Template；Data::Dumper；Unicode::String；XML::XPath；Spreadsheet::WriteExcel

这个工具推荐使用Linux系统来安装使用，比如可使用BioInfoServ 4.0来安装使用，可省去windows中不必要的麻烦。至于具体的安装配置教程，有空找个时间写个文档出来，供大家参考。

其他的挖掘工具还有很多，下面这个网页就值得参考：

转载本文请联系原作者获取授权，同时请注明本文来自刘明伟科学网博客。
链接地址：https://m.sciencenet.cn/blog-563198-432470.html

上一篇：关于浏览器
下一篇：firfox 4正式入住BioInfoServ 4软件仓库

收藏分享

当前推荐数：1 推荐人：强涛

发表评论评论 (1 个评论)

数据加载中...

返回顶部

刘明伟

扫一扫，分享此博文

全部作者的精选博文

• 很感动，学生的来信

liumwei的个人博客分享 http://blog.sciencenet.cn/u/liumwei

博文

文献挖掘工具

当前推荐数：1 推荐人：强涛

发表评论评论 (1 个评论)

刘明伟

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

liumwei的个人博客分享 http://blog.sciencenet.cn/u/liumwei

博文

文献挖掘工具

当前推荐数：1 推荐人： 强涛

发表评论 评论 (1 个评论)

刘明伟

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

当前推荐数：1 推荐人：强涛

发表评论评论 (1 个评论)