liumwei的个人博客分享 http://blog.sciencenet.cn/u/liumwei

博文

文献挖掘工具

已有 8875 次阅读 2011-4-12 22:14 |个人分类:科研进行时|系统分类:科研笔记|关键词:学者| 互联网, 关键词, 网页, 编程语言

如何从数以亿计的文献中,挖掘自己所需要的信息是一件十分复杂的事情。尽管,我们可以通过编程语言的处理就可达到目的,但是互联网中各种不同格式的网页或文本,其字段、关键词、数据、表格、链接抓取等并不是那么容易,特别是pdf文献中那些各种版式的表格、图片、关键语句的获取更是不太容易。这里首推SciMiner。

SciMiner是一个基于网页服务的生物文献挖掘工具。具体可从这个站点了解:http://jdrf.neurology.med.umich.edu/SciMiner/。这个工具采用lighttpd驱动,结合数据库Mysql,进行文献的批量挖掘。要下载它,需要使用学术单位邮件地址向进行申请。当前,这个软件包有两种类型,一种可以自行安装配置的核心包,大小145M,而另一种则是预配置好的VmwarePlayer包(即是说,可以利用虚拟机VmwarePlayer直接使用),大小1.1G。核心包的安装需要以下组件或库文件支持(来自SciMiner安装手册):
  1. MySQL database
  2. ImageMagick
  3. Web-server (如Lighttpd)
  4. CGI
  5. Perl
  6. Perl模组: Boulder::Medline;YAML;Text::NSP;CGI::Debug;CGI::Simple;CGI::Session;CGI::Application; HTML::Template;Data::Dumper;Unicode::String;XML::XPath;Spreadsheet::WriteExcel
这个工具推荐使用Linux系统来安装使用,比如可使用BioInfoServ 4.0来安装使用,可省去windows中不必要的麻烦。至于具体的安装配置教程,有空找个时间写个文档出来,供大家参考。

其他的挖掘工具还有很多,下面这个网页就值得参考:


https://m.sciencenet.cn/blog-563198-432470.html

上一篇:关于浏览器
下一篇:firfox 4正式入住BioInfoServ 4软件仓库

1 强涛

发表评论 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

全部作者的精选博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-4 19:02

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部