如何从数以亿计的文献中,挖掘自己所需要的信息是一件十分复杂的事情。尽管,我们可以通过编程语言的处理就可达到目的,但是互联网中各种不同格式的网页或文本,其字段、关键词、数据、表格、链接抓取等并不是那么容易,特别是pdf文献中那些各种版式的表格、图片、关键语句的获取更是不太容易。这里首推SciMiner。
SciMiner是一个基于网页服务的生物文献挖掘工具。具体可从这个站点了解:
http://jdrf.neurology.med.umich.edu/SciMiner/。这个工具采用lighttpd驱动,结合数据库Mysql,进行文献的批量挖掘。要下载它,需要使用学术单位邮件地址向进行申请。当前,这个软件包有两种类型,一种可以自行安装配置的核心包,大小145M,而另一种则是预配置好的VmwarePlayer包(即是说,可以利用虚拟机VmwarePlayer直接使用),大小1.1G。核心包的安装需要以下组件或库文件支持(来自SciMiner安装手册):
- MySQL database
- ImageMagick
- Web-server (如Lighttpd)
- CGI
- Perl
- Perl模组: Boulder::Medline;YAML;Text::NSP;CGI::Debug;CGI::Simple;CGI::Session;CGI::Application; HTML::Template;Data::Dumper;Unicode::String;XML::XPath;Spreadsheet::WriteExcel
这个工具推荐使用Linux系统来安装使用,比如可使用
BioInfoServ 4.0来安装使用,可省去windows中不必要的麻烦。至于具体的安装配置教程,有空找个时间写个文档出来,供大家参考。
其他的挖掘工具还有很多,下面
这个网页就值得参考:
https://m.sciencenet.cn/blog-563198-432470.html
上一篇:
关于浏览器下一篇:
firfox 4正式入住BioInfoServ 4软件仓库