如何从数以亿计的文献中,挖掘自己所需要的信息是一件十分复杂的事情。尽管,我们可以通过编程语言的处理就可达到目的,但是互联网中各种不同格式的网页或文本,其字段、关键词、数据、表格、链接抓取等并不是那么容易,特别是pdf文献中那些各种版式的表格、图片、关键语句的获取更是不太容易。这里首推SciMiner。 SciMiner是一个基于网页服务的生物文献挖掘工具。具体可从这个站点了解: http://jdrf.neurology.med.umich.edu/SciMiner/ 。这个工具采用lighttpd驱动,结合数据库Mysql,进行文献的批量挖掘。要下载它,需要使用学术单位邮件地址向进行申请。当前,这个软件包有两种类型,一种可以自行安装配置的核心包,大小145M,而另一种则是预配置好的VmwarePlayer包(即是说,可以利用虚拟机VmwarePlayer直接使用),大小1.1G。核心包的安装需要以下组件或库文件支持(来自SciMiner安装手册): MySQL database ImageMagick Web-server (如Lighttpd) CGI Perl Perl模组: Boulder::Medline;YAML;Text::NSP;CGI::Debug;CGI::Simple;CGI::Session;CGI::Application; HTML::Template;Data::Dumper;Unicode::String;XML::XPath;Spreadsheet::WriteExcel 这个工具推荐使用Linux系统来安装使用,比如可使用 BioInfoServ 4.0 来安装使用,可省去windows中不必要的麻烦。至于具体的安装配置教程,有空找个时间写个文档出来,供大家参考。 其他的挖掘工具还有很多,下面 这个网页 就值得参考: Tools for Literature-based Discovery Sites that Augment the Standard PubMed Search Service. Sites that are, or Contain Lists of, Search Engines that include Biomedical Topics Sites that are devoted to genes, proteins, and other bioinformatic resources Knowledge Environments (Information Portals, Online Communities) Resources and Tools for Text representation and Visualization General Data Mining and Knowledge Discovery Sites Listservs