因为该站点无法粘贴表格,因此发布在CSDN我的博客上
我们利用编写的网络爬虫程序和数据库资源,对万方和CSSCI两大中文期刊数据库就行了文献数据抓取,并对部分错误文献信息结合对“Google学术搜索”的数据抓取分析。由于文献数据量极为庞大,同时我们也想先针对我们所了解的学科领域研究趋势做出自己的分析结论,所以我们只抽取了“图书情报档案”方向的59种期刊,其中核心期刊共35种,时间跨度为2000到2009共十年,总共获得202843篇文献。每篇文献都抓取了除全文以外的诸如标题、作者和参考文献等信息。由于需要使用被引关系来分析,因此我们还专门对文献的参考引用关系进行了专项获取,共计339000个链接。因为图情方向的文献所引用的被引文献不一定都是图情方向的文献,甚至都不一定是中文文献,此类文献引用我们没有收录,数量为103255个,全部被去除。
https://m.sciencenet.cn/blog-527131-410050.html
上一篇:
PageRank计算方法的SQL实现下一篇:
“图情学术趋势搜索”搜索引擎测试版本