科学网

 找回密码
  注册

tag 标签: wos2pajek

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

wos2pajek0.8学习心得
热度 4 lovepuma 2011-3-21 23:15
wos2pajek(以下简称w2p)是pajek 的作者Vladimir Batagelj为了更加有效的处理wos上的记录数据而开发出的一款小程序,用它可以对从wos上下载的全纪录进行预处理,生成若干直接用pajek进行分析的文件,如果没有这款软件,用pajek对大型引文网络的分析将是几乎不可能的(不排除还有其他软件,但我目前还不知道)。目前w2p目前最新的版本是0.8版wos2pajek8.zip,作者有过一个针对0.7版本的手册wos2pajek07操作手册.pdf,对0.8版本同样适用。下面就将使用wos2pajek的一些心得整理如下。特别声明:本文所提到的相关软件和文章版权均属于原作者,本文所提到之处均属于引用,在此对这些作者表示感谢。 1. 文件合并 因为从wos上下载的文件最多500条记录,因此大多数时候需要对这些文件进行合并。在totalcommander中有“文件合并”的选项。如果超过100000?记录,pajek会自动退出的。 2. wos2pajek的选项设定 在用wos2pajek时需要事先设定7个选项,前3个是指定文件夹,这个没啥说的,指定好就行。第四个“Maxnum”好像是让你估算一下节点的数目,在运行过程中如果节点超过了这个数,wos2pajek会提示并退出的,实际上这个值不填也可以。“step”是wos2pajek运行中每隔几步在屏幕上显示一行,用于监视运行过程,这个不填。“keyword”是指从哪些字段中提取文章的关键词,这个功能一般用不上,而且现在有citespace这些在关键词方面更好的软件,所以这个也不选了。“name”中可以选是否用ISI自带的文献命名方式,按作者的说法,ISI记录中会发生很多不一致,因此作者自己定义了一套方法,而且他在ppt的演示中也没有选,因此这个也不选了。“clean”是指去掉网络中的multiple lines,这个比较有用的,需要选。总结起来,这几个参数的设置见下表: 参数 设定 MaxNum 不填 Step 不填 Keywords 一个不选 Names 不选 Clean 选 运行完wos2pajek后,会生成9个文件,节点和边的信息是保存在Cite.net文件中。下面就可以根据生成的这几个文件展开分析了。 3. 去掉环和重边 由于引文网络是不可能有环和重边的,因此要把他们去掉。 去掉环:Net/Transform/Remove/Loops 去掉重边:Net/Transform/Remove lines/Single line 4. 去掉acyclic 引用总是新文献引用老文献,所以不会出现循环网络,也就是acyclic,cycle也叫nontrivial strong component。因此要去掉他们,命令: Net/Components/Strong Operations/Extract from Network/Partition Operations/Transform/Remove Lines/Between Clusters 5. 将网络参数输入R进行统计 Pajek为了扩展统计方面的功能,给R和spss都留了接口,通过把数据传送到统计软件中,可以直接打开统计软件并进行计算,然后输出结果。 原来学过一点spss,没有接触过R,觉得R挺新鲜的,于是就用来R来进行一些统计分析。先指定R的位置,在Tools/R/locate R中选择R的路径,在…/bin文件夹中有Rgui和Rterm两个exe文件,选哪个都行,前者是图形界面,后者是term式的界面,建议选前者。接下来需要生成vector,再将vector导入R中,具体命令如下: Net/Partitions/Degree/All Partition/Make vector Tools/Program R/Send to R/Current Vector 如果想做一下分布图的话,在R中执行以下命令: summary(v2) **这里面V2是指第二个生成的vector,实际情况中换成实际序号即可。 t - tabulate(v2) c - t i - (1:length(t)) plot(i,c,log='xy',main='图片名',xlab='横轴名',ylab='纵轴名') 在http://vlado.fmf.uni-lj.si/pub/networks/pajek/howto/HowToR.htm中,作者介绍了如何用R来统计pajek中的网络参数。 6. 设定网络的边界 有些文献没有或很少被引,因此放到网络中意义不大,而且增加了冗余,可以通过设定文献最少被引次数来把这些文献排除。选择至少被引用了K次的文献,逻辑表达式为(0 indeg(v) k) ^ (outdeg(v) = 0),看来作者定义引文网络中入度代表被引,出度代表引用。命令如下: Net/Partition/Degree/Input Partition/Binarize Net/Partition/Degree/Output Partition/Binarize Partitions/Min(V1,V2) Operations/Extract from Network/Partition 7. 选全纪录的文献 用w2p生成的网络中有一些文献只有题目,没有其他的信息,这个接下来的分析带来了困难,而且又使数据显得臃肿,因此要把这些文献的记录去掉。wos2pajek在运行后会生成一个叫DC.clu的文件,这是一个partition文件,用来区分某个文献是否有全纪录,一共两个类,如果有全纪录,则分到1类,如果没有则分到0类,这样就可以通过选择1类的文献来选出所有有全纪录的文献。操作命令是将cite.net和DC.clu文件同时打开,operations/ Extract from network / partition。
个人分类: pajek学习|9972 次阅读|5 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-3 16:18

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部