科学网

 找回密码
  注册

tag 标签: 文献可视化

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

如何对PDF文献做可视化分析?
热度 3 wshuyi 2017-10-20 07:03
看了大量文献后,你的硬盘上想必存下不少PDF文件。能否充分利用它们,挖掘出你独特的领域知识地图呢?本文为你提供一种简便易行的办法。 疑问 在网上写文章最大的好处,是经常可以收到读者的反馈。不少读者会提出一些好问题,时常给我以启发。 前些日子,我写了《 如何快速梳理领域文献 》一文,为大家讲解了如何使用VosViewer这一文献可视化分析工具,快速梳理领域文献。 有读者来信,提出一个疑问: 是否有软件支持导入PDF文件,直接做文献可视化分析呢? 我看到这个问题,开始一愣,继而会心一笑。 愣的原因是,我之前没有想过会有这样的需求。因为做文献可视化分析的时机,往往是我们刚 刚接触 某一个领域, 不确定 哪些文献应该重点阅读。 这时候,信息的来源是文献数据库(Web of Science, Scopus等)的检索结果。这些导出的检索结果里面包含了足够的可供分析的元数据信息(作者、机构、时间、国别、期刊等)。 然而PDF文件可就不一样了。虽然它包含了文献的全文,但是却并不更适合提炼元数据信息,做文献可视化分析。尤其是比起元数据导出格式(例如RIS等),它的体积又大得多。 因此,很难想象一个文献可视化工具会选用PDF作为数据源。 于是,我打算如实回答,在我接触过的若干种主流文献可视化工具里,没有哪一款支持这样的功能。 但是,我旋即想起了哈佛大学营销学教授莱维特(Theodore Levitt)的那句经典名言: 人们其实不想买一个1/4英寸的钻头。他们只想要一个1/4英寸的洞。 如果透过表象,洞察用户的实际需求,我就立刻能理解这位读者的痛点在哪里了。 痛点 对科研工作者来说,已阅读文献(大多是PDF格式)的管理,确实是个非常实际的难题。 我们经常会从各种文献数据库里下载阅读文献,也因此会在硬盘里积攒下大量的PDF文件。这些文献往往是在相对较长的一段时间内积累起来的,许多都经过了研究者的扫读(skimming)甚至是精读,确认和研究主题密切相关,才被一直保留下来。 当然,如果你阅读后发现文献不相关,都懒得整理……算我没说。(幸好做可视化分析的时候,这部分文献可以相对容易地被识别出来。) 跟文献数据库里检索结果全集比起来,这些PDF数量虽多,一般也只是一个子集,并不够全面和完备。但是我们对其更熟悉,而且这些文献也更能准确刻画我们对某个领域的掌握程度。 有的学科发展很快,研究热点文献喷涌而出。例如双中子星合并被人类首次观测当夜,就有若干篇相关文章发了出来。研究者硬盘里PDF文件积累成百上千篇,毫不稀奇。 一旦文献数量超越了邓巴数,你再想要“如数家珍”,难度就会大幅上升。大部分人甚至都会忘记,自己曾经下载、存储并浏览过某个PDF文件。 如果能够利用文献可视化工具,对这些文献做梳理,会有助于我们理清自己掌握文献的脉络,做到心中有数。 更进一步,如果我们把手头PDF文件的可视化结果,与全局检索结果的分析图形进行 对比 ,还可以明显看出自己对领域扫描是否全面。这将有助于我们 找准大方向 ,避免在文献丛林中迷失。 这样看来,读者的问题就透露出非常有意义的需求。 这种需求, 未必 需要通过一个全功能的,可以直接从PDF做出分析的文献可视化工具 一站式 完成。 我们可以把它拆解为两个环节: 从PDF文件提炼文献元数据信息; 将元数据信息输入到文献可视化工具做分析。 第二个环节,我在《 如何快速梳理领域文献 》一文中,已经做了详细的介绍。需要补充的是,后来我的学生还做了一个全中文的 视频教程 ,从头到尾展示了一次文献采集和分析过程。欢迎访问 这个链接 来观看。 我今天向你展示,如何从PDF文件提炼文献元数据信息。 当然,你完全可以打开PDF文件,把其中各种元数据信息手工提炼出来,然后照葫芦画瓢,存储成Web of Science等文献数据库的导出格式,输入到VosViewer中。 但是,这显然效率很低,而且非常容易出错误。 工欲善其事,必先利其器。我们会采用一款非常优秀的文献管理工具,完成这一过程。 工具 这款工具,叫做Zotero。 安仁心智的董事长阳志平先生,曾经撰写了 系列文章 ,详细介绍了Zotero的特色、功用和操作方法。建议你读完本文后,认真通读该 系列文章 。 本文只涉及到Zotero的几个非常简单实用的功能。因此如果你没有听说过Zotero,对它不熟悉,也不要紧。一步步按照下文的步骤操作就可以了。 请到 这个网址 下载最新版本的Zotero。 我使用的是macOS版本。下载后的格式为dmg。双击打开该文件后,拖拽Zotero应用图标到Application目录的快捷方式里,即可完成安装。 从Application目录下,找到Zotero应用,打开。 你就可以看到Zotero的主界面了。我很想给你展示一个空白的Zotero界面,可惜我已经在其中存储了许多文献内容了。 下文中,我新建了一个空白类别目录,为你演示。 工具准备好了,下面我们来逐步展示操作流程。 操作 Zotero导入PDF文件,是非常方便的,只需要拖拽即可。下面这个GIF动图为你演示了使用方法。 这时,你点击某个PDF文件,右侧的状态栏会有文件描述。但是你可以看到,目前描述内容很少。只有文件名、页码和修改日期等。 不过我们可以很方便地利用Zotero的“重新抓取PDF元数据”功能,获得完整的文献描述信息。 例如下面这个动图,演示了如何右键菜单选择“重新抓取PDF元数据”,将PDF文件变成元数据完备的文献记录。 此时,右侧的状态栏里,文献信息可就清晰多了。 可以看到,标题、作者、期刊……甚至是页码都采集完整了。 下面我们需要把文献集合的信息导出。为了和后续的文献可视化工具配合,请注意一定要选择 RIS格式 。 我们打开导出后的RIS文件,预览内容: RIS文件里包含了许多做文献分析需要用到的元数据。但是眼尖的你一定会发现,这里缺少参考文献列表信息。因此,你无法做用它做文献网络分析。但是它依然可以帮助我们挖掘很多有用的信息。 我们在VosViewer下新建一个项目。 从选项中,可以看到第二项(Create a map based on bibliographic data)或者第三项(Create a map based on text data)功能的数据读入方式,都支持RIS格式。 我们用第二项试试看。默认选项下,它可以抽取合著者(co-authorship)信息。 因为样例中文献数量较少,所以我们降低了默认阈值,以获得更为丰富的结果。 分析结果的密度图如下: 可以看到,你收集的文献中有哪些作者相对高产,以及他们之间的联系。 我们再试试第三项。分析主题信息。 由于过程与第二项类似,我们就不再赘述了。分析结果如下图所示。 VosViewer正确识别出了我们查找的文献主题是大数据和竞争情报的关联,而且揭示了许多文献采用的方法是Web信息抽取。 必须说明,此处我们只是为了展示操作方法,采用了非常简单的文献集。参数设置也没有经过合理的调整。从数量这么小的文献集合里,能获得的知识和洞见是非常有限的。如果你积攒的PDF文件数量足够多,那效果就会大不一样了。 小结 读过本文后,希望你已了解以下内容: 如何用Zotero导入和管理PDF文献; 如何用Zotero抓取PDF文献的元数据; 如何将Zotero中的文献集合信息输出给VosViewer等可视化分析工具; 如何挖掘和准确定义用户的需求; 如何结合不同的工具来综合解决问题,尝试满足用户需求。 与Zotero类似的文献管理工具还有很多。Mendeley, Papers, ReadCube等工具都很优秀,也具备PDF元信息获取功能。我个人偏好Zotero,因为它小巧、强大,还免费。 讨论 你平时阅读的PDF文件多吗?你是如何有效管理它们的?你使用过哪些优秀管理工具?它们的特色是什么?欢迎留言,把你的经验和心得分享给大家,我们一起交流讨论。 如果你对我的文章感兴趣,欢迎点赞,并且关注我的专栏,以便收到后续作品更新通知。 如果本文可能对你身边的亲友有帮助,也欢迎你把本文通过微博或朋友圈分享给他们。让他们一起参与到我们的讨论中来。
17570 次阅读|4 个评论
如何快速梳理领域文献?
热度 5 wshuyi 2017-10-8 17:22
本文为你介绍一款文献可视化工具,帮助你轻松高效地筛选领域重要文献。切记学问须下真功夫,千万不要用它来偷懒啊。 烦恼 给研究生上课的时候,有一回的作业,是让他们就某一个具体领域做文献分析。这个作业基本上就没有完满而愉快地完成过。 学生们常见的做法是拿一个关键词去文献数据库里面搜索。如果得到的结果是个位数,则大喜过望。把文献都下载下来,一一阅读,然后手动做个统计图表,展示出来。 如果搜到的文献数量超过3位数,学生们的做法往往是双手一摊,告诉我:“老师,文献太多了。读不过来,就没做。要不然您告诉我哪几篇文献重要?我马上去看,下周展示。” 我时常被这种创意答案气乐了。 实际上,这个任务训练学生将来做毕业论文时如何综述文献。他们的答案并不全错。大部分情况下,你找到一个想法,一个问题。只要一搜索,就会发现相关文献如长江之水滚滚而来。把全部文献都看一遍,基本上是不可能的。即便把存量看完,数量更多的增量文献又涌了出来。你很快会陷入深度抑郁。正如《庄子·内篇·养生主》里说: 吾生也有涯,而知也无涯。以有涯随无涯,殆已! 你的时间和注意力是有限而珍贵的。因此你必须对文献 歧视 对待, 选择重点 文献来阅读。大部分文献都会被你丢弃 不读 或者只是 扫读 (skimming),你大可不必为此羞愧甚至自责。 哪些文献是重点文献呢?这个问题你必须学会自己解决。而不能坐在那里等着老师 喂 给你标准答案。 精华 学术期刊、会议和大部头著作构成的知识大网,跟你熟悉的网络论坛没有什么实质区别。 常逛论坛的话,你应该对如何选择阅读内容有很深刻的体会。 常见的做法是去找那些精华帖和热帖先来看。精华帖很重要,因为其质量被高度评价、而且推荐。热帖未必质量好,可能只是当下人们关心的某个话题;或者作者的某些提法极富争议,因而吸引眼球。更常见的,只是纯粹的“标题党”而已。 一般论坛都会有专人来负责维护,去粗取精。然而学术文献里哪篇是精华?你就很难直接看标签来识别了。 怎么办呢?最简单的办法是把文献之间的关系可视化。 这样,你就可以看见哪一个主题(文献)下面回复(引用文献)的人更多,或者帖子的主题(文献聚类)有哪些。 有了这些线索,你就可以在浩如烟海的检索结果里锁定那些重点文献了。 工具 这个工作,当然可以手动来做。拥有方便的计算机辅助工具之前,这可能也是不得已的唯一办法。 但是,现在如果你还去手绘,效率就太低了。文献可视化工具有很多。从功能和易用性综合权衡,推荐 VOSviewer 。 第一步,需要采集感兴趣的全部文献。采集某个领域文献的时候,应该找一个合适的入口。其中储存的文献信息不仅要全面,而且文献间的引用关系也得完整保留。 常见的入口包括 Scopus 和 Web of Science 。注意这两个平台都有访问权限控制和单次下载文献信息的最大数量。请使用校园网IP地址登录操作,根据需要下载文献信息,并存储为合适的格式。为了VOSviewer可以正确打开,请选择用TAB分割的文本方式,文献记录要包含全部字段和引用信息。 然后你就可以在VOSviewer中进行分析了。例如你可以选择生成术语地图(term map)。不同主题的文献会自动聚类,用不同颜色表示类别,文献之间的关联一目了然。 有的主题词汇比其他的词汇更大,这表示了相关文献数量的多寡。一下子,你就能找到在你关心的“论坛”里面,哪些主题是人们更感兴趣的。 你可以放大细节,了解某一个主题内部具体术语之间的关联,以把握更为细致的脉络。 拓展 主题只是文献多种描述标记中的一种而已。因为在采集数据阶段,我们保存了全部的元数据。因此,你可以分析更多自己感兴趣的角度。 假如你关注期刊的联系,那么不妨采用共引(co-citation)关系来看期刊之间的关联网络。 不同领域的期刊采用不同颜色标记。你会清楚看到不同领域期刊之间是如何发生联系的。 如果你的观察角度更为宏观,还可以用作者们所在国家作为节点,看不同国家作者间的合作关系。 这张图很明显告诉我们,当今的科研活动早已不是闭门造车、独立发展了。与国际学术界的协作关系越紧密,获益就越多。看看那些大节点的位置和链接数量便一目了然。 教程 如果你感兴趣的话,请阅读以下参考资料,一步步学习如何使用VOSviewer: VOSviewer教程 。 VOSviewer分析样例图 。 VOSviewer相关论文列表 。 如果你是个视频学习者,可以看VOSviewer作者的官方 视频教程 。作者的英语口音有些重,但是内容绝对权威而清晰。 如果你偏好中文视频资源, 这里 刚好有一份 教程 。是选修我课程的研究生用工作坊模式完成的。希望对你能有帮助。 讨论 除了VOSviewer,你还知道哪些文献可视化工具?相对VOSviewer,它们有哪些优势和不足?欢迎留言,分享给大家,我们一起交流讨论。 如果你对我的文章感兴趣,欢迎点赞,并且微信关注和置顶我的公众号“玉树芝兰”(nkwangshuyi)。 如果本文可能对你身边的亲友有帮助,也欢迎你把本文通过微博或朋友圈分享给他们。让他们一起参与到我们的讨论中来。
16642 次阅读|10 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-18 17:50

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部