科学网

 找回密码
  注册

tag 标签: 共现分析

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

书目共现聚类分析的视频
热度 9 zilu85 2014-9-24 10:20
见笑了啊!一次医学继续教育的视频。 书目数据共现分析(1) 概述 书目数据共现分析(2) 下载 书目数据共现分析(3) 抽取 书目数据共现分析(4) 聚类 书目数据共现分析(5) 结果分析
个人分类: 文献计量学|12963 次阅读|16 个评论
且读且议论(5):矩阵!矩阵!!矩阵!!!
热度 4 zilu85 2014-7-1 10:13
Loet Leydesdorff和Liwen Vaughan 于2006年发表于 Journal of the American Society for Information Science and Technology (JASIST)上的一篇文章,题目是Co-occurrence Matrices and their Applications in Information Science: Extending ACA to the Web Environment。 我觉得这是很多对共现分析感兴趣的人必须读一读的文章,所以让今年毕业的一位本科生(隋明爽同学)翻译了一下,并且在研究生抄读会上进行了讨论。这篇文章回答了很多人经常遇到的问题:到底向SPSS里输入什么矩阵? 惭愧的说,2006年的时候,我也指导了一位本科生想做这方面的研究,无奈才疏学浅,没有得到理想的答案,看了大师的文章,知道还是底子太薄了。 学生翻译的肯定有很多错误,我也认真滴帮着改了一下,说实话,战战兢兢,有些翻译穿凿附会,尤其是翻译到后面,竟然出现了“裁判员”的字样,惊觉这里可能有过一场论战,可别弄错了误伤了谁啊。 共现矩阵及其在信息学中的应用:将 ACA 扩展到网络环境 摘要: 共现矩阵,如同被引、共词、和共链矩阵,已经被广泛应用到信息学中。然而,其中的混乱和争议阻碍了数据正确的统计分析。在我们看来,问题 的核心在于对 各类不同矩阵的本质 的理解 。本文讨论了对称同被引矩阵和不对称引文矩阵的差异,并探讨了 这两种矩阵各自适合于什么样的统计 技术。 我们认为, 相似性度量(如 Pearson 相关系数和余弦 系数 )不应该应用到 对称 的同被引矩阵,但是可以应用到非对称的引文矩阵,以推导出其相似矩阵。 本文将用例子说明 这个论点。本研究 也 将共现矩阵应用 万维网环境中,万维网中的数据属性及数据的获取方式都和传统的 SCI 数据库不同 。 本文利用了 一组用谷歌搜索引擎收集的数据,分别用多元分析的传统方法和一种基于社会网络分析和图论分析的新型可视化软件 Pajek 进行分析。 简介: 共现矩阵,如同被引、共词、和共链矩阵,为我们 描绘( 映射 ) 和理解 核心文献集的 结构提供了有用的数据。对 这些共现 数据有不同类型的分析方法, 关于 这些方法 汇集了很多文献 ,构成了信息 科学 的一个重要领域。然而,对于这些矩阵的性质和适当的分析方法仍然存在着混乱。例如,从 Ahlgren , Jarneving 和 Rousseau ( 2003,2004a 和 b ), White ( 2003 , 2004 ), 与 Bensman ( 2004 )之间关于 Pearson 相关系数和余弦 系数 在作者同被引分析( ACA )的讨论中就可见一斑。在我们看来,作者在 ACA 中所用的共现矩阵 本身就 是临近数据,在映射绘图之前不需要转换。我们 建议应该尽可能使用 非对称矩阵 中 , 如果做可视化映射亦可以从这个矩阵推导出共现矩阵的属性 。 由于 共现矩阵 将来可能 广泛应用到网络的研究 , 如何处理和理解共现矩阵的问题已经上升到了一个新的层面 。在这种情况下, 人们常常可以不再检索构建共现矩阵所需的整个文档集,而是可以通过布尔逻辑检索直接构建矩阵。我们将讨论各种矩阵的性质和围绕他们的分析出现的问题,以期能够澄清一些混乱,从而促进信息学领域的进一步发展。我们的论证是方法论的,但是我们将使用基于 ISI 的信息学领域的 ACA 为例,此例曾在本期刊中作为讨论的课题( Ahlgren et al. , 2003 , 2004a , 2004b ; White , 2003 , 2004 ; Bensman , 2004 ; Leydesdorff , 2005 )。下一步我们将把该数据集和分析扩展到网络环境中,以谷歌学术搜索引擎检索相同的学者 群 。 2. 对称共现矩阵 VS 非对称引文矩阵 2.1 对称共现矩阵 Small 率先提出同被引分析(参见 Marshakova , 1973 )。他构建同被引矩阵如图 1 所示。矩阵中的每个单元的数字是两篇文章被共同引用的次数。例如,文献 1 和文献 2 共同被引用 10 次,而文献 1 和文献 3 共同被引用 20 次。当时( 70 年代初)由于计算条件的约束, Small 不得不用 ISI 数据作为列表而不是用共现矩阵。运用单连接聚类, Small 可从该数据中提取到同被引图谱,而不 用 产生矩阵( Leydesdorff , 1987 )。 White 和 Griffith (1981) 将同被引分析的概念引申为作者同被引分析( ACA ),对该领域的发展有着突出贡献。他们运用第一作者,而不是文章,作为分析的单元;与同被引分析 不同 ,他们 把 被引作者而不是被引文献作为分析单元。 但是 他们的矩阵本质上是一样的,如图一所示,除了用作者 1 ,作者 2 等代替了文献 1 ,文献 2 等。 Small , White 和 Griffith 都用了 多维标度 ( MDS )和聚类分析来分析他们的数据。 White 和 Griffith 也运用了因子分析。不同之处在于, Small 用 Jaccrad 指数进行了数据归一化(从 ISI 数据库获得的原始同被引数据),而 White 和 Griffith 对此运用了 Pearson 相关系数。 Small 和 Sweeny ( 1985 )开始使用余弦作为替代相似性度量 指标 ( Salton McGill , 1983 )。 图 1 形式的矩阵 就 是一种临近矩阵。如 Kruskal ( 1978 年,第 7 页)所定义的:“ 所谓 临近性是 指 表示两个对象是多么相似或者多么不同的数字,或者被 感觉 是,或者任何此类度量。”临近矩阵可以是相似性矩阵或不相似性矩阵( Cox 和 Cox, 2001, 第九页)。同被引或合著者矩阵是相似性(非相异性)矩阵。单元格中的数字越大,两篇文章(或两个作者)之间越接近。相似矩阵可以输入到多维尺度软件直接生成一个地图,它显示了文献或作者的相对位置。映射绘图的原理是临近性越高(两个单位间越相似),这两篇文章或这两个作者在地图中的位置就越接近。 2.2 非对称引文矩阵 另 一种构建引用数据矩阵的方法是以图 2 所示的形式。以作者同被引为例,在此矩阵中,行是引用文献,列是被引文献。因此,文献 A 被文献 1,4,5, 引用,文献 C 被文献 2 和文献 3 引用。 此矩阵与图 1 所示矩阵 十分 不同。图 1 中的矩阵是一种对称矩阵:( 1 )行和列是相同的对象;( 2 )行列数相同。( 3 )矩阵中的数据关于对角线对称,所以一 半 的矩阵就足以涵盖所有数据。显然,图 2 中的矩阵 不具备上述 三个特点,而且该矩阵是非对称的。 进一步讲 ,图 2 中的矩阵不是临近测量,所以该矩阵不能直接输入做 MDS 。然而,我们可以将 这种 属性矩阵转换为临近矩阵。“ 将不适用于 MDS 的 非临近矩阵转换为临近矩阵最常用的方法就是 计算一个表的行(或列)之间 整体 相似或不相似性的一些度量”。 而 推导出 整体 临近性度量的最常见方法是计算变量间的相关性或(欧几里得)平方距离( Kruskal , 1978 ,第十页)。欧几里得距离矩阵可以认为是一种相异矩阵,而 Pearson 矩阵可以认为是相似矩阵。然而, Ahlgren 等人( 2003 )认为, Pearson 相关系数形式上不是一种相似性度量,而是 对 线性依赖性 的一种 度量。(见下一节的相似性与相异性矩阵的讨论)。 我们着重谈 Pearson 相关系数,但类似的推理可应用于余弦作为相似性度量,或以欧几里德距离作为相异性度量( Ahlgren 等人, 2003 年,第 551 )。 Pearson 的 r 值 作为一种临近度量可能是负值,可通过( r +1 ) /2 进行线性变换,转变为 0 和 1 之间的值来 解决 。通过将 Pearson 相关性应用到 表 2 中的数据(列成对的相似性),然后用( r +1 ) /2 进行转换,得到如 表 3 所示的相似性矩阵。 这种相似矩阵具有了表 1 中 对称矩阵的所有三个属性,在表 2 中的数据中,我们可以看到文献 A 和 B 被文献集中相同的文献引用(文献 1 , 4 , 5 ),在表 3 里它们的相似系数为 1 就表明了这种关系。相反,文献 A 和 C 被文献集中完全不同的论文引用,因此在表 3 里,它们之间的相似系数为 0 。 在非对称矩阵(图 2 ) 里 ,被引用的文章 被当做是引用文献的属性, 因为被 引文献出现在 引用文章的参考文献列表。文章 A 和文章 D 有三分之二的引用文献相同,所以 它 们之间的系数是 0 和 1 之间的,如 0.295 。 综上所述, 在 同被引分析 可以用 Pearson 相关系 处理 非对称 的 引用矩阵,然而,将 Pearson 系数应用到对称性临近矩阵中是存在问题的。 W hite ( 2003 ,第 1251 )指出,戴维森( 1983 ) 在其有关 多维尺度 的 教科书首页上,提及到 Pearson 系数 可以 作为两种基本的临近度量方法之一。不过,在 该 书中, Pearson 相关系数常用于构建那些没有做过临近度量的数据的临近矩阵。同被引矩阵本身就是一个临近矩阵,因此不必再运用相似性度量来构建临近矩阵。相反,这样做甚至可能扭曲数据,我们可以通过一个实例来说明。 2.3 一个例子 例子中的数据(见表 1 ) 拷贝自 SPSS ( 1993 ) 。该表 显示的是 美国十大城市的 飞行里程 。这些距离数据是从二维地图中产生的,因此人们可以 直接 评估用这些数据重新构建的地图的质量。 显然,这是一个对称的临近矩阵。数据 表示的是 相异性,数字 越大 ,城市之间相隔越远,即 它 们在定位上就会有更多的不同。将矩阵输入到 SPSS 中,选择 PROXSCAL 作为 MDS 的一个选项,我们得到了图 4 ,一个关于这些城市几近完美的相对位置绘图(这些位置是相对的,地图的东部和西部的扭转的。然而,由于位置的相对性, MDS 的结果可通过自由旋转来解释)。 图 4 :使用原始距离矩阵绘制的十大美国城市 MDS 地图( PROXSCAL )(归一化的原始应力为 0.0001 。 如果 将表 1 中的数据 转换为 Pearson 系数, 再用这个 新矩阵绘制 MDS , 得到的 这十个城市 地图则十分 扭曲,且其归一化原始应力非常高( 0.11341 )。 图 5 :使用 Pearson 相关矩阵绘制的十大美国城市 MDS 地图( PROXSCAL )(归一化的原始应力为 0.11341 ) 显然,图 5 相对于图 4 并没有改 善 (应力变得非常高)。通过使用 Pearson 相关系数代替 城市间的 距离,地图被扭曲了。例如,洛杉矶相比于旧金山更靠近西雅图,而纽约相比对华盛顿特区更靠近于芝加哥。 Pearson 相关系数 依据 均值 将数据进行 标准化, 而被当做 变量 的共现模式 (用 Pearson 系数加以表示) 在某些情况下与网络中临近性是不同的。 与 可明确绘图映射的二维地理数据不同于, 知识 结构的测定 ( 如通过合著作者或同被引数据的测定 ) 通常是多维度的。多维尺度分析(或因子分析)搜索空间中的 n 维数据 在 低维 上的 投影。 MDS 使用应力测量 作为 适用性指标,但这只是一种 探索性指标 。 最终,分析 人 员 还要在定性层面上理解所表达的知识结构的表现形式。 换句话说, 用 合著者数据 来多维表达知识 结构可以很好, 但是 这种 表达 不能很容易的投影到二维或三维结构 上 。因子分析可以让我们在更高的维度、精确的数字(算法的)上研究数据缩减的质量,因此可能有助于理解几何可视化投影的质量。 3. 相似性 VS 相异性度量 如上所述,有两种类型的临近度量:相似性和不相似性。显然,这二者是相反的,所以 在 MDS 中 应 区别对待 它 们。在最新的 SPSS 版本中, MDS 有两个选项: ALSCAL 和 PROXSCAL 。 ALSCAL 设 定输入的是相异矩阵,而 PROSCAL 允许指定临近度量时相似性还是相异性。毫无疑问,同被引是一种相似性度量(两篇文章或两个作者同被引次数越多,二者之间就越相似)。所以应使用 PROSCAL 的相似性选项。如果人们弄反了这两种类型的相似性度量,该映射绘图的结果将是错误的。例如,表 1 中的美国城市间的行程里数提供了一种相异性测量,如果我们在 MDS 中将其指定为相似性度量,其结果将是一个非常扭曲的地图(由于空间限制生成的地图此处略去)。 在 SPSS 的早期版本中,只有 ALSCAL 选项是可用的(只有相异性度量)。在这种情况下,同被引矩阵在输入 SPSS 之前,应该被转化为相异矩阵。 Kruskal 和 Wish ( 1978 , p.77 )明确指出“如果临近值是相似性度量, 那就 必须 把它 们“上下颠倒”为相异性度量,如形成的相异性度量 = (常数 - 相似性度量),其中的常数应 审慎 选择。”如果相似性度量在 0,1 之间(如上面的例子,运用 Pearson 系数获图 3 所示矩阵的临近矩阵),常数可用 1 ,即相异性 = ( 1- 相似性)。我们对该公式进行了广泛测试,发现经从相似性到相异性之间正确转换之后的相异性度量,和直接运用相似性度量所得的映射地图,总是相同的。 MDS 广泛使用的一种形式是不对称属性矩阵,如图 2 所示。 MDS 是当时因子分析 、 聚类分析等 多元分析分析中的 一种主要的可视化技术。在这种情况下,该数据被当做相异性变量分析,因此 ALSCAL 和 PROXSCAL 都可以使用。欧式距离是默认的相异性度量。对于输入的非临近度量的数据, PROSCAL 可以构建临近矩阵。因为我们在以下各节中研究这两种不同类型的矩阵,我们整个研究中将使用 PROSCAL 。请注意,一种可视化技术如 MDS 是数据的二维或三维表示,而例如因子分析,加入了旋转数据的可能性以得到一个对于该几何代表性结构的更高维度和定量的理解( Schiffman 等人, 1981 )。 4. 作者同被引的一个实例 让我们回到在本杂志上几个前面所讨论的作者同被引分析的例子( Ahlgren 等, 2003; 白, 2003 年 ; Bensman , 2004; Leydesdorff , 2005 ),并相当详细的讨论不使用对称 的 共现矩阵,而是文献 - 引文的非对称矩阵的 效果 。 Ahlgren 等人( 2003 : 554 )从 WOS 上下载发表在《科学计量学》的 430 篇 文章书目 数据 , 以及 在 1996-2000 年期间发表在《美国学会杂志信息科学与技术》( JASIST ) 483 篇文中 的 书目数据 。 根据 913 篇 文献的参考文献 中 , 他们构建了信息检索领域 和文献计量学领域各 12 位 作者的共现矩阵 。他们的论文提供了 这些作者的 共现矩阵和 Pearson 相关表。 我们重复了 他们进行过的 分析,以获得原始的(非对称)的数据矩阵。运用相同的检索策略我们于 2004 年 12 月 18 日,检索到 469 篇《科学计量学》的文章和 494 篇 JSSIST 的文章。由于 ISI 有时会在 后来 把 对以前发表的 文献 陆续加入数据库 , 论文 数 稍微高一点 与该实际是一致的。因此,我们忽视了这些差异。 4.1 描述性统计 从检索到的( 469+494= ) 963 文献中, 902 篇包含了 21813 篇引文 , 其中 279 篇 对 所研究的 24 位作者中 的 两 位以上的 作者至少 有一次同引 。 在 279 篇引用文献集中,没有只包含一篇引文只引用一个作者的引用记录。因此,可认为该数据集 是 很好高被引作者集。图 6 显示 同时 引用 本研究中多达 10 位作者的文献数。 图 7 显示了这些引用文献集的作者总被引次数。注意,科学计量作者平均引证率为 44.6 (± 14.8 ),而信息检索作者平均引证率较低—— 26.1 (± 6.5 )。引用率是 具有 领域 特异性 的。 下面 我们从描述性统计转移到数据的分析。 4.2 非对称矩阵 的 数据分析 可以将 该数据导入到 SPSS , 对 非对称矩阵 进行 各种形式的多变量分析。例如,人们可以使用 Pearson 相关矩阵。表 2 提供了 24 位作者的 Pearson 矩阵。这些 Pearson 相关性与 Ahlgren 等作者提出的有很大的不同,因为他们将 Pearson 应用到对称同被引矩阵。例如, Van Raan 和 Schubert 在后面的表 9 中的同被引模式的相关系数为 0.74 ,而我们发现他们的引用模式之间是负相关的( r=-0.131 , P0.05 )。从对称的共被引矩阵导出的 Pearson 相关系数都很高且显著,因为这个矩阵是对称的,所以所有的值和关系都出现了两次。 图 8 所示,输入非对称矩阵进行 MDS 的 PROXSCAL 结果。可视化分析显示,信息检索作者沿单一(几乎水平)轴分布,而科学计量学作者沿垂直轴分布,且信息检索作者比科学计量学作者更有条理。矩阵的因子分析证实了这一观察,使得能够用定量解释来揭示图象。 选择 4 个因子能使我们理解 两组作者之间的 关系和每个组内的精确结构(表 3 )。前两个因子 的 因子载荷专门 表示 信息检索作者。这两个因子解释了矩阵中 26.8% 的公共方差,这两个高载荷因子对于科学计量学作者只有 14.2% 。这意味着,信息检索作者之间的同被引比科学计量学作者之间的更 紧密 :即他们的同被引模式比科学计量学作者的更高度相关。因子 1 和 2 的分野以及 因子 3 和 4 之间的 分野显现了 不同 的 性质。 Braun , Schubert 和 Glänzel 是一个单独的组;他们同被引主要是因为他们的共同地址(直到最近)在布达佩斯,且他们 合 著了很多文章。 Cronin 作为一个被引作者,其位置特殊,且与 Derek de Solla Price 高度相关 。他和 Price 的引用模式不与上述 4 个因子的任何一个相关。 根据定义 ,构建 Pearson 相关矩阵 是因子分析的 第一步。如果我们在 PROXSCAL 中输入表 2 中提供的 Pearson 相关矩阵作为相似性测量,我们得到图 9 。 虽然这张图片让我们能同样的观察到数据分为两个组(左侧的信息检索科学家和右侧的计量学家),但是其图片信息量少了很多,且应力更显著变差。因为统计中假设其正态分布 , Pearson 相关矩阵比原始数据矩阵信息量更少。这样,由于我们 把 归一化数据输入到 MDS 中,所以得到一个扭曲的图像。 而 因子分析通过旋转矩阵使我们能够获取其基础结构, 而不必考虑是否 服从正态分布 的假设 ( Kim Mueller, 1978 )。此外,因子分析可使我们在参照矩阵的特征向量对 Pearson 相关矩阵优化后,绘制出散点图。在三维空间中的相应表示说明了两组之间的主要区分和每个组内的精细结构。 4.3 同被引矩阵 如果把 同被引矩阵到直接输入 PROXSCAL 也 可以中获得相似的结果(图 11 )。然而,人们必须 把 同被引数据 当做定序数据, 以减少内应力,也就是提高拟合。 Ahlgren 等 ( 2003, at p. 558 ) 提出应该将这些 数据作为 定 序数据( Siegel Castellan, 1988, at p. 225 )。两组分界很清晰,每个组都有一个与上述因子分析讨论的区别相关的内在维度。 当我们将相同的技术运用到基于同被引矩阵的 Pearson 相关矩阵作为输入——如 ACA 的一般实践——我们得到图 12 : Pearson 相关矩阵不是定序数据,因此不能用其他测量标度来减少应力。尽管在图 12 中有部分原始结构得以展现,这种数据的表示还是比原始矩阵含有的信息量要小,应力则又一次相对较高。仍然可以识别部分结构的原因是数据集的特殊性和不寻常性:这两组作者差别十分明显,几乎没有重叠之处 (Ahlgren et al ., 2003, at p. 555). 。 总结 起来看 :使用 Pearson 相关的对称共现矩阵歪曲 了 共现数据中所含的信息。如果该数据结构是健壮的, 如 两组研究人员 的数据集分界清晰 ,人们 还是 可采取这种结构 的 。然而,这 只 是一个例外而不是常规的。美国城市之间的距离的例子展示了 把 Pearson 相关系数 应用 到对称临近矩阵 后 如何扭曲其结果,即使在简单的地理和二维情况下。当人们进行到多变量分析,如因子分析( Bensman , 2004 )时,使用 Pearson 系数到非对称矩阵上的优点变得明显。然而,在这种情况下, Pearson 相关系数 应该 运用到非对称矩阵,而不是对称同被引矩阵。对于使用 MDS 表示对称临近矩阵,人们最好把原始矩阵(如同被引矩阵)输入到分析中。 4.4 社会网络分析 最近,基于图论的 社会网络 分析可视化技术 有了长足的进步 ( Scott, 1991; Wasserman Faust, 1994 )。 虽然 我们以上讨论的非对称矩阵可以看做是社会和行为科学的一个典型设计,这些新技术并没有把变量(链接) 作为 案例(节点) 的属性 ,而只是研究其链接,并 用 链接 解释 节点。网络的发展是这些研究的主题。同被引数据可以看做是文本之间的链接数据,而 被 引文献 则是 文本 的属性 。然而,无论是在方法论和理论假设的方面,社会网络分析的传统与信息科学共现数据的分析是有所不同的。 我们认为上述的非对称矩阵比对称共现矩阵 包含 更多的信息。后者可以通过数学的方法由 前者 矩阵和其转置矩阵相乘得出( Engelsman Van Raan, 1991 )。共现矩阵 由 原始(非对称) 矩阵推导出来 ,因此含有较少的信息( Leydesdorff, 1989 )。另外,人们可以通过使用欧几里德距离度量,或通过使用 Pearson 相关或余弦产生一个相异、相似性矩阵。然而,网络分析学家对因子之间的交流结构更感兴趣,所以将链接作为重点分析单位。两个数据集链接的数量被定义为 在各自数据集中 出现 次数 的 乘积 。例如,如果一个作者在一个文献集中被引用两次,在另一个中被引用三次,这种“隶属关系”的数量——因为这种测量被称为 社会网络 分析——是 6 ,而共现的数目只是 2 。 但是 这种定义 上的差异 并 没有造成 绘图 上的不同 ,因为 Pajek 的可视化算法 几乎 成为网络可视化标准的程序 ,它 首先 将 所有的值 降为 二值变量( 0 和 1 ),此后使用户通过变线尺寸来可视化。图 13 显示了我们运用 Pajek 和 Kamada Kawai 的基于弹簧算法( 1989 )可视化共现矩阵。该算法 通过 寻求最小化弹簧系统所含能量 来 减少应力。可 以把它 看做等同于非度量多维标度。 使用社 会 网络分析工具做共现数据的可视化和分析有几个优点。首先,在理解互联网操作的压力 驱使 下, 人们对发明更加综合性地 阐述网络 的 算法 越来越感兴趣 , 同样的事情也发生在 生物和物理系统的其他网络( Da F. Costa et al., 2005 )。社会网络分析受益于图论理论的发展。 同样 可视化技术 也呈现了 爆炸 式 发展。 使用 PROXSCAL 可能比使用 Pajek 更适用于同被引数据的可视化,因为 PROXSCAL 可以将衡量尺度考虑在内。然而,如上所述 Pajek 可允许用户以该线的粗细程度表明关系的强度。 PROXSCAL 和其他 MDS 程序要求用户自己绘制相关线路和类团。在上面的例子中,图 13 显示了类似于图 10 和图 11 的结果,因为所研究的数据集是 一样的 ,其中包含了两个不同作者集; 把 同被引矩阵 缩减 到二值 矩阵 并不显著影响其结果。 我们整个研究的中心思想是,人们应意识到 : 网络数据 不等同于数据 属性。从网络的角度看,例如,不妨把重点放在网络的 结构 是如何随着时间的推移而发展的。何时刻何人执行了何功能?然而,科学计量学家常把有兴趣于特定的节点(作者)以及他们是如何随时间发展的,而网络分析师可能会讨论其结构特点如“功能等同”和“结构洞”( Burt, 1982, 1995 )。这两种传统可以被视为是 核心矩阵的 潜在互补的 两个方面 。 上面 我们 也提到 , 如果有核心 矩阵,通过分析非对称矩阵可对该数据深入了解,但我们现在将转向当没有可用的基础底层数据的情况。 5.ACA 扩展到互联网研究 在 Web 环境中,检索原始引用(如在图 2 中所示),然后使用 Pearson 系数来构造一个相似性矩阵(如图 3 )的方法往往是不可行的。网页集的大小对于少数研究员来说 处理量 过于庞大。如果我们要研究的是网络共链分析,那么图 2 那样的形式是 很难得到 的。因为人们还需要 外链( outlink : 链接从一个网页外出)的数据。没有一个现有的搜索引擎可提供 对外链接 搜索功能。然而,一些搜索引擎,如雅虎和谷歌可以搜索反向链接(链接进入,或指向一个网站)。雅虎也有一个共同的链接的搜索功能,可以将数据收集为图 1 所示的形式。 也有人开展过类似 于同被引分析的共链分析(如 Vaughan You, 2005 ),并已发现网络 可以作为 一个非常有用的数据源。 在下面的例子中,我们通过使用搜索引擎在 http://scholar.google.com/ 将作者同被引分析扩展到 Web 环境。我们在网络上搜索以上的 24 位作者的共现情况,运用名首字母和姓作为检索策略,在谷歌学术 http://scholar.google.com/advanced_scholar_search 上。所有搜索于 2004 年 11 月 27 日进行。 虽然两个组在这种表示中仍然清晰可见, Van Raan 获得了这两个子网络相关的枢纽的位置。一些信息检索科学家在 Web 上不可见,但其中某些人比科学计量学家联系还要紧密。在科学计量学家组内,我们可以看到 Van Raan 主要 吸引 了“荷兰”组,“匈牙利”组也表现出较强的相关性。 用 因子分析 可以 进一步 理解和 解释 这些结果 。图 15 表明结果。第一因子(说明此矩阵的方差只有 11.25 %)由 Croft 和 Van Rijsbergen 再次领衔。第二个因子( 8.37 %)可以被视为一种“ Leiden ” (荷兰莱顿)因子 ,而第三个因子( 6.47 %)可以作为布达佩斯地址(前)的科学计量学家群的区分。此模式与图 10 中基于 ISI 引用数据所示的有所不同,因为其机构部分被增强如图 15 。 图 10 和图 15 之间的相似性和差异(即 ISI 数据和网络数据)与 ISI 引用的早期研究对比网络引用分析是 类似 的。在图书馆学和信息科学( Vaughan Shaw, 2003 )和其他学科( Vaughan Shaw, 出版中), ISI 引文数与网页引用次数相关,但网络引用只有约 30 %至 40 %代表 知识上 影响。因此,相比于图 8 和图 10 ,机构和国家成分在图 14 和 15 分别增强。 不过需要提醒的是,网络引文数据的稳定性是值得商榷的( Vaughan Shaw, forthcoming; Wouters et al., 2004 )。此外,网络数据比高度编码的 ISI 更容易受到操控( Garfield, 1979 )。对 ISI 引文 所做的 几十年 的 研究都 帮助 我们理解 了引文 ,而 对 网络引用研究 则十分有限 。虽然网络信息计量学在近几年( Thelwall, Vaughan, Björneborn, 2005 )快速发展,但仍需要更多这方面的研究。本文讨论将共现矩阵扩展到 web 环境中 就是 向着这个方向努力。 6. 结论和讨论 共现矩阵,如同被引、共词、共链矩阵已被广泛应用于信息科学的研究。然而,关于正确统计分析的应用,混乱和争论仍然存在。问题 的实质在于 对不同类型的矩阵 的 本质的理解。本文讨论了对称同被引矩阵和非对称被引矩阵以及可应用于这些矩阵的适当的统计技术之间的差异。其结论是, Pearson 相关系数不应该被应用到一个对称的同被引矩阵,但可以应用到非对称被引矩阵,以获得分析所需临近矩阵, 用于 如多维标度。本文还提出相似性和相异性矩阵之间有明显的区别,并且我们展示了如何使用这些统计软件如 SPSS 时应如何定义。 并用 实例支持我们的分析参数。 让我们进一步 想想 : 尽管 地理距离有衡量 标准 ,但“知识结构”并没有一个正确的测量方法。同著和同被引数据本身只是 对 抽象结构的 探索性 表示。但是,我们 争论的要点 不 是 数据质量水平 问题 , 即 作为知识结构指标,一种共现数据的类型是否比另一种更有效或可靠( Leydesdorff, 1989 )。我们 要表示的是关于 方法论 的问题 :如果分析 者 可以使用基础的非对称数据矩阵,那么相似或不相似性只能在适当的归一化后表达(例如,使用 Pearson 相关系数或 Salton 的余弦)。然而,共现矩阵已经是这个非对称矩阵的概要统计:它含有的信息 减少了 ,但也可以直接用于映射。 这场争端的一位裁判员提出 人们可能因为理论上的原因还是偏 喜欢把共现 矩阵 转换为相似矩阵 , 比如,使用共现相似矩阵,研究者就能够比较 合著分布 ,而 不 能比较 合著计数。我们认为, 这种说法把 数据收集阶段可能 出现 的 局限 和数据分析阶段 在 方法 上的 决策 混淆了 。如果 研究者 除了共现数据以外没有其他的数据可以用(如互联网研究的案例), 那就只好把这些 数据输入 到 MDS 或因子分析 之类 的以临近度量开始的统计程序中 ,因为这是 获得合著分布的唯一 途径 。然而,人们最应谨慎运用 Pearson 相关的共现矩阵,因为正如我们上面所示(当比较 Van Raan 和 Schubert 的研究 的时候 ),这种数据操作 会 改变相关性的 信号 。如果原始数据可用的话,人们应倾向于使用原始(即非对称)数据矩阵作为统计分析的输入。此外,人们可以从这种非对称矩阵中获得共现矩阵 开展其他的 统计 分析 ,例如,利用 Pajek/ UCINET 的 “ Affiliations ”功能 ,但没有对它的相关系数的进一步处理。 本研究将共现矩阵扩展到网络环境应用中, 现有 网络数据 的属性以及由此而来的数据收集方法均与 从 传统的 数据库如 ISI 不同 。 本文 使用谷歌学术搜索引擎收集 了 数据集,以传统的因子分析和新的可视化软件 Pajek 进行基于社会网络的分析 , 并指出了 Pajek 在分析共现数据中的局限性。本文的唯一目的是澄清围绕矩阵性质和共现矩阵应用的问题,因此有助于信息科学这一领域的进一步发展。
个人分类: 文献计量学|18233 次阅读|9 个评论
文献计量学投稿中经常遇到的败笔
热度 5 zilu85 2014-6-11 11:37
已经写了几篇关于投稿审稿的博文了,今天憋不住再唠叨几句。 1. 结论和结果脱节。这是对学科热点前沿进行文献计量分析的论文中最近常看到的,也最让我无奈的问题。从道理上讲, 结论应当来自于对研究结果的分析,但是很多投稿的结论与数据处理后得到的结果风马牛不相干 , 不是对 多维标度、聚类分析和社会网络分析的结果进行细致分析,经过逻辑推理后得到目前的结论, 而是另找一批文献,按照自己惯有的思维方式,总结分析后得出结论。 2. 方法乱用和滥用。多维标度、因子分析、聚类分析、社会网络分析,十八般武艺全都用在一组数据上,得到了黑压压一片片的图。这些图说明了什么?回过头来看, 用这些方法和工具是为了解决什么问题?如果不是因为研究目标的需要而选择某一种方法,如果没有对结果的深入细致的分析,这些东西就都是花拳绣腿,于事无补。 3.在研究 结果段落里讲述方法的基本概念。 就是在介绍结果的段落里,如“对XX数据的聚类分析 ”,后面要用大量的篇幅写聚类分析的定义,方法等等,这些应该是放到材料方法的内容,作者怕读者不懂,在介绍结果的时候又要啰嗦一遍。 4. 方法照搬照抄,错误百出。 在研究方法部分,不少人就是把别人的研究方复制粘贴过来,然后修改其中具体的数据。比如“ 通过对 52 个高频关键词进行两两共词检索 , 统计 他 们在2214篇文献中同时出现的频率 , 形成52×52的共词矩阵,如表2所示”。 其中的“他”字应该是它,但是发表的第一篇论文就写错了,所以,我现在发现很多论文在方法部分在写矩阵的成分时都写成了“他”,也许就应该用“他们”;还有 Ochiai 系数,最早我错写成 Ochiia系数,很多人发表的论文跟我犯了同样的错误,也写成了Ochiia系数。还有,在 我编写的《简明医学信息学教程》中, HELP决策支持系统的图少了一根连线,后来在其他教科书中遇到同样的图和同样的错误,不由得会心地一笑。
个人分类: 科研体会|19623 次阅读|7 个评论
书目共现分析实践培训班6月23日开班!
热度 2 zilu85 2014-6-5 12:49
【不好意思,这回收钱了】 国家级继续医学教育项目 开 课 通 知 题目: 文献共现分析方法在科研选题中的应用 时间: 201 4 年 6 月 2 3 日 -2 4 日 地点:沈阳市和平区北二马路 92 号,中国医科大学图书馆综合楼 7 楼 CAI 实验室 注: u 受上机和网络条件限制,仅招收 30 人,按报名次序取得听课资格。 u 全程参加学习并经考核合格者,将授予国家级继续医学教育Ⅰ类学分 5 分。 u 报名者请填写报名表邮寄到 yingyang80@126.com 。 u 本项目 收取培训费用每位 800 元 ,食宿自理,赠送自主开发的新版共现分析软件( bicomb 2.01 )。 教学内容及日程安排表 日期 时间 内 容 教师 6 - 2 3 8:30 ~ 11:30 书目数据挖掘的概念、过程以及应用 崔雷 13:30 ~ 16:30 常用中、英文医学文献数据库使用方法 张晗 6 - 2 4 8:30 ~ 11:30 文献 共现分析及 书目数据挖掘系统 闫雷 13:30 ~ 16:30 常用的聚类方法 及 软件 研究热点分析方法 侯跃芳 王孝宁 中国医科大学医学信息学系 201 4 - 6 - 5 下载回执: 参加学习班回执 (1).doc
个人分类: 文献计量学|6623 次阅读|5 个评论
BICOMB2.0发布
热度 7 zilu85 2014-3-20 12:30
网址为:http://202.118.40.6/bc/,主要更新包括: 1.增强了对抽取出来记录进行清洗和整理的功能,你可以在抽取后规范中文关键词、引文等的格式。 2.在共现矩阵里,通过点击矩阵中的数字,可以导出相应的来源文献,即同时引用行和列文献的来源文献,对共词矩阵则是同时含有行和列对应主题词的来源文献。 3.增加了从SCI得到的高频引文到PubMed检索原文的功能,但是效果不理想。 详细内容请下载网页上的说明书。
个人分类: 生物医学文献计量学|21068 次阅读|13 个评论
共现分析乱弹(3)
热度 1 zilu85 2012-8-17 09:00
3.样本的搜集 一般来说,如果要分析一个学科或者专业的发展状况,我们通常选择该专业的核心期刊,如用JCR选择该领域的综合性核心刊物;如果要分析某一较小的主题,如糖尿病,一般用主题词或者关键词来检索。这样做,目的就是让样本尽可能地代表这个学科研究活动,用期刊可以涵盖较大范围的主题,这是用主题词分类号等手段难以达到的;用主题词检索,则可以把分散在各个期刊的相同主题的论文汇总起来。但是,这里肯定有弊端,比如用高IF值的核心刊,违背了随机的原则?忽略了在同专业非核心刊上的文献? 至于样本的数量,一般我认为3000-5000篇就够了,无论是主题词共现分析或者是同被引分析,经验上这些就够了。如果是主题词分析,下载3000-5000篇文献分析其主题词,在PubMed中主题词总数也达到3万以上了;如果是同被引分析,3000-5000篇来源文献也会带来30000以上的引文。 有的同事愿意搜集全面,甚至考虑将诸多数据库中同主题文献记录汇总去重后进行分析。对此我颇不以为然,我们不是检索服务,是通过统计分析显现一个学科主题的研究状况,只要样本数量足够就可以了。希望能有有心人研究一下,样本数量添加到多少之后,主题词/引文频次排序不再有变化,或者共现次数及聚类结果不再有本质的区别,让大家能省很多力气,也解决一直困然我们的阈值问题。
个人分类: 文献计量学|4956 次阅读|2 个评论
共现聚类分析的新方法: 最大频繁项集挖掘
xiaohai2008 2012-3-12 13:54
@ARTICLE{XQZZ+12, AUTHOR = {徐硕,乔晓东,朱礼军,张运良,薛春香}, TITLE = {共现聚类分析的新方法:最大频繁项集挖掘}, JOURNAL = {情报学报}, YEAR = {2012}, volume = {31}, number = {2}, pages = {143--150}, abstract = {针对某一领域的文献,如果两个研究对象同现的频率越高,则通常假设二者存在联系的可能性越大,从而促使共词分析、文献共引分析以及文献作者共著分析等共现分析方法的流行。然而,传统共现分析三个阶段中的前两个阶段存在一定的缺陷,从而导致最后得到的共现聚类分析的结果可能存在一定的误导性。为克服该缺陷,本文从关联规则挖掘领域引入了一种新的共现聚类分析方法--最大频繁项集挖掘,它将传统共现分析法的三个阶段压缩为一个阶段,充分利用了可以利用的各种信息,克服了传统方法的缺陷。通过实验分析发现,设置合适的最小支持度阈值,基本上可以得到比较满意的结果。}, keywords = {共现分析,共词分析,聚类分析,最大频繁项集,层次聚类}, source = {全文: MFI.pdf}, }
个人分类: Proximity|4486 次阅读|0 个评论
词和论文同时聚类告诉我们什么了?
热度 1 zilu85 2010-11-19 09:55
最初的目的,是想研究一下如何利用主题词关联规则从文章中抽取informative sentence。 首先,选定一个主题阿司匹林引起胃肠道出血,在PubMed中输入了检索词: Aspirin/adverse effects AND Gastrointestinal Hemorrhage/chemically induced 并限定要有文摘的文献记录,得到了141条记录。 对这141条记录抽取了主题词并进行了统计,截取出现频次高于5次的主题词,得到了一个数据矩阵,局部如下: 其中的行是高频主题词12个,其中的列是相关的论文若干(141篇中,涉及到12个高频主题词中任何一个的文献记录)。然后,用gCLUTO进行聚类,就是对词和文章的同时聚类,得到了聚类结果,对其中部分内容进行可视化表达,局部如下: 正中间是小格子,可以叫做矩阵可视化,红颜色表示出现,白色的是没有出现。 右侧的是被聚类的三个主题词,左侧则它们的是聚类树图。 下侧是文献记录的标号,而上方则是这些文献聚类树图。 这里显示的是3个词被聚类在一起,胃疾病/化学引起(Stomach Diseases/chemically induced),胃粘膜/药物作用(Gastric Mucosa/drug effects),阿司匹林/毒性(Aspirin/toxicity)。 最有意思的是,这个图形清晰地展示出聚类分析是如何进行的:: 这三个词,胃粘膜/药物作用和阿司匹林/毒性由于它们在371629,2813856,和3259918号文献记录上共现而首先聚集在一起。然后,胃粘膜/药物作用又和胃疾病/化学引起聚类在一起,从标记为红色的方块可以看出,它们是因为同时在2509266和1888645两篇论文中同时出现而被聚类在一起的。 然后就是问题,其实阿司匹林/毒性与胃疾病/化学引起这两个词根本就没有在这些文章中共同出现过,全图如下: 双聚类中显示出来的虚假联系,说明了什么? 这是好事还是坏事? 如果说是虚假联系,这是坏事。 如果说是潜在的联系,这是好事。 我比较倾向于好事,因为: 第一,这三个词确实能够解释为:阿司匹林药物对胃粘膜的毒性作用引起胃部疾病,其语义关系相当明确。 第二,通过共现的论文查看,这些论文(被称作对该类别描述度比较强的属性)也确实介绍了对阿司匹林的胃粘膜毒性作用引起胃疾病的预防。其实这几篇论文的实际内容更为复杂,大致的内容是:为治疗心血管疾病服用阿司匹林,阿司匹林对胃粘膜有毒性作用引起胃疾病,然后用某种药物进行预防。 第三,我相信这两个非相关的词是通过模式上的相似性而聚集到一起的。 这与Swanson的非相关互补文献是否为一个原理呢?如果扩大范围(文献量和主题覆盖面,以及高频词的阈值),是不是会有更多发现呢?能吗?比如中西医结合的主题? 局限性: 这个检索刚开始限定了带有文摘,同时检索的是主要主题词。 同时,如果范围过大,超出了聚类分析合理性的范围,也会很荒谬的哟。 后来,我用一个比较大的范围的主题重新试验了一下,比较失望,表现的都是很合理的语义关系。 不急,哪有随随便便成功的呢,慢慢来吧。
个人分类: 休闲|6273 次阅读|2 个评论
1998—2008年国内外本体应用研究计量分析及可视化
BlueSkyBird 2010-7-6 17:30
胡泽文 王效岳 山东理工大学科技信息研究所 淄博 255049 运用文献计量分析方法、计算机统计分析技术、社会网络分析软件对本体领域的历史文献进行分析,通过绘制文献数量分布图、核心关键词的共现网络,挖掘当前本体应用领域的发展趋势、概况和研究热点等信息,以期让读者对国内外本体应用领域的研究概况、趋势和热点有一个直观、清晰的认识,为以后的研究工作提供一个指引。 本体 共现分析 计量分析 社会网络分析 可视化图谱 亮点1: 利用SQL语句统计高频关键词,利用社会化分析软件如 Ucinet 和 NetDraw 进行高频词共现分析及可视化。 亮点2: 结合图表分析,对共现分析所得研究热点的直观清晰和简明扼要的综述,使读者能够迅速了解到本体的应用领域概况及如何在这些领域应用? 文章下载地址: 1998-2008年国内外本体应用研究计量分析及可视化.pdf
个人分类: 研究论文|6858 次阅读|2 个评论
关于共现分析实际操作的通信
热度 3 zilu85 2010-4-13 09:18
对共现分析感兴趣的人越来越多,这是我在94年开始做这方面研究的时候没有预料到的,这确实是值得庆幸的一件事情,但是随之而来的会有很多实际问题,尤其是对于初学者,这个问题不妥善解决,恐怕会影响到该方法的普及,所以,我觉得有义务给大家多做些解释说明,让这个方法能够得以平稳健康的发展。 以下是我与一位湖南农业大学的研究生之间就共现聚类分析的实际操作问题的往来信件,考虑到可能有很多的同学都会遇到这样的问题,在征得该同学同意的前提下,删去其中感谢的话语(不要因此认为该同学不礼貌哟 ),保留实际的问题信息,发表在这里。 1. 2010年4月6日 崔教授,您好! 目前学生遇到了一些问题,不知道能否得到您的指点: 1)就是利用Bibexcel 技术进行共词分析,那个图谱画不出,只能得到共现矩阵; 2)我研读了您的一些论文,想利用SPSS做聚类分析的,可是我现在只有关键词的共现频率矩阵;还需要进行什么处理才能做聚类分析呢? 3)战略坐标中的向心度和密度具体怎么算呢? 这是他的数据(已经整理过行和列的): 1.我的回信: XXX同学,您好! 1)对于你附件中的矩阵,是通过bibexcel得到的吗?是共现矩阵吗?对角线上的数字代表什么呢?为什么对角线上的数字有的是0,有的不是0呢? 2)如果用SPSS分析,输入的矩阵不应该是相关矩阵,而应该是词-篇矩阵,就是比共现矩阵更为原始的,示例如下: 关键词 论文1 论文2 论文3 论文4 论文5 论文6 Biodiversity 1 0 0 0 0 Biogeography 1 0 1 0 0 Climate 0 0 0 0 1 Climate change 1 1 0 0 1 Competition 0 1 0 0 0 Conservation 0 0 1 1 0 Density dependence 1 0 1 1 1 上述矩阵的1代表该词在该论文中出现,0代表没有出现,你目前得到的矩阵应该是通过这个矩阵进一步计算后得到的。这样的矩阵在SAS中可以输入处理,其他一些小型的专门面向聚类的软件也可以处理,如gcluto,但是首先要把对角线上的数据是什么意思能明白,否则没有可信性。 3)战略坐标的算法我们就是用excel,通过标记同一类的对象,反复计算每一个类别的类内各个对象(词)之间的距离的平均值(某一类的密度),然后计算每个类内的各个对象(词)与本类之外所有词的距离的平均值的平均值(某一类的向心度),看着复杂,实际在excel操作上只是拖动鼠标就可以了。坐标的原点我们用的是所有各类的密度和向心度的平均值。 不知道我说清楚没有,看来需要开设个实用培训班了。呵呵,我申请了一个研究生暑期访学项目,不知道能否批准。 2. 2010年4月7日来信: 尊敬的崔教授: 这两天我一直在琢磨那个矩阵以及如何更进一步的分析,我给您发的那个矩阵就是由Bibexcel 软件得出的,您说的对角线上的数字有的是0 ,我的理解是那两个词之间没有共现关系,而其他数字表明那两个词一起共现的次数,不知道我这样理解有没有错误? 关于战略坐标法,我似乎有点懂了,可能等我把聚类树做出来,会更容易理解些,谢谢您! 2.2010年4月7日我的回信 对角线上的数字,对应的行和列都是一个词,就是说,对角线上的数字应该是同一个词自己和自己的关系,应该是多少? 3.2010年4月7日 来信 崔教授: 列应该是需要向下移一格的,也就是不考虑同一个词自己和自己的关系。我给您传一篇论文吧【注:为《国际力学论文关键词的共词分析》】,我的想法就是该篇论文的表1 ,表2考虑的。 崔教授,您好: 首先向您说声抱歉,我仔细检查了下,发现确实如您所说的那样,我又用软件重新做了一次,发现漏复制了一行,现把正确的矩阵给您发过去。 3.我的回信 这个问题涉及到共现分析的一些基础知识,而且一直在争议,参看邱均平老师的论文【关于共被引分析方法的再认识和再思考】,对于你的数据,我的做法是,把你给我的矩阵填满,对角线输入的是该单词与其他单词共现的总次数,然后输入到SPSS,注意采用的是counts-chi square,得到结果【附件】,你看看是否是你想要的。 下面是填充过的表格,对角线是共现总次数。 4.2010年4月12日 来信 崔教授,您好! 仔细看了您给的聚类图,感觉很好,只是如您所说的,学生还有几个疑问: 1)您能指点一下为什么矩阵中对角线您是取的总和值,这样做是不是有相关的研究?邱均平教授研究论文中是最大值加1,我之前一直愚钝的觉得是个0,现在仔细想想觉得自己对这方面的知识太欠缺了。 2)如您给出的矩阵,如果我想继续做一个战略坐标,请问还应该如何操作?是不是要求他们的一些系数矩阵? 3)在您的回信里,您特别强调了是用counts-chi square 方法聚类分析,请问用这个方法有什么特别的地方吗? 4.2010年4月13日 我的回信 XXX同学,您好! 不用客气,通过你的问题我也学习了很多,对共现聚类分析有更深入的认识。 (1)由于是共现矩阵,里面的数字是两个词的共现次数,所以数目越大表示两个词关系越密切,所以,从这个角度说共现矩阵是个相似矩阵,而不是距离矩阵, 对角线 上的数据代表着和一个词和自己的相关程度,对于相似矩阵,应该是越大越好,转换为相似系数的矩阵后应该是1;如果是距离矩阵,则应该是越小越好,应该是0。至于为什么取总和,是我们多年来的经验,和邱均平老师所提出的不同,如果取了总和,再转换为相似系数矩阵的时候就可以保证对角线上的数据为1,效果会更好。从经验和原理上是这样的,但是没有经过严格的数学论证,由于没有数学上的能力,也不想加入这个讨论中。 (2)战略坐标的算法,再形成了矩阵并有了聚类结果之后, 可以在excel上操作,要点是把同一类的词标记出来,然后排序,把同一类的几行放在一起,先计算类内各词之间的共现次数平均值,这就是该类的密度。然后计算向心度,啰嗦一点儿说,就是把同类的列删除,然后计算同一类各行的总和,就是每一词与类外词的距离,然后求平均值,应该是该类的向心度了。你自己实践几次就明白了,我说不明白。 (3)其实,在我心里,对于矩阵中的数据,既可以是计数(counts)数据,也可以是计量数据(在SPSS中interval),之所以强调,有点儿担心你把计数资料用其他的系数,其实担心多余了,打开SPSS看到这些是通过菜单和选项对应起来了。所以,更正一下是,你可以用counts计算,卡方和另一个都可以试着来,哪个好用哪个。也可以用interval计算,但是开平方的欧氏距离效果不好。另外,聚类中各类别间相似度的计算方法(最大距离、最小距离、组内平均距离和组间平均距离等)都可以尝试,总结个人经验,我认为最大距离效果最好。作为一种非监督的学习方法,聚类分析更多的是依赖于个人经验。
个人分类: 生物医学文本挖掘|11219 次阅读|7 个评论
书目共现分析软件下载网址
热度 5 zilu85 2010-3-16 16:40
已经把软件上传到 skydrive上去了,网址为: http://cid-3adcb3b569c0a509.skydrive.live.com/browse.aspx/BICOMB 对所有人公开,不需要登录到MSN。 共两个文件,选中其中一个,点击一下任一文件的图标,会转到下一个页面,两个文件的图标会移动到右方,然后选中其中的一个文件,点击左上角的下载,逐次把两个文件下载到本地计算机。 两个解压缩后,先运行一遍dbe-install,布置好环境,然后运行bicomb就可以了。 祝你使用愉快!
个人分类: 生物医学文本挖掘|17318 次阅读|14 个评论
我理想中的共现分析软件
zilu85 2010-3-13 17:01
按照我的风格,悄悄地把BICOMB发布出去了。已经有10多位同学跟我要软件了。低调是我一贯的做法,就是想给几位关注这个方法的同道们一起分享这个工具,如同几位好友一起品酒喝茶,不需要喧嚣,和轰轰烈烈。 不知道这茶几位喝着感觉如何,我先自己曝一曝它的不足吧: 1. 还有很多有意义的共现项目没有抽取和统计,比如论文作者: 中文的CNKI算法可以处理一篇论文有多个作者的情况,每一位作者分别计数,同时可以生成它们共现的矩阵。这样我们就可以分析某文献集合中作者的合著情况。 但是,对于PubMed的论文作者,WOS的作者,SCI CD-ROM的作者,多个作者只提取一个,不能做合著分析。 2. 管理员项目中,对管理员添加自定义格式的设定,只能整行的提取出来,用户设置第二个节点不能达到抽取和分割该字段的目的,比如对WOS记录中发表论文的多个作者提取时候,输入分隔符;不能把作者分开。又比如,对WOS记录,自定义字段DE进行提取,输入节点1为DE,节点2为;但是,结果只能整行提取,且只取一行,每一行有多个项目用;分隔,不能抽取出来。 3. 由于CNKI早年的记录中著者单位的格式 比较混乱,对作者单位的统计中,如下面样例所示,两个单位中间没有分隔符;,而且单位太长,所以没有统计出来。如:单位:中国医科大学信息管理与信息系统(医学)系,《中国临床医学影像杂志》编辑部 沈阳 110001,沈阳 110004 4. CNKI中同类项归并问题: 关键词 统计中,同义词是否可以留有一个归并的界面,把Internet和因特网两个作为一个词统计,包括共现矩阵的生成。 期刊名 统计中,两种期刊(期刊改名前后)也可以归并为一个。对于 单位名称 ,同一单位的不同称呼,也要归并到一起。
个人分类: 生物医学文献计量学|7104 次阅读|1 个评论
共现分析目前需要解决的问题以及主观上的经验
热度 3 zilu85 2010-2-20 11:35
共现分析越来越引起大家的兴趣,很多信息专业以外的研究人员也想利用这种方法分析自己学科领域的研究现状或者热点。因此,不断有人跟我探讨这个方法的具体使用问题,说实话,这个方法还在不断的完善之中,应用中有很多具体的问题还没有解决。所以,感觉应该把这个方法的一些弱点,或者说需要进一步完善的地方列举出来,同时也提出自己目前的解决方法,希望有更多的同道能一起探索解决的方法。按照共现聚类分析的顺序,列举存在的问题如下: 1. 分析样本数目的问题:就是用于分析的样本大小的确定,实际上是检索论文数目多寡的问题。根据我的经验,理想的境界是应该包括该领域或主题的所有论文,对于比较大的主题,我一般用软件进行随机抽样,对于一些比较小的主题,论文数应该不少于500篇。道理很明显,文献太少了,共现的偶然性就大,得出的结论就不可信,我们不能对着不可信的结果信口开河。当然,这和你分析的对象是以篇为单位(如论文、引文)、还是一篇文章有多个共现的项目(作者、被引作者主题词有关系。一般我愿意以3000-5000篇作为分析的样本。 2. 高频阈值的确定问题:一般是用出现或者被引用频次高于某个阈值的项目作为下一步分析(共现矩阵和聚类分析)的对象,如高频主题词,高被引论文、高产作者、高被引作者、高被引期刊等等。阈值的选取还是一个样本量的问题,样本太大,最后得到的聚类结果会很庞杂,对各个类别的主题就不好分析和抽取,如果样本太小,得到的主题结构过于泛泛,没有新鲜的内容,比如有人曾经告诉我,分析出来肺结核病研究的热点是肺结核的诊断,肺结核的治疗。没有更细致的信息得到的结果就没有什么意义了。对这个问题国内外也有过研究,主要是检验起来比较麻烦。习惯性地有人愿意套用布拉德福定律的方法,用百分比来确定阈值,但是受到主题范围和发展程度等因素的影响,这个方法确定的高频词不是那么稳定,有的时候高频词很多至几百个,有的时候又很少,似乎应该有一个全面的调查。还有就是有人用HIT 曲线试图解决这个问题,这似乎也是一个思路。再有就是拿最后的聚类分析结果的质量好坏来评价阈值选取的方法。目前,我个人比较喜欢30-40左右的高频词或者高被引论文来分析。 3. 聚类分析方法的问题:从大的方面来说,有凝聚的方法和拆分的方法,比如在SPSS软件中可以用系统聚类方法,也可以用K-means快速聚类方法,我们一般使用比较简单直观的系统聚类方法,因为我们比较注重共现主题词之间的语义关系分析,所以愿意知道凝聚过程的先后顺序。但是,最近看到文章说,有人专门进行过研究,说是快速聚类的效果要优于系统聚类。这个有待于深入调查。另一方面,从具体的细节来说,还有相似系数的选择问题,很多国外的研究似乎用皮尔逊相关系数,而我们多年来一直用Ochiia相似系数,因为我们最开始是同被引聚类分析,从原理上看,我们认为这个系数是最合理的,就是两篇被引论文同被引次数做分子,两篇论文各自被引的总次数的乘积做分母,不用考虑没有引用这两个论文的其他论文,这些论文数量是相当地庞大。还有的是类与类聚合时候采用的方法:最大距离法,最小距离法,平均距离法重心法等等。一般我们是根据主题范围的大小确定这些方法的选择,比较细小专深的题目,我们采用最大距离法,把这些主题或者论文的类别尽量拉大距离,划分清楚;对于比较大和分散的主题,我们用最小距离法让各个类别之间尽量聚集到一起。 4. 聚类结果的解释问题:我们目前是通过人工阅读发现聚类项目之间的语义关系,这有很大的主观性,受到分析人员的专业水平和综合抽象能力的影响。国内外有一些对类别的主题进行识别的研究,有人提出主题词的粘滞度,有人从文章中抽取句子代替论文然后组成这个类的标签,有人提出用HITS算法,涉及到文本分类问题,又受到分类合理性检验问题的困扰,结果都不是令人满意,窃以为这又是一个比较有前景的研究方向。 总之,所依赖的主要原理一个是共现,一个是聚类分析。由于聚类分析本身就是一个无监督的方法,多数情况下要靠经验积累才能找到比较好的聚类途经和聚类结果的解释。上面列举的只是实践中遇到的主要问题,具体实践中恐怕还有遇到很多问题。
个人分类: 生物医学文本挖掘|7377 次阅读|4 个评论
bibexcel使用的总结
热度 1 zilu85 2009-11-24 13:46
1. 格式转换 下载记录后,如果是 unix 格式,用 editpad lite 转换为 Windows 格式。 生成后缀为 .txt 的文件。 用 Misc/Converttodialog/ convertfromWebofScience 命令,转换文件格式 供程序分析用。 生成 dialog 格式文件,后缀 .doc , 2. 抽取字段 1. 选择刚生成的 .doc 文件 生成 .out 文件。 2. 在 old tag 内输入要分析的字段标识。如 TI 3. 在 PREP 按钮旁下拉菜单, 选择字段抽取方式 。 blank, separated words, e.g. title 4. 按下 PREP 按钮。 2. 在 old tag 内输入要分析的字段标识。如 CD 3. 在 PREP 按钮旁下拉菜单, 选择字段抽取方式 。 any, separated field 4. 按下 PREP 按钮。 3. 频数统计 1. 选中刚生成的 .out 文件。 生成 .cit 文件 2. 统计对象 : 左侧中部,下拉菜单 whole string 3. 排序方式:核选框 sort descending 4. 按下 start 【对来源文献标题的统计】 2. 统计对象 : 左侧中部,下拉菜单 cited author 3. 排序方式: remove duplicates ,核选框 sort descending 4. 按下 start 【对被引作者的统计】 4. 共现分析 .cit 文件 .out 文件 1 .选中刚刚生成的被引作者 .cit 文件,查看。 2. 在主窗口中将要分析的项目涂蓝。 3.Analyse/Coocurrance/slectunits via list box 【选共现分析的对象】 4. 选中刚生成的 .out 文件。 不查看 。 5.Analyze/Co-occurrence/Make pairs via list box 。 生成 COC 文件 5. 生成矩阵 打开 .cit 文档。查看。 在主窗口中将要分析的项目涂蓝。 Analyse/Coocurrance/slectunits via list box 【选生成矩阵的对象】 选中刚生成的 .coc 文件。 不查看 。 Analyze/Make matrix 【生成矩阵】 生成 .ma2 矩阵文件。
个人分类: 休闲|16737 次阅读|5 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-7 07:33

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部