科学网

 找回密码
  注册

tag 标签: 因子分析

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

且读且议论(5):矩阵!矩阵!!矩阵!!!
热度 4 zilu85 2014-7-1 10:13
Loet Leydesdorff和Liwen Vaughan 于2006年发表于 Journal of the American Society for Information Science and Technology (JASIST)上的一篇文章,题目是Co-occurrence Matrices and their Applications in Information Science: Extending ACA to the Web Environment。 我觉得这是很多对共现分析感兴趣的人必须读一读的文章,所以让今年毕业的一位本科生(隋明爽同学)翻译了一下,并且在研究生抄读会上进行了讨论。这篇文章回答了很多人经常遇到的问题:到底向SPSS里输入什么矩阵? 惭愧的说,2006年的时候,我也指导了一位本科生想做这方面的研究,无奈才疏学浅,没有得到理想的答案,看了大师的文章,知道还是底子太薄了。 学生翻译的肯定有很多错误,我也认真滴帮着改了一下,说实话,战战兢兢,有些翻译穿凿附会,尤其是翻译到后面,竟然出现了“裁判员”的字样,惊觉这里可能有过一场论战,可别弄错了误伤了谁啊。 共现矩阵及其在信息学中的应用:将 ACA 扩展到网络环境 摘要: 共现矩阵,如同被引、共词、和共链矩阵,已经被广泛应用到信息学中。然而,其中的混乱和争议阻碍了数据正确的统计分析。在我们看来,问题 的核心在于对 各类不同矩阵的本质 的理解 。本文讨论了对称同被引矩阵和不对称引文矩阵的差异,并探讨了 这两种矩阵各自适合于什么样的统计 技术。 我们认为, 相似性度量(如 Pearson 相关系数和余弦 系数 )不应该应用到 对称 的同被引矩阵,但是可以应用到非对称的引文矩阵,以推导出其相似矩阵。 本文将用例子说明 这个论点。本研究 也 将共现矩阵应用 万维网环境中,万维网中的数据属性及数据的获取方式都和传统的 SCI 数据库不同 。 本文利用了 一组用谷歌搜索引擎收集的数据,分别用多元分析的传统方法和一种基于社会网络分析和图论分析的新型可视化软件 Pajek 进行分析。 简介: 共现矩阵,如同被引、共词、和共链矩阵,为我们 描绘( 映射 ) 和理解 核心文献集的 结构提供了有用的数据。对 这些共现 数据有不同类型的分析方法, 关于 这些方法 汇集了很多文献 ,构成了信息 科学 的一个重要领域。然而,对于这些矩阵的性质和适当的分析方法仍然存在着混乱。例如,从 Ahlgren , Jarneving 和 Rousseau ( 2003,2004a 和 b ), White ( 2003 , 2004 ), 与 Bensman ( 2004 )之间关于 Pearson 相关系数和余弦 系数 在作者同被引分析( ACA )的讨论中就可见一斑。在我们看来,作者在 ACA 中所用的共现矩阵 本身就 是临近数据,在映射绘图之前不需要转换。我们 建议应该尽可能使用 非对称矩阵 中 , 如果做可视化映射亦可以从这个矩阵推导出共现矩阵的属性 。 由于 共现矩阵 将来可能 广泛应用到网络的研究 , 如何处理和理解共现矩阵的问题已经上升到了一个新的层面 。在这种情况下, 人们常常可以不再检索构建共现矩阵所需的整个文档集,而是可以通过布尔逻辑检索直接构建矩阵。我们将讨论各种矩阵的性质和围绕他们的分析出现的问题,以期能够澄清一些混乱,从而促进信息学领域的进一步发展。我们的论证是方法论的,但是我们将使用基于 ISI 的信息学领域的 ACA 为例,此例曾在本期刊中作为讨论的课题( Ahlgren et al. , 2003 , 2004a , 2004b ; White , 2003 , 2004 ; Bensman , 2004 ; Leydesdorff , 2005 )。下一步我们将把该数据集和分析扩展到网络环境中,以谷歌学术搜索引擎检索相同的学者 群 。 2. 对称共现矩阵 VS 非对称引文矩阵 2.1 对称共现矩阵 Small 率先提出同被引分析(参见 Marshakova , 1973 )。他构建同被引矩阵如图 1 所示。矩阵中的每个单元的数字是两篇文章被共同引用的次数。例如,文献 1 和文献 2 共同被引用 10 次,而文献 1 和文献 3 共同被引用 20 次。当时( 70 年代初)由于计算条件的约束, Small 不得不用 ISI 数据作为列表而不是用共现矩阵。运用单连接聚类, Small 可从该数据中提取到同被引图谱,而不 用 产生矩阵( Leydesdorff , 1987 )。 White 和 Griffith (1981) 将同被引分析的概念引申为作者同被引分析( ACA ),对该领域的发展有着突出贡献。他们运用第一作者,而不是文章,作为分析的单元;与同被引分析 不同 ,他们 把 被引作者而不是被引文献作为分析单元。 但是 他们的矩阵本质上是一样的,如图一所示,除了用作者 1 ,作者 2 等代替了文献 1 ,文献 2 等。 Small , White 和 Griffith 都用了 多维标度 ( MDS )和聚类分析来分析他们的数据。 White 和 Griffith 也运用了因子分析。不同之处在于, Small 用 Jaccrad 指数进行了数据归一化(从 ISI 数据库获得的原始同被引数据),而 White 和 Griffith 对此运用了 Pearson 相关系数。 Small 和 Sweeny ( 1985 )开始使用余弦作为替代相似性度量 指标 ( Salton McGill , 1983 )。 图 1 形式的矩阵 就 是一种临近矩阵。如 Kruskal ( 1978 年,第 7 页)所定义的:“ 所谓 临近性是 指 表示两个对象是多么相似或者多么不同的数字,或者被 感觉 是,或者任何此类度量。”临近矩阵可以是相似性矩阵或不相似性矩阵( Cox 和 Cox, 2001, 第九页)。同被引或合著者矩阵是相似性(非相异性)矩阵。单元格中的数字越大,两篇文章(或两个作者)之间越接近。相似矩阵可以输入到多维尺度软件直接生成一个地图,它显示了文献或作者的相对位置。映射绘图的原理是临近性越高(两个单位间越相似),这两篇文章或这两个作者在地图中的位置就越接近。 2.2 非对称引文矩阵 另 一种构建引用数据矩阵的方法是以图 2 所示的形式。以作者同被引为例,在此矩阵中,行是引用文献,列是被引文献。因此,文献 A 被文献 1,4,5, 引用,文献 C 被文献 2 和文献 3 引用。 此矩阵与图 1 所示矩阵 十分 不同。图 1 中的矩阵是一种对称矩阵:( 1 )行和列是相同的对象;( 2 )行列数相同。( 3 )矩阵中的数据关于对角线对称,所以一 半 的矩阵就足以涵盖所有数据。显然,图 2 中的矩阵 不具备上述 三个特点,而且该矩阵是非对称的。 进一步讲 ,图 2 中的矩阵不是临近测量,所以该矩阵不能直接输入做 MDS 。然而,我们可以将 这种 属性矩阵转换为临近矩阵。“ 将不适用于 MDS 的 非临近矩阵转换为临近矩阵最常用的方法就是 计算一个表的行(或列)之间 整体 相似或不相似性的一些度量”。 而 推导出 整体 临近性度量的最常见方法是计算变量间的相关性或(欧几里得)平方距离( Kruskal , 1978 ,第十页)。欧几里得距离矩阵可以认为是一种相异矩阵,而 Pearson 矩阵可以认为是相似矩阵。然而, Ahlgren 等人( 2003 )认为, Pearson 相关系数形式上不是一种相似性度量,而是 对 线性依赖性 的一种 度量。(见下一节的相似性与相异性矩阵的讨论)。 我们着重谈 Pearson 相关系数,但类似的推理可应用于余弦作为相似性度量,或以欧几里德距离作为相异性度量( Ahlgren 等人, 2003 年,第 551 )。 Pearson 的 r 值 作为一种临近度量可能是负值,可通过( r +1 ) /2 进行线性变换,转变为 0 和 1 之间的值来 解决 。通过将 Pearson 相关性应用到 表 2 中的数据(列成对的相似性),然后用( r +1 ) /2 进行转换,得到如 表 3 所示的相似性矩阵。 这种相似矩阵具有了表 1 中 对称矩阵的所有三个属性,在表 2 中的数据中,我们可以看到文献 A 和 B 被文献集中相同的文献引用(文献 1 , 4 , 5 ),在表 3 里它们的相似系数为 1 就表明了这种关系。相反,文献 A 和 C 被文献集中完全不同的论文引用,因此在表 3 里,它们之间的相似系数为 0 。 在非对称矩阵(图 2 ) 里 ,被引用的文章 被当做是引用文献的属性, 因为被 引文献出现在 引用文章的参考文献列表。文章 A 和文章 D 有三分之二的引用文献相同,所以 它 们之间的系数是 0 和 1 之间的,如 0.295 。 综上所述, 在 同被引分析 可以用 Pearson 相关系 处理 非对称 的 引用矩阵,然而,将 Pearson 系数应用到对称性临近矩阵中是存在问题的。 W hite ( 2003 ,第 1251 )指出,戴维森( 1983 ) 在其有关 多维尺度 的 教科书首页上,提及到 Pearson 系数 可以 作为两种基本的临近度量方法之一。不过,在 该 书中, Pearson 相关系数常用于构建那些没有做过临近度量的数据的临近矩阵。同被引矩阵本身就是一个临近矩阵,因此不必再运用相似性度量来构建临近矩阵。相反,这样做甚至可能扭曲数据,我们可以通过一个实例来说明。 2.3 一个例子 例子中的数据(见表 1 ) 拷贝自 SPSS ( 1993 ) 。该表 显示的是 美国十大城市的 飞行里程 。这些距离数据是从二维地图中产生的,因此人们可以 直接 评估用这些数据重新构建的地图的质量。 显然,这是一个对称的临近矩阵。数据 表示的是 相异性,数字 越大 ,城市之间相隔越远,即 它 们在定位上就会有更多的不同。将矩阵输入到 SPSS 中,选择 PROXSCAL 作为 MDS 的一个选项,我们得到了图 4 ,一个关于这些城市几近完美的相对位置绘图(这些位置是相对的,地图的东部和西部的扭转的。然而,由于位置的相对性, MDS 的结果可通过自由旋转来解释)。 图 4 :使用原始距离矩阵绘制的十大美国城市 MDS 地图( PROXSCAL )(归一化的原始应力为 0.0001 。 如果 将表 1 中的数据 转换为 Pearson 系数, 再用这个 新矩阵绘制 MDS , 得到的 这十个城市 地图则十分 扭曲,且其归一化原始应力非常高( 0.11341 )。 图 5 :使用 Pearson 相关矩阵绘制的十大美国城市 MDS 地图( PROXSCAL )(归一化的原始应力为 0.11341 ) 显然,图 5 相对于图 4 并没有改 善 (应力变得非常高)。通过使用 Pearson 相关系数代替 城市间的 距离,地图被扭曲了。例如,洛杉矶相比于旧金山更靠近西雅图,而纽约相比对华盛顿特区更靠近于芝加哥。 Pearson 相关系数 依据 均值 将数据进行 标准化, 而被当做 变量 的共现模式 (用 Pearson 系数加以表示) 在某些情况下与网络中临近性是不同的。 与 可明确绘图映射的二维地理数据不同于, 知识 结构的测定 ( 如通过合著作者或同被引数据的测定 ) 通常是多维度的。多维尺度分析(或因子分析)搜索空间中的 n 维数据 在 低维 上的 投影。 MDS 使用应力测量 作为 适用性指标,但这只是一种 探索性指标 。 最终,分析 人 员 还要在定性层面上理解所表达的知识结构的表现形式。 换句话说, 用 合著者数据 来多维表达知识 结构可以很好, 但是 这种 表达 不能很容易的投影到二维或三维结构 上 。因子分析可以让我们在更高的维度、精确的数字(算法的)上研究数据缩减的质量,因此可能有助于理解几何可视化投影的质量。 3. 相似性 VS 相异性度量 如上所述,有两种类型的临近度量:相似性和不相似性。显然,这二者是相反的,所以 在 MDS 中 应 区别对待 它 们。在最新的 SPSS 版本中, MDS 有两个选项: ALSCAL 和 PROXSCAL 。 ALSCAL 设 定输入的是相异矩阵,而 PROSCAL 允许指定临近度量时相似性还是相异性。毫无疑问,同被引是一种相似性度量(两篇文章或两个作者同被引次数越多,二者之间就越相似)。所以应使用 PROSCAL 的相似性选项。如果人们弄反了这两种类型的相似性度量,该映射绘图的结果将是错误的。例如,表 1 中的美国城市间的行程里数提供了一种相异性测量,如果我们在 MDS 中将其指定为相似性度量,其结果将是一个非常扭曲的地图(由于空间限制生成的地图此处略去)。 在 SPSS 的早期版本中,只有 ALSCAL 选项是可用的(只有相异性度量)。在这种情况下,同被引矩阵在输入 SPSS 之前,应该被转化为相异矩阵。 Kruskal 和 Wish ( 1978 , p.77 )明确指出“如果临近值是相似性度量, 那就 必须 把它 们“上下颠倒”为相异性度量,如形成的相异性度量 = (常数 - 相似性度量),其中的常数应 审慎 选择。”如果相似性度量在 0,1 之间(如上面的例子,运用 Pearson 系数获图 3 所示矩阵的临近矩阵),常数可用 1 ,即相异性 = ( 1- 相似性)。我们对该公式进行了广泛测试,发现经从相似性到相异性之间正确转换之后的相异性度量,和直接运用相似性度量所得的映射地图,总是相同的。 MDS 广泛使用的一种形式是不对称属性矩阵,如图 2 所示。 MDS 是当时因子分析 、 聚类分析等 多元分析分析中的 一种主要的可视化技术。在这种情况下,该数据被当做相异性变量分析,因此 ALSCAL 和 PROXSCAL 都可以使用。欧式距离是默认的相异性度量。对于输入的非临近度量的数据, PROSCAL 可以构建临近矩阵。因为我们在以下各节中研究这两种不同类型的矩阵,我们整个研究中将使用 PROSCAL 。请注意,一种可视化技术如 MDS 是数据的二维或三维表示,而例如因子分析,加入了旋转数据的可能性以得到一个对于该几何代表性结构的更高维度和定量的理解( Schiffman 等人, 1981 )。 4. 作者同被引的一个实例 让我们回到在本杂志上几个前面所讨论的作者同被引分析的例子( Ahlgren 等, 2003; 白, 2003 年 ; Bensman , 2004; Leydesdorff , 2005 ),并相当详细的讨论不使用对称 的 共现矩阵,而是文献 - 引文的非对称矩阵的 效果 。 Ahlgren 等人( 2003 : 554 )从 WOS 上下载发表在《科学计量学》的 430 篇 文章书目 数据 , 以及 在 1996-2000 年期间发表在《美国学会杂志信息科学与技术》( JASIST ) 483 篇文中 的 书目数据 。 根据 913 篇 文献的参考文献 中 , 他们构建了信息检索领域 和文献计量学领域各 12 位 作者的共现矩阵 。他们的论文提供了 这些作者的 共现矩阵和 Pearson 相关表。 我们重复了 他们进行过的 分析,以获得原始的(非对称)的数据矩阵。运用相同的检索策略我们于 2004 年 12 月 18 日,检索到 469 篇《科学计量学》的文章和 494 篇 JSSIST 的文章。由于 ISI 有时会在 后来 把 对以前发表的 文献 陆续加入数据库 , 论文 数 稍微高一点 与该实际是一致的。因此,我们忽视了这些差异。 4.1 描述性统计 从检索到的( 469+494= ) 963 文献中, 902 篇包含了 21813 篇引文 , 其中 279 篇 对 所研究的 24 位作者中 的 两 位以上的 作者至少 有一次同引 。 在 279 篇引用文献集中,没有只包含一篇引文只引用一个作者的引用记录。因此,可认为该数据集 是 很好高被引作者集。图 6 显示 同时 引用 本研究中多达 10 位作者的文献数。 图 7 显示了这些引用文献集的作者总被引次数。注意,科学计量作者平均引证率为 44.6 (± 14.8 ),而信息检索作者平均引证率较低—— 26.1 (± 6.5 )。引用率是 具有 领域 特异性 的。 下面 我们从描述性统计转移到数据的分析。 4.2 非对称矩阵 的 数据分析 可以将 该数据导入到 SPSS , 对 非对称矩阵 进行 各种形式的多变量分析。例如,人们可以使用 Pearson 相关矩阵。表 2 提供了 24 位作者的 Pearson 矩阵。这些 Pearson 相关性与 Ahlgren 等作者提出的有很大的不同,因为他们将 Pearson 应用到对称同被引矩阵。例如, Van Raan 和 Schubert 在后面的表 9 中的同被引模式的相关系数为 0.74 ,而我们发现他们的引用模式之间是负相关的( r=-0.131 , P0.05 )。从对称的共被引矩阵导出的 Pearson 相关系数都很高且显著,因为这个矩阵是对称的,所以所有的值和关系都出现了两次。 图 8 所示,输入非对称矩阵进行 MDS 的 PROXSCAL 结果。可视化分析显示,信息检索作者沿单一(几乎水平)轴分布,而科学计量学作者沿垂直轴分布,且信息检索作者比科学计量学作者更有条理。矩阵的因子分析证实了这一观察,使得能够用定量解释来揭示图象。 选择 4 个因子能使我们理解 两组作者之间的 关系和每个组内的精确结构(表 3 )。前两个因子 的 因子载荷专门 表示 信息检索作者。这两个因子解释了矩阵中 26.8% 的公共方差,这两个高载荷因子对于科学计量学作者只有 14.2% 。这意味着,信息检索作者之间的同被引比科学计量学作者之间的更 紧密 :即他们的同被引模式比科学计量学作者的更高度相关。因子 1 和 2 的分野以及 因子 3 和 4 之间的 分野显现了 不同 的 性质。 Braun , Schubert 和 Glänzel 是一个单独的组;他们同被引主要是因为他们的共同地址(直到最近)在布达佩斯,且他们 合 著了很多文章。 Cronin 作为一个被引作者,其位置特殊,且与 Derek de Solla Price 高度相关 。他和 Price 的引用模式不与上述 4 个因子的任何一个相关。 根据定义 ,构建 Pearson 相关矩阵 是因子分析的 第一步。如果我们在 PROXSCAL 中输入表 2 中提供的 Pearson 相关矩阵作为相似性测量,我们得到图 9 。 虽然这张图片让我们能同样的观察到数据分为两个组(左侧的信息检索科学家和右侧的计量学家),但是其图片信息量少了很多,且应力更显著变差。因为统计中假设其正态分布 , Pearson 相关矩阵比原始数据矩阵信息量更少。这样,由于我们 把 归一化数据输入到 MDS 中,所以得到一个扭曲的图像。 而 因子分析通过旋转矩阵使我们能够获取其基础结构, 而不必考虑是否 服从正态分布 的假设 ( Kim Mueller, 1978 )。此外,因子分析可使我们在参照矩阵的特征向量对 Pearson 相关矩阵优化后,绘制出散点图。在三维空间中的相应表示说明了两组之间的主要区分和每个组内的精细结构。 4.3 同被引矩阵 如果把 同被引矩阵到直接输入 PROXSCAL 也 可以中获得相似的结果(图 11 )。然而,人们必须 把 同被引数据 当做定序数据, 以减少内应力,也就是提高拟合。 Ahlgren 等 ( 2003, at p. 558 ) 提出应该将这些 数据作为 定 序数据( Siegel Castellan, 1988, at p. 225 )。两组分界很清晰,每个组都有一个与上述因子分析讨论的区别相关的内在维度。 当我们将相同的技术运用到基于同被引矩阵的 Pearson 相关矩阵作为输入——如 ACA 的一般实践——我们得到图 12 : Pearson 相关矩阵不是定序数据,因此不能用其他测量标度来减少应力。尽管在图 12 中有部分原始结构得以展现,这种数据的表示还是比原始矩阵含有的信息量要小,应力则又一次相对较高。仍然可以识别部分结构的原因是数据集的特殊性和不寻常性:这两组作者差别十分明显,几乎没有重叠之处 (Ahlgren et al ., 2003, at p. 555). 。 总结 起来看 :使用 Pearson 相关的对称共现矩阵歪曲 了 共现数据中所含的信息。如果该数据结构是健壮的, 如 两组研究人员 的数据集分界清晰 ,人们 还是 可采取这种结构 的 。然而,这 只 是一个例外而不是常规的。美国城市之间的距离的例子展示了 把 Pearson 相关系数 应用 到对称临近矩阵 后 如何扭曲其结果,即使在简单的地理和二维情况下。当人们进行到多变量分析,如因子分析( Bensman , 2004 )时,使用 Pearson 系数到非对称矩阵上的优点变得明显。然而,在这种情况下, Pearson 相关系数 应该 运用到非对称矩阵,而不是对称同被引矩阵。对于使用 MDS 表示对称临近矩阵,人们最好把原始矩阵(如同被引矩阵)输入到分析中。 4.4 社会网络分析 最近,基于图论的 社会网络 分析可视化技术 有了长足的进步 ( Scott, 1991; Wasserman Faust, 1994 )。 虽然 我们以上讨论的非对称矩阵可以看做是社会和行为科学的一个典型设计,这些新技术并没有把变量(链接) 作为 案例(节点) 的属性 ,而只是研究其链接,并 用 链接 解释 节点。网络的发展是这些研究的主题。同被引数据可以看做是文本之间的链接数据,而 被 引文献 则是 文本 的属性 。然而,无论是在方法论和理论假设的方面,社会网络分析的传统与信息科学共现数据的分析是有所不同的。 我们认为上述的非对称矩阵比对称共现矩阵 包含 更多的信息。后者可以通过数学的方法由 前者 矩阵和其转置矩阵相乘得出( Engelsman Van Raan, 1991 )。共现矩阵 由 原始(非对称) 矩阵推导出来 ,因此含有较少的信息( Leydesdorff, 1989 )。另外,人们可以通过使用欧几里德距离度量,或通过使用 Pearson 相关或余弦产生一个相异、相似性矩阵。然而,网络分析学家对因子之间的交流结构更感兴趣,所以将链接作为重点分析单位。两个数据集链接的数量被定义为 在各自数据集中 出现 次数 的 乘积 。例如,如果一个作者在一个文献集中被引用两次,在另一个中被引用三次,这种“隶属关系”的数量——因为这种测量被称为 社会网络 分析——是 6 ,而共现的数目只是 2 。 但是 这种定义 上的差异 并 没有造成 绘图 上的不同 ,因为 Pajek 的可视化算法 几乎 成为网络可视化标准的程序 ,它 首先 将 所有的值 降为 二值变量( 0 和 1 ),此后使用户通过变线尺寸来可视化。图 13 显示了我们运用 Pajek 和 Kamada Kawai 的基于弹簧算法( 1989 )可视化共现矩阵。该算法 通过 寻求最小化弹簧系统所含能量 来 减少应力。可 以把它 看做等同于非度量多维标度。 使用社 会 网络分析工具做共现数据的可视化和分析有几个优点。首先,在理解互联网操作的压力 驱使 下, 人们对发明更加综合性地 阐述网络 的 算法 越来越感兴趣 , 同样的事情也发生在 生物和物理系统的其他网络( Da F. Costa et al., 2005 )。社会网络分析受益于图论理论的发展。 同样 可视化技术 也呈现了 爆炸 式 发展。 使用 PROXSCAL 可能比使用 Pajek 更适用于同被引数据的可视化,因为 PROXSCAL 可以将衡量尺度考虑在内。然而,如上所述 Pajek 可允许用户以该线的粗细程度表明关系的强度。 PROXSCAL 和其他 MDS 程序要求用户自己绘制相关线路和类团。在上面的例子中,图 13 显示了类似于图 10 和图 11 的结果,因为所研究的数据集是 一样的 ,其中包含了两个不同作者集; 把 同被引矩阵 缩减 到二值 矩阵 并不显著影响其结果。 我们整个研究的中心思想是,人们应意识到 : 网络数据 不等同于数据 属性。从网络的角度看,例如,不妨把重点放在网络的 结构 是如何随着时间的推移而发展的。何时刻何人执行了何功能?然而,科学计量学家常把有兴趣于特定的节点(作者)以及他们是如何随时间发展的,而网络分析师可能会讨论其结构特点如“功能等同”和“结构洞”( Burt, 1982, 1995 )。这两种传统可以被视为是 核心矩阵的 潜在互补的 两个方面 。 上面 我们 也提到 , 如果有核心 矩阵,通过分析非对称矩阵可对该数据深入了解,但我们现在将转向当没有可用的基础底层数据的情况。 5.ACA 扩展到互联网研究 在 Web 环境中,检索原始引用(如在图 2 中所示),然后使用 Pearson 系数来构造一个相似性矩阵(如图 3 )的方法往往是不可行的。网页集的大小对于少数研究员来说 处理量 过于庞大。如果我们要研究的是网络共链分析,那么图 2 那样的形式是 很难得到 的。因为人们还需要 外链( outlink : 链接从一个网页外出)的数据。没有一个现有的搜索引擎可提供 对外链接 搜索功能。然而,一些搜索引擎,如雅虎和谷歌可以搜索反向链接(链接进入,或指向一个网站)。雅虎也有一个共同的链接的搜索功能,可以将数据收集为图 1 所示的形式。 也有人开展过类似 于同被引分析的共链分析(如 Vaughan You, 2005 ),并已发现网络 可以作为 一个非常有用的数据源。 在下面的例子中,我们通过使用搜索引擎在 http://scholar.google.com/ 将作者同被引分析扩展到 Web 环境。我们在网络上搜索以上的 24 位作者的共现情况,运用名首字母和姓作为检索策略,在谷歌学术 http://scholar.google.com/advanced_scholar_search 上。所有搜索于 2004 年 11 月 27 日进行。 虽然两个组在这种表示中仍然清晰可见, Van Raan 获得了这两个子网络相关的枢纽的位置。一些信息检索科学家在 Web 上不可见,但其中某些人比科学计量学家联系还要紧密。在科学计量学家组内,我们可以看到 Van Raan 主要 吸引 了“荷兰”组,“匈牙利”组也表现出较强的相关性。 用 因子分析 可以 进一步 理解和 解释 这些结果 。图 15 表明结果。第一因子(说明此矩阵的方差只有 11.25 %)由 Croft 和 Van Rijsbergen 再次领衔。第二个因子( 8.37 %)可以被视为一种“ Leiden ” (荷兰莱顿)因子 ,而第三个因子( 6.47 %)可以作为布达佩斯地址(前)的科学计量学家群的区分。此模式与图 10 中基于 ISI 引用数据所示的有所不同,因为其机构部分被增强如图 15 。 图 10 和图 15 之间的相似性和差异(即 ISI 数据和网络数据)与 ISI 引用的早期研究对比网络引用分析是 类似 的。在图书馆学和信息科学( Vaughan Shaw, 2003 )和其他学科( Vaughan Shaw, 出版中), ISI 引文数与网页引用次数相关,但网络引用只有约 30 %至 40 %代表 知识上 影响。因此,相比于图 8 和图 10 ,机构和国家成分在图 14 和 15 分别增强。 不过需要提醒的是,网络引文数据的稳定性是值得商榷的( Vaughan Shaw, forthcoming; Wouters et al., 2004 )。此外,网络数据比高度编码的 ISI 更容易受到操控( Garfield, 1979 )。对 ISI 引文 所做的 几十年 的 研究都 帮助 我们理解 了引文 ,而 对 网络引用研究 则十分有限 。虽然网络信息计量学在近几年( Thelwall, Vaughan, Björneborn, 2005 )快速发展,但仍需要更多这方面的研究。本文讨论将共现矩阵扩展到 web 环境中 就是 向着这个方向努力。 6. 结论和讨论 共现矩阵,如同被引、共词、共链矩阵已被广泛应用于信息科学的研究。然而,关于正确统计分析的应用,混乱和争论仍然存在。问题 的实质在于 对不同类型的矩阵 的 本质的理解。本文讨论了对称同被引矩阵和非对称被引矩阵以及可应用于这些矩阵的适当的统计技术之间的差异。其结论是, Pearson 相关系数不应该被应用到一个对称的同被引矩阵,但可以应用到非对称被引矩阵,以获得分析所需临近矩阵, 用于 如多维标度。本文还提出相似性和相异性矩阵之间有明显的区别,并且我们展示了如何使用这些统计软件如 SPSS 时应如何定义。 并用 实例支持我们的分析参数。 让我们进一步 想想 : 尽管 地理距离有衡量 标准 ,但“知识结构”并没有一个正确的测量方法。同著和同被引数据本身只是 对 抽象结构的 探索性 表示。但是,我们 争论的要点 不 是 数据质量水平 问题 , 即 作为知识结构指标,一种共现数据的类型是否比另一种更有效或可靠( Leydesdorff, 1989 )。我们 要表示的是关于 方法论 的问题 :如果分析 者 可以使用基础的非对称数据矩阵,那么相似或不相似性只能在适当的归一化后表达(例如,使用 Pearson 相关系数或 Salton 的余弦)。然而,共现矩阵已经是这个非对称矩阵的概要统计:它含有的信息 减少了 ,但也可以直接用于映射。 这场争端的一位裁判员提出 人们可能因为理论上的原因还是偏 喜欢把共现 矩阵 转换为相似矩阵 , 比如,使用共现相似矩阵,研究者就能够比较 合著分布 ,而 不 能比较 合著计数。我们认为, 这种说法把 数据收集阶段可能 出现 的 局限 和数据分析阶段 在 方法 上的 决策 混淆了 。如果 研究者 除了共现数据以外没有其他的数据可以用(如互联网研究的案例), 那就只好把这些 数据输入 到 MDS 或因子分析 之类 的以临近度量开始的统计程序中 ,因为这是 获得合著分布的唯一 途径 。然而,人们最应谨慎运用 Pearson 相关的共现矩阵,因为正如我们上面所示(当比较 Van Raan 和 Schubert 的研究 的时候 ),这种数据操作 会 改变相关性的 信号 。如果原始数据可用的话,人们应倾向于使用原始(即非对称)数据矩阵作为统计分析的输入。此外,人们可以从这种非对称矩阵中获得共现矩阵 开展其他的 统计 分析 ,例如,利用 Pajek/ UCINET 的 “ Affiliations ”功能 ,但没有对它的相关系数的进一步处理。 本研究将共现矩阵扩展到网络环境应用中, 现有 网络数据 的属性以及由此而来的数据收集方法均与 从 传统的 数据库如 ISI 不同 。 本文 使用谷歌学术搜索引擎收集 了 数据集,以传统的因子分析和新的可视化软件 Pajek 进行基于社会网络的分析 , 并指出了 Pajek 在分析共现数据中的局限性。本文的唯一目的是澄清围绕矩阵性质和共现矩阵应用的问题,因此有助于信息科学这一领域的进一步发展。
个人分类: 文献计量学|18185 次阅读|9 个评论
企业情报人员胜任力模型的构建与实证研究
热度 1 terahertz 2014-5-13 10:45
(本文发表于《图书馆学研究》2014年第8期) 2014-企业情报人员胜任力模型的构建与实证研究.pdf 企业情报人员胜任力模型的构建与实证研究 宋丁伟; 宋新平; 刘桂锋; 刘兵 【摘要】 在文献查阅分析和专家深度访谈的基础上,初步建立了包含16项因子的情报人员胜任力模型,并设计了16个题项的胜任特征调查量表。为验证模型的合理性,选择了江苏省多家企业和研究所情报人员进行预调查和正式调查,并利用SPSS18.0和LISREL8.70对调查数据进行了探索性和验证性因子分析,分析结果表明构建的情报人员胜任力模型具有较高的拟合度和稳定性。 【关键词】 情报人员; 胜任力模型; 因子分析; 实证研究
个人分类: 发表论文|2394 次阅读|0 个评论
[转载]【转载】浅谈主成分分析和因子分析
zhangdong 2014-1-9 21:44
转载,来源: http://www.douban.com/note/225942377/ 小宇宙 降维与分类是多元统计分析的两个主题,在这里,我浅谈一下的主成分和因子分析主要用于降维。 主成分分析就是将多项指标转化为少数几项综合指标,用综合指标来解释多变量的方差- 协方差结构。综合指标即为主成分。所得出的少数几个主成分,要尽可能多地保留原始变量的信息,且彼此不相关。 我们以二元变量X=(X1,X2)为例,说明主成分分析的思想。对此二元变量进行了n次观测,得数据 x(i)=(x(i1),x(i2)),i=1,2,...n。假设它们在二维平面x1ox2上的分布如下图所示。 考虑如下一种极端情况,即X1和X2的相关系数的绝对值为1,则(x(i1),x(i2))(i=1,2,...n)以概率1分布在一条直线L上,若将原坐标系沿逆时针方向旋转一个角度θ得到新的直角坐标系y1oy2,使坐标轴oy1与L重合,这时观测点(x(i1),x(i2))(i=1,2,...n)则可由它们在oy1上的坐标所决定,这些观测点在oy1上的坐标为 y(i1)=x(i1)cosθ+x(i2)sinθ, i=1,2,...n 它们是原观测数据的线性组合且在oy1轴上的分散性(即样本方差)达到最大。这相当于对原变量(X1,X2)作适当的线性变换得新的变量Y1,即 Y1=X1cosθ+X2sinθ, 其中θ的选择使得Var(Y1)最大且Y1的相应观测值完全可以反映原二元变量(X1,X2)的观测值的分布状况。一般情况下,将ox1轴沿逆时针旋转到观测点具有最大分散性的方向oy1上(观测点在oy1轴上的投影到均值点的距离大于在ox1上投影到均值点的距离),使该方向所含的数据间的差异的信息最多。同样的,再旋转ox2到oy2。我们将相应的变量 Y1=X1cosθ+X2sinθ, Y2=X1sinθ+X2cosθ, 分别称为X1和X2的第一和第二主成分。设想数据在oy2方向上的分散性很小,因而用一元数据便可以反映二元数据的绝大部分信息,即达到了降维的目的。 综上所述,主成分分析是研究如何通过少数几个主成分来解释多变量的方差-协方差结构的分析方法,也就是求出少数几个主成分(变量) ,使它们尽可能多地保留原始变量的信息,且彼此不相关。它是一种变换方法,即把给定的一组变量通过线性变换,转换为一组不相关的变量,在这种变换中,保持变量的总方差不变,同时具有最大方差,称为第一主成分;具有次大方差,称为第二主成分。依次类推。若共有p 个变量,实际应用中一般不是找p 个主成分,而是找出m (m p) 个主成分就够了,只要这m 个主成分能反映原来所有变量的绝大部分的方差。主成分分析可以作为因子分析的一种方法出现。 因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法。我们以下为例: 为了了解学生的学习能力,观测了n个学生p个科目的成绩,用X1,...,Xp表示p个科目(例如代数,几何,语文,英语......)。我们对这些资料进行归纳分析,得出全部科目X所共有的因子有m(mp)个,如数学推导因子,记忆因子,计算因子等,分别记为F1,...Fm,即 X(i)=a(i1)F1+a(i2)F2+...+a(im)Fm+ε(i) (i=1,...,p) 用这m个不可观测的互不相关的公共因子F1...Fm和一个特殊因子ε(i)来描述原始可测的相关变量(科目)X1...Xp,并解释分析学生的学习能力。它们的系数a(i1),...a(im)称为因子载荷。这就是一个因子分析模型,即达到了降维又可以用于分类。 综上所述,因子分析是寻找潜在的起支配作用的因子模型的方法。因子分析是根据相关性大小把变量分组,使得同组内的变量之间相关性较高,但不同的组的变量相关性较低,每组变量代表一个基本结构,这个基本结构称为公共因子。对于所研究的问题就可试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。通过因子分析得来的新变量是对每个原始变量进行内部剖析。因子分析不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子和特殊因子两部分。具体地说,就是要找出某个问题中可直接测量的具有一定相关性的诸指标,如何受少数几个在专业中有意义、又不可直接测量到、且相对独立的因子支配的规律,从而可用各指标的测定来间接确定各因子的状态。因子分析只能解释部分变异,主成分分析能解释所有变异。
2090 次阅读|0 个评论
思考:4次因子分析
laifly 2012-6-30 17:37
最近比较烦,学习spss非常耗费时间,一个晚上可能折腾过去,就忙了一个分析,还没弄明白,觉得非常累。因子分析本身并不是很难,但是我搞不清楚:何时需要进行2次因子分析,如果2次因子分析还是出现需要删除的变量,那然后继续删除,做第三次因子分析吗??书上很多就是一次因子分析。这个我也拿捏不准。先记录下来,期待以后解决。 举个例子,这是我做了4次因子分析的结果。 分析过程 因子数量 解释总变异量 KMO值 Bartlett's Test球型检验显著性 删除的变量 第一次因子分析 8 63.906% 0.807 0 VC3、VF2、VF1、VF4、VA4、VG5 第二次因子分析 6 66.787% 0.782 0 VB2、VG1、VG6 第三次因子分析 6 69.404% 0.796 0 VD2 第四次因子分析 6 71.300% 0.805 0   第一次旋转成份矩阵 a 成份 1 2 3 4 5 6 7 8 VB6 .740 .147 -.085 .081 .051 .064 .174 .122 VB1 .728 .304 .217 .186 .034 .257 -.174 -.084 VB3 .719 .179 .319 .095 .013 .178 .108 .129 VB2 .698 .321 .216 .020 .116 .308 -.046 -.051 VB5 .697 -.024 .097 .154 .013 .014 .436 .056 VB4 .671 .461 -.100 .154 .035 .209 .010 -.056 VD1 .214 .768 .112 .167 -.072 .149 .020 .109 VC2 .153 .766 .056 .122 .221 .000 .090 .093 VC1 .338 .731 .044 .082 .146 .087 -.048 .092 VC3 .110 .473 .038 -.059 .419 .135 .446 .071 VF2 .235 .442 .337 .361 .210 .176 -.284 .152 VE4 -.014 .003 .766 -.115 .229 .105 .227 -.032 VE3 .244 .055 .760 .138 .009 .072 .159 .110 VF1 .151 .259 .493 .413 .161 -.099 -.056 .320 VF4 .110 .368 .438 .407 .108 .195 .127 .092 VG4 .339 .189 .137 .695 .264 .140 .067 .047 VG2 .031 .360 -.040 .634 .109 .072 .396 .087 VG6 .166 -.030 .019 .596 .224 .034 .152 .468 VG3 .134 .047 .005 .446 .727 .034 .094 -.175 VF3 .136 .153 .350 .028 .684 .049 .041 .113 VG5 -.019 .050 -.112 .202 .608 .089 -.030 .581 VG1 -.105 .212 .209 .155 .534 .032 .279 .198 VA2 .180 .017 -.019 .082 .186 .822 .161 .125 VA1 .360 .232 .066 -.121 -.018 .667 -.125 .120 VA3 .114 .314 .229 .321 -.139 .663 .056 -.145 VA4 .410 -.174 .178 .113 .205 .483 .318 .139 VE2 .072 -.057 .192 .098 .063 .055 .807 -.014 VE1 .269 .149 .198 .220 .167 .076 .632 .228 VD2 .075 .274 .228 .091 .019 .129 .142 .785 第2次因子分析, 第 2 次因子分析 旋转成份矩阵 a 成份 1 2 3 4 5 6 VB1 .773 .242 -.103 .152 .291 .136 VB2 .735 .261 -.062 .098 .274 .223 VB4 .725 .337 .050 .129 .236 -.141 VB6 .715 .107 .248 .082 .070 -.071 VB3 .710 .212 .204 .028 .153 .321 VB5 .674 -.099 .515 .080 .025 .093 VD1 .294 .771 .047 .013 .179 .033 VC2 .211 .760 .042 .244 -.001 .079 VC1 .394 .662 -.038 .181 .165 .045 VD2 -.035 .503 .465 -.029 .200 .245 VE2 .084 -.149 .718 .063 -.006 .218 VE1 .229 .159 .683 .208 .115 .231 VG2 .067 .404 .510 .421 .115 -.114 VG6 .077 .189 .484 .462 .060 -.060 VG3 .135 -.044 .076 .876 .075 .054 VG4 .344 .266 .265 .602 .181 .031 VF3 .097 .187 .005 .563 .000 .468 VG1 -.126 .271 .282 .480 -.015 .359 VA2 .146 -.035 .204 .193 .828 .055 VA1 .373 .148 -.079 -.083 .697 .102 VA3 .193 .266 .074 .075 .695 .093 VE4 .004 -.021 .117 .100 .111 .840 VE3 .261 .109 .232 .037 .101 .697 又做了第三次因子分析。 第三次 旋转成份矩阵 a 旋转成份矩阵 a 成份 1 2 3 4 5 6 VB6 .777 .142 .091 .147 -.015 .080 VB5 .720 -.049 .050 .466 .121 .073 VB1 .704 .300 .310 -.149 .182 .206 VB3 .692 .246 .173 .139 .349 .018 VB4 .689 .383 .277 .025 -.143 .118 VD1 .210 .800 .186 .051 .034 .004 VC2 .147 .782 .009 .055 .059 .213 VC1 .355 .689 .175 -.073 .064 .187 VD2 .006 .497 .161 .341 .353 -.099 VA2 .141 -.014 .837 .212 .050 .161 VA1 .356 .154 .707 -.133 .133 -.077 VA3 .107 .310 .699 .089 .115 .096 VE2 .090 -.104 .009 .775 .197 .060 VE1 .190 .226 .115 .731 .237 .210 VG2 .095 .436 .113 .537 -.144 .335 VE4 -.023 -.031 .119 .147 .790 .109 VE3 .253 .122 .088 .158 .756 .055 VG3 .092 .019 .082 .162 .019 .898 VF3 .026 .225 -.005 .025 .477 .594 VG4 .324 .329 .173 .229 .095 .585 第 4 次因子分析 旋转成份矩阵 a 成份 1 2 3 4 5 6 VB6 .787 .140 .089 .133 .098 -.031 VB5 .723 -.042 .051 .461 .071 .121 VB3 .692 .249 .170 .133 .031 .349 VB1 .686 .336 .307 -.133 .199 .181 VB4 .668 .422 .274 .046 .087 -.132 VD1 .188 .814 .177 .073 -.022 .063 VC2 .119 .804 .002 .087 .183 .086 VC1 .344 .696 .166 -.063 .189 .068 VA2 .162 -.033 .836 .191 .190 .027 VA1 .373 .140 .703 -.160 -.035 .120 VA3 .059 .377 .699 .142 .022 .160 VE2 .090 -.109 .012 .778 .041 .218 VE1 .200 .202 .113 .724 .214 .240 VG2 .067 .465 .112 .581 .270 -.123 VG3 .085 .039 .084 .190 .889 -.023 VF3 .047 .189 -.009 .007 .658 .434 VG4 .318 .337 .171 .247 .576 .067 VE4 -.044 -.010 .122 .166 .099 .815 VE3 .247 .121 .087 .161 .066 .764 终于没有可以删除的变量了。 看了别人的一些文章,发现还有可以删除的变量。 比如因子6,因为只有2个变量,我们可以说实际可代表性,比较差。 所以又可以删除因子6了。
个人分类: 学习心得|4213 次阅读|0 个评论
因子分析(包括主成分分析)
热度 1 eddy7777 2011-10-18 11:18
09 eddy factor.ppt factor analysis 是通过线性变换、坐标变换将高维矢量变为低维矢量,可以将数据简化,指标减少。可以使实验结果简单清晰,一目了然。
个人分类: 概论统计软件|4457 次阅读|2 个评论
因子分析的空间视角
tonybean 2011-5-30 15:56
学过多元统计学的朋友都知道因子分析(factor analysis),这是一种常用的数据降维的分析方法,在相对少的因子中更方便地分析各个变量的相关关系和样品的属性。分析的步骤首先要提取公因子,在 N个变量中组合出M个公因子(MN),这M个公因子可表达绝大部分的信息;然后经过因子旋转,使每个变量都只与一个因子相关性大,和其余的较小, 即让各因子有明确的意义;然后计算因子得分,评价各样品在各个因子上的水平。下面我把自己对因子分析的空间影像说一下。 假设一种简单的情况,有若干个待分析的样品,有3个变量(XYZ),在以3个变量为轴的笛卡尔坐标系中的点云的形状像一个椭圆形的饼,即椭圆面有长短半 径,也有一定的厚度,饼的平面不垂直于任一坐标平面。对它们进行因子分析,如利用主成分方法提取公因子(F1 F2 F3),那么,可以想象,第一主成分相当于饼平面的长轴,因为样品在这个轴上具有最大的方差;第二主成分是垂直于第一主成分的饼平面的短轴,第三主成分就 是厚度方向。所有点在前两个主成分组成的平面上投影的信息量占了绝大部分,因此可以选择前两个主成分作为因子,第三主成分由于信息量太少,剔除掉。这时, 第三主成分的提出就是信息丢失,在这个饼厚度的范围里,都体现了3个变量的小部分信息,所以每个变量都有少量信息丢失。变量空间则从3维空间降到2维平 面。下图只画出因子平面的投影。 下一步是因子轴旋转。提取出的各因子都和各变量有一定的相关性,因子意义不明确,那么,就在这个2因子平面上对因子轴进行旋转,得到F1'、F2',使得 因子与本来相关较大的变量在旋转后的因子轴上投影的值域更大,相反,与本来相关较小的变量投影的值域更小,那么,每个因子都有各自相关性大的变量,因子意 义比较明确。旋转方法可正交可斜交,正交则F1'、F2'垂直,斜交则不垂直,通常斜交可以有更好的相关性。最后是因子得分,评价每个样品在各个因子 (F1'、F2')上的水平。下图示意因子轴在因子平面上的旋转,至于如何旋转到和变量相关,则比较难表达。 到一般的情况,假设有N个变量,即N维超空间,提取因子后剩下M个因子,即M维超平面,然后各因子轴在这个看不见、只能想象的超平面上旋转,使因子意义明确,最后计算因子得分。 小弟在这里献丑了,请各位大侠指正。
个人分类: 若有所得|3149 次阅读|0 个评论
专题介绍——SPSS聚类分析和因子分析(2010.10.10)
热度 2 mafeicheng 2010-10-29 13:54
专题介绍人:傅柯萌 SPSS ( Statistical Product and Service Solutions ),统计产品与服务解决方案软件 . 如今 SPSS 已出至版本 18.0 ,而且更名为 PASW Statistics 一、 数据录入 1 、定义数据文件的格式,单击 variable view ,切换到变量视图 2 、变量名的规则 3 、常用变量类型( 1 ) Numeric :可以标准或科学记数法显示数字 ( 2 ) String :字符型不能用于数值计算。用户可在定义的长度范围内输入任意字符,且可以区分字母的大小写,也可支持文字数字混排 4、 单击 data view ,回到数据视图,依次输入数据 二、聚类分析 1 、定义:根据事物本身的特性研究个体分类的方法,原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。 2 、步骤:在 Analyze Classify 下: ( 1 ) K-Means Cluster : 观测量快速聚类分析过程 ( 2 ) Hierarchical Cluster :分层聚类(进行观测量聚类和变量聚类的过程) ( 3 ) Discriminant :进行判别分析的过程 3 、分层聚类:又称系统聚类,是按物以类聚原则研究事物的分类。根据样本(观测量)的多指标(变量)、多个观察数据、定量地确定样本、指标之间存在的相似性或亲疏关系,据此联结这些样本或指标归成大小类群,构成分类的树状图( Dendrogram )或冰柱图( Icicle ) 根据分类对象的不同,分为样本(观测量)聚类和变量聚类两种: ( 1 )样本聚类( Q 型聚类):对观测量 (Case) 进行聚类(不同的目的选用不同的指标作为分类的依据,如选拔运动员与分课外活动小组) ( 2 )变量聚类( R 型聚类):是一种降维的方法,用于在变量众多时寻找有代表性的变量,以便在用少量、有代表性的变量代替大变量集时,损失信息很少 . 4 、 Cluster method : ( 1 ) Between-groups linkage :类间平均法 ;( 2 ) Within-groups linkage :类内平均法 ;( 3 ) Nearest neighbor :最短距离法;( 4 ) Furthest neighbor :最长距离法;( 5 ) Centroid clustering :( 6 )重心聚类法( measure 用 euclidean 距离法);( 7 ) Median cluster :中位数聚类法 ;( 8 ) wards method :离差平方和法 5 、 Measure-interval : ( 1 ) squared uclidean distance 平方欧式距离;( 2 ) uclidean distance 欧式距离;( 3 ) cosine 夹角余弦 (R 型 ) ;( 4 ) pearson correlation 皮尔逊相关系数 ;( 5 ) chebychev 切比雪夫距离 ;( 6 ) block 绝对值距离;( 7 ) minkowski 明考斯基;( 8 ) customized 自定义距离 变量聚类( Q 型聚类):与 R 型聚类唯一不同之处在于距离测量的方法选择上,只能选择 cosine 夹角余弦和 pearson correlation 皮尔逊相关系数 三、 聚类分析操作演示 分层聚类步骤(总结) ( 1 )选择 measure 测量样本之间的距离,以 Proximity matrix (相似性矩阵)呈现结果 ( 2 )根据样本间的距离,选择 method 进行聚类分析,以凝聚图、冰柱图或柱状图呈现聚类过程 四、因子分析 1 、因子分析基本概念: ( 1 )因子载荷:在各个因子变量不相关情况下,因子载荷 aij 就是第 i 个原有变量和第 j 个因子变量的相关系数,即 xi 在第 j 个公共因子变量上的相对重要性。 ( 2 )公共方差:反映全部公共因子变量对原有变量 xi 的总方差解释说明比例。 ( 3 )公共因子的方差贡献:反映该因子对所有原始变量总方差的解释能力,其值越高,说明因子重要程度越高。 2、 因子分析基本步骤 ( 1 )确定待分析的原有若干变量是否适合因子分析。如果原始变量都本质上独立,那么降维就可能失败,这是因为很难把很多独立变量用少数综合的变量概括。数据越相关,降维效果就越好 ( 2 )构造因子变量 ( 3 )利用旋转使得因子变得更具有可解释性 ( 4 )计算因子变量得分 3 、 Correlation matrix (相关系数矩阵) ( 1 ) Coefficients (系数矩阵):大部分系数低于 0.3 ,不适合进行因子分析 ( 2 ) Significance levels (显著性水平):显示相关系数的单侧显著性水平 ( 3 ) Determination (相关系数矩阵行列式值) ( 4 ) Inverse (逆相关系数矩阵) ( 5 ) Reproduced (再生相关系数矩阵):因子分析的估计相关系数矩阵,显示残缺值 ( 6 ) anti-image (反映像相关系数矩阵与反映像协方差矩阵):反映像相关系数矩阵中有些元素的绝对值较大,则不适合因子分析 ( 7 ) KMO and Bartletts test of spherucity ( KMO 抽样适度测定值与 Bartlett 球形检验值): KMO 在 0.7 以上都适合因子分析; B 巴特利球形检验值较大,相伴概率值越小,适合用于因子分析 五、因子分析操作演示
个人分类: 读书会之专题介绍|14365 次阅读|2 个评论
基于因子分析的学术期刊评价指标分类研究
yuliping 2009-5-4 23:42
在人文社科研究中,很多情况下,我们都喜欢凭数据说话,甚至将数据作为证明自己某个论点的坚实理由。其实,凭数据说话也是有边界的,即使在数据非常可靠的情况下。在任何时候,我们都不能忘记我们自己,实证研究结果一定要好好用大脑进行分析。什么是客观?任何事情只要与人有关,就无法客观,因为人们更多地从人和客观世界的关系看客观世界的。一朵鲜花开在那儿是客观的,但是不同的人看到了,对鲜花的评价是不一样的,在人和鲜花组成的系统中,鲜花就很难客观(王阳明: 你未见此花时 , 此花与汝同归于寂 ; 你来看花时 , 则此花颜色一时也明白起来)。 主观、主客观不见得是坏事,有时甚至是真理。 聚类分析作为一种有效的客观分类方法,得到了公认和广泛的应用。但我在研究中偶然发现,用它对期刊评价指标分类显得很白痴。为什么会有这种情况出现,希望各位讨论。 该文发表与2009年《图书情报工作》第8期。 摘要:针对部分学术期刊评价指标分类的模糊问题,利用中国科学技术信息研究所的医学期刊数据,采用聚类分析和因子分析进行期刊评价指标分类。指出 聚类分析作为一种公认的分类方法,在期刊评价指标分类中并不适用。因子分析由于解释力较强,为学术期刊指标分类提供了一种较好的方法。在指标分类中完全根据数据说话是不完善的,可以根据具体情况在因子分析的基础上进一步进行整合。 论文下载 2009.5.3俞立平于邗上
个人分类: 科学计量|5302 次阅读|7 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-19 06:13

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部