科学网—标签

相关帖子	版块	作者	回复/查看	最后发表

2011年版杜强著SPSS统计分析从入门到精通配套数据文件

热度 2 laifly 2012-3-13 20:05

在图书馆看到这本书，觉得不错，按照 IBM SPSS Statistics 19.0进行讲解和操作。这本书没有光盘，数据文件我是找了不少地方，终于下载下来，去当当网买这本书，看很多人评论，找不到数据文件，这里就分享一下。补充一下：学了5章发现，这本书的优点，操作讲的比较详细，但是缺点是：尤其结果分析，比较简单，没有一些台湾学者的书，写的比较细致。所以我是对照看，互补吧。地址是： http://dl.dbank.com/c0wdwf3hxa 这是华为的免费网盘，第一次用。希望方便，这样共享资料比较方便了。

个人分类: 资料分享|7527 次阅读|6 个评论

基于样本不同条件的方差分析（ANOVA）及两两比较

Bearjazz 2012-1-12 19:52

基于样本不同条件的方差分析（ ANOVA ）及两两比较熊荣川六盘水师范学院 xiongrongchuan@126.com 通过改变一个实验条件，我们通常会得到几组不同的数据，比如不同的物种的头体长数据。为了比较这些数据之间有没有显著差异，通常需要进行方差分析和之后的两两对比分析（ paired comparison or multiple comparison ）在进行方差分析之前，首先要检验每组数据是否符合正态分布具体步骤我们以 SPSS 为例演示为了图文并貌请下载pdf文件观看基于样本不同条件的方差分析（ANOVA）及两两比较.pdf 附件一用Spss进行正态分布检验（图）_统计学教程_中生网.mht

个人分类: 我的研究|9475 次阅读|0 个评论

直线斜率差异显著性检验（SPSS）

热度 3 Bearjazz 2011-12-31 14:29

直线斜率差异显著性检验（ SPSS ）熊荣川六盘水师范学院 xiongrongchuan@126.com 变量与变量之间的关系可分为确定性关系和非确定性关系两类。函数表达式确定关系。研究变量间的非确定关系，构造变量间经验公式的数理统计方法称为回归分析。线性回归是利用数理统计中的回归分析，来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法之一，运用十分广泛。分析按照自变量和因变量之间的关系类型，可分为线性回归分析和非线性回归分析。如果在回归分析中，只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。然后自变量的和因变量中的这种线性关系可能还会受到其他因子的影响，比如生物不同阶段的生长曲线等等。当条件改变时，我们想检验不同条件下的回归关系是否有显著差异，这时候就需要对回归直线的回归系数进行检验，比如斜率和截距。以下我们简单总结一下使用 SPSS 进行斜率差异性检验的详细步骤。为了图文并茂请下载pdf文件观看直线斜率差异显著性检验.pdf

个人分类: 我的研究|23108 次阅读|7 个评论

spss软件学习网站推荐：有海量spss视频、课件等

热度 2 lbxxl 2011-12-20 09:41

推荐一个学习spss的网站（ http://www.spsschina.com ），里面有很多spss教程、课件、以及不同版本的spss软件下载、海量的spss视频数据分析视频。或者网址： http://www.spsschina.com/spss/?fromuid=67125 http://www.spsschina.com

个人分类: 实用转载|8732 次阅读|3 个评论

SPSS18/19中文显示乱码之解决

热度 3 aweng 2011-9-12 17:36

前不久用上了SPSS 19，发现其功能强大了很多，也第一次有了简体中文版和相应的帮助文件，当然这也是SPSS被IBM买下后出的第一个版本。我在不同的机器上装了SPSS 19，发现在一些机器上是正常的，但是在另一些机器上却会发生中文显示乱码的问题。同一安装文件在不同机器上的不同表现，说明这与系统设置有关，而与安装文件无关。根据我的推测，应该是安装文件有匹配操作系统的设置，使得其显示依系统而不同。经过网络搜索，终于找到解决之道。 SPSS的显示分为标题、页面标题、文本输出、表格四部分。不同部分出现中文乱码的情况要去设置相应的部分。标题、页面标题、文本输出的设置如下。菜单栏中“编辑”→“选项”→“查看器”选项卡→标题、页面标题、文本输出操作面板，改动字体即可。根据网络搜索得到的信息，改为DFKai-SB字体即可。表格的设置如下。打开SPSS数据集窗口，在表格的任意位置右键单击，出现的菜单中点击“网格字体”，在字体中选择你想要的中文字体即可。如果是英文字体，因为没有中文字符集，就会显示不正常甚至无法显示。希望对大家有用。

个人分类: 学习|37997 次阅读|3 个评论

spps 课堂例题数据集（.sav)

eddy7777 2011-5-30 15:32

eddy 20110530 3.sav 按照我的数据进行分析，可以快捷掌握spss 各项功能

个人分类: 概论统计软件|4570 次阅读|0 个评论

为什么要用R

热度 2 gutbahn 2011-3-29 05:02

想了很久，有SPSS这么简单的工具，为什么还要bother，用R呢？想出几个肤浅的理由：第一，R做图的功能还是强大，漂亮…… 第二，R编程时更符合做统计的思维，学了R之后对用SPSS也帮助很大第三，不要钱还有那么多package随时更新给你用。第四，用R的时候挺酷的，给别人讲的时候，劈了啪啦的敲键盘，更是“酷毙了” 还是初学者，哈哈，继续…… 更新一下， R，或者说编程语言处理大数据确实有优势，打个简单的比方，如果一个1000列*100行的数据（比如眼动），如果用excel或者spss拖拽，估计要把人累死的，用R可以通过语句对数据进行处理，还是很方便。

5105 次阅读|4 个评论

SPSS中的数据类型（从测量尺度角度划分）

zhangdong 2011-3-7 10:31

定类尺度Nominal Measurement 对事物的类别或属性的一种测度，按照事物的某种属性对其进行分类或分组定序尺度Ordinal Measurement 对事物之间等级或顺序差别的一种测度，可以比较优劣或排序定距尺度Interval Measurement 对事物类别或次序之间间距的测度，其测量结果往往表现为数值定比尺度Scale Measurement 测算两个测度值之间的一种测量尺度，有一固定的绝对“零点”

12681 次阅读|0 个评论

[转载]常用统计分析方法-SPSS应用

LuDoor 2010-11-13 10:02

常用统计分析方法-SPSS应用常用统计分析方法-SPSS应用

个人分类: 科研方法|32 次阅读|0 个评论

[转载]SPSS学习统计学

LuDoor 2010-11-9 09:05

SPSS学习统计学

个人分类: 科研方法|85 次阅读|0 个评论

专题介绍——SPSS聚类分析和因子分析（2010.10.10）

热度 2 mafeicheng 2010-10-29 13:54

专题介绍人：傅柯萌 SPSS （ Statistical Product and Service Solutions ），统计产品与服务解决方案软件 . 如今 SPSS 已出至版本 18.0 ，而且更名为 PASW Statistics 一、数据录入 1 、定义数据文件的格式，单击 variable view ，切换到变量视图 2 、变量名的规则 3 、常用变量类型（ 1 ） Numeric ：可以标准或科学记数法显示数字（ 2 ） String ：字符型不能用于数值计算。用户可在定义的长度范围内输入任意字符，且可以区分字母的大小写，也可支持文字数字混排 4、单击 data view ，回到数据视图，依次输入数据二、聚类分析 1 、定义：根据事物本身的特性研究个体分类的方法，原则是同一类中的个体有较大的相似性，不同类中的个体差异很大。 2 、步骤：在 Analyze Classify 下：（ 1 ） K-Means Cluster ：观测量快速聚类分析过程（ 2 ） Hierarchical Cluster ：分层聚类（进行观测量聚类和变量聚类的过程）（ 3 ） Discriminant ：进行判别分析的过程 3 、分层聚类：又称系统聚类，是按物以类聚原则研究事物的分类。根据样本（观测量）的多指标（变量）、多个观察数据、定量地确定样本、指标之间存在的相似性或亲疏关系，据此联结这些样本或指标归成大小类群，构成分类的树状图（ Dendrogram ）或冰柱图（ Icicle ）根据分类对象的不同，分为样本（观测量）聚类和变量聚类两种：（ 1 ）样本聚类（ Q 型聚类）：对观测量 (Case) 进行聚类（不同的目的选用不同的指标作为分类的依据，如选拔运动员与分课外活动小组）（ 2 ）变量聚类（ R 型聚类）：是一种降维的方法，用于在变量众多时寻找有代表性的变量，以便在用少量、有代表性的变量代替大变量集时，损失信息很少 . 4 、 Cluster method ：（ 1 ） Between-groups linkage ：类间平均法；（ 2 ） Within-groups linkage ：类内平均法；（ 3 ） Nearest neighbor ：最短距离法；（ 4 ） Furthest neighbor ：最长距离法；（ 5 ） Centroid clustering ：（ 6 ）重心聚类法（ measure 用 euclidean 距离法）；（ 7 ） Median cluster ：中位数聚类法；（ 8 ） wards method ：离差平方和法 5 、 Measure-interval ：（ 1 ） squared uclidean distance 平方欧式距离；（ 2 ） uclidean distance 欧式距离；（ 3 ） cosine 夹角余弦 (R 型 ) ；（ 4 ） pearson correlation 皮尔逊相关系数；（ 5 ） chebychev 切比雪夫距离；（ 6 ） block 绝对值距离；（ 7 ） minkowski 明考斯基；（ 8 ） customized 自定义距离变量聚类（ Q 型聚类）：与 R 型聚类唯一不同之处在于距离测量的方法选择上，只能选择 cosine 夹角余弦和 pearson correlation 皮尔逊相关系数三、聚类分析操作演示分层聚类步骤（总结）（ 1 ）选择 measure 测量样本之间的距离，以 Proximity matrix （相似性矩阵）呈现结果（ 2 ）根据样本间的距离，选择 method 进行聚类分析，以凝聚图、冰柱图或柱状图呈现聚类过程四、因子分析 1 、因子分析基本概念：（ 1 ）因子载荷：在各个因子变量不相关情况下，因子载荷 aij 就是第 i 个原有变量和第 j 个因子变量的相关系数，即 xi 在第 j 个公共因子变量上的相对重要性。（ 2 ）公共方差：反映全部公共因子变量对原有变量 xi 的总方差解释说明比例。（ 3 ）公共因子的方差贡献：反映该因子对所有原始变量总方差的解释能力，其值越高，说明因子重要程度越高。 2、因子分析基本步骤（ 1 ）确定待分析的原有若干变量是否适合因子分析。如果原始变量都本质上独立，那么降维就可能失败，这是因为很难把很多独立变量用少数综合的变量概括。数据越相关，降维效果就越好（ 2 ）构造因子变量（ 3 ）利用旋转使得因子变得更具有可解释性（ 4 ）计算因子变量得分 3 、 Correlation matrix （相关系数矩阵）（ 1 ） Coefficients （系数矩阵）：大部分系数低于 0.3 ，不适合进行因子分析（ 2 ） Significance levels （显著性水平）：显示相关系数的单侧显著性水平（ 3 ） Determination （相关系数矩阵行列式值）（ 4 ） Inverse （逆相关系数矩阵）（ 5 ） Reproduced （再生相关系数矩阵）：因子分析的估计相关系数矩阵，显示残缺值（ 6 ） anti-image （反映像相关系数矩阵与反映像协方差矩阵）：反映像相关系数矩阵中有些元素的绝对值较大，则不适合因子分析（ 7 ） KMO and Bartletts test of spherucity （ KMO 抽样适度测定值与 Bartlett 球形检验值）： KMO 在 0.7 以上都适合因子分析； B 巴特利球形检验值较大，相伴概率值越小，适合用于因子分析五、因子分析操作演示

个人分类: 读书会之专题介绍|14408 次阅读|2 个评论

SPSS中的聚类分析

热度 1 xiezilai 2010-9-25 14:45

题外话：聚类理论都比我懂，在这只能做做笔记 1. TwoStep Cluster Analysis 刚接触它时莫名其妙，不明白为什么会有这一项。粗略了解后，感觉其主要特点一是可计算出最佳聚类个数，二是可处理分类变量（Categorical Variables）与连续性变量（Continuous Variables）。计算步骤包括：1）构建聚类特征数（Cluster Features Tree）；2）层次聚类。自动确定最佳聚类个数的方法是Schwarzs Bayesian Criterion（BIC）或Akaikes Information Criterion（AIC）。这俩准则是啥，知道的朋友记得告诉我。在结果输出的Auto-Clustering表中（以BIC为例），第2列是BIC，其值最小时，一般认为聚类结果最理想；第3列是BIC变化，反映合并前后两种聚类结果的BIC变化情况，绝对值越大，聚类结果越理想；第4列是BIC变化率，同样反映合并前后的变化；第5列是最小距离变化率，一般认为值越大越理想。需要说明的是，虽然有4个统计指标，但不是根据某一个指标来确定聚类个数，而是综合考虑的结果。 2．数据标准化 Hierarchical Cluster 和TwoStep Cluster都能在分析中对数据进行标准化处理，K-Means Cluster则必须事先完成。 3．方差分析表 ANOVA表中的Sig.小于0.05，表明该指标在各类间存在显著性差异。指标的F值越大，表明该指标在聚类分析中越重要。

个人分类: SPSS学习|15149 次阅读|1 个评论

SPSS中的参数检验（一）

热度 1 xiezilai 2010-9-16 19:30

题外话：很多时候，都是以为自己真懂 SPSS中的参数检验，样本要服从正态分布。SPSS中进行正态分布检验的常用方法是通过P-P图或Q-Q图来完成。 SPSS中的参数检验包括： 1. 单样本t检验（Analyze - Compare Means - One-Sample T Test）注：方差未知的均值检验，操作极其简单，输入检验变量和均值即可。 2. 独立样本t检验（Analyze - Compare Means - Independent-Samples T Test）注：方差未知的两个独立样本的均值检验。操作也很简单，在设置分组变量时一般直接指定。结果表中的F是方差齐性检验，如果其Sig.大于0.1，则认为两者方差没显著性差异；如果方差齐性检验通不过，则使用结果表中的最后一行进行检验。 3．配对样本t检验（Analyze - Compare Means - Paired-Samples T Test）注：方差未知的两个相关样本的均值检验。操作时选定俩变量即可。独立样本t检验跟配对样本t检验的区别在于：前者是两批对象之间比较，后者是一批对象自己比较。 4．单因素方差分析（Analyze - Compare Means -One-Way ANOVA）注：对单因素多个独立样本均值进行比较，统计量实质上是因素水平间离差平方和与因素水平内离差平方和的份额。参数说明： a）Contrasts按钮，用于设置均值的多项式比较，可以同时建立多个多项式； b）Post Hoc按钮，指验后多重比较，用于设置多重比较和配对比较。方差分析一旦确定各组均值间存在显著差异，多重比较检测可以求出均值相等的组；配对比较可找出和其它组均值有差异的组，并输出显著性水平为0.95的均值比较矩阵，在矩阵中用星号表示有差异的组。其中，方差齐性时， LSD (Least-significant difference) 最小显著差数法，用t检验完成各组均值间的配对比较，对多重比较误差率不进行调整。 Bonferroni (LSDMOD) 用t检验完成各组间均值的配对比较，但通过设置每个检验的误差率来控制整个误差率。 Sidak 计算t统计量进行多重配对比较，可以调整显著性水平，比Bofferroni方法的界限要小。 Scheffe 对所有可能的组合进行同步进入的配对比较，这些选择项可以同时选择若干个。以便比较各种均值比较方法的结果。 R-E-G-WF (Ryan-Einot-Gabriel-Welsch F) 用F检验进行多重比较检验。 R-E-G-WQ (Ryan-Einot-Gabriel-Welsch range test) 正态分布范围进行多重配对比较。 S-N-K (Student-Newmnan-Keuls) 用Student Range分布进行所有各组均值间的配对比较。如果各组样本含量相等或者选择了Harmonic average of all groups即用所有各组样本含量的调和平均数进行样本量估计时还用逐步过程进行齐次子集(差异较小的子集)的均值配对比较。在该比较过程中，各组均值从大到小按顺序排列，最先比较最末端的差异。 Tukey (Tukey's，honestly signicant difference) 用Student-Range统计量进行所有组间均值的配对比较，用所有配对比较误差率作为实验误差率。 Tukey's-b 用stndent Range分布进行组间均值的配对比较。其精确值为前两种检验相应值的平均值。 Duncan (Duncan's multiple range test) 新复极差法（SSR），指定一系列的Range值，逐步进行计算比较得出结论。 Hochberg's GT2 用正态最大系数进行多重比较。 Gabriel 用正态标准系数进行配对比较，在单元数较大时，这种方法较自由。 Waller-Dunca 用t统计量进行多重比较检验,使用贝叶斯逼近。 Dunnett 指定此选择项，进行各组与对照组的均值比较。默认的对照组是最后一组。选择了该项就激活下面的Control Category参数框。展开下拉列表，可以重新选择对照组。 Test框中列出了三种区间分别为：双边检验、Control 左边检验、Conbo1右边检验。方差不齐次性， Tamhane's T2, t检验进行配对比较。 Dunnett's T3，采用基于学生氏最大模的成对比较法。 Games-Howell，Games-Howell比较，该方法较灵活。 Dunnett's C，采用基于学生氏极值的成对比较法。 c）Options按钮。 Homogeneity-of-variance ，要求进行方差齐次性检验，并输出检验结果。（参数说明部分的内容摘自网络）

个人分类: SPSS学习|16381 次阅读|0 个评论

[转载]几种常用的统计分析软体比较

agri521 2010-7-29 14:36

本文转载自周恬弘的博客为了美丽的地面。周先生毕业于维吉尼亚州大学，哲学博士，现为台湾某医院行政副院长。 http://thchou.blogspot.com/2008/07/blog-post_13.html （笔者整理排版）这一年来接触了几种不同的统计软体，有些是自己有实际去使用过，有些则是只听别人介绍或只有概念上的初步了解。每一种软体都各有利弊，我就目前所知道的这几种软体做简单的比较。本来我只会使用SPSS，但不是很深入。 SPSS是专门给社会科学研究人员使用的统计软体，其好处是视窗的介面与对话方块与下拉式选单的功能让一般的电脑使用者很容易上手，使得SPSS成为最普遍的统计软体之一。在修计量经济学时，我们所使用的统计软体叫做Stata，以前我并不知道有这样的软体，但是使用之后也觉得蛮好用的，有其独特的功能。Stata原本只用简单的指令，研究人员可以写一连串的指令去整理资料内容与执行统计分析工作，后来Stata的版本也加入类似SPSS的视窗介面与对话方块与选单的功能。对我来说， Stata最方便的地方 (这也是老师一再强调的好处)，是可以将整套的执行指令存成一个do file，可以让研究人员反覆执行同样的分析工作。如果要修改分析工作中的某些步骤，只要修改其中相关的部分指令，便可以很容易让电脑重新进行分析工作，省下很多的时间与避免错误的可能性。相较之下，对话方块每执行一次分析工作，就得重头勾选对话方块中的项目，相当耗时，也容易出错。后来有朋友告诉我其实 SPSS也有类似Stata的do file的执行指令档的功能，如果懂得其执行指令，也可以反覆执行整批的指令。因此在操作上，我觉得 SPSS与Stata其实差不多。不过我个人比较喜欢 Stata的分析结果呈现格式，感觉上比较简洁；此外， Stata所提供的统计功能要比SPSS来得完整。特别是在回归分析方面，Stata的涵盖面比SPSS更为广泛，而且Stata在进行假设验证时，比SPSS来得灵活。 SPSS与Stata都不便宜，虽然Stata有简易版与学生版，价格较低廉，可是能够处理的资料量与变数量有限制，而且Stata每年都要收费。还有，SPSS与Stata在处理的资料量上面有一定的限制，对于非常大的资料档(如资料笔数很多)，有时这两种软体无法处理。在处理大量的资料方面，目前公认最好的统计软体是SAS。 SAS也是透过写指令的方式去执行资料整理与统计分析，与Stata相似。SAS的功能也非常完备，可能是统计专业人员最倚重的软体。但是其缺点是SAS没有单机版，只有机构版，而且每年计费，且收费不便宜，换句话说， SAS是只提供给机构或团体使用。不是在机构工作的研究人员或没有与SAS签约的机构的研究人员都无缘使用SAS。暑假我修Dr. Luke的健康照护机构策略，Dr. Luke在上课时会用到另一种统计软体叫做JMP，这是SAS集团的新产品之一，属于单机版的套装统计软体，感觉上相当精巧与友善。 JMP是一种互动型的分析软体，也是使用视窗与对话方块的功能，研究人员每执行一次动作，结果马上会呈现出来，使用者可以根据这个结果，再做进一步的资料整理或分析，直到所期望的最终的结果出现。JMP运用很多图形的方式来呈现分析结果，让分析人员一目了然。我觉得JMP在整理资料的功能也是我目前所接触过最友善的，分析人员可以很容易地依照自己的想法操作资料，并且马上得到自己所想要的资料排列格式。据我所知，JMP可以处理的资料量也相当大，不过其统计功能的涵盖面可能不像Stata或SAS那么广泛与完整。它另外的一个缺点是没有执行指令档的功能，因此每个动作都要一次又一次透过对话方块与下拉式选单去执行。最近，有位朋友介绍我一种开放程式码的统计软体，叫做R。我才刚在了解这个软体。据我所知，R的统计功能也相当齐全，可以处理的资料量也很大，它是采用写执行指令的方式去进行分析，但是与SAS、SPSS与Stata不同的地方在于R也是采用互动的方式，让分析人员一步一步、一层一层分析下去，直到得到自己想要的结果。而且R好像也有执行批次档的功能。然而最大的好处是R是可以自由取得，不用花钱。不过据说R的上手并不容易，因为它是由专精统计的网友所共同发展出来的，因此还是在变动中，而且没有一套完整详尽的操作手册，而是散布各处，要找到这些使用指南经常要花一些时间。因此，有位好心的统计工作者特别架设了一个网页，专门介绍R给对其他统计软体有些经验的人，希望藉此缩短摸索的时间。对于各种统计软体所包括的功能，Wikipedia有做比较，可以参考看看。有时候我很纳闷，为什么要有这么多不同的统计软体？每一种各有优缺，导致像我这样，每种都接触一下，学了一点，却没有一种是专精的，还要伤脑筋去想到底要用哪一种作为自己的主要工具。有时候，太多选择也是颇让人头疼，这时就会希望有一种完美的统计软体：免费、处理无限大的资料量、涵盖所有的统计功能、可以执行批次指令档、也有视窗与对话方块功能，而且，容易学习与上手。 http://www.statmethods.net/index.html http://en.wikipedia.org/wiki/Comparison_of_statistical_packages 以下为网友回复：这些统计软体的多元化跟电脑软体市场的竞争有直接关系。但是设计统计软体的考量和需要，因为大过个人使用者的层次，才会使这市场变得如此复杂。就电脑的发展史来看，在个人超级电脑还没有发展出来，储存空间还非常有限的五零甚至到六零年代，庞大的资料都是电脑的中央大系统，也就是IBM公司发展的Mainframe在作储存和输出控制。那时的资料库语言是Cobol，用来写数学计算的语言是Fortran。 Fortran 算是中阶语言，比最基本的Assembly language高一阶而已，对不专学电脑语言的研究者来说，要学programming很困难。因为这个友善一般使用者的需要，在Chicago University教书的几位社会科学研究者就跟电脑专家合作，发展出第一代的SPSS。值得注意的是这虽然是电脑软体，是可以读算和呈现结果的环境，却也是一种新的电脑语言是用Fortran作底写创出来新的电脑语法，也就是说系统必须先解读SPSS成为Fortran，再由Fortran解作Assembly language，然后执行真正的指令。所以SPSS 变成是最高阶的语言，同时也指由这个语言控制数算和输出结果的环境。这种模式成为后来发展所有统计软体语言的典范。 SPSS刚开始也是需要使用者自己写语言(syntax)。采用视窗的环境和滑鼠点选很后来的事。 SPSS 头几代刚设计出来就遇到这语言跟IBM系统相容不是很顺利的问题。这问题其实是IBM系统不断更新，Fortran 的发展跟不上，导致SPSS也受到限制。另一方面是因为不是专业的程式设计师最先开始使用SPSS，却不擅掌控如何从大系统读存资料。这两个问题，成为 SPSS后来不受工商企业界广为采用的致命伤。一直要到个人电脑的速度和储存容量可以和大系统匹敌，才有所改善。 SAS 差不多是六零年代末期开始发展进入软体市场，却一直到七零年代初才比较多人使用。刚开始SAS也是由Fortran写成。但是能赶过SPSS进占工商企业，是因为电脑语言C的发明。C比Fortran 更容易使用，更灵活地能跟Assembly language对谈。也就是说C更容易和大系统相容，方便使用者从大系统上读写存资料。SAS公司的人比较有企业远见。一看到C的发展具备潜力，马上把后来的SAS 版本改由C、而不是Fortran来写。所以会C的专业程式设计师同时也很容易学会SAS。企业界不缺钱顾人学最新的东西，雇了最新的C programmers作系统管理，发现这人同时也略懂SAS系统(反之也是)，至于统计学者就另外聘请，形成企业界里系统管理专家和统计学者合作，而由 SAS程式设计师担任连接两边界面的合作团队，促使公司大量采用SAS系统。SAS 就是这样在整体市场行销上拼过SPSS ，在八零年代几乎独占统计软体市场。 C 在八零年代初也被用来发展另外一种管理系统，叫做Unix ，成为IBM Mainframe系统的劲敌。而且在九零年代起开始有取代IBM Mainframe的趋势，成为新的系统管理平台。SAS 当初下对了一步棋，现在就骑在浪头上，远远超过SPSS。在有进行临床实验的药厂更是如此，比方美国食品药物检验局在检查药厂送交的临床实验报告时，就同意而且规定药厂要以SAS档案格式呈送资料 (最近要打破SAS的独占，规定也能用超越软体档案格式限制的XML的格式标准呈送)。 SAS不纯粹只是市场行销上超越SPSS，就语言本身的灵活和广度来看，都大到适用于不同的企业。这语言的强处，就是因为不需要借助视窗，什么都能办到：比方能用SAS语言本身去读写各类商用资料库、输出全新的报表格式、和创造新的统计应用软体，如同用语言C一般。SAS programming本身变成是一种专业。极大部份只用SPSS的人的电脑程度实在不能比。不过对大部份在研究机构的学生和老师来说，要精通SAS的程式设计必须花不少时间学，实在困难。 STATA原本是由计量经济学家和电脑程式设计师一起发展出来，专用在经济指数预测。在发展这语言和软体的时候同时看到SPSS和SAS的优缺点。所以 STATA 的语言环境看起来像是SPSS和SAS的混合要用视窗或纯写程式的功能几乎一样 (视窗点选的动作可以记录成do file 用batch mode送交系统执行)。现代版的SPSS也发现光用视窗会牺牲执行速度和限制用途，容许使用者在每个主要视窗按paste 的按钮，就可以把语言syntax 记录下来成为类似do file的syntax file，也能交付batch mode执行。稍微了解STATA多一点之后，会知道STATA在处理资料上有一点跟SPSS和SAS很不同。是STATA 的强处，比较挑剔的人却说是STATA的缺点。 SPSS 和SAS 在处理资料上是一笔记录(record or case)读进来到主要的work memory后，在每一个运算的功能(function)处理过，把这笔资料写出到另外的work memory，再读另一笔资料进来到主要的work memory。是线性按照记录原有存放的次序的处理流程。一笔进来一笔出去，下一个记录才能读进来。处理完写出去的记录不能再回过头来颠倒做再次的处理。这个流程在SPSS的语言程式里没有显明，但系统在台面下是这样处理。所以大部份SPSS 的使用者如果没有被教通，就根本不知道为什么有些指令是必须要先写才能跟着其他的指令，长久来就都搞不通怎样写好程式，最后只好傻傻地只靠视窗功能。 SAS 的语言里就把资料读进来和处理资料的数算功能(在SAS 里叫做procedure ，简写作proc)明显划分。读资料的语法部份叫做data step。也是每次只读一笔资料，做基本的资料改写或操弄，写出到另一个work memory。再读进另一笔。但是STATA读资料的时候就突破这种一笔一笔的处理方式。读的时候是把所有的记录一次都读进到主要的work memory 里组织形成像Excel里的table，基本上是架构成一个距阵，让使用者可以指明要用哪些变数(variable)，而且可以选择要哪些记录 record ，要跳着或是颠倒的顺序作处理。举个例子。比方在SPSS或SAS里，写程式的方式是要假想一笔资料读进来，能够处理的是同一笔记录上不同变数间值的加减乘除(水平方向)。STATA除了水平方向的运算外，更可以在一个动作下处理一个特定变数下不同记录的值之间的加减乘除(垂直方向)。所以更加灵活。问题是因为是一次读进所有的资料在work memory里来架构距阵，work memory要够大才行。现在一般的个人电脑内设的RAM都足够处理学术界的研究资料。但是企业界在用的资料库，比方银行高达数百万的帐号或是健保资料，有时候就大到超过个人电脑上RAM一次读进所能够负荷的容量。所以不管学术界和教育界对STATA的灵活程度如何赞不绝口，都没有考虑到企业界的实际顾虑，对企业界还是只用 SAS的忠诚表示不解。 R处理资料的基本结构跟SPSS和SAS比较像，原本是由ATT Bell lab在八零年代创造的电脑语言S演进而来，算是最新的发展。所以资料数目比较不是考量。但是处理的速度没有SAS快。虽然有很多统计学家写出最新的统计功能，在使用者学习手册上因为没有市场利益的刺激，却相对欠缺。但只要这两个问题逐渐得到解决，在未来的确可能打破其他统计软体要使用者付费和不断提升版本的困扰。但这也使得 R使用者要写出和其他软体程式对照的R教学手册，目前受到其他公司用版权百般刁难阻挡。 SPSS 公司看到SAS的优势，后来也赶紧改用C语言作底，而不再靠Fortran。但是使用者社群一分化固定下来，让大部份的专业程式设计师靠拢到SAS阵营去，就限制了SPSS软体后来的发展。怎么说？一个新的程式语言和软体要能发展成熟，起码都要大概十年的期间。原本开发新语言和写新软体的人没办法了解所有行业的需要。是靠使用者用了之后给予回馈和评价，才知道如何改进升格版本。如前一篇评论所言，SPSS的使用者一开始就只是那些学院里的社会科学研究者，使用统计的程度也许不差，但是缺乏对电脑语言广度的认知，对SPSS和管理系统的相容性也不擅操作。SPSS公司为了继续留住这群主要顾客，当个人电脑开始跃进时，是所有统计软体中最先接纳改用视窗环境，好方便这些设计程式功夫不高的一般使用者。这在当时看起来虽然是最进步的做法，长远看来却是划地自限，使专业的程式设计师更避开学SPSS。原因是如果视窗和滑鼠人人会用，那还用得着专业的程式设计师吗？专写程式的人靠什么吃饭？所以SAS虽然比较晚接纳个人电脑的视窗环境，却比较有耐力，能够靠有好设计程式功力的使用者社群一起发展更具威力的更新版本，提供给各种不同的企业环境运用。 STATA就是看到SAS和SPSS龟兔赛跑的结果，虽然也提供视窗环境方便大众，但是不敢忽略发展STATA语言本身，希望能留住不同程度的使用者。浅白地说，写SPSS syntax比使用视窗功能略为麻烦；相反地，单写SAS语言比SAS视窗点选的功能强很多；STATA写语言跟使用视窗功能的效率差不多，但是学会直接写STATA语法能让使用者自己设计统计程序和加强处理数据的功能，所以专业的程式设计师学STATA 比一般使用者更有发挥才能赚饭吃的余地。这种做法也才使得原来是用SPSS或是SAS两边不同程度的人，都有改用STATA的好处。

个人分类: 博文转载|5154 次阅读|0 个评论

方差分析系列——用好ANOVA中的Contrast选项

热度 1 agri521 2010-7-18 11:45

方差分析（ANOVA）又称变异数分析或F检验，是R.A.Fister发明的，用于两个及两个以上样本均数差别的显著性检验。由于各种因素的影响，研究所得的数据呈现波动状。造成波动的原因可分成两类，一是不可控的随机因素，另一是研究中施加的对结果形成影响的可控因素。一个复杂的事物，其中往往有许多因素互相制约又互相依存。方差分析的目的是通过数据分析找出对该事物有显著影响的因素，各因素之间的交互作用，以及显著影响因素的最佳水平等。方差分析是在可比较的数组中，把数据间的总的变差按各指定的变差来源进行分解的一种技术。对变差的度量，采用离差平方和。方差分析方法就是从总离差平方和分解出可追溯到指定来源的部分离差平方和，这是一个很重要的思想。经过方差分析若拒绝了检验假设，只能说明多个样本总体均数不相等或不全相等。若要得到各组均数间更详细的信息，应在方差分析的基础上进行多个样本均数的两两比较。 Contrasts是SPSS提供的有别于多重比较的，另一种比较组间差别的方法，也叫多项式比较(SPSS提供了 Linear(线性)，Quadratic(二次方)，Cubic(三次方)，4th(四次方)和5th(五次方)。 ANOVA给出N组的均值并不全等，即组间有显著或极显著差异，那么可以通过多重比较找出到底是哪一组或哪些组之间不同。Contrasts可以检验均值间的线性和非线性关系。举个简单的线性关系例子来说明一下：例1、四种除草剂分别为对照组CK，生物制剂Bio1和Bio2，化学制剂Chm1和Chm2，要比较它们各自的效果，还要比较生物类和化学类间的效果，这种要用到Contrasts了。例2、四种除草剂的日生产能力有差异，如何比较某一除草剂的日生产量，与另一除草剂日产量的2倍是否相等，Contrasts可以实现这种比较。好，下面可开教了。第一个步：多项式比较参数如何确定在Coeffcients后面的方框中的系数，从上到下依次代表与第一组到第N组内均值相乘的倍数。不参与多项式比较的组，其相应位置上的系数为0。参与比较的组，用正或负号分类。所有系数中至少有2个不为0. 所有系数中至少有一个系数的符号要与其他组的系数符号不同。可以同时设置几套系数，最多10套，进行比较。第二步：解释结果下面以例1来做一个操作说明。图1为所示数据，y为作物产量，变量x的1、2、3、4、5分别代表CK，Bio1和Bio2，Chm1和Chm2。现在我们要比较CK与Bio1+Bio2+Chm1+Chm2的效果，参数为多项式参数为：1，-1，-1，-1，-1；比较Bio1+Bio2与 Chm1+Chm2的差别，参数为0,1,1,-1,-1；比较Bio1与Bio2，参数为0,1,-1,0,0；同理比较，Chm1与Chm2，参数为 0,0,0,1,-1。

个人分类: 统计计算|16124 次阅读|1 个评论

介绍一个很好的SPSS使用交流论坛（有视频资料）

热度 1 clhan 2010-7-6 12:30

有朋友推荐了一个很不错的SPSS统计分析交流论坛，现在和广大朋友们一起分享。论坛网址： http://www.spsschina.com/ or http://www.spsschina.cn/ 希望能对大家有用。

个人分类: 生活点滴|11369 次阅读|2 个评论

不能用SPSS分析共现矩阵

热度 2 zilu85 2010-5-26 11:39

共现分析中矩阵的种类：无论是同被引聚类分析，还是词共现聚类分析，都要把相应的矩阵输入到聚类分析软件中，比如SPSS，我们给软件输进去的是什么？多数的研究输入的都是共现矩阵，就是行和列都是相同的元素，比如高被引论文或者高频主题词： SMALL H, 1973 WHITE HD, 1981 SMALL H, 1974 KESSLER MM, 1963 MCCAIN KW, 1990 WHITE HD, 1998 CALLON M, 1986 CALLON M, 1983 CALLON M, 1991 PRICE DJD, 1965 CULNAN MJ, 1986 SMALL H, 1973 134 36 50 46 18 17 12 16 6 18 10 WHITE HD, 1981 36 84 20 8 45 29 4 4 4 6 17 SMALL H, 1974 50 20 80 21 11 14 8 8 4 20 4 KESSLER MM, 1963 46 8 21 71 5 7 1 2 2 11 1 MCCAIN KW, 1990 18 45 11 5 62 28 1 1 3 7 9 WHITE HD, 1998 17 29 14 7 28 59 4 1 2 10 5 CALLON M, 1986 12 4 8 1 1 4 57 17 20 5 0 CALLON M, 1983 16 4 8 2 1 1 17 50 18 6 0 CALLON M, 1991 6 4 4 2 3 2 20 18 43 2 1 PRICE DJD, 1965 18 6 20 11 7 10 5 6 2 43 1 CULNAN MJ, 1986 10 17 4 1 9 5 0 0 1 1 40 比如上图中，第一列是11篇高被引论文，对应的第一行也是这11篇高被引论文，格子中的数字是它们同被引的次数，比如第一篇论文和第二篇论文同被引了36次，而对角线上的数字（134,84等）是该论文总的被引次数。我看到很多的论文中都使用这种矩阵进行分析。猜想可能是这样的矩阵容易获得。在SCI或者其他文献数据库中，同时输入两个引文或者两个主题词，就可以得到它们在含有这两个引文或者高频词的文献数目，也就是它们的共现次数。因此，可以说直接生成共现矩阵是一条比较便利的途径。那么，从数据库中文献空间的角度深入的想一下，共现矩阵是如何得来的呢？其实，在共现矩阵之前，还有一个更加基础的矩阵，就是数据矩阵。比如上面的同被引矩阵，实际上是来自于下面的矩阵。第一列还是11篇高被引论文，而第一行的其他各列则是引用这些文献的来源文献，其中的“1”代表着该来源文献的引文中出现了对应的被引文献，而“0”则表示没有出现。被引文献来源文献1 来源文献2 来源文献3 来源文献4 来源文献5 来源文献6 来源文献7 来源文献8 来源文献9 SMALL H, 1973, J AM SOC INFORM SCI, V24, P265 0 0 1 0 0 0 0 0 0 WHITE HD, 1981, J AM SOC INFORM SCI, V32, P163 0 0 1 0 0 0 0 1 0 SMALL H, 1974, SCI STUD, V4, P17 0 0 1 0 1 0 0 0 0 KESSLER MM, 1963, AM DOC, V14, P10 0 0 0 0 0 0 0 0 0 MCCAIN KW, 1990, J AM SOC INFORM SCI, V41, P433 0 0 1 0 0 0 0 1 0 WHITE HD, 1998, J AM SOC INFORM SCI, V49, P327 0 0 1 0 0 0 0 0 0 CALLON M, 1986, MAPPING DYNAMICS SCI 1 0 0 0 0 1 0 0 0 CALLON M, 1983, SOC SCI INFORM, V22, P191 0 0 0 0 0 0 1 0 0 CALLON M, 1991, SCIENTOMETRICS, V22, P155 1 1 0 0 0 1 1 0 1 PRICE DJD, 1965, SCIENCE, V149, P510 0 0 0 0 0 0 0 0 0 CULNAN MJ, 1986, MANAGE SCI, V32, P156 0 0 1 1 0 0 0 0 0 实际上，在SPSS中，准许输入的应该是这种矩阵，聚类选项中数据类型选择是“binary”，相似系数我们选择的是“Ochiai”系数。下面是通过高被引论文-引文矩阵（数据矩阵）生成的聚类图：如果把共现矩阵输入当做数据矩阵输入到SPSS中的话，实际上SPSS把二者的共现数据当做分类样本的一个属性值了，这样做似乎也有一定的道理，因为一篇文献（A）与其他文献（B,C等）的共现次数也可以被当作该文献（A）的属性，但是严格说来这样做是不合适的。下面是通过共现矩阵生成的聚类图：仔细观察二者的差异，虽然在局部有相同的聚类结果，但是越到后来，分类的差异就越大，这就是很多研究中经常遇到的问题：虽然聚类了，但是实际上结果判读起来很别扭。所以，你在研究中一旦出现这种情况，你就不要强行去解释错误的结果了，应该检查数据和聚类方法是不是有错误了。那么，如果手头只有共现矩阵该怎么办？其实可以输入共现矩阵的聚类分析软件还是很多的，比如SAS，还有很多免费的小软件，都具有生物信息学的特色，需要费心学习，一旦上了手，你会发现各具特色，其实也很好用的。 1.CLUTO - Software for Clustering High-Dimensional Datasets http://glaros.dtc.umn.edu/gkhome/cluto/cluto/overview 2． Cluster Analysis and Visualization from Eisen Lab http://rana.lbl.gov/EisenSoftware.htm

个人分类: 生物医学文本挖掘|24817 次阅读|7 个评论

spo文件在SPSS 16.0中的打开问题

热度 3 aweng 2010-2-8 08:26

　　今天升级了SPSS，将版本由13.0升级到16.0。让我faint的是，居然以前做的分析结果文件spo文件在16.0里打不开了，显示16.0只能打开spv文件。我很纳闷，都是SPSS，只是版本不同，难道就根本打不开了？　　上网一查，嘿，还真证实了我的猜想。上了SPSS的官方网站，发现有人这样问过。官方回答是16.0不能支持15.0及以前的版本生成的spo文件，目前只支持16.0特有的spv文件。而以前的spo文件只能用SPSS16.0安装光盘中的Legacy Viewer打开，打开也是只读状态。通篇没有谈spo和spv的转换问题。这说明以下几点。（1）SPSS16.0不能打开spo文件。（2）SPSS16.0使用了新的spv格式。（3）spo和spv格式可能不兼容，至少二者没有官方出品的文件格式转换器。（4）spo文件只能使用Legacy Viewer和SPSS15.0及以前的版本打开，只能使用SPSS15.0以前的版本编辑。　　这个结果让我很失望。就是微软也开发了文件格式转换器用于转换doc文件和docx文件，使office2000之后的版本全部可以打开、编辑、保存docx文件。SPSS做成这样，显然是欠妥当。

个人分类: 学习|18142 次阅读|1 个评论

[转载]spss教程+案例ppt+电子书+多元统计ppt+模拟题

jbguan 2010-1-23 08:16

http://d.namipan.com/d/spss%e6%95%99%e7%a8%8b+%e6%a1%88%e4%be%8b+%e7%94%b5%e5%ad%90%e4%b9%a6+%e5%a4%9a%e5%85%83%e7%bb%9f%e8%ae%a1.rar/8029d7272e0f53f084c5efb4c15bd9c365de96cf0eb48b09 摘自小木虫 http://emuch.net/html/200911/1681746.html

个人分类: 资源|4182 次阅读|1 个评论

生物统计学习笔记—样本平均数的假设检验

wangzhong 2009-3-2 22:12

u检验（u-test）大样本平均数的假设检验当总体方差已知，或者总体方差未知但样本为大样本（）时，样本平均数的分布服从正态分布，标准化后服从于标准正态分布，即u分布。因此用u检验法进行假设检验。生物学研究中样本容量很少达到30，故略。 t检验（t-test）小样本平均数的假设检验当样本容量小于30，且总体方差未知时，检验样本平均数与指定总体平均数的差异显著性，或检验两个样本平均数和所属总体平均数和是否相等的方法。一个样本平均数的t检验：总体方差未知且样本容量n30，小样本的与相差较大，故遵循自由度的t分布。即：，，（样本方差；总体方差；s样本标准差）例：成虾的平均体重一般为21g。在饲料中添加酵母培养物后，随即抽取16只，体重为20.1，21.6，22.2，23.1，20.7，19.9，21.3，21.4，22.6，22.3，20.9，21.7，22.8，21.7，21.3，20.7。检验添加培养物后成虾体重与平均体重差异是否显著。（1）提出假设：，即添加培养物后成虾体重没有显著提高。：；（2）选取显著水平；（3）概率计算： =21.51875 s=0.92824， =0.23206 t=（21.51875-21）*4/0.92824=2.2354 查询双尾t值表，df=15时， =2.131，t ，故P0.05 （4）推断：否定，接受，即添加培养物后成虾体重与平均体重差异显著。 spss应用： spss分析步骤：数据输入AnalyzeCompare MeansOne-Samples T Test Test Variable 框：待分析的样本（weight） Test Value框：已知的总体平均值（21）结果输出：非配对样本（成组样本）均数比较的t检验：检验两个样本平均数和所属总体平均数和是否相等，经常用于比较生物学研究中不同处理效应的差异显著性。两个样本是从各自总体中抽取的，其所含变量之间没有任何关联，所以，无论两样本容量是否相同，均可以组平均数进行相互比较，检验其差异显著性。注：t检验前，应首先进行F检验，以确定其方差齐性。双样本等方差假设：即两样本的总体方差和未知，但可假设。首先，以样本各自的自由度和作为权数，用样本方差和求出平均数差数的方差，作为对的估计：，则有两样本平均数差数的标准误：（时）此时：，具有自由度。例：分别测定某物种在两个不同的海拔高度1和2的比叶面积，每个高度测定5组，数据分别为：海拔高度1：128.59，139.75，137.78，142.04，130.31；海拔高度2：165.37，153.01，142.37，150.33，143.00。检验两海拔高度上比叶面积差异是否显著。（1）假设：，即两海拔高度上比叶面积没有差异，：；（2）取显著水平；（3）概率计算： =135.69， =35.13， =150.81， =87.34，则： =61.23， =4.95， t=-3.0551，自由度df=（5-1）+（5-1）=8时，，所以|t| ，故p0.05，（4）推断：否定，接受，差异显著。 spss应用： spss分析步骤：数据输入AnalyzeCompare MeansIndependent-Samples T Test Test Variable 框：待分析的样本； Grouping Variable框：组别； Define Groups：定义要检验的两组的代码。结果输出：上图中Independent Samples Test表分为两种情况：等方差假设和异方差假设，此例中两总体方差齐性，故应看第一行，即等方差假设的结果。双样本异方差假设：两样本的总体方差和未知，且，但时，仍可用t检验，计算方法与等方差假设相同，但自由度df应该用n-1，而非2（n-1）。两样本的总体方差和未知，且，时，统计数不再服从t分布，只能进行近似t检验。（略）配对样本均数比较的t检验：要求两样本间随即变量配偶成对。进行假设检验时，只要假设两样本的总体差数，而不必假定两样本总体方差相等。设两样本的变量分别为和，共配成n对，各对的差数为，则样本差数的平均数：样本差数方差为：样本差数平均数的标准误： t值为：，具有自由度。例：研究放牧对土壤氮含量的影响时，分别在8个不同海拔设置围栏，3年后在各海拔围栏内外各取一次土壤分析其氮含量，结果如下：检验围栏控制对土壤氮含量是否有显著影响。（1）假设：，即两样本总体差数没有显著差异；：，（2）取显著水平（3）概率计算： =0.0485 =0.0468112 =0.0485/0.0468112=1.036，查表，当df=8-1=7时， =2.365，故t ，p0.05。（4）推断：接受，否定，即围栏设置对土壤氮含量的影响不显著。 spss应用： spss分析步骤：数据输入AnalyzeCompare MeansPaired-Samples T Test Paired Variables：配对分析的样本。结果输出： Paired Samples Statistics：配对样本基本统计量 Paired Samples Correlations：配对样本相关关系 Paired Samples Test：配对样本t检验结果 Mean：两样本变量差数的平均数； Std. Deviation：两样本差数的标准差； Std. Error Mean：两样本差数的标准误； 95% Confidence Interval of the Difference：两样本差数总体平均数的95%可信区间； Sig. (2-tailed)：双尾p值。

个人分类: 资料积累|20219 次阅读|1 个评论

帐号		自动登录	找回密码
密码			注册

关闭安全验证

标签: SPSS

相关帖子

相关日志

关闭 安全验证

标签: SPSS

相关帖子

相关日志

关闭安全验证