LuDoor的个人博客分享 http://blog.sciencenet.cn/u/LuDoor

博文

统计分析方法概述

已有 5121 次阅读 2010-12-20 21:16 |个人分类:研究笔记|系统分类:科研笔记|关键词:学者

一、统计总体与样本

统计总体必须有下面三个性质:

1、同质性

        即总体由具有某一共同性质表现的基本单位所组成。例如,工业企业作为总体,是因为每个工业企业都是从事工业生产活动的单位,具有相同的经济职能。

2、大量性

      由统计研究的目的决定,我们只有通过大量事物的观察、分析和研究,才能发现从其普遍联系中表现出来的规律。

3、变异性

       总体各单位除了必须有某一共同标志表现作为它们形成统计总体和客观依据以外,还必须要在所研究标志上存在变异。例如,高等院校这个统计总体,除了都是从事高等教育的教学活动这一共同性质之外,各高等院校在隶属主管部门、院校性质、招生规模和专业设置等各方面又有所差异。



样本是指从统计总体中抽取出来作为代表这一总体的部分单位组成的集合体。样本有下列4个特点:

1、代表性

      样本代表总体的程度越高,样本计算的抽样指标与总体指标的误差就越小

2、客观性

       从总体中抽取样本时,必须排除主观因素的影响,保证样本的中选或不中选不受调查者或被调查者的主观影响

3、随机性

        一个统计总体可以抽取不同的许多样本,至于到底抽取样本是哪一个,完全取决于样本的随机性

4、排他性

        样本单位必须抽取自总体内部,而不能抽取总体外部的单位



二、统计数据收集方案

统计数据收集方案也称为统计调查方案。它是在收集统计数据之前,制定出一个周密、完整的调查方案,用以指导这个调查工作,使调查得以顺利实施和完成的计划。

   一个完整的统计数据收集方案通常包括以下积分方面的内容:调查目的、调查对象和调查单位、调查项目和调查表、调查时间和期限、调查的组织工作等。

1、 调查目的

调查研究所要解决的问题,它所回答的是“为什么调查”、“调查要解决什么样的问题”。调查的目的应该尽可能规定得具体明确,突出中心,它是确定调查对象、调查项目等的基础。

2、 调查对象和调查单位

        调查对象是根据调查目的确定的调查研究的总体和调查范围。调查单位是构成调查对象中的每一个单位,它是调查项目和调查内容的承担者和载体,也是我们收集数据、分析数据的基本单位。

3、 调查项目

        调查项目要解决的问题是“调查什么”,也就是调查的具体内容。通俗地说,调查项目就是一份在调查过程中应该获得答案的各种问题的清单。

4、 调查时间和时限

      调查时间是调查资料所属的时间,即所谓的客观时间。如果所要调查的是时期现象,调查时间就是资料所反映的起止时间;如果所调查的对象是时点现象,调查时间就是规定的统一标准时间。

      调查时限是进行调查工作的期限,包括搜集资料和保送资料的整个工作所需要的时间,即所谓的主观时间。

5、 调查的组织工作

     调查的工作组织计划使调查工作在业务组织上、措施上得到有力的保证。组织工作计划包括明确调查机构、调查地点和选择调查方法等问题。



一种重要的调查方法:问卷调查

是以书面提出问题的方式搜集资料的一种研究方法,即调查者就调查项目编制成表式,分发或邮寄给有关人员,请示填写答案,然后回收整理、统计和研究。它是根据调查目的,将所需调查的同题具体化,使调查者能顺利地获取必要的信息资料,并便于统计分析。

问卷是用来收集调查数据的一种工具,问卷设计是其中的关键,问卷设计的过程一般包括:

1、 确定所需信息。调查者必须在问卷设计之前就要把握所有达到研究目的和验证研究假设所需要的信息,并决定所有用于分析使用这些信息的方法,比如频率分布、统计检验等,并按这些分析方法所要求的形式来收集资料,把握信息。

2、 确定问卷的类型。根据市场调查中使用问卷方法的不同,可将问卷分成自填式问卷和访问式问卷;根据问卷发放方式不同,可将问卷分为送发式问卷、邮寄式问卷、报刊式问卷、人员访问式问卷、电话访问式问卷和网上访问式问卷六种。在确定问卷类型时,先必须综合考虑这些制约因素:调研费用、时效性要求、被调查对象和调查内容。

3、 确定问卷内容。

确定问题的内容,最好与被调查对象联系起来

4、 确定问题类型

问题的类型归纳起来分为四种:自由问答题、两项选择题、多项选择题和顺位式问答题,其中后三类均可以称为封闭式问题。

5、 确定问题的措辞

为保证问卷的质量,一般要遵循以下几条法则:

(1) 问题的陈述应尽量简洁

(2) 避免提带有双重或多重含义的问题

(3) 最好不用反义疑问句,避免否定句

(4) 注意避免问题的从众效应和权威效应

6、 确定问题的顺序

一般而言,开头部分安排比较容易的问题,中间部分安排一些核心问题,结尾部分安排一些背景资料,还有就是注意问题的逻辑顺序

7、 问卷的排版和布局

问卷排版布局总的要求是整齐、美观,便于阅读、作答和统计。

8、 问卷的测试

问卷初稿设计工作基本完成之后,不要急于投入使用,特别是对于一些规模的问卷调查,最好的办法是先组织问卷的测试,如果发现问题再及时修改。

9、 问卷的定稿

当问卷测试工作完成,确定没有必要再进一步修改后,可以考虑定稿,问卷定稿后就可以交付打印。正式投入使用

10、 问卷的评价

问卷的评价实际上是对问卷的设计质量进行一次总体性评估



三、常用统计分析方法

统计分析是帮助人们提高控制数字的能力,透过这些庞杂的数字和复杂的关系,揭示事物的本质、特点和发展变化的内在规律的一种有利的工具。常用统计分析方法有:

1、 方差分析

方差分析是20世纪20年代发展起来的一种统计分析方法,目前,它在心理学、生物学、医学等试验数据分析中被广泛使用。从形式上看,它是检验多个总体均值是否相等的一种统计分析方法;从内容上看,它却是研究多个变量之间关系的一种实用、有效的统计分析方法。

2、 相关与回归分析

在自然界和社会现象中,任何现象都不是孤立的,而是普遍联系和相互制约的。现象间的普遍联系、相互制约往往表现为相互依存的关系,这种依存关系通常由函数关系和相关关系两种类型。

函数是指现象之间是一种严格的确定性的依存关系,表现为某一现象发生变化另一现象也随之发生变化,而且有确定的值与之对应。这种关系可通过精确的数学表达式来反映

相关关系是指客观现象之间确实存在的,但数量上不是严格对应的依存关系。

函数关系往往通过相关关系表现出来;而当对现象之间的内在联系和规律性了解更加清楚的时候,相关关系又可能转化为函数关系。

回归分析通过一个变量或一些变量的变化解释另一变量的变化。其主要内容和步骤是,首先根据理论和对问题的分析判断,将变量分为自变量和因变量;其次,设法找出合适的数学方程式(即回归模型)描述变量间的关系;由于涉及到变量具有不确定性,接着还要对回归模型进行统计检验;统计检验过后,最后是利用回归模型,根据自变量去估计、预测因变量。

3、 时间数列分析

时间数列,亦称为动态数列或时间序列,就是把反映某一现象的同一指标在不同时间上的取值,按时间的先后顺序排列所形成的一个动态数列。它反映社会经济现象发展变化的过程和特点,是研究现象发展变化的趋势和规律以及对未来状态进行科学预测的重要依据。

时间数列分析最常用的方法有两种:一是指标分析法,二是构成因素分析法。

所谓指标分析法,是指通过计算一系列时间数列分析指标,包括发展水平、平均发展水平、增减量、平均增减量、发展速度、平均发展速度、增减速度和平均增减速度等来揭示现象的发展状况和发展变化程度的分析方法。

构成因素分析法是将时间数列看作是由长期趋势、季节变动、循环变动和不规则变动集中因素所构成的,通过对这些因素的分解分析,揭示现象随时间变化而演变的规律,并在揭示这些规律的基础上,假定事物今后的发展趋势遵循这些规律,从而对事物的未来发展做出预测。



四、常用统计软件

1、SPSS(statistical package for the social science)社会科学统计软件包

      SPSS for Windows是一个组合式软件包,它集数据整理、分析功能于一身,基本功能包括数据管理、统计分析、图表分析、输出管理等等。SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析和多重响应等几大类,它的分析结果清晰、直观、易学易用,而且可以直接读取Excel及DBF数据文件,现已推广到多种操作系统的计算机上

      利用SPSS进行统计处理的基本过程如下:





 

(1)数据的录入

将数据以电子表格的方式输入到SPSS中,也可以从其他可转换的数据文件中读出数据。数据录入的工作分两个步骤,一是定义变量,二是录入变量值。

(2)数据的预分析

在原始数据录入完成后,要对数据进行必要的预分析,如数据分组、排序、分布图、平均数、标准差的描述等,以掌握数据的基本特点和基本情况,保证后续工作的有效性,也为确定应采用的统计检验方法提供依据。

(3)统计分析

按研究的要求和数据的情况确定统计分析方法,然后对数据进行统计分析。

(4)统计结果可视化

在统计过程进行完后,SPSS会自动生成一系列数据表,其中包含了统计处理产生的整套数据。为了能更形象地呈现数据,需要利用SPSS提供的图形生成工具将所得数据可视化。如前所述,SPSS提供了许多图形来进行数据的可视化处理,使用时可根据数据的特点和研究的需求来进行选择。

(5)保存和导出分析结果

数据结果生成完之后,则可将它以SPSS自带的数据格式进行存贮,同时也可利用SPSS的输出功能以常见的数据格式进行输出,以供其他系统使用。



2、SAS(statistical analysis system) 统计分析系统

     SAS是美国SAS软件研究院所研制的一套大型集成应用软件系统,具有完备的数据存取、数据管理、数据分析和数据展现功能。

SAS系统的特点:

(1) 使用灵活方便,数据处理功能齐全

(2) SAS语言是编程能力强且简单易学的非过程语言

(3) SAS系统把数据处理与统计分析融为一体

(4) 适用性强,应用面广

最简单的区分,SPSS主要是菜单式操作,所有分析直接利用软件自带模块进行,你需要做的就是点击鼠标选菜单。傻瓜式操作,不需要了解一种分析方法的始末就能做分析,还可以做不错的图表。

SAS需要从头到尾自己写程序。可以实现很多自己需要的算法。由于是非过程语言(第四代语言),近乎自然英语的非过程语言表达,其特点是用户不必告诉SAS“怎么做”,只需告诉它要“做什么”就行了



例子:用统计软件进行主成分分析

主成分分析是利用降维的思想,在损失很少信息的前提下把多个指标转化为几个综合指标的多元统计方法。通常把转化后的综合指标称之为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,这就使得主成分比原始变量具有某些更优越的性能。这样在研究复杂问题时就可以只考虑少数几个主成分而不至于损失太多信息,从而更容易抓住主要矛盾,揭示事物内部变量之间的规律性,同时使问题得到简化,提高分析效率。(实际问题中遇到指标较多且各指标相关关系较大时,人们常考虑应用主成分分析的方法)



主成分分析法的一般步骤:

    第一步,首先需要判断待分析的原始变量是否适合做主成分分析,同样的,需要判定指标之间的相关性,可以使用SPSS中的“Correlation Matrix(相关系数矩阵)”判定。

    第二步,规范指标值;如果指标的单位不同,则需要消除指标间不同量纲的影响,即对原始数据进行标准化处理,将原始数据处理成均值为0、方差为1的归一化分析数据。(使用SPSS时,因子分析和主成分分析中的标准化处理都是自动进行的)

第三步,确定主成分;如果数据是标准化后的,则从相关系数矩阵出发,求得特征值与对应的特征向量,而对同度量或是取值范围在同量级而不需要标准化的数据,则直接从协方差矩阵求特征值与特征向量(如果使用SPSS,则其会自动对指标数据进行标准化处理,因此通常用的是相关系数矩阵)。

主成分个数的确定有两个标准:1)累计贡献率(即前k个主成分保留原观测变量信息的比重)达到85%以上,这通常可以保证样本排序的稳定。(每个主成分yk的贡献率等于它的特征值λk除以原始指标个数p, 累计贡献率等于各主成分贡献率顺序相加)

2)特征值在特征值的均值以上,由于由标准化数据的相关矩阵求得的特征值均值=1, 因此只要取特征值>1的前k个主成分即可。

确定主成分个数m:用SPSS软件中表“TotalVariance Explained(总方差解释)”的主成分方差累计贡献率≥85%、结合表“Component Matrix(初始因子载荷阵)”中变量不出现丢失确定主成分个数m。

第四步,建立主成分方程;可以利用SPSS建立“Component Matrix”(载荷矩阵),它给出了标准化原始变量用公因子线性表示的近似表达式,然后将第i列向量除以第i个特征根的开根后就得到第i个主成分的变量系数。得到每个主成分系数后就可以写出主成分表达式。(在因子分析中,建立的是“Rotated Component Matrix”(旋转后因子载荷阵),它直接给出了因子分析中需要的因子表达式)给了在因子分出了第五步,解释各主成分的意义;根据载荷矩阵中各列系数的绝对值大的变量对该列对应的主成分命名。



主成分分析的重点放在从观测变量到主成分的变换上,因子分析重点放在从基本因子到观测变量的变换上,主成分变换是可逆的,因子分析则不要求。因子分析有回归过程,用因子得分函数判断;主成分分析无回归过程

当特殊因子的变差为0时,主成分分析和因子分析是完全等价的。主成分分析和因子分析在应用上的侧重不同,通常,因子分析侧重成因清晰性的综合评价,要求对影响因子的命名较清晰,主成分分析侧重信息贡献影响力综合评价,对主成分命名的清晰度较低。



https://m.sciencenet.cn/blog-496565-395547.html

上一篇:情感信息与表情建模
下一篇:关于真实、信息、人脑的讨论

2 张乐 高建国

发表评论 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-20 18:55

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部