GISci分享 http://blog.sciencenet.cn/u/panghuanzhi

博文

统计学小结

已有 5103 次阅读 2011-12-15 11:53 |个人分类:经济学学习小结|系统分类:科研笔记|关键词:学者| 统计学

 

                                                                 <统计学>

统计图为先:好的图形应具有以下特征:目的明确;从数据比较性上显示尽可能多数据量,有图有说明。

培养火眼金睛:

看整体,看差异,看形状。

数据属性

变量

描述

应用

 

 

整体

均值

 

对称分布

 

 

中位数

 

偏态分布

 

 

众数:出现频率最高

 

偏态分布

 

 

差异

极差:max-min

 

 

 

 

四分位差:75%-25%

 

 

 

 

标准差、标准分数、离散系数

 

 

 

 

形状

偏态SK:数据分布不对称

>0 右拖尾(右偏)

=0 对称

<0 左拖尾

 

 

 

 

峰态K:峰值高低

>0 尖峰

=0 正态

<0 扁平

 

 

 

 

算样本:

先基础:

类别

具体

适用范围

 

 

 

 

离散

二项

放回抽样

 

 

 

 

 

泊松

预先知道单位时空内随机变量的均值

一定时空范围某事件出现次数

 

 

 

 

超几何

不放回抽样的二项分布

 

 

 

 

连续

正态

正态期望-样本值成直线

 

 

 

 

 

 

N个正态总体的随机变量的平方和

总体方差的估计与非参数检验

 

 

 

 

T分布:若y

类似正态,比正态平坦与分散

正态总体标准差未知,小样本条件下对总体均值的估计与检验

 

 

 

 

F分布:

类似

比较不同总体的方差是否有显著差异

 

 

 

后样本:

统计量

计算式

适用范围

标准误差

 

 

 

 

样本均值

任何总体分布时,大样本下服从

 

大样本

 

 

 

 

比例p

大样本

 

 

 

 

样本方差

正态

 

 

 

 

的样本统计量

取决于总体与样本量

 

 

 

 

 

的样本统计量

两大样本下正态

 

 

 

 

 

的样本统计量

F=

正态下服从F分布

 

 

 

 

 

Ch5 参数估计

均值

比例

方差

大样本

小样本

大样本

正态

Z分布

未知用 替代

Z分布

 

Z分布

t分布

 

 

 

 

 

 

 

两个总参数估计所使用的分布

均值差

独立大样本

,
已知

Z

 

 

 

,
未知

表示 ,Z

 

 

独立小样本,且正态总体

,
已知

Z

 

 

 

,
未知

T

 

 

 

T

比例差

独立大样本

Z

 

 

方差比

-

F分布

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

样本量的确定:由置信水平和总体标准差,给定的估计方差共同决定。

Ch6  假设检验

6.1 原理

怎样提出假设:原假设是研究者想收集证据予以推翻的假设,备择假设与原假设互斥。

怎样作出决策:

Step1:原假设正确却拒绝了称为 ,原假设错误却未拒绝称为 错误。犯那类错误的代价高就把那类错误设置低。一般先控制 错误。

Step2:依据啥作出决策

双侧假设

>临界值

拒绝原假设

统计量的值<临界值

拒绝原假设

统计量的值>临界值

拒绝原假设

或者更准确地用P值决策:依靠统计量的分布函数,代入样本值,计算样本概率值进行决策。

Step3:如何表述决策结果

假设检验不能证明原假设正确,因为拒绝与不拒绝都是在原假设的条件下进行的,至于原假设正确与否超出了假设之外。

统计显著不等于有实际意义:P值决策中,样本量越大,检验统计量的值越大,P值越小,越有可能拒绝原假设。因此只要样本量足够大总能拒绝原假设,即统计上越显著,但不一定有实际意义。

6.2 一个参数的假设检验

 

6.3 两总体参数的检验

与一总体参数的检验类似,统计量的表达式复杂些。

Ch7 方差分析与实验设计

7.1 方差分析的原理:

方差分析的方法:

误差的分解:总误差=随机误差+处理误差

总平方和=组内平方和+组间平方和

方差分析的前提:

正态性:正态总体

方差齐性:各总体的方差相等,检验方法

独立性:样本数据来自因子各水平的独立样本。

一般来说,方差分析对独立性的要求较高。

 

定义

前提

 

 

方差分析

研究分类自变量对数值因变量的影响,可形象地理解为检验多个总体均值是否相等的统计方法

正态性:正态总体

 

通过标准化残差=残差/(残差的标准差(或者残差标准差的估计))

 

 

 

方差齐性:各总体的方差相等,检验方法

 

Yi-yei(残差)值均落在一条水平带内均匀分布;

若对于较大x,残差值称增长趋势,则不满足残差相等原则;

若残差曾呈有规律的分布,表示回归模型不合适

 

 

 

独立性:样本数据来自因子各水平的独立样本。

ch10

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

7.2 单因子与多因子的方差分析

单因子

求关系的步骤

1.提出假设H0:u1=u2=u3…

H1u1,u2,u3不全相等

 

 

 

2.构造检验统计量F=组间方差除以组内方差服从F分布

 

 

 

3.P决策值,若P<a,则拒绝

 

 

关系的强度

组间平方和占总平方和的比例

 

 

哪些均值有显著差异

1.提出假设:ui

 

 

 

2.构造统计量:xi的均值与xj的均值之差的绝对值

 

 

 

3.FisherLSD方法,进行决策

 

多因子

不考虑交互作用

类似单因子,主因子进行分析

提出假设

 

 

 

构造统计量

 

 

 

决策

 

考虑交互作用

提出假设:H0:无交互作用

 

 

 

构造统计量:Frc=交互作用均方/残差均方,服从F((k-1(r-1),kr(m-1)),其中k,r分别为行列因子的水平数,m为重复测量的次数

 

 

 

决策:p(rc)<a,拒绝原假设

 

 

 

 

 

 

 

 

 

 

 

 

 

7.3 实验设计基本:

完全随机化设计:因子的水平被随机地指派给试验单元

随机化区组设计:先划同质区,再随机化抽取实验单元

因子设计:因子间的搭配设计

Ch8:一元线性回归

.1相关系数r:度量两变量间线性关系强度的统计量,

前提:

线性关系

自变量服从联合正态分布

剔除了极端值

取值:-1-1,r=0,两变量间不存在线性关系

相关系数的检验

定义

假设

取值范围

 

 

 

度量两变量间线性关系强度的统计量

线性关系

-1-1,r=0,两变量间不存在线性关系

 

 

 

 

自变量服从联合正态分布

剔除了极端值

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

8.2 一元线性回归的估计与检验

1.回归模型:y=b0+b1*x+epsi,其中epsi满足正态性,方差齐性,独立性

2.估计的回归方程:y=be+b1e*x

3.参数be,b1e的计算法:最小二乘估计

4.回归直线的拟合优度:

拟合优度

定义

回归直线与观测点的接近程度

 

 

 

评价量

判定系数:回归平方和SSRye(估计值)-ya(均值))占总平方和SST的比例

说明回归直线对观测数据的拟合程度,故值越大说明拟合越好

 

 

估计标准误差

Yi-yei平方和SSE的均方根

说明拟合误差

 

显著性检验

线性关系检验F检验

检验y-x间的线性关系是否显著

1.提出假设:H0:b1=0,H1:b1不为0

 

 

 

 

2.构造检验统计量: F=(SSR/K)/(SSE/(n-k-1))服从F1n-2

 

 

 

 

3.P<a,拒绝H0

 

 

回归系数的检验与推断t检验

检验自变量对因变量的影响是否显著

1.提出假设:

一元时回归系数检验与线性关系检验等价:H0B1=0

 

 

 

 

2.构造检验统计量:

T=回归系数b1的估计值b1e/b1e的标准差

 

 

 

 

3.P<a,拒绝H0

 

 

 

 

 

 

8.3预测:

平均值的置信区间:给定x=x0,求出的y的平均值的估计区间

个别值的置信区间:给定x=x0,求出的y的一个个别值的估计区间

平均值的置信区间宽度<个别值的置信区间宽度

Ch9 多元线性回归

重点介绍不同处:拟合优度与显著性检验

拟合优度

定义

回归直线与观测点的接近程度

 

 

 

评价量

多重判定系数:回归平方和SSRye(估计值)-ya(均值))占总平方和SST的比例

由于增加自变量会减少残差平方和,故常采用减去自变量个数的调整的多重判定系数

Ra平方=1-(1-R平方)*(n-1)/(n-k-1)

说明回归直线对观测数据的拟合程度,故值越大说明拟合越好

 

 

 

估计标准误差:Yi-yei平方和SSE的均方根

说明拟合误差

 

显著性检验

线性关系检验F检验

检验y-x间的线性关系是否显著

1.提出假设:H0:b1=0,H1:b1不为0

 

 

 

 

2.构造检验统计量: F=(SSR/K)/(SSE/(n-k-1))服从F1n-2

 

 

 

 

3.P<a,拒绝H0

 

 

回归系数的检验与推断t检验

检验自变量对因变量的影响是否显著

1.提出假设:

H0Bi=0

 

 

 

 

2.构造检验统计量:

T=回归系数bi的估计值bie/bie的标准差服从t(n-k-1)

 

 

 

 

3.P<a,拒绝H0

 

 

 

 

 

 

多重共线:

识别:模型F检验显著,几乎所有回归系数的t检验不显著;回归系数的正负号与期望相反

处理:前向选择;向后剔除;逐步回归(可不断+-变量均可)

虚拟变量:数值化定性自变量,k个定性水平,k-1个虚拟变量

Ch10 时间序列预测

时间序列的组成要素:趋势、季节变动、循环变动、不规则波动

 

时间序列变化的组成要素

特点

检验法

预测法

预测步骤

 

单成分

趋势

持续

 

线性、非线性、平滑

 

 

 

季节

一年固定周期

 

自回归

 

 

 

循环

非固定周期

 

自回归:

 

先进行D-W检验:判断残差是否存在自相关,d属于[0,4],

d<dL,拒绝原假设,存在自相关;

d>du,不拒绝

Dl<d<du,无法判断

其次对于自回归的阶数,可先选择一个高阶,通过高阶系数是否显著(是否为0)进行检验后将不显著的参数去掉。

 

 

不规则

不规则震荡

 

平滑法

 

 

 

趋势

 

 

 

 

 

多成分

 

 

 

季节性回归法

引入季节性虚拟变量(季度引入3个,月份引入11个),注意此时回归方程中的t的单位也相应是季度或月,且逐年递增

 

 

 

 

 

分解预测

Step1:分理出季节成分,step1.1

计算移动平均值(按季度顺序排列,下一年第一季t=5,…);

Step1.2将观察值除以移动平均值,得各季度的比值,再按1234季度对比值分组,计算各组平均值,即得各季度的季节指数

Step2:分离季节成分:原始值除以季节指数

Step3:建立预测模型并预测step4:预测值乘以季节指数得最终的预测值

 

 

预测流程图:

 

Ch11 主成分分析与因子分析

方法名

原理

模型

步骤

 

主成分

找主成分代表原变量

Y=AX,其中X为原始变量

Step1:标准化原变量

Step2:计算相关系数矩阵

Step3:找出相关系数矩阵的特征根和单位特征向量

Step4:确定主成分,并给出合理解释

说明:一般统计会给出主成分的方差贡献率和累计方差贡献率,它反映了主成分对原始变量的影响程度,引入该主成分后可以解释原始变量的信息。

因子分析

将原始变量综合称少数几个因子

X=AFX为原始变量,F为综合因子

Step1:数据检验,相关系数矩阵中的大部分数,<0.3就不适宜做因子分析,还可作KMO,Bartlett球度检验;样本至少是变量数的5倍,且》100

Step2:因子提取:主成分法、不加权最小平方法、加权最小平方法、最大似然法主轴因子法,一般累计贡献率达到80%即可,特征根>1

Step3:因子命名与解释,若因子对每个变量载荷因子,即aij对每个i取值都较大,此时需要进行因子旋转,提高因子的解释度。

Step4:f=bx,求出因子在每个x上的值即为因子得分,有必要的化可进一步计算加权因子总分

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Ch12 聚类分析

名称

原理

分类

说明

聚类分析

事先不知道类别

主要依靠相似度的度量:样本点间距离,变量间相似系数来进行分类

层次:事先不知道分几类

明确目的;

选择变量;

方法选择

 

 

 

K-均值:事先确定K类,不断迭代至预设条件

 

 

 

 

 

 

 

 

 

Ch13 非参数检验:总体概率分布未知或无法假定

 

分参数检验

用途

参数检验

单样本

二项分布

总体是否服从p二项分布

 

K-S检验

是否服从某一理论分布

 

符号检验

总体位置参数是否=假定值

总体均值的zt检验

 

Wilcoxon检验

总体位置参数是否=假定值

总体均值的zt检验

两样本检验

两配对Wilcoxon符号秩检验

配对数据的总体位置参数是否相同

总体均值差的zt检验(配对样本)

 

两独立样本的Mann-Whitney

两总体位置参数是否相同

总体均值差的zt检验(独立样本)

多样本检验

K个独立样本的Kruskal-Wallis

检验多总体是否相同

单因子方差分析

顺序样本检验

秩相关及其检验

检验两变量的相关性

线性相关系数及其检验

核心思想:排序计算秩(序号),若原假设成立(参数相同),则秩应该等于期望值



https://m.sciencenet.cn/blog-366487-518701.html

上一篇:实验的数据处理
下一篇:PS画任意多边形抠出主地图

1 卢森

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-17 20:12

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部