博文

统计学小结

已有 5103 次阅读 2011-12-15 11:53 |个人分类:经济学学习小结|系统分类:科研笔记|关键词:学者| 统计学

<统计学>

统计图为先：好的图形应具有以下特征：目的明确；从数据比较性上显示尽可能多数据量，有图有说明。

培养火眼金睛：

看整体，看差异，看形状。

数据属性	变量	描述	应用
整体	均值		对称分布
	中位数		偏态分布
	众数：出现频率最高		偏态分布
差异	极差：max-min
	四分位差:75%-25%
	标准差、标准分数、离散系数
形状	偏态SK：数据分布不对称	>0 右拖尾（右偏） =0 对称 <0 左拖尾
形状	峰态K:峰值高低	>0 尖峰 =0 正态 <0 扁平

算样本：

先基础：

类别	具体	适用范围
离散	二项	放回抽样
	泊松	预先知道单位时空内随机变量的均值	一定时空范围某事件出现次数
	超几何	不放回抽样的二项分布
连续	正态	正态期望-样本值成直线
		N个正态总体的随机变量的平方和	总体方差的估计与非参数检验
	T分布：若y	类似正态，比正态平坦与分散	正态总体标准差未知，小样本条件下对总体均值的估计与检验
	F分布：	类似	比较不同总体的方差是否有显著差异

后样本：

统计量	计算式	适用范围	标准误差
样本均值	任何总体分布时，大样本下服从	大样本
比例p		大样本
样本方差		正态
的样本统计量		取决于总体与样本量
的样本统计量		两大样本下正态
的样本统计量	F=	正态下服从F分布

Ch5 参数估计

均值			比例	方差
大样本	小样本		大样本	正态
Z分布		未知用替代	Z分布
	Z分布	t分布

两个总参数估计所使用的分布

均值差	独立大样本	, 已知	Z
		, 未知	用表示 ,Z
	独立小样本，且正态总体	, 已知	Z
		, 未知		T
				T
比例差	独立大样本	Z
方差比	-	F分布

样本量的确定：由置信水平和总体标准差，给定的估计方差共同决定。

Ch6 假设检验

6.1 原理

怎样提出假设：原假设是研究者想收集证据予以推翻的假设，备择假设与原假设互斥。

怎样作出决策：

Step1:原假设正确却拒绝了称为，原假设错误却未拒绝称为错误。犯那类错误的代价高就把那类错误设置低。一般先控制错误。

Step2：依据啥作出决策

双侧假设	>临界值	拒绝原假设
左	统计量的值<临界值	拒绝原假设
右	统计量的值>临界值	拒绝原假设

或者更准确地用P值决策：依靠统计量的分布函数，代入样本值，计算样本概率值进行决策。

Step3:如何表述决策结果

假设检验不能证明原假设正确，因为拒绝与不拒绝都是在原假设的条件下进行的，至于原假设正确与否超出了假设之外。

统计显著不等于有实际意义：P值决策中，样本量越大，检验统计量的值越大，P值越小，越有可能拒绝原假设。因此只要样本量足够大总能拒绝原假设，即统计上越显著，但不一定有实际意义。

6.2 一个参数的假设检验

6.3 两总体参数的检验

与一总体参数的检验类似，统计量的表达式复杂些。

Ch7 方差分析与实验设计

7.1 方差分析的原理：

方差分析的方法：

误差的分解：总误差=随机误差+处理误差

总平方和=组内平方和+组间平方和

方差分析的前提：

正态性：正态总体

方差齐性：各总体的方差相等,检验方法

独立性：样本数据来自因子各水平的独立样本。

一般来说，方差分析对独立性的要求较高。

	定义	前提
方差分析	研究分类自变量对数值因变量的影响，可形象地理解为检验多个总体均值是否相等的统计方法	正态性：正态总体	通过标准化残差=残差/（残差的标准差（或者残差标准差的估计））
		方差齐性：各总体的方差相等,检验方法	Yi-yei（残差）值均落在一条水平带内均匀分布；若对于较大x,残差值称增长趋势，则不满足残差相等原则；若残差曾呈有规律的分布，表示回归模型不合适
		独立性：样本数据来自因子各水平的独立样本。	见ch10

7.2 单因子与多因子的方差分析

单因子	求关系的步骤	1.提出假设H0:u1=u2=u3…； H1：u1,u2,u3不全相等
		2.构造检验统计量F=组间方差除以组内方差服从F分布
		3.P决策值，若P<a,则拒绝
	关系的强度	组间平方和占总平方和的比例
	哪些均值有显著差异	1.提出假设：ui
		2.构造统计量：xi的均值与xj的均值之差的绝对值
		3.Fisher的LSD方法，进行决策
多因子	不考虑交互作用	类似单因子，主因子进行分析	提出假设
			构造统计量
			决策
	考虑交互作用	提出假设：H0：无交互作用
		构造统计量：F（rc）=交互作用均方/残差均方，服从F（（k-1）(r-1),kr(m-1)），其中k,r分别为行列因子的水平数，m为重复测量的次数
		决策：p(rc)<a，拒绝原假设

7.3 实验设计基本：

完全随机化设计：因子的水平被随机地指派给试验单元

随机化区组设计：先划同质区，再随机化抽取实验单元

因子设计：因子间的搭配设计

Ch8:一元线性回归

８.１相关系数ｒ：度量两变量间线性关系强度的统计量，

前提：

线性关系

自变量服从联合正态分布

剔除了极端值

取值：－１－１，ｒ=0，两变量间不存在线性关系

相关系数的检验

定义	假设	取值范围
度量两变量间线性关系强度的统计量	线性关系	－１－１，ｒ=0，两变量间不存在线性关系
	自变量服从联合正态分布剔除了极端值

8.2 一元线性回归的估计与检验

1.回归模型：ｙ＝b0+b1*x+epsi,其中epsi满足正态性，方差齐性，独立性

2.估计的回归方程：y=be+b1e*x

3.参数be,b1e的计算法：最小二乘估计

4.回归直线的拟合优度：

拟合优度	定义	回归直线与观测点的接近程度
	评价量	判定系数：回归平方和SSR（ye(估计值)-ya（均值））占总平方和SST的比例	说明回归直线对观测数据的拟合程度，故值越大说明拟合越好
	估计标准误差	Yi-yei平方和SSE的均方根	说明拟合误差
显著性检验	线性关系检验F检验	检验y-x间的线性关系是否显著	1.提出假设：H0:b1=0,H1:b1不为0
			2.构造检验统计量: F=(SSR/K)/(SSE/(n-k-1))服从F（1，n-2）
			3.P<a,拒绝H0
	回归系数的检验与推断t检验	检验自变量对因变量的影响是否显著	1.提出假设：一元时回归系数检验与线性关系检验等价：H0：B1=0
			2.构造检验统计量： T=回归系数b1的估计值b1e/b1e的标准差
			3.P<a,拒绝H0

8.3预测：

平均值的置信区间：给定x=x0,求出的y的平均值的估计区间

个别值的置信区间：给定x=x0,求出的y的一个个别值的估计区间

平均值的置信区间宽度<个别值的置信区间宽度

Ch9 多元线性回归

重点介绍不同处：拟合优度与显著性检验

拟合优度	定义	回归直线与观测点的接近程度
	评价量	多重判定系数：回归平方和SSR（ye(估计值)-ya（均值））占总平方和SST的比例由于增加自变量会减少残差平方和，故常采用减去自变量个数的调整的多重判定系数 Ra平方=1-(1-R平方)*(n-1)/(n-k-1)	说明回归直线对观测数据的拟合程度，故值越大说明拟合越好
		估计标准误差：Yi-yei平方和SSE的均方根	说明拟合误差
显著性检验	线性关系检验F检验	检验y-x间的线性关系是否显著	1.提出假设：H0:b1=0,H1:b1不为0
			2.构造检验统计量: F=(SSR/K)/(SSE/(n-k-1))服从F（1，n-2）
			3.P<a,拒绝H0
	回归系数的检验与推断t检验	检验自变量对因变量的影响是否显著	1.提出假设： H0：Bi=0
			2.构造检验统计量： T=回归系数bi的估计值bie/bie的标准差服从t(n-k-1)
			3.P<a,拒绝H0

多重共线：

识别：模型F检验显著，几乎所有回归系数的t检验不显著；回归系数的正负号与期望相反

处理：前向选择；向后剔除；逐步回归（可不断+，-变量均可）

虚拟变量：数值化定性自变量，k个定性水平，k-1个虚拟变量

Ch10 时间序列预测

时间序列的组成要素：趋势、季节变动、循环变动、不规则波动

	时间序列变化的组成要素	特点	检验法	预测法	预测步骤
单成分	趋势	持续		线性、非线性、平滑
	季节	一年固定周期		自回归
	循环	非固定周期		自回归：	先进行D-W检验：判断残差是否存在自相关，d属于[0,4], 若d<dL，拒绝原假设，存在自相关；若d>du,不拒绝 Dl<d<du，无法判断其次对于自回归的阶数，可先选择一个高阶，通过高阶系数是否显著（是否为0）进行检验后将不显著的参数去掉。
	不规则	不规则震荡		平滑法
	趋势
多成分				季节性回归法	引入季节性虚拟变量（季度引入3个，月份引入11个），注意此时回归方程中的t的单位也相应是季度或月，且逐年递增
				分解预测	Step1:分理出季节成分，step1.1：计算移动平均值（按季度顺序排列，下一年第一季t=5,…）； Step1.2将观察值除以移动平均值，得各季度的比值，再按1，2，3，4季度对比值分组，计算各组平均值，即得各季度的季节指数 Step2:分离季节成分：原始值除以季节指数 Step3:建立预测模型并预测step4:预测值乘以季节指数得最终的预测值

预测流程图：

Ch11 主成分分析与因子分析

方法名	原理	模型	步骤
主成分	找主成分代表原变量	Y=AX，其中X为原始变量	Step1:标准化原变量 Step2:计算相关系数矩阵 Step3:找出相关系数矩阵的特征根和单位特征向量 Step4:确定主成分，并给出合理解释	说明：一般统计会给出主成分的方差贡献率和累计方差贡献率，它反映了主成分对原始变量的影响程度，引入该主成分后可以解释原始变量的信息。
因子分析	将原始变量综合称少数几个因子	X=AF，X为原始变量，F为综合因子	Step1:数据检验，相关系数矩阵中的大部分数,<0.3就不适宜做因子分析，还可作KMO,Bartlett球度检验；样本至少是变量数的5倍，且》100 Step2:因子提取：主成分法、不加权最小平方法、加权最小平方法、最大似然法主轴因子法,一般累计贡献率达到80%即可，特征根>1 Step3:因子命名与解释，若因子对每个变量载荷因子，即aij对每个i取值都较大，此时需要进行因子旋转，提高因子的解释度。 Step4:由f=bx，求出因子在每个x上的值即为因子得分，有必要的化可进一步计算加权因子总分

Ch12 聚类分析

名称	原理	分类	说明
聚类分析	事先不知道类别主要依靠相似度的度量：样本点间距离，变量间相似系数来进行分类	层次：事先不知道分几类	明确目的；选择变量；方法选择
		K-均值：事先确定K类，不断迭代至预设条件

Ch13 非参数检验：总体概率分布未知或无法假定

	分参数检验	用途	参数检验
单样本	二项分布	总体是否服从p二项分布	无
	K-S检验	是否服从某一理论分布	无
	符号检验	总体位置参数是否=假定值	总体均值的z或t检验
	Wilcoxon检验	总体位置参数是否=假定值	总体均值的z或t检验
两样本检验	两配对Wilcoxon符号秩检验	配对数据的总体位置参数是否相同	总体均值差的z或t检验（配对样本）
	两独立样本的Mann-Whitney	两总体位置参数是否相同	总体均值差的z或t检验（独立样本）
多样本检验	K个独立样本的Kruskal-Wallis	检验多总体是否相同	单因子方差分析
顺序样本检验	秩相关及其检验	检验两变量的相关性	线性相关系数及其检验

核心思想：排序计算秩（序号），若原假设成立(参数相同)，则秩应该等于期望值

转载本文请联系原作者获取授权，同时请注明本文来自李俊科学网博客。
链接地址：https://m.sciencenet.cn/blog-366487-518701.html

上一篇：实验的数据处理
下一篇：PS画任意多边形抠出主地图

收藏分享

当前推荐数：1 推荐人：卢森

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

李俊

扫一扫，分享此博文

GISci分享 http://blog.sciencenet.cn/u/panghuanzhi

博文

统计学小结

当前推荐数：1 推荐人：卢森

该博文允许注册用户评论请点击登录评论 (0 个评论)

李俊

全部作者的其他最新博文

全部精选博文导读

相关博文

GISci分享 http://blog.sciencenet.cn/u/panghuanzhi

博文

统计学小结

当前推荐数：1 推荐人： 卢森

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

李俊

全部作者的其他最新博文

全部精选博文导读

相关博文

当前推荐数：1 推荐人：卢森

该博文允许注册用户评论请点击登录评论 (0 个评论)