||||
<统计学>
统计图为先:好的图形应具有以下特征:目的明确;从数据比较性上显示尽可能多数据量,有图有说明。
培养火眼金睛:
看整体,看差异,看形状。
数据属性 |
变量 |
描述 |
应用 |
|
|
整体 |
均值 |
|
对称分布 |
|
|
中位数 |
|
偏态分布 |
|
| |
众数:出现频率最高 |
|
偏态分布 |
|
| |
差异 |
极差:max-min |
|
|
|
|
四分位差:75%-25% |
|
|
|
| |
标准差、标准分数、离散系数 |
|
|
|
| |
形状 |
偏态SK:数据分布不对称 |
>0 右拖尾(右偏) =0 对称 <0 左拖尾
|
|
|
|
峰态K:峰值高低 |
>0 尖峰 =0 正态 <0 扁平
|
|
|
|
算样本:
先基础:
类别 |
具体 |
适用范围 |
|
|
|
|
离散 |
二项 |
放回抽样 |
|
|
|
|
|
泊松 |
预先知道单位时空内随机变量的均值 |
一定时空范围某事件出现次数 |
|
|
|
|
超几何 |
不放回抽样的二项分布 |
|
|
|
|
连续 |
正态 |
正态期望-样本值成直线 |
|
|
|
|
|
|
N个正态总体的随机变量的平方和 |
总体方差的估计与非参数检验 |
|
|
|
|
T分布:若y |
类似正态,比正态平坦与分散 |
正态总体标准差未知,小样本条件下对总体均值的估计与检验 |
|
|
|
|
F分布: |
类似 |
比较不同总体的方差是否有显著差异 |
|
|
|
后样本:
统计量 |
计算式 |
适用范围 |
标准误差 |
|
|
|
|
样本均值 |
任何总体分布时,大样本下服从
|
大样本 |
|
|
|
|
|
比例p |
|
大样本 |
|
|
|
|
|
样本方差 |
|
正态 |
|
|
|
|
|
的样本统计量 |
|
取决于总体与样本量 |
|
|
|
|
|
的样本统计量 |
|
两大样本下正态 |
|
|
|
|
|
的样本统计量 |
F= |
正态下服从F分布 |
|
|
|
|
|
Ch5 参数估计
均值 |
比例 |
方差 | ||
大样本 |
小样本 |
大样本 |
正态 | |
Z分布 |
|
未知用 替代 |
Z分布 |
|
|
Z分布 |
t分布 |
|
|
|
|
|
|
|
两个总参数估计所使用的分布
均值差 |
独立大样本 |
, |
Z |
|
|
|
, |
用 表示 ,Z |
|
|
独立小样本,且正态总体 |
, |
Z |
|
|
|
, |
|
T |
|
|
|
|
T |
比例差 |
独立大样本 |
Z |
|
|
方差比 |
- |
F分布 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
样本量的确定:由置信水平和总体标准差,给定的估计方差共同决定。
Ch6 假设检验
6.1 原理
怎样提出假设:原假设是研究者想收集证据予以推翻的假设,备择假设与原假设互斥。
怎样作出决策:
Step1:原假设正确却拒绝了称为 ,原假设错误却未拒绝称为 错误。犯那类错误的代价高就把那类错误设置低。一般先控制 错误。
Step2:依据啥作出决策
双侧假设 |
>临界值 |
拒绝原假设 |
左 |
统计量的值<临界值 |
拒绝原假设 |
右 |
统计量的值>临界值 |
拒绝原假设 |
或者更准确地用P值决策:依靠统计量的分布函数,代入样本值,计算样本概率值进行决策。
Step3:如何表述决策结果
假设检验不能证明原假设正确,因为拒绝与不拒绝都是在原假设的条件下进行的,至于原假设正确与否超出了假设之外。
统计显著不等于有实际意义:P值决策中,样本量越大,检验统计量的值越大,P值越小,越有可能拒绝原假设。因此只要样本量足够大总能拒绝原假设,即统计上越显著,但不一定有实际意义。
6.2 一个参数的假设检验
6.3 两总体参数的检验
与一总体参数的检验类似,统计量的表达式复杂些。
Ch7 方差分析与实验设计
7.1 方差分析的原理:
方差分析的方法:
误差的分解:总误差=随机误差+处理误差
总平方和=组内平方和+组间平方和
方差分析的前提:
正态性:正态总体
方差齐性:各总体的方差相等,检验方法
独立性:样本数据来自因子各水平的独立样本。
一般来说,方差分析对独立性的要求较高。
|
定义 |
前提 |
|
|
方差分析 |
研究分类自变量对数值因变量的影响,可形象地理解为检验多个总体均值是否相等的统计方法 |
正态性:正态总体
|
通过标准化残差=残差/(残差的标准差(或者残差标准差的估计)) |
|
|
|
方差齐性:各总体的方差相等,检验方法
|
Yi-yei(残差)值均落在一条水平带内均匀分布; 若对于较大x,残差值称增长趋势,则不满足残差相等原则; 若残差曾呈有规律的分布,表示回归模型不合适 |
|
|
|
独立性:样本数据来自因子各水平的独立样本。 |
见ch10 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
7.2 单因子与多因子的方差分析
单因子 |
求关系的步骤 |
1.提出假设H0:u1=u2=u3…; H1:u1,u2,u3不全相等 |
|
|
|
2.构造检验统计量F=组间方差除以组内方差服从F分布 |
|
|
|
3.P决策值,若P<a,则拒绝 |
|
|
关系的强度 |
组间平方和占总平方和的比例 |
|
|
哪些均值有显著差异 |
1.提出假设:ui |
|
|
|
2.构造统计量:xi的均值与xj的均值之差的绝对值 |
|
|
|
3.Fisher的LSD方法,进行决策 |
|
多因子 |
不考虑交互作用 |
类似单因子,主因子进行分析 |
提出假设 |
|
|
|
构造统计量 |
|
|
|
决策 |
|
考虑交互作用 |
提出假设:H0:无交互作用 |
|
|
|
构造统计量:F(rc)=交互作用均方/残差均方,服从F((k-1)(r-1),kr(m-1)),其中k,r分别为行列因子的水平数,m为重复测量的次数 |
|
|
|
决策:p(rc)<a,拒绝原假设 |
|
|
|
|
|
|
|
|
|
|
|
|
|
7.3 实验设计基本:
完全随机化设计:因子的水平被随机地指派给试验单元
随机化区组设计:先划同质区,再随机化抽取实验单元
因子设计:因子间的搭配设计
Ch8:一元线性回归
8.1相关系数r:度量两变量间线性关系强度的统计量,
前提:
线性关系
自变量服从联合正态分布
剔除了极端值
取值:-1-1,r=0,两变量间不存在线性关系
相关系数的检验
定义 |
假设 |
取值范围 |
|
|
|
度量两变量间线性关系强度的统计量 |
线性关系 |
-1-1,r=0,两变量间不存在线性关系 |
|
|
|
|
自变量服从联合正态分布 剔除了极端值 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
8.2 一元线性回归的估计与检验
1.回归模型:y=b0+b1*x+epsi,其中epsi满足正态性,方差齐性,独立性
2.估计的回归方程:y=be+b1e*x
3.参数be,b1e的计算法:最小二乘估计
4.回归直线的拟合优度:
拟合优度 |
定义 |
回归直线与观测点的接近程度 |
|
|
|
评价量 |
判定系数:回归平方和SSR(ye(估计值)-ya(均值))占总平方和SST的比例 |
说明回归直线对观测数据的拟合程度,故值越大说明拟合越好 |
|
|
估计标准误差 |
Yi-yei平方和SSE的均方根 |
说明拟合误差 |
|
显著性检验 |
线性关系检验F检验 |
检验y-x间的线性关系是否显著 |
1.提出假设:H0:b1=0,H1:b1不为0 |
|
|
|
|
2.构造检验统计量: F=(SSR/K)/(SSE/(n-k-1))服从F(1,n-2) |
|
|
|
|
3.P<a,拒绝H0 |
|
|
回归系数的检验与推断t检验 |
检验自变量对因变量的影响是否显著 |
1.提出假设: 一元时回归系数检验与线性关系检验等价:H0:B1=0 |
|
|
|
|
2.构造检验统计量: T=回归系数b1的估计值b1e/b1e的标准差 |
|
|
|
|
3.P<a,拒绝H0 |
|
|
|
|
|
|
8.3预测:
平均值的置信区间:给定x=x0,求出的y的平均值的估计区间
个别值的置信区间:给定x=x0,求出的y的一个个别值的估计区间
平均值的置信区间宽度<个别值的置信区间宽度
Ch9 多元线性回归
重点介绍不同处:拟合优度与显著性检验
拟合优度 |
定义 |
回归直线与观测点的接近程度 |
|
|
|
评价量 |
多重判定系数:回归平方和SSR(ye(估计值)-ya(均值))占总平方和SST的比例 由于增加自变量会减少残差平方和,故常采用减去自变量个数的调整的多重判定系数 Ra平方=1-(1-R平方)*(n-1)/(n-k-1) |
说明回归直线对观测数据的拟合程度,故值越大说明拟合越好 |
|
|
|
估计标准误差:Yi-yei平方和SSE的均方根 |
说明拟合误差 |
|
显著性检验 |
线性关系检验F检验 |
检验y-x间的线性关系是否显著 |
1.提出假设:H0:b1=0,H1:b1不为0 |
|
|
|
|
2.构造检验统计量: F=(SSR/K)/(SSE/(n-k-1))服从F(1,n-2) |
|
|
|
|
3.P<a,拒绝H0 |
|
|
回归系数的检验与推断t检验 |
检验自变量对因变量的影响是否显著 |
1.提出假设: H0:Bi=0 |
|
|
|
|
2.构造检验统计量: T=回归系数bi的估计值bie/bie的标准差服从t(n-k-1) |
|
|
|
|
3.P<a,拒绝H0 |
|
|
|
|
|
|
多重共线:
识别:模型F检验显著,几乎所有回归系数的t检验不显著;回归系数的正负号与期望相反
处理:前向选择;向后剔除;逐步回归(可不断+,-变量均可)
虚拟变量:数值化定性自变量,k个定性水平,k-1个虚拟变量
Ch10 时间序列预测
时间序列的组成要素:趋势、季节变动、循环变动、不规则波动
|
时间序列变化的组成要素 |
特点 |
检验法 |
预测法 |
预测步骤 |
|
单成分 |
趋势 |
持续 |
|
线性、非线性、平滑 |
|
|
|
季节 |
一年固定周期 |
|
自回归 |
|
|
|
循环 |
非固定周期 |
|
自回归:
|
先进行D-W检验:判断残差是否存在自相关,d属于[0,4], 若d<dL,拒绝原假设,存在自相关; 若d>du,不拒绝 Dl<d<du,无法判断 其次对于自回归的阶数,可先选择一个高阶,通过高阶系数是否显著(是否为0)进行检验后将不显著的参数去掉。 |
|
|
不规则 |
不规则震荡 |
|
平滑法 |
|
|
|
趋势 |
|
|
|
|
|
多成分 |
|
|
|
季节性回归法 |
引入季节性虚拟变量(季度引入3个,月份引入11个),注意此时回归方程中的t的单位也相应是季度或月,且逐年递增 |
|
|
|
|
|
分解预测 |
Step1:分理出季节成分,step1.1: 计算移动平均值(按季度顺序排列,下一年第一季t=5,…); Step1.2将观察值除以移动平均值,得各季度的比值,再按1,2,3,4季度对比值分组,计算各组平均值,即得各季度的季节指数 Step2:分离季节成分:原始值除以季节指数 Step3:建立预测模型并预测step4:预测值乘以季节指数得最终的预测值 |
|
预测流程图:
Ch11 主成分分析与因子分析
方法名 |
原理 |
模型 |
步骤 |
|
主成分 |
找主成分代表原变量 |
Y=AX,其中X为原始变量 |
Step1:标准化原变量 Step2:计算相关系数矩阵 Step3:找出相关系数矩阵的特征根和单位特征向量 Step4:确定主成分,并给出合理解释 |
说明:一般统计会给出主成分的方差贡献率和累计方差贡献率,它反映了主成分对原始变量的影响程度,引入该主成分后可以解释原始变量的信息。 |
因子分析 |
将原始变量综合称少数几个因子 |
X=AF,X为原始变量,F为综合因子 |
Step1:数据检验,相关系数矩阵中的大部分数,<0.3就不适宜做因子分析,还可作KMO,Bartlett球度检验;样本至少是变量数的5倍,且》100 Step2:因子提取:主成分法、不加权最小平方法、加权最小平方法、最大似然法主轴因子法,一般累计贡献率达到80%即可,特征根>1 Step3:因子命名与解释,若因子对每个变量载荷因子,即aij对每个i取值都较大,此时需要进行因子旋转,提高因子的解释度。 Step4:由f=bx,求出因子在每个x上的值即为因子得分,有必要的化可进一步计算加权因子总分 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Ch12 聚类分析
名称 |
原理 |
分类 |
说明 |
聚类分析 |
事先不知道类别 主要依靠相似度的度量:样本点间距离,变量间相似系数来进行分类 |
层次:事先不知道分几类 |
明确目的; 选择变量; 方法选择
|
|
|
K-均值:事先确定K类,不断迭代至预设条件 |
|
|
|
|
|
|
|
|
|
Ch13 非参数检验:总体概率分布未知或无法假定
|
分参数检验 |
用途 |
参数检验 |
单样本 |
二项分布 |
总体是否服从p二项分布 |
无 |
|
K-S检验 |
是否服从某一理论分布 |
无 |
|
符号检验 |
总体位置参数是否=假定值 |
总体均值的z或t检验 |
|
Wilcoxon检验 |
总体位置参数是否=假定值 |
总体均值的z或t检验 |
两样本检验 |
两配对Wilcoxon符号秩检验 |
配对数据的总体位置参数是否相同 |
总体均值差的z或t检验(配对样本) |
|
两独立样本的Mann-Whitney |
两总体位置参数是否相同 |
总体均值差的z或t检验(独立样本) |
多样本检验 |
K个独立样本的Kruskal-Wallis |
检验多总体是否相同 |
单因子方差分析 |
顺序样本检验 |
秩相关及其检验 |
检验两变量的相关性 |
线性相关系数及其检验 |
核心思想:排序计算秩(序号),若原假设成立(参数相同),则秩应该等于期望值
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-6-17 21:20
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社