数据(变量)的分布具有两种明显的基本特征:集中性(centrality)和离散性(discreteness)。所谓集中性是指变量在趋势上有着向某一中心聚集或者说以某一数值为中心而分布的性质;而离散性是指变量有着离中心分散变异的性质。
集中性的反映:
1. 算数平均数(arithmetic mean):总体或样本资料中各个观测值的总和除以观测值得个数。
1.1 对一具有N个观测值的有限总体:
1.2 对一具有n个观测值的样本:
2. 中位数(median):观测值依大小排列时居于中间位置的观测值。
观测值个数n为奇数时:第(n+1)/2个
观测值个数n为偶数时:第n/2和n/2 +1个二者平均数
3. 众数(mode):资料中出现次数最多的那个观测值或次数最多一组的中点值。
4. 几何平均数(geometric mean):n个观测值,其乘积开n次方所得数值。适用于变量x为对数正态分布,经对数转换后呈正态分布的资料。
资料中各观测值与其平均数之差平方的总和较各观测值与任一其它数值离差的平方和都小。
离散性的反映:
1.极差(range):又称全距,样本变量中最大值与最小值之差,R。
2.方差(variance):各观测值离均差平方和除以样本容量n,s2。
3. 标准差(standard deviation):方差开方,还原数值及单位,Sd。样本的标准差为s。
变异系数(coefficient of variability):样本标准差除以样本平均数,用以比较两个样本的变异程度,CV。
https://m.sciencenet.cn/blog-116082-217368.html
上一篇:
那些花儿之一—雪莲一种?下一篇:
那些花儿之二