参考资料
- 统计学-1:判断数据是否满足正态分布 - 知乎 (zhihu.com)
- 正态分布!你真的了解么?_检验 (sohu.com)
- 正态检验 (Normality Test)——常见方法汇总与简述_Absolute Zero-CSDN博客_正态性检验
- 高云朝.医学科研论文中非正态分布资料的统计学分析[J].放射免疫学杂志,2008(01):59-61.
对正态分布的理解
(1)正态分布为什么常见?真正原因是中心极限定理(Central Limit Theorem)。根据中心极限定理,如果一个事物受到多种因素的影响,不管每个因素本身是什么分布,它们加总后,结果的平均值就是正态分布。
(2)正态分布只适合各种因素累加的情况,如果这些因素不是彼此独立的,会相互影响,那么就不是正态分布了。ps:如果各种因素对结果的影响不是相加的,而是相乘,那么最终结果不是正态分布,而是对数正态分布。
(3)高尔顿钉板:自然界为何如此多的变量都服从正态分布?因为每一个变量都是由一系列随机变量组成的。例如人的身高是由饮食、气候、基因等很多独立变量组成,这些独立变量就像钉子一样一层一层独立的摆放,最初人的身高是固定的,就像从中间下滑的小球,经过多次随机因素之后,人的身高就变成了正态分布。
正态性检验
判断计量资料是否服从或近似服从正态分布。许多常见的统计学方法在应用之前,要首先对数据进行正态性检验,如t检验、方差分析等。如果没有正态性检验的结果,直接使用了t检验、方差分析等参数检验的方法,有可能导致统计效能下降,导致假阴性风险增加。
在参考资料4中已经提及了关于正态性检验的一些问题,等有相关实例加深理解后再补充。
偏度与峰度方法
注意:数据分布的左偏或右偏,指的是数值拖尾的方向,而不是峰的位置
利用偏度和峰度进行正态性检验时,可以同时计算其相应的Z评分(Z-score),即:偏度Z-score=偏度值/标准误,峰度Z-score=峰度值/标准误。在α=0.05的检验水平下,若Z-score在±1.96之间,则可认为资料服从正态分布。
了解偏度和峰度这两个统计量的含义很重要,在对数据进行正态转换时,需要将其作为参考,选择合适的转换方法。
图示法
P-P图:根据变量的累积概率对应于所指定的理论分布累积概率绘制的散点图,用于直观地检测样本数据是否符合某一概率分布。如果被检验的数据符合所指定的分布,则代表样本数据的点应当基本在代表理论分布的对角线上。
Q-Q图:“分位数-分位数图”(quantile-quantile plot,QQ plot),反映了变量的实际分布与理论分布的符合程度,是样本数据直方图和正态分布图之间一种拟合优度的直观度量方式,当QQ图上的点都大致落在一条直线上时,表示高度正相关,即这些数据是正态分布的。
直方图:数据呈现钟型分布,中间高,两端逐渐下降左右两侧呈现对称或近似对称。
统计学检验方法
正态性检验属于非参数检验,原假设为“样本来自的总体与正态分布无显著性差异,即符合正态分布”,也就是说P>0.05才能说明资料符合正态分布。
通常正态分布的检验方法有两种,一种是Shapiro-Wilk检验,适用于小样本资料(SPSS规定样本量≤5000),另一种是Kolmogorov–Smirnov检验,适用于大样本资料(SPSS规定样本量>5000)。
非正态分布资料的统计学分析
需要特别注意的是,多组间的比较,需要分组考察正态性,只要其中一组不满足正态性,就不适合用参数检验了,建议使用相应的非参数检验方法!
变量变换
- 对数变换:偏态分布的定量资料以及用滴度、效价等表示的定性资料常用对数lgX代替原始变量X[4,14]。有时根据需要附加一个常数k, 即lg (X+k) , 以避免对数取值无意义。
- 平方根变换
- 倒数变换
- 平方根反正弦变换
非参数检验
与参数检验相比, 非参数检验不是对总体参数进行估计或比较, 而是对各组的分布或分布位置进行检验。适用于任何分布类型的资料, 包括总体分布类型未知或明显偏态分布资料;以严重程度、优劣等级表示的等级资料;数据一端或两端为不确定值的资料 (如“>50”或“<0.1”等) 。由于是采用编秩的手段进行数据处理, 损失了部分信息, 检验效率降低是其缺点。因此, 凡是符合参数检验或通过变量转换后符合参数检验者, 尽量不用非参数检验。
- 配对秩和检验
- 两样本独立秩和检验
- 等级资料秩和检验
- 多样本定量资料秩和检验
- 等级相关分析