目录
一 集中趋势
1 众数
- 出现频率最高的数
2 中位数
- 把样本值排序,分布在最中间的值
- 样本总数为奇数时,中位数为第(n+1)/2 个值
- 样本总数为偶数时,中位数是第 n/2 个,第(n/2)+1 个值的平均数
3 平均数
- 所有数的总和除以样本数量
平均数会因为某些极值的出现收到很大影响此时,“中位数”更能合理的反映真实的情况
二 变异性
1 四分位数
“中位数”,把样本分成了两部分,再找个这两部分各自的“中位数”,就把样本分为了 4 个部
分,其中 1/4 处的值记为 Q1,2/4 处的值记为 Q2,3/4处的值记为 Q3
2 四分位距 —— IQR = Q3 - Q1
3 异常值
- 小于 Q1-1.5(IQR)或者大于 Q3+1.5(IQR)
- 应在数据处理环节剔除
4 方差
5 平方偏差
- 方差的算数平方根
6 贝塞尔矫正
- 修正样本方差
实际计算方差时,分母要用 n-1,而不是样本数量 n
比如在高斯分布里,抽取一部分样本,用样本的方差表示满足高斯分布的大样本数据集的方差。由于样本主要是落在 x=u 中心值附近,那么样本如果用如下公式算方差,那么预测方差一定小于大数据集的方差(因为高斯分布的边沿抽取的数据也很少)。为弥补这方面的缺陷,那么我们把公式的 n 改为 n-1,以此来提高方差的数值,也就是贝塞尔矫正系数
三 归一化
1 标准分数
- 一种可以看出某分数在分布中相对位置的方法
- 能够真实反映一个分数距离平均数的相对标准距离
四 正态分布
1 定义 随机变量 X 服从一个数学期望为μ,方差为σ⊃2;的正态分布,记为N(μ,σ⊃2)
2 随机取一个样本
- 有 68.3%的概率位于距离均值μ有 1 个标准差σ内
- 有 95.4%的概率位于距离均值μ有 2 个标准差σ内
- 有 99.7%的概率位于距离均值μ有 3 个标准差σ内
五 抽样分布
1 中心极限定理
设从均值为μ,方差为σ⊃2的任意一个总体中抽取样本量为 n 的样本,当 n 充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ⊃2/n 的正态分布
2 抽样分布
设总体共有 N 个元素,从中随机抽取一个容量为 n 的样本,在重置抽样时,共有 N·n 种抽法,即可以组成 N·n 不同的样本,在不重复抽样时,共有 N·n 个可能的样本。每一个样本都可以计算出一个均值,这些所有可能的抽样均值形成的分布就是样本均值的分布。但现实中不可能将所有的样本都抽取出来,因此样本均值的概率分布实际上是一种理论分布
数理统计学的相关定理已经证明:在重置抽样时,样本均值的方差为总体方差的 1/n
六 估计
1 误差界限
2 置信度
有百分之多少确信总体中的值落在一个特定范围内
一般情况下,取 95%的置信度
3 置信区间
七 假设检验
“大多数鸡有两只脚吗?”这个问题的难点在于,我们很难说清楚“大多数鸡有两只脚”为什么是对的
- 显著水平
首先,什么是“大多数”,每个人想法可能都不一样
因此,我们需要挑选一个显著水平,于是我们假设a = 0.5
问题转化为,“超过50%的鸡有两只脚吗”
1.What is 显著性水平?
a 显著性水平 是估计总体参数落在某一区间内,可能犯错误的概率
b 零假设与对立假设
由于我们很难证明某种说法是对的
因此我们设法寻找该说法的对立面是错误的证据
如果我们可以设法证明该说法的对立面是错误的,那么就相当于证明了该说法本身是正确的
所以,建立两个相互对立的假设
零假设 超过50%的鸡少于两只脚
对立假设 超过50%的鸡有两只脚
经数据显示,64.3%的样本有两只脚,35.7%的样本少于两只脚
c 统计学结论
拒绝零假设(大多数鸡少于两只脚)
相当于接收对立假设(大多数鸡有两只脚)
2.How 选择备选的检验和零假设?
- 一个研究者想证明自己的研究结论是正确的,备择假设的方向就要与想要证明其正确性的方向一致
- 同时将研究者想收集证据证明其不正确的假设作为原假设 H0
八 T检验
主要用于样本含量较小(如 n<30 ),总体标准差σ 未知的正态分布
1 主要步骤
- 建立假设、确定检验水准
- 计算检验统计量
- 查相应界值表,确定P值,下结论
- 用 t 分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著
- 一般检验水准α取 0.05 即可
- 计算检验统计量的方法根据样本形式不同
2 独立样本T检验
T 检验查表时取 n-1——样本均值替代总体均值损失了一个自由度
3 配对样本T检验
分析人的早晨和晚上的身高是否不同,于是找来一拨人测他们早上和晚上的身高,这里每个人就有两个值,这里就出现了配对
样本误差
4 合并方差
当样本平均数不一样,但实际上认为他们的方差是一样的时候,需要合并方差,其本质是两个样本方差的加权平均
5 Cohen’s d
效应量 提示组间真正的差异占统计学差异的比例——值越大,组间差异越可靠