0
点赞
收藏
分享

微信扫一扫

ABtest描述统计功效

程序员阿狸 2022-03-30 阅读 46
数据分析

我们在面试数据分析时,常常会问到如何确定样本量的问题,会有一个指标:统计功效(power),或者是1-β

统计功效会影响实验的可信度,甚至会影响实验所需的样本量,要了解统计功效,首先要理解两类统计错误

假如我们做了一个AB实验,且两组用户的数据均值为μ1和μ2,我们会有两个初始假设:

H0:两个实验组的数据没有差别(μ1=μ2),这个假设也叫“零假设”,也叫原假设

H1:两个实验组之间的数据存在差别(μ1≠μ2),这个假设也叫“非零假设”,也叫备择假设

定义两类错误:

实验本身没有效应,但我们觉得有效应。这是一类错误,或者叫α错误

实验本身有效应,但是我们误以为没有。这是二类错误,或者叫β错误

统计量临界值:

 在H0假设下,统计量有一个分布,如上图H0,当计算的统计量处于分布的小概率区域时,我们就可以说零假设是小概率事件,可以拒绝零假设。如图,当统计量大于2时,我们就可以拒绝H0,此时,我们犯第一类错误的概率就是α,换句话说,零假设是真的,我们却拒绝了它。

当我们设定了显著性水平时,α就确定了,一般为0.05,对应的统计量水平也就确定了,如图为2。

第二类错误就是,即使没有达到拒绝H0的标准(统计量小于2),但是其实H1是真的,我们却拒绝了它,这个错误的概率定义为β。所谓β,就是犯二类错误的概率。

统计功效,就是1-β,即不犯二类错误的概率。换句话说,就是当AB两组差异真的存在时,我们能正确判断的概率。

统计功效的现实意义

当统计功效低,那么当AB两组差异真的存在时,我们很可能会错误判断两组差异不存在。换句话说,我们结果显示不显著,但其实真实情况是差异显著——我们错过了真实效应。

这种情况,通常发生在我们的实验结果不显著时。我们会继续优化实验方案,或者扩大样本量继续实验,努力尝试多次。

但是,往往我们更在意第一类错误,即AB两组其实没有差异,但我们误认为有差异。因此,以往的实验里,我们更多的会看到显著性水平α。即我们不能容忍任何一个没有效果的产品上线,可以接受放过十个好产品,也不让一个坏产品上线。

当我们选择较大的统计功效时,对实验结果提出了更高的要求,即更大的样本量、更明显的实验差异、更加一致的实验趋势等,当实验两组的差异存在时,我们能更准确的判断出来。

举报

相关推荐

0 条评论