正态分布
另一个情境:朱莉喜欢穿高跟鞋,她坚持自己的男伴在她穿最高的高跟鞋时也比她高,目前她身边没有合适的人。她想知道这些约会对象中有几个比她高,以及约会者身高够得上她的标准的概率是多少?这一次我们该怎么计算概率?
在现实生活中,很有可能有几位的身高远远低于平均水平,有几位很高,还有很多介于以上两种情况之间。我们可以期望大多数男生都具有平均身高。
在这种给定模式下,男生身高的概率密度有可能是这个样子。
实际上,这种形状非常常见,应用广泛,它叫做正态分布。
正态分布之所以被称为正态,是因为它的形态看起来合乎理想。在现实生活中,遇到测量值之类的大量连续数据时,你“在正常情况下”会期望看到这种形态。
正态分布具有钟形曲线,曲线对称,中央部位的概率密度最大。越是偏离均值,概率密度减小。均值和中位数均位于中央,具有最大概率密度。
正态分布通过参数μ和 σ 2 σ^2 σ2进行定义。μ指出曲线的中央位置,σ指出分散性。如果一个连续随机变量X符合均值为μ、标准差为σ的正态分布,则通常写作 X ∼ N ( μ , σ 2 ) X \sim N(\mu, \sigma^2) X∼N(μ,σ2)。
在实践中, σ 2 \sigma^2 σ2越大,正态分布曲线越扁平、越宽。
概率密度会越来越接近 0,但永远不会达到 0。如果在距离μ十分遥远的地方观察概率密度曲线,你将发现曲线就在 0 的上方掠过。
还可以这样理解:事件越来越不可能发生,但微小的发生机会却永远存在。
像处理其他连续概率分布一样,可通过计算分布曲线下方的面积求出概率。曲线代表概率密度,概率则以特定范围内的面积表示。例如,如果你想求出介于 a 和 b 之间的变量 X 的概率,则需要求出曲线下方介于 a 点与 b 点之间的面积。
如果全靠自己计算正态曲线下方的面积,难度很大。不过,幸运的是,你可以借助概率表进行查找。只要算出要求其面积的范围,再在概率表中查相应概率就行了。
求正态概率一共有3步:
- 确定分布与范围
- 使其标准化
- 查找概率
第1步:确定分布
如果正态分布适用于你所遇到的情况,则看看是否能求出均值和标准差,还需要弄清楚要求的是哪一部分面积。
- 已知男生身高符合正态分布,均值71英寸,方差20.25。即,如果用X表示男生的身高,则 X ∼ N ( 71 , 20.25 ) X \sim N(71, 20.25) X∼N(71,20.25)。
- 朱莉身高64英寸,于是我们将求出与她相亲的男生比她高的概率。
第2步:标准化为N(0,1)
下一步是让变量X标准化,使均值为0,标准差为1,据此可得出标准正态变量Z,而 Z ∼ N ( 0 , 1 ) Z \sim N(0,1) Z∼N(0,1)。为什么要这么做呢?因为概率表仅给出N(0,1)的概率。等下我们要查表。
欲完成标准化,先移动均值,即将均值从71移到0。
这样就得到了一个新分布:
X
−
71
∼
N
(
0
,
20.25
)
X-71 \sim N(0, 20.25)
X−71∼N(0,20.25)
然后收窄,通过除以标准差“挤窄”我们的分布。已知方差为20.25,标准差为4.5。
于是得到:
X
−
71
4.5
=
Z
∼
N
(
0
,
1
)
\frac{X-71}{4.5} = Z \sim N(0,1)
4.5X−71=Z∼N(0,1)
这和第3章中首次讲到的标准差时出想过的标准分一样。通常,通过下式可求出任何正态变量X的标准分:
在例子中,需要求朱莉的约会对象比朱莉高的概率。由于朱莉的身高是64英寸,因此我们要求P(X>64),这个数值范围的限值是64,所以,只要算出64的标准分z,就能据此求出概率。
让我们求出64的标准分:
z
=
x
−
μ
σ
=
64
−
71
4.5
=
−
1.56
z = \frac{x - \mu}{\sigma} = \frac{64-71}{4.5}=-1.56
z=σx−μ=4.564−71=−1.56
得出这个结果后,我们就可以进入最后一步:通过概率表查找概率。
答:是一样的。正态分布不是唯一能用上标准分的地方,但是,在允许使用标准正态概率表的情况下,答:概率相同,而且使用概率表方便得多。标准分特别有用。
在我们对原来的正态分布进行标准化时,一切比例都保持相同。整个区间既没有增大,也没有缩小,由于代表概率的是面积,因此概率也保持不变。
标准分例题:
第3步:用方便易用的概率表查找概率
通过概率表,可以得到P(Z < z)的概率。z列了一系列数据,列出来的是概率。
可以得到结果:
P
(
Z
>
−
1.56
)
=
1
−
P
(
Z
<
−
1.56
)
=
0.9406
P(Z > -1.56) = 1-P(Z<-1.56)=0.9406
P(Z>−1.56)=1−P(Z<−1.56)=0.9406
也就是说,朱莉的约会对象比她高的概率是0.9406。
因为概率表只给出P(Z<z)的概率。
- 如果我们求P(Z>z)的概率,直接用 1 − P ( Z < z ) 1-P(Z<z) 1−P(Z<z)解决。
- 如果我们求P(a<Z<b)的概率,直接用 P ( Z < b ) − P ( Z − a ) P(Z<b)-P(Z-a) P(Z<b)−P(Z−a)解决。
答:一个变量的标准分即用这个变量减去其均值再除以这个变量的标准差的商。这是对正态分布进行标准化的一种方法,可令正态分布转化为 N (0,1) 分布,从而可以对各种正态分布进行比较。在处理正态分布时,标准分很有用,因为这样一来,你就可以通过标准正态概率表查找概率。一个特定数值的标准分还说明了数值与均值相距多少个标准差,你可以由此获悉该数值与均值的相对接近程度。
概率表例题:
如果朱莉穿了5英寸高的高跟鞋时,她的约会者比她高的概率呢?
例题:
维尔在芒芒游戏公司工作,他遇到了一个问题。他需要向老板报告人们闯过新游戏第一关所花时间(分钟)的均值和标准差。这倒不难,可不巧的是,一头恶犬咬掉了他写有概率的那张纸。
威尔只有 3 条有用线索。
- 首先,威尔知道人们闯过第一关所用的时间符合正态分布。
- 其次,他知道一位玩家的闯关时间少于 5 分钟的概率为 0.0045。
- 最后,某个人闯过第一关花费的时间少于 15 分钟的概率是 0.9641。
威尔如何求出均值和标准差?