文章目录

回顾贝叶斯公式

贝叶斯公式的实例

朴素贝叶斯分类器

分类器的任务
扔掉分母
$T$ 的组成
朴素的贝叶斯为何朴素

整理一下：
问题
具体实例

实例分析与介绍
求算所有的条件概率
得到分类概率

概率平滑

$\epsilon$ 代替 0
拉普拉斯 / 加数平滑

缺失值
朴素贝叶斯实例
总结

朴素贝叶斯为什么有效
朴素贝叶斯的优势
朴素贝叶斯的缺点

回顾贝叶斯公式

$P (H ∣ x) = \frac{P (x ∣ H) P (H)}{P (x)} P(H|x) = \frac{P(x|H)P(H)}{P(x)}$

这里的 $H$ 可以认为是在分类任务中的某个类，所以 $P(H|x)$ 可以表示在给出 $x$ 的条件下，样本被判为第 $C$ 类的概率，这个概率也是我们称为的后验概率

贝叶斯公式的实例

当你周一去一家商店，你发现所有的灯都是 off 的，你会做什么推断？
先验概率 $P (H) = P (o p e n) = 0.95 P(H)=P(open)=0.95$ 即，通过统计数据，这家店开着的概率是 95%
条件概率：
- $P(off|open)=0.01$ , 当店铺开张的时候，灯灭的概率为 0.01
- $P(off|closed)=0.85$ 当店铺关闭的时候，灯灭的概率为 0.85
求后验概率 $P(open|off)$

$P(open|off) = \frac{P(off|open)P(open)}{P(off)}$

$P(off)=P(off,open) + P(off,closed) = P(off|open)P(open)+P(off|closed)P(closed)$

$P(open|off) = \frac{P(off|open)P(open)}{P(off|open)P(open)+P(off|closed)P(closed)}$

$P(open|off) = \frac{0.01 * 0.95}{0.01 * 0.95 + 0.85 * (1-0.95)}=0.183$

贝叶斯公式允许我们计算 $P(H|x)$ 当 $P(x|H)$ 已知或者可以估算的时候

朴素贝叶斯分类器

我们已经知道：

$P (C, X) = P (C ∣ X) P (X) = P (X ∣ C) P (C) P(C,X)=P(C|X)P(X)=P(X|C)P(C)$

分类器的任务

我们现在的任务是：将样本 $T T$ （instance）进行分类， $c_j \in C$ ，我们需要依次求出这个样本 $T$ 对于每一类 $c_j$
的概率，然后选出其中最大的那一个作为最终的预测类别。
$\hat{c}=argmax_{c_j\in C}P(c_j|T)$
$\hat{c}$ 代表的是最终分类的具体类别
$argmax_{c_j\in C}$ 代表从几个候选的概率中选出最大值作为最后的结果
$P(c_j|T)$ 表示给定 $T$ 的条件下对 $c_j$ 的分类概率

$\because$ $P(c_j|T)=\frac{P(T|c_j)P(c_j)}{P(T)}$
$\therefore$ $\hat{c}=argmax_{c_j\in C}\frac{P(T|c_j)P(c_j)}{P(T)}$

扔掉分母

又 $∵ \because$ 对于所有的类别 $c_j\in C$ , $P(T)$ 的值都是相同的，因此我们可以在这个计算的时候删除公式中的 $P(T)$ ， $\hat{c}$ 在通过 $argmax$ 选出最大概率值的过程中，依然会选出正确的最大值

$\therefore$ $\hat{c}=argmax_{c_j\in C}P(T|c_j){P(c_j)}$

所以接下来的任务，就是对每个类别 $c_j$ 求算 $P(T|c_{j})$ ，然后选出其中最大的那个概率值，就是样本 $T$ 所属的类别概率

$T T$ 的组成

那我们进一步探究， $T$ 到底是个什么东西呢？我们说 $T$ 是一个样本（或实例），那样本是由什么组成的呢？让我们回顾一下

import pandas as pd
columns = ['姓名','年龄','身高','是否婚恋','月薪','学历']
data = [['张三',18,181,1,18000,'本科'],
       ['李四',30,172,0,13000,'本科'],
       ['王五',14,198,1,8888,'本科'],
       ['赵六',18,176,0,3000,'本科']]

pd.DataFrame(columns=columns,data=data)

	姓名	年龄	身高	是否婚恋	月薪	学历
0	张三	18	181	1	18000	本科
1	李四	30	172	0	13000	本科
2	王五	14	198	1	8888	本科
3	赵六	18	176	0	3000	本科

对于这个例子来说，每一行数据都是一个 instance，而组成每一个 instance 的，就是 attributes（属性），也就是说当我们选择第一行这个样本 $T$ ，那么 $x_1,..x_n$ ，就分别代表 $\{x_1,x_2,...x_n\} = \{张三，18，181，1, ...\}$
我们在再反过头来看我们上面的公式：
$\hat{c}=argmax_{c_j\in C}P(T|c_j){P(c_j)}$
$T=\{x_1,x_2,...x_n\}$
$\hat{c}=argmax_{c_j\in C}P(x_1,x_2,...x_n|c_j){P(c_j)}$
所以，如何求 $P(x_1,x_2,...x_n|c_j)$

朴素的贝叶斯为何朴素

这里就是朴素贝叶斯为啥叫朴素的重要部分！！！！
如果 $x_{1}, x_{2}, . . . x_{n} x_1,x_2,...x_n$ 之间不是相互独立的，那么概率的链式法则应该是这样的：

$P(x_1,x_2,...x_n|c_j)=P(x_1|c_j)P(x_2|x_1,c_j)...P(x_n|x1,x2...,x_n,c_j)$

这样的话，我们光是算这一大串公式的计算难度就非常非常大
但朴素贝叶斯之所以 “朴素” 就是因为它有一个很强的假设，那就是 $x_1,x_2,...x_n$ 他们之间是在 $c_j$ 的条件下相互独立的；

$\therefore$ $$P(x_1,x_2,…x_n|c_j) \approx P(x_1|c_j)P(x_2|c_j)…P(x_n|c_j)\P(x_1,x_2,…x_n|c_j) \approx \prod_i{P(x_i|c_i)}$$

如果使用朴素贝叶斯这种粗暴的化简方式，分母的计算就变得容易很多了！
这个如果不明白，请看条件独立部分：

$P(x_1,x_2|c_j)=P(x_1|c_j)P(x_2|c_j)$

$P(x_1,x_2)=P(x_1)P(x_2)$

所以贝叶斯公式会在各个属性之间不完全独立的情况下产生不太好的结果，但是当面对各个 attribute 独立的数据，表现就会很好。
通过上面的化简，我们可以进一步得到我们的类别求算公式：

$\hat{c}=argmax_{c_j\in C}P(c_j)\prod_i{P(x_i|c_i)}$

整理一下：

由于上面的推导过程有些细碎，在这里从头整理一下得到 $\hat{c} \hat{c}$ 的过程：

$\hat{c}=argmax_{c_j\in C}P(c_j|T)$

$\because$ $P(c_j|T)=\frac{P(T|c_j)P(c_j)}{P(T)}$

$\therefore$ $\hat{c}=argmax_{c_j\in C}\frac{P(T|c_j)P(c_j)}{P(T)}$

$\because$ $P(T)$ is equal for all categories

$\therefore$ $\hat{c}=argmax_{c_j\in C}P(T|c_j){P(c_j)}$

$\because T=\{x_1,x_2,...x_n\}$

$\therefore \hat{c}=argmax_{c_j\in C}P(x_1,x_2,...x_n|c_j){P(c_j)}$

$\because$ assume $x_1,...x_n$ conditional independence

$\therefore$ $P(x_1,x_2,...x_n|c_j) \approx P(x_1|c_j)P(x_2|c_j)...P(x_n|c_j)$

$P(x_1,x_2,...x_n|c_j) \approx \prod_i{P(x_i|c_i)}$

$\therefore \hat{c}=argmax_{c_j\in C}P(c_j)\prod_i{P(x_i|c_i)}$

问题

如何得到先验概率 $P (c_{j}) P(c_j)$ ?

因为分类任务是监督学习的一种，所以对于每条数据都是有 label 的，我们可以通过统计 label 中 $c_j$ 出现的频次来得到 $P(c_j)$

当我们拿到一个数据集之后，我们需要知道的概率有哪些？

$P(c_j)$ , $P(x_i|c_j)$ 对于所有的 $x_i, c_j$

具体实例

实例分析与介绍

对于这个例子来说，我们先看类别 $c_{j} \in C = {F l u, C o l d} c_j \in C=\{Flu, Cold\}$ 这是个二分类问题
$x_i \in T$ , $T = \{x_1,x_2,...,x_n\} = \{Headache, Score, Temperature, Cough\}$
如果现在有个不头痛、轻度肌肉痛、正常体温、不咳嗽的人；他的样本 $T$ 就可以表示为：

$T = \{Headache=no,Sore=mild,Temp=normal,Cough=no\}$

因此这个时候我们去求算在这个样本是 $Flu$ 的概率就可以表示为：

$P(Diagnosis=Flu | Headache=no,Sore=mild,Temp=normal,Cough=no)$

求算所有的条件概率

求算所有的条件概率 $P (x_{i} ∣ c_{j}) P(x_i|c_j)$ 和 $P(c_j)$ ：

得到分类概率

我们已经得到了上述所有需要的条件概率和先验概率：

那么假设现在有一患者以轻度头痛（mild headache），严重酸痛（severe soreness），体温正常（normal temperature），无咳嗽（no cough）就诊。他们更容易得感冒（cold）还是流感（flu）?
我们通过以后的概率来计算 Flu 和 Cold 分别的概率情况：

再看一个例子：

病人来诊时，有严重头痛（severe headache），轻度酸痛（mild soreness），高烧（high temperature），无咳嗽（no cough）。他们更容易得感冒还是流感?

概率平滑

$ϵ \epsilon$ 代替 0

从上面的例子中很容易发现一个问题：
- 贝叶斯公式在计算的过程中，如果任何一个 $P(x_i|c_j)=0$ 那么最终的值就是 0；
- 但是这些看起来都等于 0 的值真的是等价的么？
- 为了解决这种 0 存在的问题，我们采用一个极小的、大于 0 的值： $\epsilon$ 来代替 0
  - $\epsilon$ 应该非常小，应该比任何一个不等于 0 的 P(x_i|c_j) 都小，因为只有这样，将 0 替换成 $\epsilon$ 才会在不改变结果的情况下解决 0 的问题
  - 在真正实际操作的时候，我们会比较两个式子中谁包含的 $\epsilon$ 的数量多，越多的 $\epsilon$ 代表实际的概率值越小
于是上面的第二个例子，就可以写成如下形式：