0
点赞
收藏
分享

微信扫一扫

关于PCB供电保护的问题

松鼠树屋 2024-11-12 阅读 30

🌺历史文章列表🌺



贝叶斯定理(Bayes’ Theorem)

贝叶斯定理用于描述事件之间的条件概率关系,解决分类和间接解决回归问题。它的
描述了事件 A A A 在事件 B B B 发生后的条件概率

P ( A ∣ B ) = P ( B ∣ A ) ⋅ P ( A ) P ( B ) P(A | B) = \frac{P(B | A) \cdot P(A)}{P(B)} P(AB)=P(B)P(BA)P(A)

在朴素贝叶斯分类中:

  • A A A 表示数据点属于某个类别(如“垃圾邮件”或“正常邮件”)。
  • B B B 表示数据点的特征(如邮件的词频)。
  • P(A | B) :表示在已知特征 ( B ) 的情况下,属于类别 ( A ) 的概率(后验概率)。
  • P(B | A) :表示在已知类别 ( A ) 的情况下,观察到特征 ( B ) 的概率(条件概率)。
  • P(A) :事件 A 发生的先验概率
  • P(B) :事件 B 发生的先验概率

贝叶斯定理的核心思想是通过已知的先验概率和条件概率,计算某个事件的后验概率

朴素贝叶斯分类器(Naive Bayes Classifier)

朴素贝叶斯分类器是基于贝叶斯定理的一种简单而有效的分类算法。它的核心假设是在给定目标变量的条件下,所有特征之间是相互独立的,即“条件独立性假设”。虽然这个假设在现实中通常不成立但在实际应用中表现得非常好

计算步骤

  1. 计算先验概率:计算每个类别的先验概率 P ( C i ) P(C_i) P(Ci),其中 C i C_i Ci 表示类别。

  2. 计算条件概率/似然概率:对于每个特征,计算在给定类别的条件下特征出现的概率 P ( x j ∣ C i ) P(x_j | C_i) P(xjCi)

  3. 应用贝叶斯定理:计算给定样本属于每个类别的后验概率 P ( C i ∣ x ) P(C_i | x) P(Cix),其中 x x x 是特征向量。

  4. 做出分类决策:选择具有最高后验概率的类别作为分类结果

数学表达式为:

P ( C i ∣ x 1 , x 2 , … , x n ) = P ( C i ) ⋅ P ( x 1 ∣ C i ) ⋅ P ( x 2 ∣ C i ) ⋯ P ( x n ∣ C i ) P ( x 1 , x 2 , … , x n ) P(C_i | x_1, x_2, \dots, x_n) = \frac{P(C_i) \cdot P(x_1 | C_i) \cdot P(x_2 | C_i) \cdots P(x_n | C_i)}{P(x_1, x_2, \dots, x_n)} P(Cix1,x2,,xn)=P(x1,x2,,xn)P(Ci)P(x1Ci)P(x2Ci)P(xnCi)

在实际应用中,由于分母 P ( x 1 , x 2 , … , x n ) P(x_1, x_2, \dots, x_n) P(x1,x2,,xn)对所有类别是相同的,所以只需要比较分子部分:

P ( C i ) ⋅ P ( x 1 ∣ C i ) ⋅ P ( x 2 ∣ C i ) ⋯ P ( x n ∣ C i ) P(C_i) \cdot P(x_1 | C_i) \cdot P(x_2 | C_i) \cdots P(x_n | C_i) P(Ci)P(x1Ci)P(x2Ci)P(xnCi)

优势

  1. 计算简单:因为条件独立假设,计算复杂度低,速度快。
  2. 数据需求少:对小数据集也能表现良好。
  3. 处理多类别问题:适合处理多类别分类问题。

局限性

  1. 条件独立性假设不现实:在许多情况下,特征之间并不是独立的,假设不成立时分类器效果可能下降。
  2. 对数据格式敏感:在某些应用场景中,对特征的处理和分布的要求较高。

朴素贝叶斯的三种常见变体

根据数据的不同特性,朴素贝叶斯有三种常见的变体模型:高斯朴素贝叶斯、多项式朴素贝叶斯和伯努利朴素贝叶斯。它们分别适用于不同类型的数据和应用场景。

1. 高斯朴素贝叶斯(Gaussian Naive Bayes)

高斯朴素贝叶斯连续特征数据,假设特征服从高斯分布(正态分布)。如身高、体重。

假设:每个类别 C i C_i Ci 下的特征 x j x_j xj 服从正态分布:
P ( x j ∣ C i ) = 1 2 π σ C i 2 exp ⁡ ( − ( x j − μ C i ) 2 2 σ C i 2 ) P(x_j | C_i) = \frac{1}{\sqrt{2 \pi \sigma_{C_i}^2}} \exp \left( -\frac{(x_j - \mu_{C_i})^2}{2 \sigma_{C_i}^2} \right) P(xjCi)=2πσCi2 1exp(2σCi2(xjμCi)2)
其中, μ C i \mu_{C_i} μCi σ C i \sigma_{C_i} σCi 分别是类别 C i C_i Ci 下特征 x j x_j xj 的均值和标准差。

2. 多项式朴素贝叶斯(Multinomial Naive Bayes)

多项式朴素贝叶斯适用于离散型数据,假设特征(如词频)符合多项式分布。如词频或 TF-IDF 值。

假设:每个类别 C i C_i Ci 下的特征 x j x_j xj 服从多项式分布:
P ( x ∣ C i ) = ( ∑ j = 1 d x j ) ! x 1 ! x 2 ! ⋯ x d ! ∏ j = 1 d P ( x j ∣ C i ) x j P(x | C_i) = \frac{\left( \sum_{j=1}^d x_j \right)!}{x_1! x_2! \cdots x_d!} \prod_{j=1}^d P(x_j | C_i)^{x_j} P(xCi)=x1!x2!xd!(j=1dxj)!j=1dP(xjCi)xj
其中, d d d 是特征数量, x j x_j xj 是特征 j j j 的出现次数, P ( x j ∣ C i ) P(x_j | C_i) P(xjCi) 是在类别 C i C_i Ci 下特征 j j j 出现的概率。

3. 伯努利朴素贝叶斯(Bernoulli Naive Bayes)

伯努利朴素贝叶斯适用于二元特征数据(如 0 和 1),假设特征服从伯努利分布。,常用于特征值表示是否出现某个事件的场景。

假设:每个类别 C i C_i Ci 下的特征 x j x_j xj 服从伯努利分布:
P ( x j ∣ C i ) = P ( x j = 1 ∣ C i ) x j ⋅ ( 1 − P ( x j = 1 ∣ C i ) ) 1 − x j P(x_j | C_i) = P(x_j = 1 | C_i)^{x_j} \cdot (1 - P(x_j = 1 | C_i))^{1 - x_j} P(xjCi)=P(xj=1∣Ci)xj(1P(xj=1∣Ci))1xj
其中, x j x_j xj 为 0 或 1,表示特征 j j j 是否在样本中出现。

总结

  • 贝叶斯定理 提供了一种计算条件概率的方法。
  • 朴素贝叶斯分类器 假设特征之间相互独立,尽管这一假设在实际中可能并不成立,但在很多应用中仍然表现良好。
  • 高斯朴素贝叶斯:适合连续值特征假设特征服从正态分布
  • 多项式朴素贝叶斯:适合离散值特征假设特征服从多项式分布。特征表示频数,如词频数据。
  • 伯努利朴素贝叶斯:适合布尔值特征假设特征服从伯努利分布。特征表示某事件是否发生,如词袋模型的文本分类。

选择合适的朴素贝叶斯模型有助于提高分类效果,应根据数据特征和应用场景进行选择。

零概率问题

没有平滑时,这个概率可以表示为:

P ( x i ∣ C ) = count ( x i , C ) count ( C ) P(x_i | C) = \frac{\text{count}(x_i, C)}{\text{count}(C)} P(xiC)=count(C)count(xi,C)

其中:

  • count ( x i , C ) \text{count}(x_i, C) count(xi,C) 表示类别 C C C 下特征 x i x_i xi 出现的次数。
  • count ( C ) \text{count}(C) count(C) 表示类别 C C C 出现的总次数。

朴素贝叶斯中的零概率问题是指在计算后验概率时,如果某个特征值在训练数据中没有出现,则该特征值的概率会被计算为0。由于贝叶斯公式中包含了特征值的概率乘积,只要一个特征值的概率为0,那么整体公式的结果也会为0,导致预测结果不准确

总结

  • 拉普拉斯平滑:一种简单的平滑方法,通过在每个事件的频数上加1来避免零概率问题。适合简单场景,但在数据量较大时可能过于平滑。
  • 加权平滑引入一个超参数控制特征的重要性或频率分布,进行比例调整,适合在特征权重差异较大的情况下使用。
  • Dirichlet平滑:一种基于Dirichlet分布的平滑方法,灵活度更高,通过给每个特征引入超参数对平滑程度进行调节,常用于复杂的文本模型、语言模型或多项式分布估计中。

拉普拉斯平滑(Laplace Smoothing)

拉普拉斯平滑(也称为加一平滑)是一种解决概率估计中零概率问题的简单方法。拉普拉斯平滑通过在每个事件的频数上加一个小的正数(通常为1) 来避免零概率的出现。

公式为:
在这里插入图片描述其中:

  • count ( x i , C ) \text{count}(x_i, C) count(xi,C) 表示类别 C C C 下特征 x i x_i xi 出现的次数。
  • count ( C ) \text{count}(C) count(C) 表示类别 C C C 出现的总次数。
  • | V V V |是特征空间的大小 (即可能出现的所有特征的数量)。
  • 加上1是为了保证所有特征的概率不为零

拉普拉斯平滑适用于解决朴素贝叶斯分类器中的零概率问题,这可能导致对频率较高的事件也进行了不必要的平滑,使得估计结果过于平滑。

加权平滑(Weighted Smoothing)

可以根据特征重要性或频率分布给予不同的权重,从而在估计概率时更加准确。

公式为:
P ( x i ∣ C ) = count ( x i , C ) + α count ( C ) + α ⋅ ∣ V ∣ P(x_i | C) = \frac{\text{count}(x_i, C) + \alpha}{\text{count}(C) + \alpha \cdot |V|} P(xiC)=count(C)+αVcount(xi,C)+α
其中:

  • count ( x i , C ) \text{count}(x_i, C) count(xi,C) 表示类别 C C C 下特征 x i x_i xi 出现的次数。
  • count ( C ) \text{count}(C) count(C) 表示类别 C C C 出现的总次数。
  • | V V V |是特征空间的大小 (即可能出现的所有特征的数量)。
  • α \alpha α加权平滑的平滑参数,用来控制平滑的强度。
    • α = 1 \alpha = 1 α=1 时,公式退化为拉普拉斯平滑。
    • 如果 α > 1 \alpha > 1 α>1,则加大对未见事件的平滑强度。
    • 如果 α < 1 \alpha < 1 α<1,则对未见事件的平滑力度较小。

通过引入特征权重 α ,根据特征的重要性或频率分布进行比例调整。需要在平滑过程中考虑特征间差异的情况,调整 α 。

狄利克雷平滑(Dirichlet Smoothing)

Dirichlet平滑是一种更加灵活的平滑方法,它通过引入超参数对每个特征的平滑程度进行调整。相比拉普拉斯平滑,Dirichlet平滑能够根据数据特点选择不同的平滑强度。

公式为:
P ( x i ∣ C ) = count ( x i , C ) + α i count ( C ) + ∑ i = 1 ∣ V ∣ α i P(x_i | C) = \frac{\text{count}(x_i, C) + \alpha_i}{\text{count}(C) + \sum_{i=1}^{|V|} \alpha_i} P(xiC)=count(C)+i=1Vαicount(xi,C)+αi
其中:

  • count ( x i , C ) \text{count}(x_i, C) count(xi,C) 表示类别 C C C 下特征 x i x_i xi 出现的次数。
  • count ( C ) \text{count}(C) count(C) 表示类别 C C C 出现的总次数。
  • | V V V |是特征空间的大小 (即可能出现的所有特征的数量)。
  • α i \alpha_i αi 是每个特征 x i x_i xi 的平滑参数,不同的特征可以有不同的平滑强度。
  • α i \alpha_i αi 相等且为 1 时,Dirichlet 平滑退化为拉普拉斯平滑。

为每个类别分配不同的平滑参数,更加灵活。 计算较复杂,但在处理复杂的数据分布时更具优势。

举报

相关推荐

0 条评论