0

点赞

收藏

分享

机器学习——概率学

天行五煞 07-09 09:00 阅读 27

标签: 概率分布计算机视觉人工智能 yyds干货盘点

概率学是机器学习的重要基石之一，特别是在处理不确定性、分类、回归等问题时。掌握概率学的基础知识对于理解机器学习算法和模型至关重要。以下是对机器学习中概率学基础的详细讲解：

一、概率的基本概念

概率的定义

概率是描述随机事件发生可能性大小的数值，取值范围在0到1之间。
概率为0表示事件不可能发生，概率为1表示事件必然发生。

概率的加法和乘法规则

加法法则：对于两个互斥事件A和B，它们同时发生的概率为0，即P(A ∩ B) = 0。因此，P(A ∪ B) = P(A) + P(B)。
乘法法则：对于两个独立事件A和B，它们同时发生的概率为各自概率的乘积，即P(A ∩ B) = P(A) * P(B)。

二、概率分布

离散型概率分布

伯努利分布：描述只有两种可能结果（如成功和失败）的随机变量的概率分布。

概率质量函数：P(X=1) = p, P(X=0) = 1 - p。

二项分布：描述在n次独立重复试验中，成功k次的概率。

概率质量函数：P(X=k) = C(n, k) * p^k * (1-p)^(n-k)。

多项分布：二项分布的扩展，描述在n次独立重复试验中，多个可能结果的概率。

连续型概率分布

均匀分布：在区间[a, b]内，每个值的概率密度相同。

概率密度函数：f(x) = 1/(b - a) for a ≤ x ≤ b。

正态分布（高斯分布）：描述对称分布的连续随机变量，广泛应用于自然和社会科学。

概率密度函数：f(x) = (1/σ√(2π)) * e^(-(x-μ)^2/(2σ^2))，其中μ为均值，σ为标准差。

指数分布：描述事件发生的时间间隔的概率分布，常用于可靠性工程和生存分析。

概率密度函数：f(x) = λe^(-λx) for x ≥ 0，其中λ为速率参数。

三、条件概率与贝叶斯定理

条件概率

条件概率P(A|B)表示在事件B已经发生的条件下，事件A发生的概率。
计算公式：P(A|B) = P(A ∩ B) / P(B)，其中P(B) > 0。

贝叶斯定理

贝叶斯定理是条件概率的一个重要应用，允许我们根据新的信息更新概率估计。
公式：P(A|B) = P(B|A) * P(A) / P(B)。
应用：在分类任务中，贝叶斯定理常用于计算后验概率，如朴素贝叶斯分类器。

四、期望与方差

期望（均值）

期望E[X]是随机变量X的平均值，描述了X的中心位置。
计算公式：

对于离散型随机变量：E[X] = Σx P(X=x) * x。
对于连续型随机变量：E[X] = ∫x f(x) dx。

方差

方差Var(X)衡量随机变量X与其期望值的偏离程度，描述了X的分散程度。
计算公式：Var(X) = E[(X - E[X])^2]。
标准差是方差的平方根，具有与随机变量相同的单位。

五、概率生成模型

生成模型的概念

生成模型直接建模数据的分布，学习数据的生成过程。
常见的生成模型有高斯分布、伯努利分布、隐马尔可夫模型等。

生成模型的应用

分类任务：通过建模每个类别的数据分布，生成模型可以用于分类。

例如，朴素贝叶斯分类器基于特征条件独立假设，计算后验概率进行分类。

数据生成：生成模型可以用于生成新的数据样本，如生成对抗网络（GANs）。

六、概率判别模型

判别模型的概念

判别模型直接建模类别之间的关系，学习从输入到输出的映射。
常见的判别模型有逻辑回归、支持向量机、决策树等。

判别模型的应用

分类任务：判别模型通过学习决策边界，将不同类别的数据分开。

例如，逻辑回归通过Sigmoid函数将线性组合映射到概率，进行二分类。

回归任务：判别模型可以用于回归问题，预测连续值输出。

七、概率在机器学习中的应用

分类任务

概率生成模型（如朴素贝叶斯）和判别模型（如逻辑回归）广泛应用于分类任务。
通过概率估计，分类模型可以提供类别预测的置信度。

回归任务

在回归任务中，概率分布假设可以用于模型的损失函数设计，如正态分布假设下的最小二乘法。

聚类与降维

概率学在聚类（如高斯混合模型）和降维（如主成分分析）中也起着重要作用。
通过概率模型，聚类算法可以发现数据中的潜在结构。

强化学习

在强化学习中，概率学用于建模环境的不确定性，设计策略以最大化累积奖励。

0 条评论

关注