如何使用unittest框架来编写和运行单元测试-CFANZ编程社区

【Sklearn-驯化】一文搞懂sklearn中特征平滑之-贝叶斯平滑策略使用技巧

本次修炼方法请往下查看
在这里插入图片描述

🌵文章目录🌵

Sklearn-贝叶斯平滑

下滑查看解决方法

Sklearn-贝叶斯平滑

🎯 1. 基本介绍

在机器学习中，特征平滑是一种用于改善高维数据表示的技术，特别是在处理文本数据或生物信息学数据时。贝叶斯特征平滑（Bayesian Feature Smoothing）是一种基于概率模型的方法，它通过为特征分配先验分布来平滑特征的分布，从而减少噪声和过拟合

💡 2. 公式推导

贝叶斯特征平滑的核心思想是将先验知识融入到特征表示中。假设特征值 x 遵循多项式分布：
$p (a ∣ d) = M u lt in o mia lp (a ∣ d)$

其中 θ 是特征的参数向量。贝叶斯平滑通过为 θ 引入先验分布 𝑝(𝜃)来实现：
$p (a) = D i r i c h l e t (a)$
其中 α 是超参数，控制先验分布的形状。

💡 3. 代码实践

3.1 创建示例数据

我们从sklearn中自带的新闻数据集进行我们特征的使用，实际工作中，贝叶斯平滑在ctr的一些应用中使用的最多，具体的数据构造如下所示：

from sklearn.datasets import fetch_20newsgroups

# 加载20新闻组数据集
data = fetch_20newsgroups(subset='all')
X, y = data.data, data.target

3.2 贝叶斯平滑

我们对上述的特征进行相关的平滑：

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB

# 使用CountVectorizer将文本转换为词频特征
vectorizer = CountVectorizer()
X_counts = vectorizer.fit_transform(X)

# 使用多项式朴素贝叶斯模型进行贝叶斯特征平滑
clf = MultinomialNB(alpha=1.0)  # alpha参数控制平滑程度
clf.fit(X_counts, y)

# 预测测试集
y_pred = clf.predict(X_counts)

# 打印准确率
accuracy = sum(y_pred == y) / len(y)
print(f"Accuracy: {accuracy:.2f}")