0
点赞
收藏
分享

微信扫一扫

51单片机基础:定时器

无愠色 2024-02-08 阅读 15

📕参考:ysu老师课件+西瓜书 


1.决策树的基本概念

【决策树】:决策树是一种描述对样本数据进行分类的树形结构模型,由节点和有向边组成。其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果。

关于决策树要掌握的概念:

决策树的优缺点:

优点:

缺点:

 2.决策树的生成过程

决策树模型涉及到三个关键过程:

一是特征变量的选择,根据某个指标(如信息增益、基尼指数等)选择当前最佳的特征属性作为判断依据。

二是决策树的生成,常用的决策树算法有ID3、C4.5、CART等算法;

三是决策树的剪枝,通过剪枝来避免过拟合,提升对数据的预测效果。

2.1 特征变量的选择

最常用的三种特征选择策略:信息增益、信息增益比、Gini指数

2.1.1 信息增益

首先引入【信息量】。

消息中所包含的信息量大小与该消息所表示的事件出现的概率相关,如果一个消息所表示的事件是必然事件(发生概率100%),则该消息所包含的信息量为0;如果一个消息表示的不可能事件(发生概率极低),则该消息的信息量为无穷大。

信息量应该随着概率单调递减:某事件的概率越大,则信息量越小。

再引入【信息熵】。

“信息熵”用来表示信息不确定性的一种度量。熵越高表示越混乱,熵越低表示越有序。

(类比高中学的分子状态混乱程度,熵越大越混乱)

再引入【信息增益】。

“信息增益”表示在知道某个特征之后使得不确定性减少的程度(知道某个特征前的熵与知道某个特征之后的熵之差)。

根据某个变量将样本数据分割为多个子集,分割前与分割后样本数据的熵之差为信息增益,信息增益越高,表示该变量对样本数据的分类效果越好。

2.1.2 信息增益比

再引入【信息增益比】

以信息增益作为划分训练数据集的特征,存在偏向于选择取值较多的特征的问题,因此通过引入了【信息增益比】来解决该问题。

比如:以user_id为特征变量,由于每个人的user_id是唯一的,在每个user_id下可以完美地进行准确分类,但是这种情况显然是无意义的。

注:只有在不同变量分裂出不同个数子节点的情况下,信息增益比才会起作用。如果每个变量允许分裂相同个数的子节点,那么信息增益比并不起作用。

2.1.3 Gini指数

Gini指数也是衡量随机变量不纯度的一种方法,Gini指数越小,则表示变量纯度越高,Gini指数越大,表示变量纯度越低。

理解:

2.2 决策树的生成

常用的决策树算法有:ID3、C4.5、CART

先介绍决策树生成时的三个【终止条件】:

2.2.1 ID3——信息增益

ID3(Iterative Dichotomiser 3)是一种基于信息增益的决策树生成算法。

其主要步骤包括:

【专业描述】

2.2.2 C4.5——信息增益比

C4.5算法整体上与ID3算法非常相似,不同之处是C4.5以信息增益比为准则来选择分枝变量。

2.2.3 CART——Gini指数

CART(Classification and Regression Trees)是一种基于Gini指数的决策树生成算法,可用于分类和回归任务。

其主要步骤包括:

【专业描述】

注意:

CART是一种二叉树,即将所有问题看做二元分类问题。

由于CART是二叉树,在遇到连续变量或者多元分类变量时,存在寻找最优切分点的情况。

【补充】

CART的缺点

两种决策的对比

2.3 决策树的剪枝

决策树的剪枝是为了防止过拟合,即过度依赖训练数据而导致在未知数据上表现不佳。

剪枝通过修剪决策树的一部分来达到简化模型的目的。

剪枝分为预剪枝(Pre-pruning)和后剪枝(Post-pruning)两种类型。

2.3.1 预剪枝

在决策树生成的过程中,在每次划分节点之前,通过一些预定的规则判断是否继续划分。若当前结点的划分不能使决策树泛化性能提升,则停止划分并将当前结点记为叶结点,其类别标记为训练样例数最多的类别。

预剪枝的优缺点

2.3.2 后剪枝 

在决策树生成完成后,通过递归地从底部向上对节点进行判断,决定是否剪枝。

具体过程如下:

后剪枝相对于预剪枝更为灵活,因为它在生成完整的树之后才进行剪枝决策,可以更准确地评估每个子树的性能。

后剪枝的优缺点:

3.代码实践

# 导入必要的库
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier, export_text
from sklearn import tree
import matplotlib.pyplot as plt

# 加载示例数据集(鸢尾花数据集)
iris = load_iris()
X = iris.data
y = iris.target

# 将数据集划分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建决策树模型
clf = DecisionTreeClassifier()

# 训练模型
clf.fit(X_train, y_train)

# 使用模型进行预测
y_pred = clf.predict(X_test)

# 输出模型的准确率
accuracy = clf.score(X_test, y_test)
print(f"Model Accuracy: {accuracy:.2f}")

# 输出决策树的规则
tree_rules = export_text(clf, feature_names=iris.feature_names)
print("Decision Tree Rules:\n", tree_rules)

# 可视化决策树
fig, ax = plt.subplots(figsize=(12, 8))
tree.plot_tree(clf, feature_names=iris.feature_names, class_names=iris.target_names, filled=True, ax=ax)
plt.show()

举报

相关推荐

0 条评论