0
点赞
收藏
分享

微信扫一扫

【skLearn 分类、回归算法】决策树介绍

文章目录

  • ​​一、基本介绍​​
  • ​​二、基本工作原理​​
  • ​​三、原理核心问题(了解)​​
  • ​​四、skLearn中的决策树​​
  • ​​Ⅰ. 模块sklearn.tree​​
  • ​​Ⅱ.sklearn的基本建模流程​​

一、基本介绍

决策树(Decision Tree)是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题

这里所说的非参数就是指对于数据集的结构和类型不做要求,可以处理任何数据。
​​​具体理解参见大佬博客:机器学习中参数模型和非参数模型理解​​

决策树算法容易理解,适用各种数据,在解决各种问题时都有良好表现,尤其是以树模型为核心的各种集成算法,在各个行业和领域都有广泛的应用。

​​返回顶部​​

二、基本工作原理

决策树算法的本质是一种图结构,我们只需要问一系列问题就可以对数据进行分类了。比如说,来看看下面这组数据集,这是一系列已知物种以及所属类别的数据:

【skLearn 分类、回归算法】决策树介绍_数据


我们现在的目标是,将动物们分为哺乳类和非哺乳类。那根据已经收集到的数据,决策树算法为我们算出了下面的这棵决策树:

【skLearn 分类、回归算法】决策树介绍_数据_02


假如我们现在发现了一种新物种Python,它是冷血动物,体表带鳞片,并且不是胎生,我们就可以通过这棵决策树来判断它的所属类别。

【skLearn 分类、回归算法】决策树介绍_机器学习_03

【skLearn 分类、回归算法】决策树介绍_数据_04


可以看出,在这个决策过程中,我们一直在对记录的特征进行提问最初的问题所在的地方叫做根节点,在得到结论前的每一个问题都是中间节点,而得到的每一个结论(动物的类别)都叫做叶子节点

【skLearn 分类、回归算法】决策树介绍_机器学习_05


【skLearn 分类、回归算法】决策树介绍_返回顶部_06

​​返回顶部​​

三、原理核心问题(了解)

  • 如何从数据表中找出最佳节点和最佳分枝
  • 针对上面的数据来说,那么多的特征,我们需要一个一个去提问完才能得到结果吗?(当然全部提问完结果会更准确)
  • 如何让决策树停止生长,防止过拟合
  • 产生的提问问题过多,决策树生长的太茂盛,反而会将过程复杂化,过于精细,导致过拟合。

​​返回顶部​​

四、skLearn中的决策树

Ⅰ. 模块sklearn.tree

sklearn中决策树的类都在”tree“这个模块之下。这个模块总共包含五个类:

【skLearn 分类、回归算法】决策树介绍_决策树_07


​​详情参见sklearn官方文档~​​

​​返回顶部​​

Ⅱ.sklearn的基本建模流程

【skLearn 分类、回归算法】决策树介绍_数据_08

from sklearn import tree #导入需要的模块
clf = tree.DecisionTreeClassifier() #实例化
clf = clf.fit(X_train,y_train) #用训练集数据训练模型
result = clf.score(X_test,y_test) #导入测试集,从接口中调用需要的信息

​​返回顶部​​


举报

相关推荐

0 条评论