1 常见决策树使用的算法
ID3
信息增益 最大的准则
C4.5
信息增益比 最大的准则
CART
回归树: 平方误差 最小
分类树: 基尼系数 最小的准则 在sklearn中可以选择划分的原则
2 sklearn决策树API
3 泰坦尼克号乘客生存分类模型
(1)pd读取数据
(2)选择有影响的特征,处理缺失值
(3)进行特征工程,pd转换字典,特征抽取
x_train.to_dict(orient="records")
(4)决策树估计器流程
决策树的结构、本地保存
决策树的优缺点以及改进
输出:
随机森林
定义:在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。
集成学习API
随机森林优点:
• 在当前所有算法中,具有极好的准确率
• 能够有效地运行在大数据集上
• 能够处理具有高维特征的输入样本,而且不需要降维
• 能够评估各个特征在分类问题上的重要性
• 对于缺省值问题也能够获得很好得结果
输出: