集成学习
- 概念,多个弱一个强
- 数据抽样不同点
bagging:放回采样、原实际、且独立
boosting:训练集不变、样例权重变化,权重根据上一轮结果调整(每个样例一个权重、自动调整)
随机森林:从N样本随机选择n样本,使用bootstrap有放回的 - GBTD:回归树,低偏移高方差
- GBTD和xaboost区别:
GBTD=cart、一阶
XGBoost=线性、一二阶
XGBOOST、正则、并行排序、分裂、多线程
聚类算法
优:特殊分布、噪快簇大、领域参数
缺:密度消耗灾难
场景:凸快效噪任意
与kemeans区别
噪声不敏感-》离群点偏差-》少数据不会
改进-》中心点-》复杂度o(n)
模型评估
查准:tp tp fp,precision
查全:tp tp fn,recall
f1:2preci preci+recall
pr曲线:recal横,precision纵
ROC和AUC:真正例横,假正例纵。roc下的面积就是AUC
AUC评估:1 正在负例前,0负例在正例前
ROC和AUC是否可用于不均衡:正负样本预测分 的关系,数据比例不同-》预测分绝对值会改变-》同一分类器对正负样本区分能力是一定的
预处理
数据类型:数值型、离散型、连续型、标称