0
点赞
收藏
分享

微信扫一扫

大数据云计算运维之Nginx反向代理与负载均衡

倪雅各 2023-06-26 阅读 48
数据挖掘

集成学习

  1. 概念,多个弱一个强
  2. 数据抽样不同点
    bagging:放回采样、原实际、且独立
    boosting:训练集不变、样例权重变化,权重根据上一轮结果调整(每个样例一个权重、自动调整)
    随机森林:从N样本随机选择n样本,使用bootstrap有放回的
  3. GBTD:回归树,低偏移高方差
  4. GBTD和xaboost区别:
    GBTD=cart、一阶
    XGBoost=线性、一二阶
    XGBOOST、正则、并行排序、分裂、多线程

聚类算法

优:特殊分布、噪快簇大、领域参数
缺:密度消耗灾难
场景:凸快效噪任意
与kemeans区别
噪声不敏感-》离群点偏差-》少数据不会
改进-》中心点-》复杂度o(n)

模型评估

查准:tp tp fp,precision
查全:tp tp fn,recall
f1:2preci preci+recall
pr曲线:recal横,precision纵
ROC和AUC:真正例横,假正例纵。roc下的面积就是AUC
AUC评估:1 正在负例前,0负例在正例前
ROC和AUC是否可用于不均衡:正负样本预测分 的关系,数据比例不同-》预测分绝对值会改变-》同一分类器对正负样本区分能力是一定的

预处理

数据类型:数值型、离散型、连续型、标称

举报

相关推荐

0 条评论