0
点赞
收藏
分享

微信扫一扫

王茂霖:数据挖掘提分三板斧!


作者:王茂霖,华中科技大学

内容概括

数据挖掘提分三板斧:

1.金斧-数据清洗和特征工程

2.银斧-模型参数调节

3.铜斧-模型集成

PPT下载:后台回复“210406”可获取

视频地址:https://www.bilibili.com/video/BV1MU4y1h75G


数据清洗和特征工程

王茂霖:数据挖掘提分三板斧!_数据

一、关于数据清洗

王茂霖:数据挖掘提分三板斧!_数据_02

1.缺失值处理:

王茂霖:数据挖掘提分三板斧!_数据_03

2.异常值处理:

王茂霖:数据挖掘提分三板斧!_特征工程_04

数据清洗-数据分桶

3.数据分桶:

王茂霖:数据挖掘提分三板斧!_数据清洗_05

4.数据标准化:在不同的问题中,标准化的意义不同

(1)在回归预测中,标准化是为了让特征值有均等的权重;

(2)在训练神经网络的过程中,通过将数据标准化,能够加速权重参数的收敛;

(3)主成分分析中,需要对数据进行标准化处理;默认指标间权重相等,不考虑指标间差异和相互影响。


王茂霖:数据挖掘提分三板斧!_数据_06

数据清洗的示例:

王茂霖:数据挖掘提分三板斧!_数据清洗_07

二、关于特征工程

王茂霖:数据挖掘提分三板斧!_数据清洗_08

1.特征构造:

王茂霖:数据挖掘提分三板斧!_特征工程_09

王茂霖:数据挖掘提分三板斧!_数据_10

2.特征选择:

王茂霖:数据挖掘提分三板斧!_数据清洗_11

特征工程的示例:

王茂霖:数据挖掘提分三板斧!_特征工程_12


模型参数调节

王茂霖:数据挖掘提分三板斧!_数据_13

一、关于建模调参

王茂霖:数据挖掘提分三板斧!_特征工程_14

1.理解模型

王茂霖:数据挖掘提分三板斧!_特征工程_15

2.性能验证

王茂霖:数据挖掘提分三板斧!_数据_16

3.模型调参

王茂霖:数据挖掘提分三板斧!_数据_17


模型集成

王茂霖:数据挖掘提分三板斧!_数据清洗_18

一、关于模型集成

王茂霖:数据挖掘提分三板斧!_数据_19

1.加权融合

王茂霖:数据挖掘提分三板斧!_数据_20

2.Boosting/Bagging

王茂霖:数据挖掘提分三板斧!_数据_21

3.Stacking/Blending

王茂霖:数据挖掘提分三板斧!_数据清洗_22

模型集成示例:

王茂霖:数据挖掘提分三板斧!_数据清洗_23

本文作者

王茂霖,Datawhale重要贡献成员,Datawhale&天池数据挖掘学习赛开源内容发起人,全网阅读超10w。


参赛30余次,获得BCIC-数字中国创新创业大赛亚军,全球城市计算AI挑战赛,Alibaba Cloud German AI Challenge等多项Top10。


分享地址

  • 复制链接打开(或阅读原文)
  • ​​https://www.bilibili.com/video/BV1MU4y1h75G​​

王茂霖:数据挖掘提分三板斧!_特征工程_24


举报

相关推荐

0 条评论