机器学习入门
概念
从数据中自动分析获得模型,并利用模型对未知数据进行预测
工作流程介绍
1. 获取数据
数据集介绍
- 样本:一行数据称为一个样本
- 特征:一列数据称为一个特征
- 目标值(标签值)
数据类型构成
- 特征值 + 目标值
- 只有特征值
数据划分
- 训练数据(训练集) 占比约0.7~0.8 用于构建模型
- 测试数据(测试集) 占比约0.2~0.3 用于模型评估
2. 数据基本处理
对数据进行缺失值,异常值的处理
3. 特征工程
使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好作用的过程,数据和特征决定了机器学习的上限,会直接影响机器学习的效果。
特征提取:将任意数据转换为可用于机器学习的数字特征。
特征预处理:通过一些转换函数,将特征数据转换成更加适合算法模型的特征数据的过程。
特征降维:指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程
4. 机器学习(模型训练)
算法分类
- 监督学习
- 输入数据是由特征值和目标值组成
- 输出连续值(回归)或输出有限个离散值(分类)
- 算法:分类k-临近算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络
- 无监督学习
- 输入数据只有特征值,样本数据类别未知,需要根据样本间的相似性对样本进行分类(聚类),试图使类内差距最小化,类间差距最大化
- 算法:聚类k-means、降维
- 半监督学习
- 输入数据有特征值,一部分数据有目标值,一部分无目标值
- 强化学习
- 强化学习实质上是自动决策问题,并且可以做连续决策
- 是动态过程,上一步数据输出是下一步的数据输入
- 四要素:agent,action, environment, reward
- 算法:马尔科夫决策、动态规划
5. 模型评估
1. 分类模型评估
- 准确率:预测正确的数占样本总数的比例
- 精确率:正确预测为正占全部预测为正的比例
- 召回率:正确预测为正占全部正样本的比例
- F1-score:主要用于评估模型的稳健性
- AUC指标:注意用于评估样本不均衡的情况
2. 回归模型评估
- 均方根误差(Root Mean Squared Error,RMSE)
- 仅能比较误差是相同单位的模型
- R M S E = ∑ i = 1 n ( p i − a i ) 2 n , p 和 a 表 示 预 测 值 和 真 实 值 , n 表 示 样 本 数 量 RMSE = \sqrt{\frac{\sum_{i=1}^n (p_i-a_i)^2}{n} } {,p和a表示预测值和真实值,n表示样本数量} RMSE=n∑i=1n(pi−ai)2,p和a表示预测值和真实值,n表示样本数量
- 相对平方误差(Relative Squared Error,RSE)
- 可以比较误差是不同单位的模型
- R S E = ∑ i = 1 n ( p i − a i ) 2 ∑ i = 1 n ( a ˉ − a i ) 2 , a ˉ 表 示 真 实 值 的 平 均 值 RSE = \frac{\sum_{i=1}^n (p_i-a_i)^2}{\sum_{i=1}^n (\bar{a}-a_i)^2} {,\bar{a}表示真实值的平均值} RSE=∑i=1n(aˉ−ai)2∑i=1n(pi−ai)2,aˉ表示真实值的平均值
- 平均绝对误差(Mean Absolute Error, MAE)
- MAE与原始数据单位相同,仅能比较误差是相同单位的模型,量级近似于RMSE,但是误差值相对小一些
- M A E = ∑ i = 1 n ∣ p i − a i ∣ n MAE = \frac{\sum_{i=1}^n |p_i-a_i|}{n} MAE=n∑i=1n∣pi−ai∣
- 相对绝对误差(Relative Absolute Error,RAE)
- 可以比较误差是不同单位的模型
- R A E = ∑ i = 1 n ∣ p i − a i ∣ ∑ i = 1 n ∣ a ˉ − a i ∣ RAE = \frac{\sum_{i=1}^n |p_i-a_i|}{\sum_{i=1}^n |\bar{a}-a_i|} RAE=∑i=1n∣aˉ−ai∣∑i=1n∣pi−ai∣
- 决定系数(coefficient of determination)
- 决定系数(R²)回归模型汇总了回归模型的解释度
- R 2 = 1 − ∑ i = 1 n ( p i − a i ) 2 ∑ i = 1 n ( a i − a ˉ ) 2 , R 2 越 接 近 1 表 示 回 归 模 型 越 完 美 R^2 = 1 - \frac{\sum_{i=1}^n (p_i-a_i)^2}{\sum_{i=1}^n (a_i - \bar{a})^2} {,R^2越接近1表示回归模型越完美} R2=1−∑i=1n(ai−aˉ)2∑i=1n(pi−ai)2,R2越接近1表示回归模型越完美
- 3. 拟合
- 欠拟合,特征太少
- 过拟合,特征过多
机器学习环境安装
以win10 + Python3.9为例,需要安装的库如下:
- matplotlib 绘图, 数据可视化
- numpy 矩阵运算
- pandas 数据分析
- tables 数据操作(读、写等)
- jupyter 科学计算平台,可以运行代码、做笔记、画图