0
点赞
收藏
分享

微信扫一扫

机器学习入门

Greatiga 2022-02-01 阅读 74

机器学习入门

概念

从数据中自动分析获得模型,并利用模型对未知数据进行预测

工作流程介绍

在这里插入图片描述

1. 获取数据

数据集介绍

  • 样本:一行数据称为一个样本
  • 特征:一列数据称为一个特征
  • 目标值(标签值)

数据类型构成

  • 特征值 + 目标值
  • 只有特征值

数据划分

  • 训练数据(训练集) 占比约0.7~0.8 用于构建模型
  • 测试数据(测试集) 占比约0.2~0.3 用于模型评估

2. 数据基本处理

对数据进行缺失值,异常值的处理

3. 特征工程

使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好作用的过程,数据和特征决定了机器学习的上限,会直接影响机器学习的效果。

特征提取:将任意数据转换为可用于机器学习的数字特征。

特征预处理:通过一些转换函数,将特征数据转换成更加适合算法模型的特征数据的过程。

特征降维:指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程

4. 机器学习(模型训练)

算法分类

  • 监督学习
    • 输入数据是由特征值和目标值组成
    • 输出连续值(回归)或输出有限个离散值(分类)
    • 算法:分类k-临近算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络
  • 无监督学习
    • 输入数据只有特征值,样本数据类别未知,需要根据样本间的相似性对样本进行分类(聚类),试图使类内差距最小化,类间差距最大化
    • 算法:聚类k-means、降维
  • 半监督学习
    • 输入数据有特征值,一部分数据有目标值,一部分无目标值
  • 强化学习
    • 强化学习实质上是自动决策问题,并且可以做连续决策
    • 是动态过程,上一步数据输出是下一步的数据输入
    • 四要素:agent,action, environment, reward
    • 算法:马尔科夫决策、动态规划

5. 模型评估

1. 分类模型评估

  • 准确率:预测正确的数占样本总数的比例
  • 精确率:正确预测为正占全部预测为正的比例
  • 召回率:正确预测为正占全部正样本的比例
  • F1-score:主要用于评估模型的稳健性
  • AUC指标:注意用于评估样本不均衡的情况

2. 回归模型评估

  • 均方根误差(Root Mean Squared Error,RMSE)
    • 仅能比较误差是相同单位的模型
    • R M S E = ∑ i = 1 n ( p i − a i ) 2 n , p 和 a 表 示 预 测 值 和 真 实 值 , n 表 示 样 本 数 量 RMSE = \sqrt{\frac{\sum_{i=1}^n (p_i-a_i)^2}{n} } {,p和a表示预测值和真实值,n表示样本数量} RMSE=ni=1n(piai)2 pan
  • 相对平方误差(Relative Squared Error,RSE)
    • 可以比较误差是不同单位的模型
    • R S E = ∑ i = 1 n ( p i − a i ) 2 ∑ i = 1 n ( a ˉ − a i ) 2 , a ˉ 表 示 真 实 值 的 平 均 值 RSE = \frac{\sum_{i=1}^n (p_i-a_i)^2}{\sum_{i=1}^n (\bar{a}-a_i)^2} {,\bar{a}表示真实值的平均值} RSE=i=1n(aˉai)2i=1n(piai)2aˉ
  • 平均绝对误差(Mean Absolute Error, MAE)
    • MAE与原始数据单位相同,仅能比较误差是相同单位的模型,量级近似于RMSE,但是误差值相对小一些
    • M A E = ∑ i = 1 n ∣ p i − a i ∣ n MAE = \frac{\sum_{i=1}^n |p_i-a_i|}{n} MAE=ni=1npiai
  • 相对绝对误差(Relative Absolute Error,RAE)
    • 可以比较误差是不同单位的模型
    • R A E = ∑ i = 1 n ∣ p i − a i ∣ ∑ i = 1 n ∣ a ˉ − a i ∣ RAE = \frac{\sum_{i=1}^n |p_i-a_i|}{\sum_{i=1}^n |\bar{a}-a_i|} RAE=i=1naˉaii=1npiai
  • 决定系数(coefficient of determination)
    • 决定系数(R²)回归模型汇总了回归模型的解释度
    • R 2 = 1 − ∑ i = 1 n ( p i − a i ) 2 ∑ i = 1 n ( a i − a ˉ ) 2 , R 2 越 接 近 1 表 示 回 归 模 型 越 完 美 R^2 = 1 - \frac{\sum_{i=1}^n (p_i-a_i)^2}{\sum_{i=1}^n (a_i - \bar{a})^2} {,R^2越接近1表示回归模型越完美} R2=1i=1n(aiaˉ)2i=1n(piai)2R21
  • 3. 拟合
    • 欠拟合,特征太少
    • 过拟合,特征过多

机器学习环境安装

以win10 + Python3.9为例,需要安装的库如下:

  • matplotlib 绘图, 数据可视化
  • numpy 矩阵运算
  • pandas 数据分析
  • tables 数据操作(读、写等)
  • jupyter 科学计算平台,可以运行代码、做笔记、画图
举报

相关推荐

0 条评论