0
点赞
收藏
分享

微信扫一扫

数据结构经典面试之列表——C#和C++篇

心存浪漫 2024-06-23 阅读 30

读书笔记: 《机器学习》第三章 线性模型

3.1 基本形式

3.1.1 线性模型的定义

3.1.2 线性模型的优点

  • 简单易理解
  • 计算效率高
  • 容易实现和解释

3.1.3 线性模型的局限性

  • 只能表达线性关系
  • 对于复杂的非线性关系,表现较差

3.2 线性回归

3.2.1 基本概念

3.2.2 最小二乘法

正规方程

3.2.3 正则化

为防止过拟合,可以在损失函数中加入正则项:

3.3 对数几率回归

3.3.1 基本概念

3.3.2 损失函数

3.3.3 优化方法

常用的优化方法包括梯度下降和拟牛顿法(如 BFGS)。

梯度下降

3.4 线性判别分析

3.4.1 基本概念

线性判别分析(LDA)用于分类,通过建模不同类别的条件概率分布 P(x∣y) 并利用贝叶斯定理进行分类。

3.4.2 假设

  • 各类别的条件概率分布)P(x∣y) 服从高斯分布
  • 各类别的协方差矩阵相同

3.4.3 模型推导

应用贝叶斯定理,计算后验概率:

3.4.4 分类规则

3.5 多分类学习

3.5.1 一对多(One-vs-Rest)

将多分类问题转化为多个二分类问题,对每个类别分别训练一个分类器。

3.5.2 一对一(One-vs-One)

针对每一对类别训练一个分类器,共需训练 K(K−1)/2 个分类器。

3.5.3 Softmax 回归

损失函数

优化方法

3.6 类别不平衡问题

3.6.1 问题描述

在类别不平衡的情况下,模型容易偏向多数类,导致少数类的识别效果较差。

3.6.2 解决方法

  • 重采样方法:包括过采样少数类和欠采样多数类。
  • 代价敏感学习:在损失函数中引入不同类别的代价权重。
  • 聚类:对少数类样本进行聚类,生成代表性样本以增加样本多样性。
重采样方法
  • 过采样(如 SMOTE):增加少数类样本数量
  • 欠采样:减少多数类样本数量
代价敏感学习

3.6.3 评价指标

常用的评价指标包括精确率、召回率、F1-score,以及 ROC 曲线和 AUC 值。

精确率和召回率

ROC 和 AUC
  • ROC 曲线:反映分类器的敏感性与特异性的权衡关系
  • AUC 值:ROC 曲线下的面积,数值越大表示模型性能越好
举报

相关推荐

0 条评论