读书笔记: 《机器学习》第三章 线性模型
3.1 基本形式
3.1.1 线性模型的定义
3.1.2 线性模型的优点
- 简单易理解
- 计算效率高
- 容易实现和解释
3.1.3 线性模型的局限性
- 只能表达线性关系
- 对于复杂的非线性关系,表现较差
3.2 线性回归
3.2.1 基本概念
3.2.2 最小二乘法
正规方程
3.2.3 正则化
为防止过拟合,可以在损失函数中加入正则项:
3.3 对数几率回归
3.3.1 基本概念
3.3.2 损失函数
3.3.3 优化方法
常用的优化方法包括梯度下降和拟牛顿法(如 BFGS)。
梯度下降
3.4 线性判别分析
3.4.1 基本概念
线性判别分析(LDA)用于分类,通过建模不同类别的条件概率分布 P(x∣y) 并利用贝叶斯定理进行分类。
3.4.2 假设
- 各类别的条件概率分布)P(x∣y) 服从高斯分布
- 各类别的协方差矩阵相同
3.4.3 模型推导
应用贝叶斯定理,计算后验概率:
3.4.4 分类规则
3.5 多分类学习
3.5.1 一对多(One-vs-Rest)
将多分类问题转化为多个二分类问题,对每个类别分别训练一个分类器。
3.5.2 一对一(One-vs-One)
针对每一对类别训练一个分类器,共需训练 K(K−1)/2 个分类器。
3.5.3 Softmax 回归
损失函数
优化方法
3.6 类别不平衡问题
3.6.1 问题描述
在类别不平衡的情况下,模型容易偏向多数类,导致少数类的识别效果较差。
3.6.2 解决方法
- 重采样方法:包括过采样少数类和欠采样多数类。
- 代价敏感学习:在损失函数中引入不同类别的代价权重。
- 聚类:对少数类样本进行聚类,生成代表性样本以增加样本多样性。
重采样方法
- 过采样(如 SMOTE):增加少数类样本数量
- 欠采样:减少多数类样本数量
代价敏感学习
3.6.3 评价指标
常用的评价指标包括精确率、召回率、F1-score,以及 ROC 曲线和 AUC 值。
精确率和召回率
ROC 和 AUC
- ROC 曲线:反映分类器的敏感性与特异性的权衡关系
- AUC 值:ROC 曲线下的面积,数值越大表示模型性能越好