0
点赞
收藏
分享

微信扫一扫

札记_ML——《统计学习方法》一.概述

古月无语 2022-04-07 阅读 68

《统计学习方法》一.概述


第一章

一、矩阵和向量空间

  • 1.矩阵基础运算知识:


  • 2.特征值与特征向量


  • 3.方向导数与梯度

∂ f ∂ l = ∂ f ∂ x cos ⁡ α + ∂ f ∂ y cos ⁡ β = { ∂ f ∂ x , ∂ f ∂ y } { cos ⁡ α , cos ⁡ β } = gradf ⁡ ( x , y ) e = ∣ gradf ⁡ ( x , y ) ∣ ∣ e ∣ cos ⁡ [ gradf ⁡ ( x , y ) , e ] \begin{aligned} \frac{\partial f}{\partial l} &=\frac{\partial f}{\partial x} \cos \alpha+\frac{\partial f}{\partial y} \cos \beta\\ &=\left\{\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y}\right\}\{\cos \alpha, \cos \beta\}\\ &=\operatorname{gradf}(x, y) e \\ &=|\operatorname{gradf}(x, y)||e| \cos [\operatorname{gradf}(x, y), e] \end{aligned} lf=xfcosα+yfcosβ={xf,yf}{cosα,cosβ}=gradf(x,y)e=gradf(x,y)ecos[gradf(x,y),e]

cos ⁡ [ gradf ⁡ ( x , y ) , e ] = 1 \cos [\operatorname{gradf}(x, y), e]=1 cos[gradf(x,y),e]=1

∣ gradf ⁡ ( x , y ) ∣ = ( ∂ f ∂ x ) 2 + ( ∂ f ∂ y ) 2 |\operatorname{gradf}(x, y)|=\sqrt{\left(\frac{\partial f}{\partial x}\right)^{2}+\left(\frac{\partial f}{\partial y}\right)^{2}} gradf(x,y)=(xf)2+(yf)2
因此说,函数在一点沿梯度方向的变化率最大,最大值为该梯度的模。


二、概率论基础

  • 1.随机变量及其分布

  • 2.多维随机变量及其分布

  • 3.随机变量的数字特征

  • 4.中心极限定理

  • 5.样本及抽样分布

  • 6.极大似然估计和贝叶斯估计

第二章 统计学习及监督学习概论

0.统计学习概念:

1.应用

在这里插入图片描述

2.概念:已知–>未知

统计学习概念

3.统计学习方法的步骤

在这里插入图片描述

4.分类

在这里插入图片描述

1).监督学习——有标签信息

监督学习

相关概念

相关你概念1
在这里插入图片描述

在这里插入图片描述

流程图

在这里插入图片描述

2).无监督学习

在这里插入图片描述
在这里插入图片描述

3). 强化学习——与环境互动,奖励是基于长期累积价值最大化实现的

基于策略:最优策略模型
基于价值:最优价值模型

在这里插入图片描述

1、监督学习

1).模型

在这里插入图片描述
在这里插入图片描述

逻辑回归logistic regression

1).概念logistic回归又称logistic回归分析,是一种广义的线性回归分析模型。

本质是:假设数据服从这个分布,然后使用极大似然估计做参数的估计。

2).Logistic分布:——连续性概率分布

分 布 函 数 : F ( x ) = P ( X ≤ x ) = 1 1 + e − ( x − μ ) / γ 概 率 密 度 函 数 : f ( x ) = F ′ ( X ≤ x ) = e − ( x − μ ) / γ γ ( 1 + e − ( x − μ ) / γ ) 2 \begin{gathered} 分布函数:F(x)=P(X \leq x)=\frac{1}{1+e^{-(x-\mu) / \gamma}} \\ 概率密度函数:f(x)=F^{\prime}(X \leq x)=\frac{e^{-(x-\mu) / \gamma}}{\gamma\left(1+e^{-(x-\mu) / \gamma}\right)^{2}} \end{gathered} F(x)=P(Xx)=1+e(xμ)/γ1f(x)=F(Xx)=γ(1+e(xμ)/γ)2e(xμ)/γ
其中, μ μ μ表示位置参数 γ > 0 γ>0 γ>0形状参数;
.Logistic分布

F ( x ) F(x) F(x)曲线

逻辑回归曲线

3)适用范围:预测一件二分类事情是否发生——跟其数值型自变量的关系;

0)模型:

z = w T x + b   ∈ R p = L ( z )   ∈ [ 0 , 1 ] \begin{gathered} z&=&w^{T} x+b \ \in R\\ p&=&L(z) \ \in [0,1] \end{gathered} zp==wTx+b RL(z) [0,1]

1)公式推导
2)将 y y y 视为类后验概率估计,重写公式有:

w T x + b = ln ⁡ P ( Y = 1 ∣ x ) 1 − P ( Y = 1 ∣ x ) P ( Y = 1 ∣ x ) = 1 1 + e − ( w T x + b ) \begin{gathered} w^{T} x+b&=&\ln \frac{P(Y=1 \mid x)}{1-P(Y=1 \mid x)} \\ P(Y=1 \mid x)&=&\frac{1}{1+e^{-\left(w^{T} x+b\right)}} \end{gathered} wTx+bP(Y=1x)==ln1P(Y=1x)P(Y=1x)1+e(wTx+b)1
输出 Y=1 的对数几率是由输入 x 的线性函数表示的模型,这就是逻辑回归模型。

3)使用对数几率的意义在哪?

Logistic 回归实际上是使用线性回归模型的预测值逼近分类任务真实标记的对数几率
其有点有:

4)用途:

策略

在这里插入图片描述
在这里插入图片描述

2. 无监督学习unsupervised


二. 模型评估与模型选择

1. 正则化项 与交叉验证

1)正则化项:

在这里插入图片描述

L_1范数: 特征选择
L_2范数: 防止过拟合

2)交叉验证

在这里插入图片描述

泛化能力

测试数据集有限,并不可靠;

1.泛化误差

在这里插入图片描述

2.泛化误差上界(概率上界)

在这里插入图片描述

生成模型与判别模型

生成模型

在这里插入图片描述

判别模型在这里插入图片描述

区别

在这里插入图片描述

应用

1). 分类:

评价指标

在这里插入图片描述

  • 二分类
    在这里插入图片描述
举报

相关推荐

0 条评论