《统计学习方法》一.概述
- 第一章
- 第二章 统计学习及监督学习概论
第一章
一、矩阵和向量空间
-
1.矩阵基础运算知识:
-
2.特征值与特征向量
-
3.方向导数与梯度
∂ f ∂ l = ∂ f ∂ x cos α + ∂ f ∂ y cos β = { ∂ f ∂ x , ∂ f ∂ y } { cos α , cos β } = gradf ( x , y ) e = ∣ gradf ( x , y ) ∣ ∣ e ∣ cos [ gradf ( x , y ) , e ] \begin{aligned} \frac{\partial f}{\partial l} &=\frac{\partial f}{\partial x} \cos \alpha+\frac{\partial f}{\partial y} \cos \beta\\ &=\left\{\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y}\right\}\{\cos \alpha, \cos \beta\}\\ &=\operatorname{gradf}(x, y) e \\ &=|\operatorname{gradf}(x, y)||e| \cos [\operatorname{gradf}(x, y), e] \end{aligned} ∂l∂f=∂x∂fcosα+∂y∂fcosβ={∂x∂f,∂y∂f}{cosα,cosβ}=gradf(x,y)e=∣gradf(x,y)∣∣e∣cos[gradf(x,y),e]
cos [ gradf ( x , y ) , e ] = 1 \cos [\operatorname{gradf}(x, y), e]=1 cos[gradf(x,y),e]=1
∣
gradf
(
x
,
y
)
∣
=
(
∂
f
∂
x
)
2
+
(
∂
f
∂
y
)
2
|\operatorname{gradf}(x, y)|=\sqrt{\left(\frac{\partial f}{\partial x}\right)^{2}+\left(\frac{\partial f}{\partial y}\right)^{2}}
∣gradf(x,y)∣=(∂x∂f)2+(∂y∂f)2
因此说,函数在一点沿梯度方向的变化率最大,最大值为该梯度的模。
二、概率论基础
-
1.随机变量及其分布
-
2.多维随机变量及其分布
-
3.随机变量的数字特征
-
4.中心极限定理
-
5.样本及抽样分布
-
6.极大似然估计和贝叶斯估计
第二章 统计学习及监督学习概论
0.统计学习概念:
1.应用
2.概念:已知–>未知
3.统计学习方法的步骤
4.分类
1).监督学习——有标签信息
相关概念
流程图
2).无监督学习
3). 强化学习——与环境互动,奖励是基于长期累积价值最大化实现的
基于策略:最优策略模型
基于价值:最优价值模型
1、监督学习
1).模型
逻辑回归logistic regression
1).概念logistic回归又称logistic回归分析,是一种广义的线性回归分析模型。
本质是:假设数据服从这个分布,然后使用极大似然估计做参数的估计。
2).Logistic分布:——连续性概率分布
分
布
函
数
:
F
(
x
)
=
P
(
X
≤
x
)
=
1
1
+
e
−
(
x
−
μ
)
/
γ
概
率
密
度
函
数
:
f
(
x
)
=
F
′
(
X
≤
x
)
=
e
−
(
x
−
μ
)
/
γ
γ
(
1
+
e
−
(
x
−
μ
)
/
γ
)
2
\begin{gathered} 分布函数:F(x)=P(X \leq x)=\frac{1}{1+e^{-(x-\mu) / \gamma}} \\ 概率密度函数:f(x)=F^{\prime}(X \leq x)=\frac{e^{-(x-\mu) / \gamma}}{\gamma\left(1+e^{-(x-\mu) / \gamma}\right)^{2}} \end{gathered}
分布函数:F(x)=P(X≤x)=1+e−(x−μ)/γ1概率密度函数:f(x)=F′(X≤x)=γ(1+e−(x−μ)/γ)2e−(x−μ)/γ
其中,
μ
μ
μ表示位置参数,
γ
>
0
γ>0
γ>0 为形状参数;
F ( x ) F(x) F(x)曲线
3)适用范围:预测一件二分类事情是否发生——跟其数值型自变量的关系;
0)模型:
z = w T x + b ∈ R p = L ( z ) ∈ [ 0 , 1 ] \begin{gathered} z&=&w^{T} x+b \ \in R\\ p&=&L(z) \ \in [0,1] \end{gathered} zp==wTx+b ∈RL(z) ∈[0,1]
1)公式推导
2)将 y y y 视为类后验概率估计,重写公式有:
w
T
x
+
b
=
ln
P
(
Y
=
1
∣
x
)
1
−
P
(
Y
=
1
∣
x
)
P
(
Y
=
1
∣
x
)
=
1
1
+
e
−
(
w
T
x
+
b
)
\begin{gathered} w^{T} x+b&=&\ln \frac{P(Y=1 \mid x)}{1-P(Y=1 \mid x)} \\ P(Y=1 \mid x)&=&\frac{1}{1+e^{-\left(w^{T} x+b\right)}} \end{gathered}
wTx+bP(Y=1∣x)==ln1−P(Y=1∣x)P(Y=1∣x)1+e−(wTx+b)1
即输出 Y=1 的对数几率是由输入 x 的线性函数表示的模型,这就是逻辑回归模型。
3)使用对数几率的意义在哪?
Logistic 回归实际上是使用线性回归模型的预测值逼近分类任务真实标记的对数几率
其有点有:
4)用途:
策略
2. 无监督学习unsupervised
二. 模型评估与模型选择
1. 正则化项 与交叉验证
1)正则化项:
L_1范数: 特征选择
L_2范数: 防止过拟合
2)交叉验证
泛化能力
测试数据集有限,并不可靠;
1.泛化误差
2.泛化误差上界(概率上界)
生成模型与判别模型
生成模型
判别模型
区别
应用
1). 分类:
评价指标
- 二分类