C1
符号含义
x
\bold x
x:向量,曲线拟合问题中的x坐标数值序列。元素个数为N。
t
\bold t
t:向量,曲线拟合问题中的y坐标(target)数值序列。
w
\bold w
w:向量,曲线拟合问题中的待估计的参数,即M阶多项式的各阶系数。
β
\beta
β: 标量,协方差的倒数,表示样本的精度。
α
\alpha
α:标量,同上,曲线拟合例子中的先验的精度。
多项式曲线拟合
E
(
w
)
=
1
2
∑
n
=
1
N
{
y
(
x
n
,
w
)
−
t
n
}
2
E(w) = \frac{1}{2}\sum_{n=1}^N{\{y(x_n,w)-t_n}\}^2
E(w)=21n=1∑N{y(xn,w)−tn}2
RMS
E
R
M
S
=
2
E
(
w
)
N
E_{RMS}=\sqrt {\frac{2E(w)}{N}}
ERMS=N2E(w)
观测数据的多少,影响曲线拟合情况:同样的模型,如较少的数据会导致严重过拟合,较多的数据会使得拟合更接近理想模型。多项式的阶数影响拟合的结果。
控制过拟合现象的一种方法,
E
(
w
)
=
1
2
∑
n
=
1
N
{
y
(
x
n
,
w
)
−
t
n
}
2
+
λ
2
∥
w
∥
2
E(w) = \frac{1}{2}\sum_{n=1}^N\{{y(x_n,w)-t_n}\}^2+\frac{\lambda}{2}\|w\|^2
E(w)=21n=1∑N{y(xn,w)−tn}2+2λ∥w∥2
λ \lambda λ的数值也影响模型估计的结果。
Polynomial curve fitting is Least Square Minimization.
从概率方法的角度去看问题
对模型的输出变量做概率分布,Gaussian conditional distribution
p
(
t
∣
x
,
w
,
β
)
=
N
(
t
∣
y
(
x
,
w
)
,
β
−
1
)
p(t|x,\bold w,\beta) = \mathcal{N}(t|y(x,\bold w), \beta^{-1})
p(t∣x,w,β)=N(t∣y(x,w),β−1)
β
\beta
β未知,称为精度参数。
使用训练数据拟合曲线参数
w
w
w,
β
\beta
β,似然函数
p
(
t
∣
x
,
w
,
β
)
=
∏
n
=
i
N
N
(
t
n
∣
y
(
x
n
,
w
)
,
β
−
1
)
p(\bold t|\bold x,\bold w,\beta) = \prod_{n=i}^N {\mathcal{N}(t_n|y(x_n,\bold w), \beta^{-1})}
p(t∣x,w,β)=n=i∏NN(tn∣y(xn,w),β−1)
曲线拟合参数的maximum likely solution,直译最可能的解,“最大似然解”,与曲线拟合的误差最小二乘解等价。
P29式(1.63)?
贝叶斯后验概率同先验概率与似然概率的乘积呈正比
最大化后验,MAP,等价于最小化sum-of-squares regularized error function
贝叶斯的曲线估计
模型选择
从一系列模型中选择最佳模型。联想到Neural Architecture Search,
训练集用以迭代模型,验证集用于验证并迭代,最后用测试集检查过拟合问题。
有限训练数据,一交叉验证方法,S-fold cross-validation:数据分成S份,每次S-1份训练,余下1份验证,S种组合训练与验证。
交叉验证是自动化的验证方法。
?Akaike Information Criterion
l
n
p
(
D
∣
w
M
L
)
−
M
ln\ p(D|\bold w_{ML}) - M
ln p(D∣wML)−M
M指估计参数的个数。
维度诅咒
石油成分估计例,高维度的输入导致简单的思路无法解决实际问题。
解决高维度难题:1. 数据可以被confine到有效的低维度区域空间 2. 实际数据表现出(局部的)连续性,输入变量的局部小变化引起目标量的小变化。
决策理论
预测加决策
预测问题的分类:分类与回归。
分类例:依据X光片子诊断病人是否有肿瘤。
设计一个模型,输入X光图像,输出判断及其概率。
最小化推理错误概率即最大化后验概率,观测为x,分类为
C
∗
C_*
C∗
p
(
m
i
s
t
a
k
e
)
=
p
(
x
∈
R
1
,
C
2
)
+
p
(
x
∈
R
2
,
C
1
)
=
∫
R
1
p
(
x
,
C
2
)
d
x
+
∫
R
2
p
(
x
,
C
1
)
d
x
p
(
x
,
C
∗
)
=
p
(
x
)
∗
p
(
C
∗
∣
x
)
p(mistake)=p(x\in R_1,C_2)+p(x\in R_2,C_1)\\=\int_{R_1}p(x,C_2)dx+\int_{R_2}p(x,C_1)dx\\p(x,C_*)=p(x)*p(C_*|x)
p(mistake)=p(x∈R1,C2)+p(x∈R2,C1)=∫R1p(x,C2)dx+∫R2p(x,C1)dxp(x,C∗)=p(x)∗p(C∗∣x)
p ( c o r r e c t ) = ∑ k = 1 K ∫ R k p ( C k , x ) d x p(correct)=\sum^K_{k=1}\int_{R_k}p(C_k,x)dx p(correct)=k=1∑K∫Rkp(Ck,x)dx
loss matrix
[
0
1000
1
0
]
\left[\begin{array}{}0&1000\\1&0\end{array}\right]
[0110000]
回归例:曲线拟合
估计一个函数y(x),拟合目标t,对各个输入x而言
E
(
L
)
=
∫
∫
L
(
y
(
x
)
,
t
)
p
(
x
,
t
)
d
x
d
t
E(L)=\int \int L(y(x),t)p(x,t)dxdt
E(L)=∫∫L(y(x),t)p(x,t)dxdt
一般,
L
(
y
(
x
)
,
t
)
=
{
y
(
x
)
−
t
}
2
L(y(x),t)=\{y(x)-t\}^2
L(y(x),t)={y(x)−t}2
信息论
信息量概念:事件,随机变量的degree of surprise,惊喜度
两个规律:
- 越罕见的事件,概率越小,其信息量越大
- 独立事件的发生概率满足乘法运算,事件的信息量满足加法运算;
概率的负对数作信息量满足上述要求。
h
(
x
)
=
−
l
o
g
2
p
(
x
)
h(x)=-log_2p(x)
h(x)=−log2p(x)
h(x)单位为bit
一个随机变量的信息量的期望称为熵。
H
(
x
)
=
−
∑
p
(
x
)
l
o
g
2
p
(
x
)
H(x)=-\sum {p(x)log_2p(x)}
H(x)=−∑p(x)log2p(x)
熵的范围非负;概率分布越集中突出,其熵越小,最小为零,即某一个事件发生概率为1,其他事件发生概率为零。
从log2到自然对数,熵的单位从bits到nats。bits=ln2*nats
连续变量的熵:
H
(
x
)
=
∫
p
(
x
)
l
n
p
(
x
)
d
x
H(x)=\int p(x)lnp(x)dx
H(x)=∫p(x)lnp(x)dx
用变量表示事件,离散变量的熵的最大值为lnM,M为离散变量的取值的个数。连续变量的熵发散,未找到最大值。
相对熵:用分布q近似未知分布p,发送信息编码时所谓最优编码方法,则为使得信息无失真,需要额外的信息量,称为相对熵。即互信息。
− ∫ q ( x ) l n p ( x ) d x − ( − ∫ p ( x ) l n p ( x ) d x ) = − ∫ q ( x ) l n p ( x ) q ( x ) d x -\int q(x)lnp(x)dx -(-\int p(x)lnp(x)dx) \\ =-\int q(x)ln\frac{p(x)}{q(x)}dx −∫q(x)lnp(x)dx−(−∫p(x)lnp(x)dx)=−∫q(x)lnq(x)p(x)dx
−
l
n
<
∗
>
-ln<*>
−ln<∗>是凸函数。凸函数f(x)有如下性质,q(x)任意,
∫
q
(
x
)
d
x
=
1
\int q(x)dx=1
∫q(x)dx=1.
∫
q
(
x
)
f
(
x
)
d
x
≥
f
(
∫
q
(
x
)
x
d
x
)
\int q(x)f(x)dx \ge f(\int q(x)xdx)
∫q(x)f(x)dx≥f(∫q(x)xdx)