2-8问题描述
以回归问题为例,假设样本的真实分布为
p
r
(
x
,
y
)
p_r{(x,y)}
pr(x,y),并采用平方损失函数,模型
f
(
x
)
f(x)
f(x)的期望错误为:
R
(
f
)
=
E
(
x
,
y
)
p
r
(
x
,
y
)
[
(
y
−
f
(
x
)
)
2
]
\mathcal{R}\left( f \right) =\mathbb{E}_{\left( x,y \right) ~p_r\left( x,y \right)}\left[ \left( y-f\left( x \right) \right) ^2 \right]
R(f)=E(x,y) pr(x,y)[(y−f(x))2]
那么最优模型为:
f
∗
(
x
)
=
E
y
p
r
(
y
∣
x
)
[
y
]
f^*\left( x \right) =\mathbb{E}_{y~p_r\left( y|x \right)}\left[ y \right]
f∗(x)=Ey pr(y∣x)[y]
验证上述公式。
解析
这涉及到了概率论中的条件期望,先去整理条件期望去了 ,这里我对条件期望是真的没有太多的记忆了,这里用的大多是其性质推导。这里我参考了答案
f
f
f可测,所以
f
(
x
)
f(x)
f(x)关于“变量
x
x
x生成的
σ
\sigma
σ代数”可测,那么,由条件期望的性质,我们有:
E
[
f
2
(
x
)
∣
x
]
=
f
2
(
x
)
,
a
,
e
;
E
[
y
f
(
x
)
∣
x
]
=
f
(
x
)
E
[
y
∣
x
]
,
a
,
e
\mathbb{E}\left[ f^2\left( x \right) |x \right] =f^2\left( x \right) ,a,e;\mathbb{E}\left[ yf\left( x \right) |x \right] =f\left( x \right) \mathbb{E}\left[ y|x \right] ,a,e
E[f2(x)∣x]=f2(x),a,e;E[yf(x)∣x]=f(x)E[y∣x],a,e
从而有:
R
(
f
)
=
E
[
(
y
−
f
(
x
)
)
2
]
=
E
(
E
[
(
y
−
f
(
x
)
)
2
∣
x
]
)
\mathcal{R}\left( f \right) =\mathbb{E}\left[ \left( y-f\left( x \right) \right) ^2 \right] =\mathbb{E}\left( \mathbb{E}\left[ \left( y-f\left( x \right) \right) ^2|x \right] \right)
R(f)=E[(y−f(x))2]=E(E[(y−f(x))2∣x])
=
E
(
E
[
y
2
∣
x
]
+
E
[
f
2
(
x
)
∣
x
]
−
2
E
[
y
f
(
x
)
∣
x
]
)
\ \ \ \ \ \ =\mathbb{E}\left( \mathbb{E}\left[ y^2|x \right] +\mathbb{E}\left[ f^2\left( x \right) |x \right] -2\mathbb{E}\left[ yf\left( x \right) |x \right] \right)
=E(E[y2∣x]+E[f2(x)∣x]−2E[yf(x)∣x])
=
E
(
E
[
y
2
∣
x
]
+
f
2
(
x
)
−
2
f
(
x
)
E
[
y
∣
x
]
)
\ \ \ \ \ \ =\mathbb{E}\left( \mathbb{E}\left[ y^2|x \right] +f^2\left( x \right) -2f\left( x \right) \mathbb{E}\left[ y|x \right] \right)
=E(E[y2∣x]+f2(x)−2f(x)E[y∣x])
由条件期望形式的Jensen 不等式有
E
[
y
2
∣
x
]
≥
(
E
[
y
∣
x
]
)
2
\mathbb{E}\left[ y^2|x \right] \ge \left( \mathbb{E}\left[ y|x \right] \right) ^2
E[y2∣x]≥(E[y∣x])2,将此式代入上式进行放缩,我们有;
R
(
f
)
≥
E
(
f
(
x
)
−
E
[
y
∣
x
]
)
2
≥
0
\mathcal{R}\left( f \right) \ge \mathbb{E}\left( f\left( x \right) -\mathbb{E}\left[ y|x \right] \right) ^2\ge 0
R(f)≥E(f(x)−E[y∣x])2≥0
故而
R
(
f
∗
)
=
0
R(f^*)=0
R(f∗)=0等价于
E
(
f
∗
(
x
)
−
E
[
y
∣
x
]
)
2
=
0
\mathbb{E}\left( f^*\left( x \right) -\mathbb{E}\left[ y|x \right] \right) ^2=0
E(f∗(x)−E[y∣x])2=0等价于
f
∗
(
x
)
=
E
[
y
∣
x
]
f^*\left( x \right) =\mathbb{E}\left[ y|x \right]
f∗(x)=E[y∣x]
2-9问题描述
试着分析什么因素会导致模型出现如下图高偏差和高方差的情况?
解析
偏差(Bias),是指一个模型在不同训练集上的平均性能和最优模型的差异,可以用来衡量一个模型的差异,可以用来衡量一个模型的拟合能力。
方差(Variance) 是指一个模型在不同训练集上的差异,可以用来衡量一个模型是否容易过拟合。
可能是选择的模型和数据集相差甚远
高偏差代表选的模型的拟合能力较差,高方差说明模型容易过拟合无泛化能力。下图表示了机器学习模型的期望误差、偏差和方差随复杂度的变化情况。
随着模型的复杂度增加,模型的拟合能力变强,偏差减少而方差增大,从而导致过拟合。以结构风险最小化为例,我们可以调整正则化系数
λ
\lambda
λ来控制模型的复杂度。当
λ
\lambda
λ变大时,总的期望错误反而会上升,因此一个好的
λ
\lambda
λ需要在偏差和方差之间取得较好的平衡。