0
点赞
收藏
分享

微信扫一扫

习题2-8和2-9

木樨点点 2022-03-19 阅读 29
机器学习

2-8问题描述

以回归问题为例,假设样本的真实分布为 p r ( x , y ) p_r{(x,y)} pr(x,y),并采用平方损失函数,模型 f ( x ) f(x) f(x)的期望错误为:
R ( f ) = E ( x , y )   p r ( x , y ) [ ( y − f ( x ) ) 2 ] \mathcal{R}\left( f \right) =\mathbb{E}_{\left( x,y \right) ~p_r\left( x,y \right)}\left[ \left( y-f\left( x \right) \right) ^2 \right] R(f)=E(x,y) pr(x,y)[(yf(x))2]
那么最优模型为:
f ∗ ( x ) = E y   p r ( y ∣ x ) [ y ] f^*\left( x \right) =\mathbb{E}_{y~p_r\left( y|x \right)}\left[ y \right] f(x)=Ey pr(yx)[y]
验证上述公式。

解析

这涉及到了概率论中的条件期望,先去整理条件期望去了 ,这里我对条件期望是真的没有太多的记忆了,这里用的大多是其性质推导。这里我参考了答案
f f f可测,所以 f ( x ) f(x) f(x)关于“变量 x x x生成的 σ \sigma σ代数”可测,那么,由条件期望的性质,我们有:
E [ f 2 ( x ) ∣ x ] = f 2 ( x ) , a , e ; E [ y f ( x ) ∣ x ] = f ( x ) E [ y ∣ x ] , a , e \mathbb{E}\left[ f^2\left( x \right) |x \right] =f^2\left( x \right) ,a,e;\mathbb{E}\left[ yf\left( x \right) |x \right] =f\left( x \right) \mathbb{E}\left[ y|x \right] ,a,e E[f2(x)x]=f2(x),a,e;E[yf(x)x]=f(x)E[yx],a,e
从而有:
R ( f ) = E [ ( y − f ( x ) ) 2 ] = E ( E [ ( y − f ( x ) ) 2 ∣ x ] ) \mathcal{R}\left( f \right) =\mathbb{E}\left[ \left( y-f\left( x \right) \right) ^2 \right] =\mathbb{E}\left( \mathbb{E}\left[ \left( y-f\left( x \right) \right) ^2|x \right] \right) R(f)=E[(yf(x))2]=E(E[(yf(x))2x])
       = E ( E [ y 2 ∣ x ] + E [ f 2 ( x ) ∣ x ] − 2 E [ y f ( x ) ∣ x ] ) \ \ \ \ \ \ =\mathbb{E}\left( \mathbb{E}\left[ y^2|x \right] +\mathbb{E}\left[ f^2\left( x \right) |x \right] -2\mathbb{E}\left[ yf\left( x \right) |x \right] \right)       =E(E[y2x]+E[f2(x)x]2E[yf(x)x])
       = E ( E [ y 2 ∣ x ] + f 2 ( x ) − 2 f ( x ) E [ y ∣ x ] ) \ \ \ \ \ \ =\mathbb{E}\left( \mathbb{E}\left[ y^2|x \right] +f^2\left( x \right) -2f\left( x \right) \mathbb{E}\left[ y|x \right] \right)       =E(E[y2x]+f2(x)2f(x)E[yx])
由条件期望形式的Jensen 不等式有 E [ y 2 ∣ x ] ≥ ( E [ y ∣ x ] ) 2 \mathbb{E}\left[ y^2|x \right] \ge \left( \mathbb{E}\left[ y|x \right] \right) ^2 E[y2x](E[yx])2,将此式代入上式进行放缩,我们有;
R ( f ) ≥ E ( f ( x ) − E [ y ∣ x ] ) 2 ≥ 0 \mathcal{R}\left( f \right) \ge \mathbb{E}\left( f\left( x \right) -\mathbb{E}\left[ y|x \right] \right) ^2\ge 0 R(f)E(f(x)E[yx])20
故而 R ( f ∗ ) = 0 R(f^*)=0 R(f)=0等价于 E ( f ∗ ( x ) − E [ y ∣ x ] ) 2 = 0 \mathbb{E}\left( f^*\left( x \right) -\mathbb{E}\left[ y|x \right] \right) ^2=0 E(f(x)E[yx])2=0等价于 f ∗ ( x ) = E [ y ∣ x ] f^*\left( x \right) =\mathbb{E}\left[ y|x \right] f(x)=E[yx]

2-9问题描述

试着分析什么因素会导致模型出现如下图高偏差和高方差的情况?
在这里插入图片描述

解析

偏差(Bias),是指一个模型在不同训练集上的平均性能和最优模型的差异,可以用来衡量一个模型的差异,可以用来衡量一个模型的拟合能力。
方差(Variance) 是指一个模型在不同训练集上的差异,可以用来衡量一个模型是否容易过拟合。
可能是选择的模型和数据集相差甚远
高偏差代表选的模型的拟合能力较差,高方差说明模型容易过拟合无泛化能力。下图表示了机器学习模型的期望误差、偏差和方差随复杂度的变化情况。
在这里插入图片描述
随着模型的复杂度增加,模型的拟合能力变强,偏差减少而方差增大,从而导致过拟合。以结构风险最小化为例,我们可以调整正则化系数 λ \lambda λ来控制模型的复杂度。当 λ \lambda λ变大时,总的期望错误反而会上升,因此一个好的 λ \lambda λ需要在偏差和方差之间取得较好的平衡。

举报

相关推荐

0 条评论