0
点赞
收藏
分享

微信扫一扫

正则化、过拟合和欠拟合—大厂笔试汇总

鲤鱼打个滚 2022-03-11 阅读 91

文章目录

一、欠拟合

1、下列方法中,解决欠拟合的方法有哪些 (CD)

A、正则化方法
B、集成学习方法
C、添加新特征
D、减少正则化系数

2、假如你用logistic Regression 算法去预测用户在网上的购买项目,然而,当你在新的用户集上验证你的假设时,你发现预测值有很大的偏差。并且你的假设在训练集上表现也很差,下面那些步骤你应该采纳,选择出正确的选项 ( A )

A、尝试着减小正则项 λ
B、尝试增加交叉特征
C、减小样本量
D、尝试更小的测试集或者特征

二、过拟合

1、以下哪些方法有助于解决模型训练过程中的过拟合问题 (ABCD)

A、正则化
B、Dropout
C、Batch Normalization
D、提前终止训练
E、梯度下降

2、在其他条件不变的前提下,以下哪种做法容易引起机器学习中的过拟合问题 ( D )

A、增加训练集量
B、减少神经网络隐藏层节点数
C、删除稀疏的特征
D、SVM算法中使用高斯核/RBF核代替线性核

3、以下说法正确的是 ( D )

A、增加模型复杂度,模型在测试集上的准确率就能更好
B、L2正则化的解通常是稀疏的,L1正则化可以使得参数趋向于更平滑
C、对于PCA,我们应该选择是的模型具有最小variance的主成分
D、每次使用K-means算法得到的聚类结果可能会不一样

4、当发现机器学习模型过拟合时,以下操作正确的是:( ABC )

A、降低特征维度
B、增加样本数量
C、添加正则项
D、增加特征维度

5、以下可以有效解决过拟合的方法是:( AD )

A、增加样本数量
B、增加特征数量
C、训练更多的迭代次数
D、采用正则化方法

6、机器学习中,如果一味的去提高训练数据的预测能力,所选模型的复杂度往往会很高,这种现象称为过拟合。所表现的就是模型训练时候的误差很小,但在测试的时候误差很大,对于产生这种现象以下说法正确的是:( AC )

A、样本数量太少
B、样本数量过多
C、模型太复杂
D、模型太简单

7、以下可以有效解决过拟合的方法是:( ABD )

A、增加样本数量
B、通过特征选择减少特征数量
C、训练更多的迭代次数
D、采用正则化方法

8、在一个神经网络中,下面哪种方法可以用来处理过拟合?( D )

A、Dropout
B、分批归一化(Batch Normalization)
C、正则化(regularization)
D、都可以

9、深度学习中,以下哪些方法可以降低模型过拟合?( A B D )

A、增加更多的样本
B、Dropout
C、增大模型复杂度,提高在训练集上的效果
D、增加参数惩罚

10、下列的哪种方法可以用来降低深度学习模型的过拟合问题?( D )

①增加更多的数据

②使用数据扩增技术(data augmentation)

③使用归纳性更好的架构

④ 正规化数据

⑤ 降低架构的复杂度

A、1 4 5
B、1 2 3
C、1 3 4 5
D、所有项目都有用

三、正则化

1、以下关于正则化的描述正确的是 (ABCD )

A、正则化可以防止过拟合
B、L1正则化能得到稀疏解
C、L2正则化约束了解空间
D、Dropout也是一种正则化方法

2、机器学习中L1正则化和L2正则化的区别是 ( AD )

A、使用L1可以得到稀疏的权值
B、使用L1可以得到平滑的权值
C、使用L2可以得到稀疏的权值
D、使用L2可以得到平滑的权值

3、假如使用一个较复杂的脊回归模型 (Ridge Regression),来拟合样本数据时,通过调整正则化参数λ,来调整模型复杂度。当λ较大时,关于偏差(bias)和方差(variance),下列说法正确的是 ( C )

A、当λ增大时,偏差减小,方差减小
B、当λ增大时,偏差减小,方差增大
C、当λ增大时,偏差增大,方差减小
D、当λ增大时,偏差增大,方差增大

四、总结

1、人工智能概念补充

1、在深度学习中,我们通常选择对于模型参数可微的损失函数。简而言之,这意味着,对于每个参数, 如果我们把这个参数增加减少一个无穷小的量,我们可以知道损失会以多快的速度增加或减少。

2、梯度:指向值变化最大的方向。(和等高线正交)

3、如果当数据量不是很大的时候(万级别以下)的时候将训练集、验证集以及测试集划分为6:2:2;若是数据很大,可以将训练集、验证集、测试集比例调整为98:1:1;但是当可用的数据很少的情况下也可以使用一些高级的方法,比如留出方,K折交叉验证

4、bias和variance的区别和作用

bias 偏差 :模型的期望(或平均)预测和正确值之间的差别;

variance 方差 :模型之间的多个拟合预测之间的偏离程度。

2 正则化补充

2.1 正则化的概念

正则化-Regularization(也称为惩罚项或范数)就是通过对模型的参数在“数量”和“大小”方面做相应的调整,从而降低模型的复杂度,以达到避免过拟合的效果。

如果我们的目标仅仅是最小化损失函数(即经验风险最小化),那么模型的复杂度势必会影响到模型的整体性能;引入正则化(即结构风险最小化)可以理解为衡量模型的复杂度,同时结合经验风险最小化,进一步训练优化算法。

2.2 正则化的作用

正则化可以限制模型的复杂度,从而尽量避免过拟合的发生;模型之所以出现过拟合的主要原因是学习到了过多噪声,即模型过于复杂(也可以通过简化模型或增加数据集等方法尽量避免过拟合的发生)。

2.3 正则化的常见类型

(1)L1正则化

可以通过稀疏化(减少参数“数量”)来降低模型复杂度的,即可以将参数值减小到0。

(2)L2正则化

可以通过减少参数值“大小”来降低模型的复杂度,即只能将参数值不断减小,但永远不会减小为0,只能尽量接近于0。

2.4 关联概念

过拟合、正则化、经验风险最小化、结构风险最小化、损失函数、模型复杂度、范数

举报

相关推荐

0 条评论