文章目录
一、判断
1、训练CNN时,可以对输入进行旋转、平移、缩放等预处理提高模型泛化能力。这么说是对,还是不对?(对)
2、深度学习与机器学习算法之间的区别在于,后者过程中无需进行特征提取工作,也就是说,我们建议在进行深度学习过程之前要首先完成特征提取的工作。这种说法是:(错)
二、单选
1、下列哪个函数不可以做激活函数 ( D )
A、y = tanh(x)
B、y = sin(x)
C、y = max(x,0)
D、y = 2x
2、列哪些项所描述的相关技术是错误的 ( C )
A、AdaGrad使用的是一阶差分(first order differentiation)
B、L-BFGS使用的是二阶差分(second order differentiation)
C、AdaGrad使用的是二阶差分
3、假设我们有一个使用ReLU激活函数(ReLU activation function)的神经网络,假如我们把ReLU激活替换为线性激活,那么这个神经网络能够模拟出同或函数(XNOR function)吗?( D )
A、可以
B、不好说
C、不一定
D、不能
4、深度学习是当前很热门的机器学习算法,在深度学习中,涉及到大量的矩阵相乘,现在需要计算三个稠密矩阵A,B,C 的乘积ABC,假设三个矩阵的尺寸分别为m∗n,n∗p,p∗q,且m <n < p < q,以下计算顺序效率最高的是 ( A )
A、(AB)C
B、AC(B)
C、A(BC)
D、所以效率都相同
5、梯度下降算法的正确步骤是什么 ( D )
a.计算预测值和真实值之间的误差
b.重复迭代,直至得到网络权重的最佳值
c.把输入传入网络,得到输出值
d.用随机值初始化权重和偏差
e.对每一个产生误差的神经元,调整相应的(权重)值以减小误差
A、abcde
B、edcba
C、cbaed
D、dcaeb
6、下列哪一项属于特征学习算法(representation learning algorithm)( C )
A、K近邻算法
B、随机森林
C、神经网络
D、都不属于
7、下面哪项操作能实现跟神经网络中Dropout的类似效果 ( B )
A、Boosting
B、Bagging
C、Stacking
D、Mapping
8、caffe中基本的计算单元为 ( B )
A、blob
B、layer
C、net
D、solver
9、阅读以下文字:假设我们拥有一个已完成训练的、用来解决车辆检测问题的深度神经网络模型,训练所用的数据集由汽车和卡车的照片构成,而训练目标是检测出每种车辆的名称(车辆共有10种类型)。现在想要使用这个模型来解决另外一个问题,问题数据集中仅包含一种车(福特野马)而目标变为定位车辆在照片中的位置 ( B )
A、除去神经网络中的最后一层,冻结所有层然后重新训练
B、对神经网络中的最后几层进行微调,同时将最后一层(分类层)更改为回归层
C、使用新的数据集重新训练模型
D、所有答案均不对
10、有关深度学习加速芯片,以下的说法中不正确的是:( C )
A、GPU既可以做游戏图形加速,也可以做深度学习加速
B、用于玩游戏的高配置显卡,也可以用于深度学习计算。
C、Google TPU已经发展了三代,它们只能用于推断(Inference)计算,不能用于训练(Training)计算
D、FPGA最早是作为CPLD的竞争技术而出现的
11、考虑以下问题:假设我们有一个5层的神经网络,这个神经网络在使用一个4GB显存显卡时需要花费3个小时来完成训练。而在测试过程中,单个数据需要花费2秒的时间。 如果我们现在把架构变换一下,当评分是0.2和0.3时,分别在第2层和第4层添加Dropout,那么新架构的测试所用时间会变为多少?( C )
A、少于2s
B、大于2s
C、仍是2s
D、说不准
12、关于Attention-based Model,下列说法正确的是 ( A )
A、相似度度量模型
B、是一种新的深度学习网络
C、是一种输入对输出的比例模型
D、都不对
13、下列的哪种方法可以用来降低深度学习模型的过拟合问题?( D )
①增加更多的数据
②使用数据扩增技术(data augmentation)
③使用归纳性更好的架构
④ 正规化数据
⑤ 降低架构的复杂度
A、1 4 5
B、1 2 3
C、1 3 4 5
D、所有项目都有用
14、假设我们有一个如下图所示的隐藏层。隐藏层在这个网络中起到了一定的降纬作用。假如现在我们用另一种维度下降的方法,比如说主成分分析法(PCA)来代替这个隐藏层,那么,这两者的输出效果是一样的吗 ( B )
A、是
B、否
15、假设你需要调整超参数来最小化代价函数(cost function),会使用下列哪项技术?( D )
A、穷举搜索
B、随机搜索
C、Bayesian优化
D、都可以
16、现有一 1920 * 1080 的单通道图像,每个像素用 float32 存储,对其进行 4 个 3 * 3 核的卷积(无 padding),卷积核如下:
1 1 1 1 1 0 0 1 1 0 1 0
1 0 1 1 1 1 1 1 1 1 1 1
1 1 1 0 1 1 1 1 0 0 1 0
若原图像由于量化问题出现了 100 个 INFINITY(无穷),而其他的值都在(-1,1)区间内,则卷积的结果至少有多少个 NaN? ( B )
A、256
B、284
C、296
D、324
17、提升卷积核(convolutional kernel)的大小会显著提升卷积神经网络的性能,这种说法是 ( B )
A、正确的
B、错误的
18、如果我们用了一个过大的学习速率会发生什么?( D )
A、神经网络会收敛
B、不好说
C、都不对
D、神经网络不会收敛
19、神经网络模型(Neural Network)因受人类大脑的启发而得名,神经网络由许多神经元(Neuron)组成,每个神经元接受一个输入,对输入进行处理后给出一个输出,如下图所示。请问下列关于神经元的描述中,哪一项是正确的?( E )
A、每个神经元可以有一个输入和一个输出
B、每个神经元可以有多个输入和一个输出
C、每个神经元可以有一个输入和多个输出
D、每个神经元可以有多个输入和多个输出
E、上述都正确
20、BatchNorm 层对于 input batch 会统计出 mean 和 variance 用于计算 EMA。如果input batch 的 shape 为(B, C, H, W),统计出的 mean 和 variance 的 shape 为: ( B )
A、B * 1 * 1 * 1
B、1 * C * 1 * 1
C、B * C * 1 * 1
D、1 * 1 * 1 * 1
21、ResNet-50 有多少个卷积层? ( B )
A、48
B、49
C、50
D、51
22、下列哪一项在神经网络中引入了非线性 ( B )
A、随机梯度下降
B、修正线性单元(ReLU)
C、卷积函数
D、以上都不正确
23、如果增加多层感知机(Multilayer Perceptron)的隐藏层 层数,分类误差便会减小。这种陈述正确还是错误?( B )
A、正确
B、错误
24、考虑某个具体问题时,你可能只有少量数据来解决这个问题。不过幸运的是你有一个类似问题已经预先训练好的神经网络。可以用下面哪种方法来利用这个预先训练好的网络? ( C )
A、把除了最后一层外所有的层都冻结,重新训练最后一层
B、对新数据重新训练整个模型
C、只对最后几层进行调参(fine tune)
D、对每一层模型进行评估,选择其中的少数来用
25、下列哪个神经网络结构会发生权重共享?( D )
A、卷积神经网络
B、循环神经网络
C、全连接神经网络
D、选项A和B
26、输入图片大小为200×200,依次经过一层卷积(kernel size 5×5,padding 1,stride 2),pooling(kernel size 3×3,padding 0,stride 1),又一层卷积(kernel size 3×3,padding 1,stride 1)之后,输出特征图大小为 ( C )
A、95
B、96
C、97
D、98
27、已知:(1)大脑是有很多个叫做神经元的东西构成,神经网络是对大脑的简单的数学表达。(2)每一个神经元都有输入、处理函数和输出。(3)神经元组合起来形成了网络,可以拟合任何函数。(4)为了得到最佳的神经网络,我们用梯度下降方法不断更新模型。给定上述关于神经网络的描述,什么情况下神经网络模型被称为深度学习模型?( A )
A、加入更多层,使神经网络的深度增加
B、有维度更高的数据
C、当这是一个图形识别的问题时
D、以上都不正确
28、下图显示了训练过的3层卷积神经网络准确度,与参数数量(特征核的数量)的关系。从图中趋势可见(先上升,后下降),如果增加神经网络的宽度,精确度会增加到一个特定阈值后,便开始降低。造成这一现象的可能原因是什么?( C )
A、即使增加卷积核的数量,只有少部分的核会被用作预测
B、当卷积核数量增加时,神经网络的预测能力(Power)会降低
C、当卷积核数量增加时,导致过拟合
D、以上都不正确
29、假设你有5个大小为7x7、边界值为0的卷积核,同时卷积神经网络第一层的深度为1。此时如果你向这一层传入一个维度为224x224x3的数据,那么神经网络下一层所接收到的数据维度是多少?( A )
A、218x218x5
B、217x217x8
C、217x217x3
D、220x220x5
30、混沌度(Perplexity)是一种常见的应用在使用深度学习处理NLP问题过程中的评估技术,关于混沌度,哪种说法是正确的?( B)
A、混沌度没什么影响
B、混沌度越低越好
C、混沌度越高越好
D、混沌度对于结果的影响不一定
31、在CNN网络中,图A经过核为3x3,步长为2的卷积层,ReLU激活函数层,BN层,以及一个步长为2,核为2 * 2的池化层后,再经过一个3 * 3 的的卷积层,步长为1,此时的感受野是 ( D )
A、10
B、11
C、12
D、13
32、在训练神经网络时,损失函数(loss)在最初的几个epochs时没有下降,可能的原因是?( D)
A、学习率(learning rate)太低
B、正则参数太高
C、陷入局部最小值
D、以上都有可能
33、下图是一个利用sigmoid函数作为激活函数的含四个隐藏层的神经网络训练的梯度下降图。这个神经网络遇到了梯度消失的问题。下面哪个叙述是正确的?( A )
A、第一隐藏层对应D,第二隐藏层对应C,第三隐藏层对应B,第四隐藏层对应A
B、第一隐藏层对应A,第二隐藏层对应C,第三隐藏层对应B,第四隐藏层对应D
C、第一隐藏层对应A,第二隐藏层对应B,第三隐藏层对应C,第四隐藏层对应D
D、第一隐藏层对应B,第二隐藏层对应D,第三隐藏层对应C,第四隐藏层对应A
34、基于二次准则函数的H-K算法较之于感知器算法的优点是 ( B )
A、计算量小
B、可以判别问题是否线性可分
C、其解完全适用于非线性可分的情况
35、有关深度神经网络的训练(Training)和推断(Inference),以下说法中不正确的是:( B )
A、将数据分组部署在不同GPU上进行训练能提高深度神经网络的训练速度。
B、TensorFlow使用GPU训练好的模型,在执行推断任务时,也必须在GPU上运行。
C、将模型中的浮点数精度降低,例如使用float16代替float32,可以压缩训练好的模型的大小。
D、GPU所配置的显存的大小,对于在该GPU上训练的深度神经网络的复杂度、训练数据的批次规模等,都是一个无法忽视的影响因素。
36、当在卷积神经网络中加入池化层(pooling layer)时,变换的不变性会被保留,是吗?( C )
A、不知道
B、看情况
C、是
D、否
37、在下面哪种情况下,一阶梯度下降不一定正确工作(可能会卡住)?( B )
38、构建一个神经网络,将前一层的输出和它自身作为输入。( A )
下列哪一种架构有反馈连接?
A、循环神经网络
B、卷积神经网络
C、限制玻尔兹曼机
D、都不是
39、sigmoid导数为 ( D )
A、f(z)
B、f(1-z)
C、f(1+z)f(1-z)
D、f(z)(1-f(z))
40、下图所示的网络用于训练识别字符H和T,如下所示 ( D )
41、CNN常见的Loss函数不包括以下哪个 ( D )
A、softmax_loss
B、sigmoid_loss
C、Contrastive_Loss(对比损失)
D、siamese_loss
42、在感知机中(Perceptron)的任务顺序是什么?( D )
1、随机初始化感知机的权重 2、去到数据集的下一批(batch)
3、如果预测值和输出不一致,则调整权重 4、对一个输入样本,计算输出值
A、1, 2, 3, 4
B、4, 3, 2, 1
C、3, 1, 2, 4
D、1, 4, 3, 2
43、在一个神经网络中,下面哪种方法可以用来处理过拟合?( D )
A、Dropout
B、分批归一化(Batch Normalization)
C、正则化(regularization)
D、都可以
44、在选择神经网络的深度时,下面哪些参数需要考虑? ( C )
1 神经网络的类型(如MLP,CNN) 2 输入数据 3 计算能力(硬件和软件能力决定)
4 学习速率 5 映射的输出函数
A、1,2,4,5
B、2,3,4,5
C、都需要考虑
D、1,3,4,5
45、当数据过大以至于无法在RAM中同时处理时,哪种梯度下降方法更加有效?( A )
A、随机梯度下降法(Stochastic Gradient Descent)
B、不知道
C、整批梯度下降法(Full Batch Gradient Descent)
D、都不是
46、批规范化(Batch Normalization)的好处都有啥 ( A )
A、让每一层的输入的范围都大致固定
B、它将权重的归一化平均值和标准差
C、它是一种非常有效的反向传播(BP)方法
D、这些均不是
47、在一个神经网络中,知道每一个神经元的权重和偏差是最重要的一步。如果知道了神经元准确的权重和偏差,便可以近似任何函数,但怎么获知每个神经的权重和偏移呢?( B )
A、搜索每个可能的权重和偏差组合,直到得到最佳值
B、赋予一个初始值,然后检查跟最佳值的差值,不断迭代调整权重
C、随机赋值,听天由命
D、以上都不正确的
三、多选
1、深度学习中的激活函数需要具有哪些属性 ( A B D )
A、计算简单
B、非线性
C、具有饱和区
D、几乎处处可微
2、googlenet提出的Inception结构优势有( A D )
A、保证每一层的感受野不变,网络深度加深,使得网络的精度更高
B、使得每一层的感受野增大,学习小特征的能力变大
C、有效提取高层语义信息,且对高层语义进行加工,有效提高网络准确度
D、利用该结构有效减轻网络的权重
3、下列是caffe支持的loss优化的方法的是 ( A B C D )
A、Adam
B、SGD
C、AdaDelta
D、Nesterov
4、深度学习中,以下哪些方法可以降低模型过拟合?( A B D )
A、增加更多的样本
B、Dropout
C、增大模型复杂度,提高在训练集上的效果
D、增加参数惩罚