1. 声明1:可以通过将所有权重初始化为0 来训练网络。 声明2:可以通过将偏差初始化为0来很好地训练网络 以上哪些陈述是真实的?
A 1对2错
B 1错2对
C 1和2都对
D 1和2都错
正确答案是:B, 您的选择是:C
解析:即使所有的偏差都为零,神经网络也有可能学习。 另一方面,如果所有的权重都是零; 神经网络可能永远不会学习执行任务。
以下是常用的初始化方法:
def init_weights(self):
for m in self.modules():
if isinstance(m, nn.Conv2d):
init.kaiming_normal_(m.weight, mode='fan_out')
if m.bias is not None:
init.constant_(m.bias, 0)
elif isinstance(m, nn.BatchNorm2d):
init.constant_(m.weight, 1)
init.constant_(m.bias, 0)
elif isinstance(m, nn.Linear):
init.normal_(m.weight, std=0.001)
if m.bias is not None:
init.constant_(m.bias, 0)
可以看到,一般是初始化bias为0
2. 对于MLP,输入层中的节点数为10,隐藏层为5.从输入层到隐藏层的最大连接数是
A 50
B 小于50
C 超过50
D 这是一个任意值
正确答案是:A, 您的选择是:A
解析:由于MLP是完全连通的有向图,因此连接数是输入层和隐藏层中节点数的乘积。
3. 在输出层不能使用以下哪种激活函数来分类图像?
A sigmoid
B Tanh
C ReLU
D If(x> 5,1,0)
正确答案是:C, 您的选择是:D
解析:ReLU在0到无限的范围内提供连续输出。但是在输出层中,我们需要一个有限范围的值。所以选项C是正确的。
4. 在神经网络中,每个参数可以有不同的学习率。这句话是对还是错
A 对
B 错
正确答案是:A, 您的选择是:A
解析:是的,我们可以定义每个参数的学习率,并且它可以与其他参数不同。
5. 红色曲线表示关于深度学习算法中每个时期的训练精度。绿色和蓝色曲线都表示验证的准确性。 哪条曲线表示过拟合overfitting?
A 绿色曲线
B 蓝色曲线
正确答案是:B, 您的选择是:B
解析:蓝色曲线表示过拟合overfitting,绿色曲线表示泛化generalized.
6. What does a neuron compute?
A A neuron computes the mean of all features before applying the output to an activation function
B A neuron computes a function g that scales the input x linearly (Wx + b)
C A neuron computes an activation function followed by a linear function (z = Wx + b)
D A neuron computes a linear function (z = Wx + b) followed by an activation function
正确答案是:D, 您的选择是:D
解析:一个神经元先计算线性函数(linear function),然后计算激活函数(activation function)。 也就是说,输入是x的话,先计算 z = Wx + b,再把z作为输入计算sigmoid(z),显然这里我们假设激活函数是sigmoid。 所以答案是d。
7. Which of the following are reasons for using feature scaling?
A It prevents the matrix XTX (used in the normal equation) from being no n-invertable (singular/degenerate).
B It speeds up gradient descent by making it require fewer iterations to get to a good solution.
C It speeds up gradient descent by making each iteration of gradient descent less expensive to compute.
D It is necessary to prevent the normal equation from getting stuck in local optima.
正确答案是:B, 您的选择是:B
解析:
- A X t X X^tX XtX不可逆与矩阵行或列向量的线性相关以及特征向量过多有关,A无关系。
- B 见上面归一化的定义。具体原理如下图所示,左图中梯度的方向为垂直等高线的方向而走之字形路线,这样会使迭代很慢,步子变多。右图中垂直走就很快。
- C 感觉应该是减少了迭代次数,但每次迭代计算的代价对同一个电脑来说是一样的。
- D 归一化方程得到的就是最优的theta值,没有局部最优化问题。此外,线性回归的代价函数总是一个凸函数,此函数没有局部最优解,只有全局最优解。无论什么时候,这种代价函数使用线性回归/递归下降法得到的结果,都会是收敛到全局最优值的。
8. 在CNN,拥有最大池总是减少参数?
A 对
B 错
正确答案是:B, 您的选择是:B
解析:这并非总是如此。如果我们将池大小的最大池层设置为1,则参数将保持不变。
9. 多义现象可以被定义为在文本对象中一个单词或短语的多种含义共存。 下列哪一种方法可能是解决此问题的最好选择?
A 随机森林分类器
B卷积神经网络
C 梯度爆炸
D 上述所有方法
正确答案是:B, 您的选择是:B
解析:CNN 是文本分类问题中比较受欢迎的选择,因为它们把上下文的文本当作特征来考虑,这样可以解决多义问题。
10. 假设你为10000个单词学习词嵌入,为了捕获全部范围的单词的变化以及意义,那么词嵌入向量应该是10000维的。
A 正确
B 错误
正确答案是:B, 您的选择是:A
解析:可以不用10000,取个几百维就可以。
11. 假设你下载了一个已经在一个很大的文本语料库上训练过的词嵌入的数据,然后你要用这个词嵌入来训练RNN并用于识别一段文字中的情感,判断这段文字的内容是否表达了“快乐”。那么即使“欣喜若狂”这个词没有出现在你的小训练集中,你的RNN也会认为“我欣喜若狂”应该被贴上y = 1的标签。
A 正确
B 错误
正确答案是:A, 您的选择是:B
解析:一个很大的文本语料库上已经包含了“欣喜若狂”这4个人字的词向量,经过了预训练,这4个字和快乐属性词向量上非常接近,可以分类为1.
12. 你认为把下面这个过滤器应用到灰度图像会怎么样?
A 会检测45度边缘
B 会检测垂直边缘
C 会检测水平边缘
D 会检测图像对比度
正确答案是:B, 您的选择是:B
解析:因为左边的部分是正的,右边的部分是负的。左边亮,右边暗
13. 假设你的输入是一个300×300的彩色(RGB)图像,而你没有使用卷积神经网络。 如果第一个隐藏层有100个神经元,每个神经元与输入层进行全连接,那么这个隐藏层有多少个参数(包括偏置参数)?
A 9,000,001
B 9,000,100
C 27,000,001
D 27,000,100
正确答案是:D, 您的选择是:C
解析:先计算[100,300∗300∗3]=100∗300∗300∗3=27,000,000,然后计算偏置b,因为第一隐藏层有100个节点,每个节点有1个偏置参数,所以b=100,加起来就是27,000,000+100=27,000,100。
14. 假设你的输入是300×300彩色(RGB)图像,并且你使用卷积层和100个过滤器,每个过滤器都是5×5的大小,请问这个隐藏层有多少个参数(包括偏置参数)?
A 2501
B 2600
C 7500
D 7600
正确答案是:D, 您的选择是:D
解析:553+1=76 76*100=7600