文章目录
一、单选
1、当在一个决策树中划分一个节点时,以下关于“信息增益”的论述正确的是 ( C )
1.较不纯的节点需要更多的信息来描述总体
2.信息增益可以通过熵来推导
3.信息增益偏向于选择大量值的属性
A、1
B、2
C、2和3
D、所有都对
2、有关机器学习算法,以下说法中不正确的是:( D )
A、之所以说监督学习和无监督学习之间并不存在一条严格的界限,是因为很难客观地区分监督者给定的一个值是特征(feature)还是目标(target)。
B、当深度学习网络的最后一层是一个softmax分类器时,我们可以把网络的前面部分看成是一种表示学习(Representation Learning)的计算单元。
C、一个聚类算法将样本分成k个不同的聚类(cluster),从另一个角度说,这个聚类算法其实是为样本中的每一个实例提供了一种k维的one-hot编码方式
D、随机梯度下降(Stochastic Gradient Descent)算法是用小规模的样本近似估计梯度的方法,适合在大规模数据上训练深度神经网络,但在逻辑回归、SVM等算法中的作用很有限。
3、设f(x)在x0可导,则
lim
h
→
0
f
(
x
0
−
2
h
)
−
f
(
x
0
)
h
=
lim
−
2
h
→
0
f
(
x
0
+
−
2
h
)
−
f
(
x
0
)
−
2
h
=
−
2
f
⋅
(
x
0
)
\lim_{h\rightarrow0}\frac{f(x_0-2h)-f(x_0)}{h}=\lim_{-2h\rightarrow0}\frac{f(x_0 +-2h)-f(x_0)}{-2h}=-2f^·(x_0)
h→0limhf(x0−2h)−f(x0)=−2h→0lim−2hf(x0+−2h)−f(x0)=−2f⋅(x0)
4、以下属于生成式模型的是:( C )
A、SVM
B、随机森林
C、隐马尔可夫模型HMM
D、逻辑回归
5、假设随机变量X与Y都服从正态分布,且N(0,δ2),且P(x≤1,Y≤-1)=1/4,则P(x>1,Y>-1)的值是 (A)
A、1/4
B、2/5
C、2/4
D、3/4
6、类域界面方程法中,不能求线性不可分情况下分类问题近似或精确解的方法是?( B )
A、伪逆法
B、感知器算法
C、基于二次准则的H-K算法
D、势函数法
7、Nave Bayes是一种特殊的Bayes分类器,特征变量是X,类别标签是C,它的一个假定是:( C )
A、各类别的先验概率P©是相等的
B、以0为均值,sqr(2)/2为标准差的正态分布
C、特征变量X的各个维度是类别条件独立随机变量
D、P(X|C)是高斯分布
8、假设我们想估计A和B这两个参数,在开始状态下二者都是未知的,但如果知道了A的信息就可以得到B的信息,反过来知道了B也就得到了A。可以考虑首先赋予A某种初值,以此得到B的估计值,然后从B的当前值出发,重新估计A的取值,这个过程一直持续到收敛为止,该算法是 ( C ) 的算法思想。
A、极大似然法
B、朴素贝叶斯分类器
C、EM算法
D、贝叶斯决策论
9、
f
(
x
)
=
e
x
2
的
单
调
递
增
区
间
(
C
)
f(x)=e^{x^2} 的单调递增区间 ( C )
f(x)=ex2的单调递增区间(C)
A、(-∞,+∞)
B、(-∞,0)
C、(0,+∞)
D、没有单调递增区间
10、二分类任务中,有三个分类器h1,h2,h3,三个测试样本x1,x2,x3。假设1表示分类结果正确,0表示错误,h1在x1,x2,x3的结果分别(1,1,0),h2,h3分别为(0,1,1),(1,0,1),按投票法集成三个分类器,下列说法正确的是 ( A ) (注:0,1不是类别标签,而是模型预测结果是正确还是错误的意思)
A、集成提高了性能
B、集成没有效果
C、集成降低了性能
D、集成效果不能确定
11、在测试一假设h时,发现在一包含n=1000个随机抽取样例的样本s上,它出现r=300个错误,计算Errors(h)的标准差 ( A )
A、0.0145
B、0.145
C、1.45
D、14.5
12、如下表是用户是否使用某产品的调查结果 ( C )
UID | 年龄 | 地区 | 学历 | 收入 | 用户是否使用调查产品 |
---|---|---|---|---|---|
1 | 低 | 北方 | 博士 | 低 | 是 |
2 | 高 | 北方 | 本科 | 中 | 否 |
3 | 低 | 南方 | 本科 | 高 | 否 |
4 | 高 | 北方 | 研究生 | 中 | 是 |
请计算年龄,地区,学历,收入中对用户是否使用调查产品信息增益最大的属性(Log23≈0.63)
A、年龄
B、地区
C、学历
D、收入
13、假定某同学使用贝叶斯分类模型时,由于失误操作,致使训练数据中两个维度重复表示。下列描述中正确的是:( B )
A、被重复的在模型中作用被加强
B、模型效果精度降低
C、如果所有特征都被重复一遍,则预测结果不发生变化
14、均值移动(Mean Shift)算法的核心思想是: ( B )
A、构建Hessian矩阵,判别当前点是否为比邻域更亮或更暗的点,由此来确定关键点的位置
B、找到概率密度梯度为零的采样点,并以此作为特征空间聚类的模式点
C、从每一个点开始作为一个类,然后迭代的融合最近的类。能创建一个树形层次结构的聚类模型
15、考虑如下数据集,其中Customer ID(顾客id),Transaction ID(事务id),Items Bought(购买项)。如果将每个事务id看成一个购物篮,计算项集{e}, {b, d}, {b, d, e}的支持度: ( A )
Customer ID | Transaction ID | Items Bought |
---|---|---|
1 | 0001 | {a, d, e} |
1 | 0024 | {a, b, c, e} |
2 | 0012 | {a, b, d, e} |
2 | 0031 | {a, c, d, e} |
3 | 0015 | {b, c, e} |
3 | 0022 | {b, d, e} |
4 | 0029 | {c,d} |
4 | 0040 | {a, b, c} |
5 | 0033 | {a, d, e} |
5 | 0038 | {a, b, e} |
A、s({e}) =0.8 s({b, d})= 0.2 s({b, d, e})= 0.2
B、s({e}) =0.7 s({b, d})= 0.3 s({b, d, e})= 0.3
C、s({e}) =0.6 s({b, d})= 0.4 s({b, d, e})= 0.3
D、s({e}) =0.8 s({b, d})= 0.1 s({b, d, e})= 0.1
16、SPSS的界面中,以下是主窗口是 ( B )
A、语法编辑窗口
B、数据编辑窗口
C、结果输出窗口
D、脚本编辑窗口
17、下列关于线性回归说法错误的是 ( D )
A、在现有模型上,加入新的变量,所得到的R^2的值总会增加
B、线性回归的前提假设之一是残差必须服从独立正态分布
C、残差的方差无偏估计是SSE/(n-p)
D、自变量和残差不一定保持相互独立
18、关于朴素贝叶斯分类算法,描述正确的是:( A )
A、它假设属性之间相互独立
B、根据先验概率计算后验概率
C、对于给定的待分类项X={a1,a2,…,an},求解在此项出现的条件下各个类别 yi 出现的概率,哪个P(yi|X)最大,就把此待分类项归属于哪个类别。
D、有最小错误率判断规则和最小风险判断规则
19、目标变量在训练集上的7个实际值为[1,1,1,1,0,0,0],目标变量的熵近似值是(log3/7=-0.847,log4/7=-0.560)( A )
A、0.683
B、-0.683
C、0.724
D、-0.243
20、如果假设h在n=65的独立抽取样本上出现 r=10个错误,真实的错误率的90%的置信区间(双侧的,Z90=1.64)是 ( A )
A、0.16±0.073
B、0.16±0.73
C、1.6±0.073
D、1.6±0.73
error(h)的N%的置信区间为:
e
r
r
o
r
s
(
h
)
±
Z
N
e
r
r
o
r
s
(
h
)
−
(
1
−
e
r
r
o
s
(
h
)
)
n
errors(h)\pm Z_N\sqrt{\frac{errors(h)-(1-erros(h))}{n}}
errors(h)±ZNnerrors(h)−(1−erros(h))
当N=90时,查数理统计得出:ZN = 1.64,可得真错误率的90%的置信区间为:
2
13
±
Z
N
2
13
−
(
1
−
2
13
)
65
=
0.16
±
0.073
\frac{2}{13}\pm Z_N\sqrt{\frac{\frac{2}{13}-(1-\frac{2}{13})}{65}}=0.16\pm 0.073
132±ZN65132−(1−132)=0.16±0.073
21、根据是否需要标注数据,机器学习方法可以分为有监督学习和无监督学习。监督学习中的训练集用于 ( B )
A、定量评价机器学习性能
B、估算模型
C、验证模型
D、定性评价机器学习性能
22、有关机器学习分类算法的Precision和Recall,以下定义中正确的是(假定tp = true positive, tn = true negative, fp = false positive, fn = false negative) ( A )
A、Precision= tp / (tp + fp), Recall = tp / (tp + fn)
B、Precision = tp / (tn + fp), Recall = tp /(tp + fn)
C、Precision = tp / (tn + fn), Recall = tp /(tp + fp)
D、Precision = tp / (tp + fp), Recall = tp /(tn + fn)
23、请在如下列表中,求出其最大子段和:( B )
i | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
---|---|---|---|---|---|---|---|---|
x[i] | 1 | 3 | -5 | 3 | -2 | 6 | -5 | 3 |
A、8
B、7
C、9
D、10
24、优化问题
max 4x1 + 2x2 + 4x3 + 2x4 + x5 + x6
s.t. 4x1 + 4x2 + 6x3 + 2x4 + 3x5 + 2x6<= 11
x1, x2, x3, x4, x5, x6 ∈{0,1}
的最优目标函数值为 ( B)
A、9
B、8
C、7
D、6
25、关于支持向量机SVM,下列说法错误的是 ( C )
A、L2正则项,作用是最大化分类间隔,使得分类器拥有更强的泛化能力
B、Hinge 损失函数,作用是最小化经验分类错误
C、分类间隔为1/||w||,||w||代表向量的模
D、当参数C越小时,分类间隔越大,分类错误越多,趋于欠学习
26、下列算法常用于聚类的问题是 ( A )
A、k-means
B、逻辑回归模型
C、决策树模型
D、随机森林模型
27、一监狱人脸识别准入系统用来识别待进入人员的身份,此系统一共包括识别4种不同的人员:狱警,小偷,送餐员,其他。下面哪种学习方法最适合此种应用需求:( B )
A、二分类问题
B、多分类问题
C、层次聚类问题
D、k-中心点聚类问题
E、回归问题
F、结构分析问题
28、下面关于Adaboost算法的描述中,错误的是 ( D )
A、AdaBoost模型是弱分类器的线性组合:
f
(
x
)
=
∑
m
=
1
M
a
n
G
m
(
x
)
f(x)=\sum_{m=1}^{M}{a_n}{G_m}(x)
f(x)=m=1∑ManGm(x)
B、提升树是以分类树或者回归树为基本分类器的提升办法,提升树被认为是统计学习中最有效的办法之一
C、AdaBoost算法的一个解释是该算法实际上是前向分步算法的一个实现,在这个方法里,模型是加法模型,损失函数是指数损失,算法是前向分步算法。
D、AdaBoost同时独立地学习多个弱分类器
29、EM算法是 ( B )
A、有监督
B、无监督
C、半监督
D、都不是
30、一般,k-NN最近邻方法在 ( B ) 的情况下效果较好。
A、样本较多但典型性不好
B、样本较少但典型性好
C、样本呈团状分布
D、样本呈链状分布
31、关于机器学习算法正确的是 ( C )
A、LR模型在加入正则化项后Variance将增大
B、线性SVM是寻找最小边缘的超平面的一个分类器
C、xgboost和GDBT都是属于boosting算法
D、xgboost和随机森林都是属于bagging算法
32、在spss的基础分析模块中,作用是“以行列表的形式揭示数据之间的关系”的是 ( C )
A、数据描述
B、相关
C、交叉表
D、多重相应
33、在对问题的解空间树进行搜索的方法中,一个结点有多次机会成为活结点的是:( B )
A、动态规划
B、回溯法
C、分支限界法
D、回溯法和分支限界法
34、当不知道数据所处类别时,可以使用哪种技术促使同类数据与其他类数据分离 ( B )
A、分类
B、聚类
C、关联分析
D、隐马尔可夫链
35、以下几种模型方法属于判别式模型的有 ( C )
A、1,4
B、3,4
C、2,3
D、1,2
- 生成式模型
- 判别式分析
- 朴素贝叶斯
- 混合高斯模型
- 隐马尔科夫模型(HMM)
- 贝叶斯网络
- Sigmoid Belief Networks
- 马尔科夫随机场(Markov Random Fields)
- 深度信念网络(DBN)
- 判别式模型
- 线性回归(Linear Regression)
- K近邻(KNN)
- 逻辑斯蒂回归(Logistic Regression)
- 神经网络(NN)
- 支持向量机(SVM)
- 高斯过程(Gaussian Process)
- 条件随机场(CRF)
- CART(Classification and Regression Tree)
36、以下哪个表达式不可以转换成线性表达式?( D )
A、y = |x|
B、If x = 0, then y = 0
C、y = min(x1, x2)
D、y = x * x
37、考虑两队之间的足球比赛:队0 和队 1。假设65%的比赛队0胜出、P(Y=0)=0.65。剩余的比赛队1胜出、P(Y=1)=0.35。队0获胜的比赛中只有30%在队1的主场、P(X=1|Y=0)=0.3,而队1获胜的比赛中75%是主场获胜、P(X=1|Y=1)=0.75。则队1在主场获胜的概率即P(Y=1|X=1)为 ( A )
A、0.57
B、0.42
C、0.69
D、0.28
38、在HMM中,如果已知观察序列和产生观察序列的状态序列,那么可用以下哪种方法直接进行参数估计 ( D )
A、EM算法
B、维特比算法
C、前向后向算法
D、极大似然估计
40、小王在经营健身器材店,其中A品牌羽毛球拍的年需求量为8,000。每个羽毛球拍每年的储存成本为2.50元,每次进货的固定成本为50元。若他每次卖完库存就去进货,他每次进货应该订购多少数量的A品牌的羽毛球拍(其它成本忽略不计)?( D )
A、238
B、239
C、293
D、283
41、解决隐马模型中预测问题的算法是 ( D )
A、前向算法
B、后向算法
C、Baum-Welch算法
D、维特比算法
42、下面关于支持向量机(SVM)的描述错误的是 ( C )
A、是一种监督式学习的方法
B、可用于多分类的问题
C、是一种生成式模型
D、支持非线性的核函数
43、EM算法(Exception Maximization Algorithm)是机器学习领域的一个经典算法,下面关于EM算法的表述中不正确的有 ( A )
A、EM算法属于一种分类算法
B、如果优化的目标函数是凸函数,那么EM算法一定能找到全局最优解
C、EM算法可以分为E-Step和M-Step两步
D、EM算法可用于从不完整的数据中计算最大似然估计
44、在其他条件不变的前提下,以下哪种做法容易引起机器学习中的过拟合问题 ( D )
A、增加训练集量
B、减少神经网络隐藏层节点数
C、删除稀疏的特征
D、SVM算法中使用高斯核/RBF核代替线性核
45、有两个样本点,第一个点为正样本,它的特征向量是(0,-1);第二个点为负样本,它的特征向量是(2,3),从这两个样本点组成的训练集构建一个线性SVM分类器的分类面方程是 ( C )
A、2x+y=4
B、x+2y=5
C、x+2y=3
D、以上都不对
46、bootstrap数据是什么意思?( C )
A、有放回地从总共M个特征中抽样m个特征
B、无放回地从总共M个特征中抽样m个特征
C、有放回地从总共N个样本中抽样n个样本
D、无放回地从总共N个样本中抽样n个样本
47、下面关于贝叶斯分类器描述错误的是 (B)
A、以贝叶斯定理为基础
B、是基于后验概率,推导出先验概率
C、可以解决有监督学习的问题
D、可以用极大似然估计法解贝叶斯分类器
48、假如使用一个较复杂的脊回归模型 (Ridge Regression),来拟合样本数据时,通过调整正则化参数λ,来调整模型复杂度。当λ较大时,关于偏差(bias)和方差(variance),下列说法正确的是 ( C )
A、当λ增大时,偏差减小,方差减小
B、当λ增大时,偏差减小,方差增大
C、当λ增大时,偏差增大,方差减小
D、当λ增大时,偏差增大,方差增大
49、下面有关序列模式挖掘算法的描述,错误的是 ( C )
A、AprioriAll算法和GSP算法都属于Apriori类算法,都要产生大量的候选序列
B、FreeSpan算法和PrefixSpan算法不生成大量的候选序列以及不需要反复扫描原数据库
C、在时空的执行效率上,FreeSpan比PrefixSpan更优
D、和AprioriAll相比,GSP的执行效率比较高
50、关于累加器,下面哪个是错误的 ( D )
A、支持加法
B、支持数值类型
C、可并行
D、不支持自定义类型
51、以下机器学习中,在数据预处理时,不需要考虑归一化处理的是:( C )
A、logistic回归
B、SVM
C、树形模型
D、神经网络
52、一般情况下,KNN最近邻方法在 ( D ) 情况下效果最好。
A、样本呈现团状分布
B、样本呈现链状分布
C、样本较多但典型性不好
D、样本较少但典型性好
53、有如下两组数据 {(-1,0),(-1,2),(1,2)} ,{(0,0),(1,0),(1,1)}
我们在该数据集上训练一个线性SVM模型,该模型中的支持向量是哪些 ( C )
A、(−1,2),(1,1),(1,0)
B、(−1,0),(−1,2),(1,1),(1,0)
C、(−1,0),(1,2),(0,0),(1,1)
D、(−1,0),(-1,2),(0,0),(1,0)
54、以下说法正确的是 ( D )
A、增加模型复杂度,模型在测试集上的准确率就能更好
B、L2正则化的解通常是稀疏的,L1正则化可以使得参数趋向于更平滑
C、对于PCA,我们应该选择是的模型具有最小variance的主成分
D、每次使用K-means算法得到的聚类结果可能会不一样
55、如果假设h在n=65的独立抽取样本上出现r=10个错误,真实的错误率的90%的置信区间(双侧的,Z90=1.64)是 ( A )
A、0.16±0.073
B、0.16±0.73
C、1.6±0.073
D、1.6±0.73
56、下面哪些可能是一个文本语料库的特征 ( C )
1.一个文档中的词频统计
2.文档中单词的布尔特征
3.词向量
4.词性标记
5.基本语法依赖
6.整个文档
A、123
B、1234
C、12345
D、123456
57、随机抽样一致算法(random sample consensus,RANSAC),采用迭代的方式从一组包含离群的被观测数据中估算出数学模型的参数。对于RANSAC的基本假设描述不正确的是:( B )
A、给定一组(通常很小)的内群,存在一个程序,这个程序可以估算最佳解释或最适用于这一数据模型的参数
B、离群点离inliers集中区域的差距再可控范围内
C、"内群”数据可以通过几组模型的参数来叙述其分别,而“离群”数据则是不适合模型化的数据
D、数据会受噪声影响,噪声指的是离群,例如从极端的噪声或错误解释有关数据的测量或不正确的假设
58、列关于分类器的说法中不正确的是 ( C )
A、SVM的目标是找到使得训练数据尽可能分开且分类间隔最大的超平面,属于结构风险最小化
B、Naive Bayes是一种特殊的Bayes分类器,其一个假定是每个变量相互条件独立。
C、Xgboost是一种优秀的集成算法,其优点包括速度快、对异常值不敏感、支持自定义损失函数等
D、随机森林中列采样的过程保证了随机性,所以就算不剪枝,也不容易出现过拟合。
59、下列关于分类器的说法中不正确的是 ( C )
A、SVM的目标是找到使得训练数据尽可能分开且分类间隔最大的超平面,属于结构风险最小化
B、Naive Bayes是一种特殊的Bayes分类器,其一个假定是每个变量相互条件独立。
C、Xgboost是一种优秀的集成算法,其优点包括速度快、对异常值不敏感、支持自定义损失函数等等
D、随机森林中列采样的过程保证了随机性,所以就算不剪枝,也不容易出现过拟合。
60、下列说法不正确的是 ( B )
A、梯度下降法是利用当前位置的负梯度作为搜索方向的方法
B、批量梯度下降和随机梯度下降相比,批量梯度下降优势是对于大规模样本效率很高
C、牛顿法和梯度下降法相比,一个劣势是求解复杂,一个优势是收敛速度加快
D、共轭梯度法仅需利用一阶导数的信息,但是收敛速度高于梯度下降法
61、以下描述正确的是:( C )
A、KNN算法中K值对分类效果影响较为显著,一般K值较大时,对噪声比较敏感。
B、朴素贝叶斯算法对缺失数据特别敏感,事先需要知道先验概率。
C、SVM算法可以解决高维问题。提高泛化性能。
D、集成学习算法存在过拟合、鲁棒性不强等问题。
62、Apriori算法在机器学习和数据挖掘中被广泛使用,已知有1000名球迷看奥运会,分为AB两队,每队各500人,其中A队有500人看了乒乓球比赛,同时又有450人看了羽毛球比赛;B队有450人看了羽毛球比赛,如下表所示:那么 乒乓球→羽毛球的支持度、置信度和提升度分别是==( A )==
看乒乓球人数 | 看羽毛球人数 | |
---|---|---|
A队(500人) | 500 | 450 |
B对(500人) | 0 | 450 |
A、0.45 0.9 1
B、0.1 0.1 1
C、0.45 0.1 0
D、0.1 0.45 0
63、互为对偶的两个线性规划问题的解存在关系 ( B )
A、原问题无可行解,对偶问题也无可行解
B、对偶问题有可行解,原问题可能无可行解
C、若最优解存在,则最优解相同
D、一个问题无可行解,则另一个问题具有无界解
64、以下哪个模型的系数矩阵不是全幺模矩阵(totally unimodular matrix)( D )
A、最短路问题
B、指派问题
C、最大流问题
D、最小生成树问题
65、下列哪个不属于CRF模型对于HMM和MEMM模型的优势 ( B )
A、特征灵活
B、速度快
C、可容纳较多上下文信息
D、全局最优
66、在选择分治法解决问题时,应考虑待解决问题应具有哪些特征 ( ABCD )
A、待解决问题规模缩小到一定程度后可以容易解决
B、待解决问题应可以分解为若干个规模较小的相同问题,且子问题应可直接求解。
C、各子问题之间是相互独立的
D、分解后的子问题的解可以合并为源问题的解
67、两个种子点A(-1,1),B(2,1),其余点为(0,0),(0,2),(1,1),(3,2),(6,0),(6,2),利用Kmeans算法,点群中心按坐标平均计算。最终种子点A需要移动的次数,种子点B需要移动的次数,属于种子点A的点数(不包含A),属于种子点B的点数(不包含B)分别为 ( A )
A、2,2,3,3
B、1,1,3,3
C、1,1,2,4
D、2,2,2,4
二、多选
1、以下哪些学科和数据挖掘有密切联系 (CD)
A、计算机组成原理
B、矿产挖掘
C、统计
D、人工智能
2、在统计模式识分类问题中,当先验概率未知时,可以使用 ( BC )
A、最小损失准则
B、N-P判决
C、最小最大损失准则
D、最小误判概率准则
3、影响聚类算法效果的主要原因有:( A B C )
A、特征选取
B、模式相似性测度
C、分类准则
D、已知类别的样本质量
4、以下方法属于集成方法的是 ( A B C D )
A、bagging
B、stacking
C、blending
D、boosting
5、有监督机器学习方法可以被分为判别式模型和生成式模型,下面属于生成式模型的有 ( B C )
A、SVM支持向量机
B、朴素贝叶斯
C、隐马尔科夫
D、logistic回归
6、在某神经网络的隐层输出中,包含0.75,那么该神经网络采用的激活函数可能是 (ABC)
A、sigmoid
B、tanh
C、relu
7、假定某同学使用Naive Bayesian(NB)分类模型时,不小心将训练数据的两个维度搞重复了,那么关于NB的说法中正确的是:( BD )
A、这个被重复的特征在模型中的决定作用会被加强
B、模型效果相比无重复特征的情况下精确度会降低
C、如果所有特征都被重复一遍,得到的模型预测结果相对于不重复的情况下的模型预测结果一样。
D、当两列特征高度相关时,无法用两列特征相同时所得到的结论来分析问题
E、NB可以用来做最小二乘回归
F、以上说法都不正确
8、以下关于正则化的描述正确的是 (ABCD )
A、正则化可以防止过拟合
B、L1正则化能得到稀疏解
C、L2正则化约束了解空间
D、Dropout也是一种正则化方法
9、在机器学习中,下列关于各算法对应的损失函数正确的是 ( ABCD )
A、最小二乘-Square loss
B、SVM-Hinge Loss
C、Logistic Regression-(log-Loss)
D、AdaBoost-指数损失函数
10、当发现机器学习模型过拟合时,以下操作正确的是:( ABC )
A、降低特征维度
B、增加样本数量
C、添加正则项
D、增加特征维度
11、现在假设负样本量:正样本量=20:1,下列哪些方法可以处理这种不平衡的情况?( ABC )
A、直接训练模型,预测的时候调节阈值
B、复制正样本,以增加正样本数量
C、随机降采样负样本
D、训练过程中,增加负样本的权重
12、在分类问题中,我们经常会遇到正负样本数据量不等的情况,比如正样本为10w条数据,负样本只有1w条数据,以下最合适的处理方法是 ( ACD)
A、将负样本重复10次,生成10w样本量,打乱顺序参与分类
B、直接进行分类,可以最大限度利用数据
C、从10w正样本中随机抽取1w参与分类
D、将负样本每个权重设置为10,正样本权重为1,参与训练过程
13、在机器学习中需要划分数据集,常用的划分测试集和训练集的划分方法有哪些 ( ABC )
A、留出法
B、交叉验证法
C、自助法
D、评分法
14、在某神经网络的隐层输出中,包含-1.5,那么该神经网络采用的激活函数不可能是 ( ABC )
A、sigmoid
B、tanh
C、relu
15、以下哪些机器学习算法可以不对特征做归一化处理:( AD )
A、随机森林
B、逻辑回归
C、SVM
D、GBDT
16、下列关于随机森林(RF)与梯度提升树(GBDT)区别说法正确的是:( ACD )
A、组成随机森林的树可以分类树也可以是回归树,而GBDT只由回归树组成。
B、随机森林对异常值敏感,而GBDT对异常值不敏感。
C、随机森林不需要进行数据预处理,即特征归一化。而GBDT则需要进行特征归一化。
D、组成随机森林的树可以并行生成,而GBDT是串行生成。
17、假如你用logistic Regression 算法去预测用户在网上的购买项目,然而,当你在新的用户集上验证你的假设时,你发现预测值有很大的偏差。并且你的假设在训练集上表现也很差,下面那些步骤你应该采纳,选择出正确的选项 ( A )
A、尝试着减小正则项 λ
B、尝试增加交叉特征
C、减小样本量
D、尝试更小的测试集或者特征
18、类别不平衡(class-imbanlance)就是指分类问题中不同类别的训练样本相差悬殊的情况,例如正例有900个,而反例只有100个,这个时候我们就需要进行相应的处理来平衡这个问题,下列方法正确的是 ( ACD )
A、在训练样本较多的类别中进行欠采样
B、在训练样本较多的类别中进行过采样
C、直接基于原数据集进行学习,对预测值进行再缩放处理
D、通过对反例中的数据进行插值,来产生额外的反例
19、数据清理中,处理缺失值的方法是 ( ABCD )
A、估算
B、整例删除
C、变量删除
D、成对删除
20、影响基本K-均值算法的主要因素有 ( ABD )
A、样本输入顺序
B、模式相似性测度
C、聚类准则
D、初始类中心的选取
21、以下可以有效解决过拟合的方法是:( AD )
A、增加样本数量
B、增加特征数量
C、训练更多的迭代次数
D、采用正则化方法
22、下列方法中,可以用于特征降维的方法包括 ( ABCD )
A、主成分分析PCA
B、线性判别分析LDA
C、深度学习SparseAutoEncoder
D、矩阵奇异值分解SVD
E、最小二乘法LeastSquares
23、隐马尔可夫模型三个基本问题以及相应的算法说法正确的是 ( ABC )
A、评估—前向后向算法
B、解码—维特比算法
C、学习—Baum-Welch算法
D、学习—前向后向算法
24、以下哪些模型是分类模型:( ACD )
A、KNN
B、Kmeans
C、Naïve Bayesian (朴素贝叶斯)
D、Logistic Regression
25、以下属于聚类算法的是:( AB )
A、K均值
B、DBSCAN
C、Apriori
D、朴素贝叶斯
26、从使用的主要技术上看,可以把分类方法归结为哪几种类型 ( ABCD )
A、规则归纳方法
B、贝叶斯分类方法
C、决策树分类方法
D、基于距离的分类方法
27、下列关于决策树的说法正确的是 ( ABCD )
A、ID3决策树是根据信息增益来划分属性
B、C4.5决策树是根据增益率来划分属性
C、CART决策树是根据基尼指数来划分属性
D、基尼指数反映了从样本集D中随机抽取两个样本,其类别标记不一致的概率,因此越小越好
28、机器学习中,如果一味的去提高训练数据的预测能力,所选模型的复杂度往往会很高,这种现象称为过拟合。所表现的就是模型训练时候的误差很小,但在测试的时候误差很大,对于产生这种现象以下说法正确的是:( AC )
A、样本数量太少
B、样本数量过多
C、模型太复杂
D、模型太简单
29、在 ( BD ) 情况下,用分支定界法做特征选择计算量相对较少?
A、选用的可分性判据 J
具有可加性
B、选用的可分性判据 J
对特征数目单调不减
C、样本较多
D、Cdn >>n ( n为原特征个数,d为要选出的特征个数 )
30、SPSS中,数据整理的功能主要集中在 ( AD ) 等菜单中
A、数据
B、直销
C、分析
D、转换
31、在机器学习中,解释学习器泛化性能中经常用到偏差-方差分解,下列说法正确的是 ( ACD )
A、泛化性能是由学习算法的能力、数据的充分性以及学习任务本身的难度所共同决定的
B、方差指的是预测的期望值与真实值的偏差
C、偏差体现的是学习器预测的准确度
D、方差体现的是学习器预测的稳定性
32、有如下数据集,现有测试样本(A=0,B=1,C=0),则以下描述正确的是:( AC)
A、测试样本属于+类的概率为0.008
B、测试样本属于-类的概率为0.08
C、测试样本属于+类的概率大于-的概率,则测试样本的类标号为+
D、测试样本属于-类的概率大于+的概率,则测试样本的类标号为-
A | B | C | 类 |
---|---|---|---|
0 | 0 | 0 | + |
0 | 0 | 1 | - |
0 | 1 | 1 | - |
0 | 1 | 1 | - |
0 | 0 | 1 | + |
1 | 0 | 1 | + |
1 | 0 | 1 | - |
1 | 0 | 1 | - |
1 | 1 | 1 | + |
1 | 0 | 1 | + |
假设:P(A=0,B=1,C=0)=k
则k属于两个类的概率为:
P(+|A=0,B=1,C=0)=P(A=0,B=1,C=0)×P(+)/k
=P(A=0|+)P(B=1|+)P(C=0|+)×P(+)/k=0.4×0.2×0.2×0.5/k=0.008/k
P(-|A=0,B=1,C=0)=P(A=0,B=1,C=0)×P(-)/k
=P(A=0|-)P(B=1|-)P(C=0|-)×P(-)/k=0.4×0.2×0×0.5/k=0/k
则得到,此样本的类标号是+。
33、机器学习中L1正则化和L2正则化的区别是 ( AD )
A、使用L1可以得到稀疏的权值
B、使用L1可以得到平滑的权值
C、使用L2可以得到稀疏的权值
D、使用L2可以得到平滑的权值
34、下列层次聚类算法中,哪些更适合处理大数据?( ABCD )
A、CURE算法
B、ROCK算法
C、Chameleon算法
D、BIRCH算法
35、以下描述错误的是:(ABC)
A、SVM是这样一个分类器,他寻找具有最小边缘的超平面,因此它也经常被称为最小边缘分类器(minimal margin classifier)
B、在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。
C、在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。
D、聚类分析可以看作是一种非监督的分类。
36、以下 ( ACD ) 属于线性分类器最佳准则。
A、感知准则函数
B、贝叶斯分类
C、支持向量机
D、Fisher准则
37、下列哪项叙述是正确的 ( BC )
A、Adaboost可以降低方差
B、Xgboost可以降低偏差
C、Random Forest可以降低方差
D、Decision Tree可以降低偏差
38、下列关于随机森林和Adaboost说法正确的是 ( ACD )
A、和adaboost相比,随机森林对错误和离群点更鲁棒
B、随机森林准确率不依赖于个体分类器的实例和他们之间的依赖性
C、随机森林对每次划分所考虑的属性数很偏感
D、Adaboost初始时每个训练元组被赋予相等的权重
38、以下可以有效解决过拟合的方法是:( ABD )
A、增加样本数量
B、通过特征选择减少特征数量
C、训练更多的迭代次数
D、采用正则化方法
39、数据挖掘的挖掘方法包括: ( ABCD )
A、聚类分析
B、回归分析
C、神经网络
D、决策树算法
40、以下说法中正确的是 ( BD )
A、SVM对噪声(如来自其他分布的噪声样本)鲁棒
B、在AdaBoost算法中,所有被分错的样本的权重更新比例相同
C、Boosting和Bagging都是组合多个分类器投票的方法,二者都是根据单个分类器的正确率决定其权重
D、给定n个数据点,如果其中一半用于训练,一般用于测试,则训练误差和测试误差之间的差别会随着n的增加而减少
41、统计模式分类问题中,当先验概率未知时,可以使用 ( AD )
A、最小最大损失准则
B、最小误判概率准则
C、最小损失准则
D、N-P判决 (聂曼-皮尔逊决策)
42、给定两个特征向量,以下哪些方法可以计算这两个向量相似度 ( ABD )
A、欧式距离
B、夹角余弦(Cosine)
C、信息熵
D、曼哈顿距离
43、下面哪些是基于核的机器学习算法 ( BCD )
A、Expectation Maximization
B、Radial Basis Function (径向基)
C、Linear Discrimimate Analysis
D、Support Vector Machine
44、基于二次准则函数的H-K算法较之于感知器算法的优点是 ( BD )
A、计算量小
B、可以判别问题是否线性可分
C、其解完全适用于非线性可分的情况
D、其解的适应性更好
45、机器学习中做特征选择时,可能用到的方法有 ( ABCD )
A、卡方
B、信息增益
C、平均互信息
D、期望交叉熵
46、下列模型属于机器学习生成式模型的是 ( ABCD )
A、朴素贝叶斯
B、隐马尔科夫模型(HMM)
C、马尔科夫随机场(Markov Random Fields)
D、深度信念网络(DBN)