0
点赞
收藏
分享

微信扫一扫

机器学习-名词解释与论述题

1.简述机器学习项目的一般步骤。

  1. 明确任务,收集数据。
  2. 数据预处理和特征工程。
  3. 模型训练
  4. 模型评估与超参数调优。
  5. 模型融合与应用。

2.什么是模型的泛化性能?在训练样本不足时,如何去估计和改进模型的泛化能力?

模型在训练数据以外的数据上的性能称为泛化性能。模型的泛化能力,一般通过验证集进行评估。在样本充足时,可以从训练集中留出一部分作为验证集。当训练样本不足时,一般采用交叉验证方式,将训练数据分成样本数目大致相等的K份,每份样本轮流作为验证集,其余K-1份作为训练集。

3.机器学习

假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。

4.监督学习

监督学习是一种机器学习任务,它从含有标记的数据中学习模型,模型对输入和输出之间的映射关系进行建模,从而对新的输入进行预测。

5.过拟合与欠拟合

当训练样本数目较少时,复杂模型会和训练数据拟合得很好,但在测试数据上性能不好,这种情况称为过拟合。当模型与训练数据拟合得不好时,则在训练集合测试集上性能都不好,这种情况称为欠拟合。

6.模型正则化

监督学习中,最佳模型不仅要和训练数据拟合得好,还要复杂度低,因此需要在模型学习的目标函数中引入模型正则化项对模型复杂度进行惩罚。模型越复杂,正则化项值越大。

7.梯度下降

梯度下降法是一个一阶最优化算法。 要使用梯度下降法找到一个函数的局部极小值,必须向函数上当前点对应梯度的反方向的规定步长距离点进行迭代搜索。

8.神经网络

人工神经网络是由具有适应性的简单单元组成的广泛并行互联的网络,它的组织能够模拟生物神经系统对真实世界物体所做出的交互反应

9.随机森林

随机森林即由多个决策树组成,每个决策树并不相同,在构建决策树时,我们从训练数据中有放回的随机选取一部分样本,并且也不会使用数据的全部特征,而是随机选取部分特征进行训练。每棵树使用的样本和特征都不相同,训练出的结果也不相同。也就是说,Bagging方法和决策树算法构成了随机森林算法。

10.logistics回归:

逻辑回归是分类方法,属于广义线性模型

11.机器学习三要素

三要素指的模型、策略和算法

  1. 模型:模型是机器学习的基础,它是用来预测未知数据的函数或系统。在机器学习中,通常使用数学模型来对数据进行建模。
  2. 特征:特征是模型的输入,也称为特征向量。特征可以是原始数据的子集,也可以是对原始数据进行预处理后的数据。
  3. 算法:算法是机器学习的核心,它决定了模型的学习能力。常见的机器学习算法有线性回归、逻辑回归、决策树、支持向量机、朴素贝叶斯分类器、神经网络等。

12.朴素贝叶斯

朴素贝叶斯分类器是一系列以假设特征之间强(朴素)独立下运用贝叶斯定理为基础的简单概率分类器。该分类器模型会给问题实例分配用特征值表示的类标签,类标签取自有限集合。

13.ROC

接收者操作特征,roc曲线上每个点反映着对同一信号刺激的感受性。

14.AUC

ROC曲线下方的面积

15.范数

L0范数是指向量中非0的元素的个数

L1范数是指向量中各个元素绝对值之和

L2范数向量元素绝对值的平方和再开平方

p-范数 $$ \left | w \right | {p} =\sqrt[p]{\sum{k=1}^{N}\left | w_{k} \right |^{p} } $$

16.距离

欧氏距离:各坐标轴距离求平方和再开平方

曼哈顿距离:各坐标轴距离求和

马氏距离:(直接参考另一篇博客)机器学习-算法应用

举报

相关推荐

0 条评论