贝叶斯信念网络:
贝叶斯网络中概率的计算:
神经网络:
类型:
神经网络基本分类,包括:前馈神经网络、反馈神经网络、自组织神经网络等常用的神经网络模型。
激活函数:
激活函数:经常使用Sigmoid函数、tanh函数、ReLu 函数
Sigmoid函数:数据在传递的过程中不容易发散,其输出范围为(0,1)
tanh函数:将数据映射到[-1,1],解决了Sigmoid函数输出值域不对称问题。
ReLu 函数:其收敛速度比Sigmoid、Tanh更快,而且没有梯度饱和的情况出现。计算更加高效,相比于Sigmoid、Tanh函数,只需要一个阈值就可以得到激活值,不需要对输入归一化来防止达到饱和
激活函数通常有以下性质
- 非线性
- 可微性
- 单调性
- ??≈?f(x)≈x
- 输出值范围
- 计算简单
- 归一化
损失函数:
损失函数评价的是模型对样本拟合度,预测结果与实际值越接近,说明模型的拟合能力越强,对应损失函数的结果就越小;
反之,损失函数的结果越大。损失函数比较大时,对应的梯度下降比较快。
反向传播:
过拟合问题如何解决:
过拟合是指模型在训练集上预测效果好,但在测试集上预测效果差
常用的防止过拟合的方法有
- 参数范数惩罚
- 数据增强
- 提前终止
- Bagging等集成方法
- Dropout
- 批正则化
网络怎么构建:
从图像中获取更多的特征,并将其作为分类模型的输入
惰性学习:
惰性学习与急切学习的区别:
KNN的基本思想:
KNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,
则该样本也属于这个类别,并具有这个类别上样本的特性。
多分类问题:
如何构建多分类模型:
假设样本数据中有N个类别。
1. 一对一拆分(OvO)
•基本思想:将N个类别两两匹配,每次使用2个类别的数据训练分类器,从而产生N(N−1)/2个二分类器。
使用时,将样本提交给所有的分类器,得到了N(N−1)/2个结果,最终属于哪个类别通过投票产生。
•分类器个数:N(N−1)/2个
•特点:分类器较多,且每个分类器在训练时只使用了2个类别的样本数据。
2. 一对多拆分(OvR)
•基本思想:每次将一个类作为样例的正例,其他所有均作为反例,得到N个分类器。
也就是说,每个分类器能识别一个固定类别。使用时,若有一个分类器为正类,则就为该类别;
若有多个分类器为正类,则选择置信度最高的分类器识别的类别。
•分类器个数:N个
•特点:相比OvO分类器较少,且每个分类器在训练时使用了所有样本数据。
3. 多对多拆分(MvM)
•基本思想:
每次将若干个类作为正例、若干个类作为反例。显然OvO、OvR都是其特例。
MvM的正、反类设计必须有特殊的设计,常用的一种技术:”纠错输出码”,简称ECOC。
ECOC是将编码的思想引入类别的划分,并可能在解码过程中具有容错性。ECOC工作过程主要分为两步:
1.对N个类做M次划分,每次划分将一部分作为正类,一部分划分反类,从而形成一个二分类训练集。一共产生M个训练集,训练出M个分类器。
2.M个分类器分别对测试样本进行预测,这些预测标记组成一个编码。将这个预测编码与每个类各自的编码进行比较,返回其中距离(汉明距离)最小的类别作为最终结果。