文章目录
深度学习基础
卷积神经网络与传统神经网络区别
深度学习与神经网络的区别

目标函数
选择合适的目标函数


Softmax层

改进的梯度下降
梯度消失的直观解释

激活函数


学习步长

SGD的问题

存在马鞍面,使我们的训练卡住,于是提出下面方法:
Momentum动量

Nesterov Momentum

先利用“惯性”,“走”一步。避免一开始,就被当前梯度带偏。
Adagrad
为不同的参数设置不同的学习步长。

RMSprop
改进的Adagrad。使:
小的可以变大,大的可以变小。

Adam

各种梯度下降算法比较


关于算法选择的建议

Batch Normalization的由来


量纲不同,需要进行归一化处理。
避免过适应

早期停止训练

权重衰减

Dropout

测试时权重应减小

CNN初步介绍
CNN的基本组件

CNN卷积层




CNN池化层

通道数没变,尺度大小变了。
CNN-Softmax层

池化层的误差反向传播



卷积层计算
卷积层运算的展开表示

与全连接是有区别的。
卷积层的误差反向传播




转了180度


下面是残差
下面是梯度·










