Intro to Deep learning

课程网站

1.The perceptron

1.1 感知器是最小的神经单元

1.2 感知器的基本结构

感知器基本结构如下，首先输入一组数据 $x_1,x_2,x_m$ （神经元输入）分别乘上相应的权重 $w_1,w_2,w_m$ ，将结果求和（可以看作是一个线性组合）再加上一个bias（偏移量）；将结果使用一个非线性激活函数（常见的有relu,sigmoid,tanh），便得到神经元的输出
MIT6.S191课件截图

1.3 感知器的向量形式

同样的可以写为向量形式，更为简洁
MIT6.S191课件截图

1.4 感知器中的激活函数

正如上面所说，常见的激活函数有sigmoid ，tanh，relu
三者在深度学习框架中均有提供，本课程使用的是tensorflow，所以之后的代码，笔记都以tf为多

MIT6.S191课件截图

对于sigmoid激活函数：是所有的输入的值都被限定在0与1之间，使其非常合适概率问题
对于relu激活函数：分段函数，求导容易
引入非线性函数的目的是，将非线性引入模型，使得模型能够处理非线性的数据，这是非常重要的，因为世界数据基本是非线性的，这也是神经网络如此强大的原因

小插叙

在课程，讲师提出了一个很有用的trick
不管我课上说什么，你需要问问自己为什么这个是必要的步骤，为什么需要这些每一步骤？ 他认为是 These are the questions that can lead to really amazing research breakthroughs

1.5 多输出感知器

类似的通过不同的权重组合，得到更多的输出个数
其中所有的输出都连接到输入该层为全连接层也称为dense layer
MIT6.S191课件截图

1.6 单层神经网络

单层神经网络由输入层隐藏层输出层组成，其中隐藏层的个数对应？层神经网络

1.7深度神经网络

类似单层神经网络，通过增加hidden layers的层数，这时候称为deep neural network

loss :measures the cost incurred from incorrect predictions
empirical loss :the total loss over our entire dataset(mean error)
binary class(possibility,classification) :cross_entropy_loss
用于分类，概率值
real number(regression):Mean Squares Error Loss

回归问题，预测实数 MIT6.S191课件截图
我们的目的是希望loss最低
该部分称为Loss Optimization
通过更新权重，得到loss最小

对于两个权重的模型，我们可以画出其loss图像，通过选择一个初始的位置，使用梯度下降，对参数 $w_1,w_2$ 进行更新，使得模型收敛在local minium，其中 $\eta$ 为learning_rate
MIT6.S191课件截图其中计算梯度是非常重要的，这步称为Backpropagation