深度学习的基本概念简介上-CFANZ编程社区

第一节深度学习的基本概念简介上

denominator分母

numerator分子

activation function 激活函数，eg：sigmoid、relu（reactified linear unit max(0, b+wx)）

induction 归纳

sparse稀疏

deduction 演绎

label 真实值

parameter 参数，是函数隐含的，被训练得到的；

hyper parameter 超参数，是人为设定的那些参数；

global minima 全局最小；

local minima 局部最小；

standard deviation标准差=方差的平方

corpus语料库

model bias 由于模型本身所带来的限制，例如linear model只能是一条直线。

piecewise linear curve 分段线性曲线（只有折线直线的曲线）

（第一堂课的部分总结）后续内容穿插在每一章中不单独列出

Regression：回归；
Scalar：标量；
Classification：分类；
两大类任务：regression预测气温、classification阿尔法狗预测围棋的下一步；
额外的一个：structured learning让机器产生有结构的东西：例如一个文章一个图画；

机器学习的model：带有未知parameters的function（函数）；

输入是model里的parameter；将训练资料的数据带入到得到的函数中，来度量模型的预测值f(x)与真实值Y的差异程度的运算函数

MAE：mean（平均） absolute（绝对） error（误差）
MSE mean square error 平均平方误差
如果y和y_hat都是概率的话，可采用cross-entropy

error surface 坐标轴是parameter，对应的点的值是loss值的一个图像

w $^*$ , b $^*$ = $\underset {w, b}{argmin L}$
w $^*$ 是指使loss function最小的一个parameter

hyper parameters:
learning rate学习率 $\eta$ ：决定参数的更新速度。在gradient descent中与梯度相乘。
随机选一个初始点。
计算初始点的关于parameter的梯度
w¹ = w⁰ - $\frac{\partial L} {\partial w}$ | _{w=w⁰, b=b⁰} * $\eta$ (迭代一次后的w就是w¹)
b¹ = b⁰ - $\frac{\partial L} {\partial w}$ | _{w=w⁰, b=b⁰} * $\eta$ (迭代一次后的b就是b¹)
- 右上角数字标表示迭代次数。
- 用减号的原因：为了让loss function取最小值，当梯度计算为负值说明随着该parameter的增大可以使loss function减小，所以迭代减去这个得到的负值就可以让该parameter所迭代的下一个值变大，下一轮的loss function更小。当梯度gradient是正值时同理。
按照上面的式子反复迭代（iteratively）更新。更新的次数也是一个hyper parameter。
gradient descent不是一个好方法的原因之一：存在local minima。但这并不是主要问题