0
点赞
收藏
分享

微信扫一扫

深度学习的基本概念简介 上

一叶随风_c94d 2022-03-30 阅读 54
机器学习

第一节 深度学习的基本概念简介 上

1. 机器学习用语

denominator分母

numerator分子

activation function 激活函数,eg:sigmoid、relu(reactified linear unit max(0, b+wx))

induction 归纳

sparse稀疏

deduction 演绎

label 真实值

parameter 参数,是函数隐含的,被训练得到的;

hyper parameter 超参数,是人为设定的那些参数;

global minima 全局最小;

local minima 局部最小;

standard deviation标准差=方差的平方

corpus语料库

model bias 由于模型本身所带来的限制,例如linear model只能是一条直线。

piecewise linear curve 分段线性曲线(只有折线直线的曲线)

(第一堂课的部分总结)后续内容穿插在每一章中不单独列出

2. 机器学习的第一步:函数 function

Regression:回归;
Scalar:标量;
Classification:分类;
两大类任务:regression预测气温、classification阿尔法狗预测围棋的下一步;
额外的一个:structured learning让机器产生有结构的东西:例如一个文章一个图画;

机器学习的model:带有未知parameters的function(函数);

3. 机器学习的第二步:定义loss function

输入是model里的parameter;将训练资料的数据带入到得到的函数中,来度量模型的预测值f(x)与真实值Y的差异程度的运算函数

MAE:mean(平均) absolute(绝对) error(误差)
MSE mean square error 平均平方误差
如果y和y_hat都是概率的话,可采用cross-entropy

error surface 坐标轴是parameter,对应的点的值是loss值的一个图像

4. 机器学习的第三步:优化 optimization

w ∗ ^* , b ∗ ^* = a r g m i n L w , b \underset {w, b}{argmin L} w,bargminL
w ∗ ^* 是指使loss function最小的一个parameter

1. gradient descent(梯度下降法)

  • hyper parameters:
    learning rate学习率 η \eta η:决定参数的更新速度。在gradient descent中与梯度相乘。
  • 随机选一个初始点。
  • 计算初始点的关于parameter的梯度
  • w1 = w0 - ∂ L ∂ w \frac{\partial L} {\partial w} wL| w=w0, b=b0 * η \eta η (迭代一次后的w就是w1)
    b1 = b0 - ∂ L ∂ w \frac{\partial L} {\partial w} wL| w=w0, b=b0 * η \eta η(迭代一次后的b就是b1)
    • 右上角数字标表示迭代次数。
    • 用减号的原因:为了让loss function取最小值,当梯度计算为负值说明随着该parameter的增大可以使loss function减小,所以迭代减去这个得到的负值就可以让该parameter所迭代的下一个值变大,下一轮的loss function更小。当梯度gradient是正值时同理。
  • 按照上面的式子反复迭代(iteratively)更新。更新的次数也是一个hyper parameter
  • gradient descent不是一个好方法的原因之一:存在local minima。但这并不是主要问题

5. 总结

上述三个步骤合起来称之为训练。

举报

相关推荐

0 条评论