
文章目录
- Review: Gradient Descent
 - Tuning your learning rates
 
- Adagrad
 
- Stochastic Gradient Descent(随机梯度下降)
 - Feature Scaling(特征缩放)
 
- 特征缩放作用:
 - 怎样进行特征缩放
 
- Gradient Descent Theory
 
Review: Gradient Descent
Randomly start at 

Tuning your learning rates
Adagrad
Adagrad
Stochastic Gradient Descent(随机梯度下降)

Feature Scaling(特征缩放)
特征缩放作用:
面对特征数量较多的时候,保证这些特征具有相近的尺度(无量纲化),可以使梯度下降法更快的收敛。这两张图代表数据是否均一化的最优解寻解过程(左边是未归一化的),
 从这两张图可以看出,数据归一化后,最优解的寻优过程明显会变得平缓,更容易正确的收敛到最优解

怎样进行特征缩放

对红色框里面的进行特征缩放,就要先求出绿框里面元素的平均值
,再求出绿框里面元素的标准差
,最后代入
Gradient Descent Theory
求解
 梯度下降的理论推导过程:
数学基础:
 Taylor Series
- Taylor series: Let
be any function infinitely differentiable around
Whenis close to
Multivariable Taylor Series
Whenand
is close to
and
 
                










