机器学习基本概念简介上-CFANZ编程社区

机器学习：就是找一个函数，如将语音转化为文字，将图片转化为标签，而这个函数是人类很难去找到的，所以我们通过机器的力量，去找到这个函数。

深度学习（机器学习中的一个关键技术）：机器要找一个函数，而这个函数是用类神经网络来找到的。

输入：向量矩阵（如图片）序列（如语音）输出：数值，类别，text等

Supervised Learning （监督学习） 对具有概念标记（分类）的训练样本进行学习，以尽可能对训练样本集外的数据进行标记（分类）预测。

Unsupervised Learning （非监督学习）

缺乏足够的先验知识，因此难以人工标注类别或进行人工类别标注的成本太高。很自然地，我们希望计算机能代我们完成这些工作，或至少提供一些帮助。根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题，称之为无监督学习。如： Self-supervised Learning（自监督学习）

Different types of functions：

Regression：the function outputs a scalar（例如预测明天PM2.5的数值） Classification：given options（classes） the function outputs the correct one（例如邮箱分类垃圾邮件，Playing GO）

Structured Learning：（输出是一个有结构的东西，如写一篇文章）

1.Function

model y=b+w*x1 based on domain knowledge

x1：已知的数据 w：weight b：bias 偏差

2.Define loss （越小越好）

loss也是一个function，输入是b，w 即 L（b，w）

                                  输出的数值表示b  w 这两个参数的好坏

用验证集得到，L=1/N Σ En

                      E=y-yi             绝对误差（MAE）

                      E=（y-yi）^2  相对误差（MSE）

还有其他，loss函数由自己定义，不唯一

3.Optimization w ，b =arg min L**

选w为例

Gradient Descent（梯度下降法）

     1.（Randomly）pick an initial value w （随机选一个w）

     2.   Compute  dL/dw 

        如果是正值，则把w变小。负值，把w变大

        变大变小多少（w1-w0=η*dL/dw）由两个参数决定 1.dL/dw的大小  2.η：learning rate（学习率，训练时自己设定）

      3.Update w iteratively（重复以上操作），在 设定的次数达到之后 或者 dL/dt=0

如果是两个参数，则同上

      1.随机选择w0，b0

       2.Compute  dL/dw，dL/db    （可以想象为b为y轴，w为x轴，在一个平面上移动）

       3.Update

参考：李宏毅《机器学习/深度学习》