【李航】统计学习方法--1. 统计学习及监督学习概论（详细推导）-CFANZ编程社区

【李航】统计学习方法--1. 统计学习及监督学习概论（详细推导）_算法

机器学习有下面几种定义：

“机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能”。
“机器学习是对能通过经验自动改进的计算机算法的研究”。
“机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。”
英文定义：A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.

统计学习的分类（基本分类）

监督学习（有标注数据集）

【李航】统计学习方法--1. 统计学习及监督学习概论（详细推导）_算法_02

【李航】统计学习方法--1. 统计学习及监督学习概论（详细推导）_机器学习_03

独立同分布：
独立：随机变量的“每一种可能”之间相互不影响；例如丢筛子，第一次丢的结果不会影响第二次的结果。
同分布：第一次丢筛子和第二次丢，得到任意一面的概率都是分别相同的，比如第一次丢到“一点数”的概率为1/6，第二次丢到“一点数”的概率也会是1/6，都有着相同的概率密度函数和累计分布函数，也就是说的同分布。
欧氏空间：一句话总结：欧几里得空间就是在对 现实空间的规则抽象和推广（从n<=3推广到有限n维空间） 。
欧几里得几何就是中学学的平面几何、立体几何， 在欧几里得几何中，平行线任何位置的间距相等 。
而中学学的几何空间一般是2维，3维（所以，我们讨论余弦值、点间的距离、内积都是在低纬空间总结的），如果将这些低维空间所总结的规律推广到有限的n维空间，那这些符合定义的空间则被统称为 欧几里得空间（欧氏空间，Euclidean Space） 。
而欧几里得空间主要是定义了 内积、距离、角 （没错，就是初中的那些定义），理解了这些再去理解数学定义就很明确了。

【李航】统计学习方法--1. 统计学习及监督学习概论（详细推导）_无监督学习_04

来自百度百科的定义

【李航】统计学习方法--1. 统计学习及监督学习概论（详细推导）_机器学习_05

两个向量内积的计算
内积的几何概念是 两个向量的长度与它们夹角余弦的积， 所以，内积可以表示成：

【李航】统计学习方法--1. 统计学习及监督学习概论（详细推导）_无监督学习_06

初中公式：内积
于是 余弦值就是 ：

【李航】统计学习方法--1. 统计学习及监督学习概论（详细推导）_监督学习_07

初中定义：余弦值
所以 角的计算就是 ：

【李航】统计学习方法--1. 统计学习及监督学习概论（详细推导）_机器学习_08

角的定义
计算两点x, y间的距离：

【李航】统计学习方法--1. 统计学习及监督学习概论（详细推导）_算法_09

点坐标之间对应相减平方加总开根号
联合概率分布：

定义
联合概率分布简称联合分布，对随机向量X={X1,X2…Xm}的概率分布，称为随机变量X1,X2…Xm 的联合概率分布。根据随机变量的不同，联合概率分布的表示形式也不同。对于离散型随机变量，联合概率分布可以以列表的形式表示，也可以以函数的形式表示；对于连续型随机变量，联合概率分布通过非负函数的积分表示。
随机变量
如果随机变量X的取值是有限的或者是可数无穷尽的值，则称X为离散随机变量。
如果X是由全部实数或者由一部分区间组成，则称X为连续随机变量，连续随机变量的值是不可数及无穷尽的。
随机变量分为离散型随机变量和连续型随机变量，当要求随机变量的概率分布的时候，要分别处理。

离散型
对于二维离散随机向量，设和都是离散型随机变量，和分别是X和Y的一切可能的几何，则和的联合概率分布可以表示为列联表

【李航】统计学习方法--1. 统计学习及监督学习概论（详细推导）_人工智能_16

也可以表示为函数形式

【李航】统计学习方法--1. 统计学习及监督学习概论（详细推导）_机器学习_17

其中，

【李航】统计学习方法--1. 统计学习及监督学习概论（详细推导）_算法_18

多维随机变量的中，只包含部分变量的概率分布称为边缘分布：

【李航】统计学习方法--1. 统计学习及监督学习概论（详细推导）_无监督学习_19

【李航】统计学习方法--1. 统计学习及监督学习概论（详细推导）_监督学习_20

对于多维（维数大于等于3）离散型随机变量 X1,X2…Xm 的联合概率分布以此类推。

连续型
对于二维连续随机向量，设X和Y为连续型随机变量，其联合概率分布，或连续型随机变量 (X,Y)的概率分布F(x,y) 通过一非负函数 f(x,y)≥0 的积分表示，称函数 f(x,y)为联合概率密度。
两者的关系如下：

【李航】统计学习方法--1. 统计学习及监督学习概论（详细推导）_算法_21

【李航】统计学习方法--1. 统计学习及监督学习概论（详细推导）_监督学习_22

f(x,y)不但完全决定X和Y的联合概率分布，而且完全决定X的概率分布和Y的概率分布，以 f1(x)和 f2(y)分别表示X和Y的概率密度，则

【李航】统计学习方法--1. 统计学习及监督学习概论（详细推导）_无监督学习_23

【李航】统计学习方法--1. 统计学习及监督学习概论（详细推导）_无监督学习_24

对于多维（维数大于等于3）连续型随机变量 X1,X2…Xm 的联合概率分布以此类推。

【李航】统计学习方法--1. 统计学习及监督学习概论（详细推导）_人工智能_25

无监督学习（无标注数据集）

【李航】统计学习方法--1. 统计学习及监督学习概论（详细推导）_机器学习_26

条件概率分布
条件概率分布（Conditional Probability Distribution，或者条件分布，Conditional Distribution ）是现代概率论中的概念。已知两个相关的随机变量X 和Y，随机变量Y 在条件{X =x}下的条件概率分布是指当已知X 的取值为某个特定值x之时，Y 的概率分布。
简介：条件概率是指事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为：P（A|B），读作“在B条件下A的概率”。条件概率可以用决策树进行计算。条件概率的谬论是假设 P(A|B) 大致等于 P(B|A)。

定义

设 A 与 B 为样本空间 Ω 中的两个事件，其中 P ( B )>0。那么在事件 B 发生的条件下，事件 A 发生的条件概率为：

【李航】统计学习方法--1. 统计学习及监督学习概论（详细推导）_无监督学习_27

条件概率有时候也称为：后验概率。

需要注意的是，在这些定义中A与B之间不一定有因果或者时间顺序关系。A可能会先于B发生，也可能相反，也可能二者同时发生。A可能会导致B的发生，也可能相反，也可能二者之间根本就没有因果关系。

例如考虑一些可能是新的信息的概率条件性可以通过贝叶斯定理实现。

统计独立性
当且仅当两个随机事件A与B满足P(A∩B)=P(A)P(B)的时候，它们才是统计独立的，这样联合概率可以表示为各自概率的简单乘积。

【李航】统计学习方法--1. 统计学习及监督学习概论（详细推导）_机器学习_28

同样，对于两个独立事件A与B有P(A|B)=P(A)以及P(B|A)=P(B)换句话说，如果A与B是相互独立的，那么A在B这个前提下的条件概率就是A自身的概率；同样，B在A的前提下的条件概率就是B自身的概率.
互斥性
当且仅当A与B满足

【李航】统计学习方法--1. 统计学习及监督学习概论（详细推导）_无监督学习_29

【李航】统计学习方法--1. 统计学习及监督学习概论（详细推导）_人工智能_30

的时候，A与B是互斥的。因此，

【李航】统计学习方法--1. 统计学习及监督学习概论（详细推导）_人工智能_31

换句话说，如果B已经发生，由于A不能和B在同一场合下发生，那么A发生的概率为零；同样，如果A已经发生，那么B发生的概率为零。

强化学习（智能系统在与环境的连续互动中学习最优行为策略的机器学习问题）

半监督学习与自动学习

半监督学习

少量标注数据，大量未标注数据
利用未标注数据的信息，辅助标注数据，进行监督学习
较低成本
主动学习

机器主动给出实例，教师进行标注
利用标注数据学习预测模型

统计学习的分类（按算法分类）

在线学习（online learning）

【李航】统计学习方法--1. 统计学习及监督学习概论（详细推导）_算法_32

批量学习（batch learning）

统计学习的分类（按技巧分类）

贝叶斯学习

【李航】统计学习方法--1. 统计学习及监督学习概论（详细推导）_无监督学习_33

【李航】统计学习方法--1. 统计学习及监督学习概论（详细推导）_机器学习_34

核方法

使用核函数表示和学习非线性模型，将线性模型学习方法扩展到非线性模型的学习
不显式地定义输入空间到特征空间的映射，而是直接定义核函数，即映射之后在特征空间的内积
假设x1，x2是输入空间的任意两个实例，内积为<x1, x2>，输入空间到特征空间的映射为φ，
核方法在输入空间中定义核函数 K(x1, x2)，使其满足 K(x1, x2) = < φ(x1), φ(x2)>