主成分分析
1.主成分分析
关于PCA的介绍:用最直观的方式告诉你:什么是主成分分析PCA
笔记来源:Principal Component Analysis (PCA)
PCA是数据降维的方法之一
1.1 降维(Dimensionality Reduction)
降维的目的之一:存储的数据减少
相机选一个什么角度才能最大程度的保留大部分人物的信息?
将数据点投影到直线上,应该选择哪一条直线才能尽可能保留最多的数据信息?
显然右侧直线上保留了更多的数据信息,而左侧直线大多数数据重叠在了一起,使得无法更好地还原原始数据
以选房数据为例:
将左侧5种数据归类后抽象出两个特征(feature)
其中房子大小(Size) 和房间数量(Number of rooms)分别作为竖轴和横轴,我们将各个数据点投影到直线上,在直线上观察数据的状况(比如分散程度等等),这里的投影就实现了数据的降维
为更好描述直线上的数据,我们引入均值、方差、协方差
1.2 均值(Mean)
表示一组数据集中趋势的量数、反映数据集中趋势的一项指标
1.3 方差(Variance)
衡量随机变量或一组数据时离散程度的度量
概念来自:方差
1.4 协方差(Covariance)
衡量两个变量的总体误差或相似程度
概念来源:协方差
协方差小于0,代表x,y负相关(随着x的增大,y在减小)
协方差大于0,代表x,y正相关(随着x的增大,y在增大)
1.5 协方差矩阵(Covariance Matrix)
找到这些数据的质心,并将其移至坐标原点
(
C
o
v
(
X
,
X
)
C
o
v
(
X
,
Y
)
C
o
v
(
X
,
Y
)
C
o
v
(
Y
,
Y
)
)
\begin{pmatrix}Cov(X,X) & Cov(X,Y)\\ Cov(X,Y) & Cov(Y,Y) \end{pmatrix}
(Cov(X,X)Cov(X,Y)Cov(X,Y)Cov(Y,Y))
横轴上的数据点只含
X
X
X
竖轴上的数据点只含
Y
Y
Y
矩阵对角上的元素是关于在轴上的数据点
C
o
v
(
X
,
X
)
=
V
a
r
(
X
)
、
C
o
v
(
Y
,
Y
)
=
V
a
r
(
Y
)
Cov(X,X)=Var(X)、Cov(Y,Y)=Var(Y)
Cov(X,X)=Var(X)、Cov(Y,Y)=Var(Y)
协方差矩阵
Σ
=
(
V
a
r
(
X
)
C
o
v
(
X
,
Y
)
C
o
v
(
X
,
Y
)
V
a
r
(
Y
)
)
\Sigma=\begin{pmatrix}Var(X) & Cov(X,Y)\\ Cov(X,Y) & Var(Y) \end{pmatrix}
Σ=(Var(X)Cov(X,Y)Cov(X,Y)Var(Y))
1.6 线性变换(Linear Transformation)
1.7 主成分分析(PCA)
计算出数据集的协方差矩阵,并计算其特征向量
选择较大的特征向量,以便大部分数据点可以投影到直线上实现降维且保证大部分信息得以保存,如果选择较短的特征向量,则有些数据无法投影到这个较短的特征向量上,因此这样会造成数据的大量丢失
计算出矩阵的所有特征值和特征向量,假设我们要将数据投影到二维平面上(即数据压缩到二维),所以我们选择最大的两个特征向量(确保大部分数据可以投影至平面上,以此保留大部分信息,不至于造成大量信息因降维而丢失)这两个特征向量构成平面
我们要将数据压缩至二维,所以我们只保留了
V
1
、
λ
1
、
V
2
、
λ
2
V_1、\lambda_1、V_2、\lambda_2
V1、λ1、V2、λ2
PCA的关键在于对协方差矩阵进行特征值分解
1.8 PCA和SVD的关系
下面截图来自:深入理解PCA与SVD的关系