(1)初衷
首先我有两个自问自答,目前是这样认为的。
什么样的聚类适合欧式距离?
答:标准的圆形数据样本。
什么样的聚类适合马氏距离?
答:椭圆的、长条、不规则的数据样本。
其次我还有一个抽象概念:我们检测的目标基本都是有形状、姿态限制的,这些限制可以理解为一种方向约束,有了方向的约束那么x、y就应该是相关的。
(2)马氏距离
马氏距离就是表现这种数据相关的协方差距离,欧式距离是马氏距离的一种特例,相当于相关度为0的马氏距离。
马氏距离的公式:
P1、P2:数据集合中的点,也就是需要求他们的马氏距离的两个点。聚类的时候,可以一个是类中点,一个是类外点。
data:数据集合,聚类的时候可以表示当前类中的元素集合。
Cov(data):当前类的斜方差矩阵。这个就决定的数据的方向。