聚类概念:
聚类与分类的区别:
}聚类(Clustering)是把数据对象划分成子集的过程,就是将数据分组成为多个类(Cluster)。
在同一个类内对象之间具有较高的相似度,不同类之间的对象之间的差异较大。
聚类方法的分类:
- u划分方法
给定一个n个对象的集合,划分方法构建数据的k个分区,其中每个分区表示一个簇且k≤n。 - u层次的方法
创建给定数据对象集的层次分解。 - u基于密度的方法
通过“邻域”中的密度来对数据进行划分 - u基于网格的方法
把对象空间量化为有限个单元,形成一个网络结构,所有的聚类操作均在该网络上进行。
划分方法:
k-means方法步骤:
层次方法:
凝聚法的基本思想:
先将n个样品各自看成一类,然后规定样品之间的“距离”和类与类之间的距离。
选择距离最近的两类合并成一个新类,计算新类和其它类(各当前类)的距离,再将距离最近的两类合并。
这样,每次合并减少一类,直至所有的样品都归成一类为止。
凝聚聚类方法:
聚类时距离的更新:
基于密度的方法:
概念:
核心对象,密度直达,密度可达,密度相连:
DBSCAN步骤:
基于网络的方法:
高层单元统计变量的计算:
聚类评估:
聚类评估包含的主要任务:
- 估计聚类趋势:对于给定的数据集,评估该数据集是否存在非随机结构
- 确定数据集中的簇数:如K-均值算法需要将簇的数目作为参数
- 测定聚类质量:评估结果簇的质量