0
点赞
收藏
分享

微信扫一扫

聚类:基本概念和方法

GG_lyf 2022-07-12 阅读 68


聚类概念:

聚类与分类的区别:

}聚类(Clustering)是把数据对象划分成子集的过程,就是将数据分组成为多个类(Cluster)。

在同一个类内对象之间具有较高的相似度,不同类之间的对象之间的差异较大。

聚类方法的分类:

  • u划分方法
    给定一个n个对象的集合,划分方法构建数据的k个分区,其中每个分区表示一个簇且k≤n。
  • u层次的方法
    创建给定数据对象集的层次分解。
  • u基于密度的方法
    通过“邻域”中的密度来对数据进行划分
  • u基于网格的方法
    把对象空间量化为有限个单元,形成一个网络结构,所有的聚类操作均在该网络上进行。

划分方法:

k-means方法步骤:

聚类:基本概念和方法_数据

层次方法:

凝聚法的基本思想:

先将n个样品各自看成一类,然后规定样品之间的“距离”和类与类之间的距离。

选择距离最近的两类合并成一个新类,计算新类和其它类(各当前类)的距离,再将距离最近的两类合并。

这样,每次合并减少一类,直至所有的样品都归成一类为止

凝聚聚类方法:

聚类:基本概念和方法_聚类_02

聚类时距离的更新:

基于密度的方法:

概念:

聚类:基本概念和方法_数据集_03

核心对象,密度直达,密度可达,密度相连:

聚类:基本概念和方法_数据集_04

DBSCAN步骤:

聚类:基本概念和方法_聚类_05

聚类:基本概念和方法_数据_06

基于网络的方法:

高层单元统计变量的计算:

聚类:基本概念和方法_数据_07

聚类评估:

聚类评估包含的主要任务:

  • 估计聚类趋势:对于给定的数据集,评估该数据集是否存在非随机结构
  • 确定数据集中的簇数:如K-均值算法需要将簇的数目作为参数
  • 测定聚类质量:评估结果簇的质量
举报

相关推荐

0 条评论