目录
一、聚类算法简介
1 认识聚类算法
1.1 聚类算法在现实中的应用
1.2 聚类算法的概念
1.3 聚类算法与分类算法最大的区别
2 小结
二、聚类算法api初步使用
1 api介绍
2 案例
2.1流程分析
2.2 代码实现
3 小结
三、聚类算法实现流程
1 k-means聚类步骤
2 小结
四、模型评估
1 误差平方和(SSE \The sum of squares due to error):
2 “肘”方法 (Elbow method) — K值确定
3 轮廓系数法(Silhouette Coefficient)
4 CH系数(Calinski-Harabasz Index)
5 小结
五、算法优化
1 Canopy算法配合初始聚类
1.1 Canopy算法配合初始聚类实现流程编辑
1.2 Canopy算法的优缺点
2 K-means++
3 二分k-means
4 k-medoids(k-中心聚类算法)
5 Kernel k-means
6 ISODATA
7 Mini Batch K-Means
8 小结
六、特征降维
1 降维
1.1 定义
1.2 降维的两种方式
2 特征选择
2.1 定义
2.2 方法
2.3 低方差特征过滤
2.3.1 API
2.3.2 数据计算
2.4 相关系数
2.4.1 皮尔逊相关系数(Pearson Correlation Coefficient)
2.4.2 斯皮尔曼相关系数(Rank IC)
3 主成分分析
3.1 什么是主成分分析(PCA)
3.2 API
3.3 数据计算
4 小结
5 案例实现分析步骤
七、算法选择指导
一、聚类算法简介
1 认识聚类算法
1.1 聚类算法在现实中的应用
1.2 聚类算法的概念
聚类算法:
1.3 聚类算法与分类算法最大的区别
2 小结
二、聚类算法api初步使用
1 api介绍
2 案例
2.1流程分析
2.2 代码实现
3 小结
三、聚类算法实现流程
1 k-means聚类步骤
2 小结
四、模型评估
1 误差平方和(SSE \The sum of squares due to error):
2 “肘”方法 (Elbow method) — K值确定
3 轮廓系数法(Silhouette Coefficient)
案例:
4 CH系数(Calinski-Harabasz Index)
5 小结
五、算法优化
k-means算法小结
1 Canopy算法配合初始聚类
1.2 Canopy算法的优缺点
2 K-means++
3 二分k-means
隐含的一个原则
4 k-medoids(k-中心聚类算法)

k-medoids对噪声鲁棒性好。
5 Kernel k-means
6 ISODATA
7 Mini Batch K-Means
该算法的迭代步骤有两步:
8 小结
六、特征降维
1 降维
1.1 定义
1.2 降维的两种方式
2 特征选择
2.1 定义
2.2 方法
2.3 低方差特征过滤
2.3.1 API
2.3.2 数据计算
2.4 相关系数
2.4.1 皮尔逊相关系数(Pearson Correlation Coefficient)
2.4.2 斯皮尔曼相关系数(Rank IC)
3 主成分分析
3.1 什么是主成分分析(PCA)
3.2 API
3.3 数据计算
4 小结
5 案例实现分析步骤
七、算法选择指导