0
点赞
收藏
分享

微信扫一扫

一个小时搞定JAVA面向对象(5)——抽象与接口

爱动漫建模 2024-06-04 阅读 8

在聚类分析中,外部指标和内部指标用于评估聚类结果的质量。外部指标需要知道真实的类别标签,而内部指标则仅基于聚类结果本身进行评估。

外部指标
Purity (纯度): 计算聚类结果中每个簇中最多数目的样本所属的类别,并计算所有簇的该类别样本数之和占所有样本数的比例。
Python (使用 sklearn):

python
复制代码
from sklearn import metrics  
from sklearn.datasets import make_blobs  
from sklearn.cluster import KMeans  
  
# 假设 X 是数据, y 是真实标签  
# 聚类...  
kmeans = KMeans(n_clusters=3)  
labels_pred = kmeans.fit_predict(X)  
  
# 计算纯度 (需要自定义函数)  
def purity_score(y_true, y_pred):  
    contingency_matrix = metrics.cluster.contingency_matrix(y_true, y_pred)  
    return np.sum(np.amax(contingency_matrix, axis=0)) / y_true.shape[0]  
  
purity = purity_score(y, labels_pred)  
print(f"Purity: {purity}")
Matlab:

在 Matlab 中,没有直接的 purity 函数,但可以通过混淆矩阵计算。

Adjusted Rand Index (ARI): 衡量两个聚类结果之间的相似度。
Python (使用 sklearn):

举报

相关推荐

0 条评论