K-临近算法-CFANZ编程社区

K-临近算法

皮皮球场 2022-04-13 阅读 90

对未知类别属性中的数据集中的每个点依次执行以下操作：
（1）计算已知类别数据集中的点与当前点之间的距离
（2）按照距离递增排序
（3）选取与当前距离最小的K个点
（4）确定前K个点所在类别的出现频率
（5）返回前K个点中出现频率最高的类别作为预测分类

import numpy as np
import operator

def createDataSet():#创建数据集
    group = np.array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])
    labels = ['A', 'A', 'B', 'B']
    return group, labels

def classify0(inX, dataSet, labels, k):

    dataSetSize = dataSet.shape[0]# .shape[0]返回的行数
    diffMat = np.tile(inX, (dataSetSize, 1)) - dataSet #在行上重复dataSetSize次，列上重复一次
    sqDiffMat = diffMat**2
    sqDistances = sqDiffMat.sum(axis=1)# ，sum(0)表示每一列中的数相加，sum(1)表示每一行中的数相加
    distances = sqDistances**0.5
    sortedDistIndicies = distances.argsort()# 返回distances中元素从小到大排序后的索引值
    classCount = {}# 记录每个类别分别出现多少次
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]# 取出前k个元素的label
        # dict.get(key,default=None)，字典的get()方法，返回指定键的值，如果值不在字段中返回default
        classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1
    # python3 中items()替代了iteritems()
    # key=operator.itemgetter(1)根据字典的值进行排序
    # key=operator.itemgetter(0)根据字典的键进行排序
    #sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
    sortedClassCount = sorted(classCount.items(), key=lambda x:x[1], reverse=True)
    # 返回次数最多的类别，即所要分类的类别
    return sortedClassCount[0][0]

在这里插入图片描述

0 条评论