银行贷款员需要分析数据,搞清楚哪些贷款申请者是“安全的”,银行的“风险”是什么。电脑公司的市场经理需要分析已经购买电脑的客户信息,以帮助他分析具有哪些特征的顾客会购买一台新的电脑。医学研究者希望分析乳腺癌数据,预测哪些属性的指标满足一定条件会患这种病,以及判断病情的严重程度。在类似上述的例子中,数据挖掘的任务是分类,都需要构造一个模型(又称分类器)来预测类属性。如贷款应用数据的“安全”或“风险”,销售数据的“是”或“否”,医疗数据的“有病”和“无病”等等。这些类属性都用离散值表示,其中值之间的序没有意义。
经典传统算法包括决策树分类、随机森林分类、神经网络分类、基于样本的KNN分类、逻辑回归分类、支持向量机分类等。