如何选择合适的数据集进行机器学习的分类任务? 选择合适的数据集是进行任何机器学习项目的第一步,特别是分类任务。数据集是机器学习任务成功的基础。没有数据,最先进的算法也无从谈起。 本文将专注于sklearn.datasets模块中用于分类任务的数据集。这些数据集覆盖了各种场景,从新闻分类到人脸识别,再到土地覆盖类型等。 文章目录 数据集预览 数据集使用和说明 20个新闻组数据集 土地覆盖类型数据集 KDD Cup 99数据集 人脸识别数据集 AT&T Olivetti人脸数据集 RCV1多标签新闻数据集 物种分布数据集 乳腺癌威斯康星数据集 手写数字数据集 鸢尾花数据集 葡萄酒品质数据集 OpenML平台获取数据集 总结 数据集预览 下表列出了分类任务相关的数据集及其主要特性。