sklearn机器学习的样本划分-CFANZ编程社区

1.1 样本划分的必要性

在现实的机器学习任务中，我们往往是利用搜集到的尽可能多的样本集来输入算法进行训练，以尽可能高的精度为目标，但这里便出现一个问题，一是很多情况下我们不能说搜集到的样本集就能代表真实的全体，其分布也不一定就与真实的全体相同，但是有一点很明确，样本集数量越大则其接近真实全体的可能性也就越大；二是很多算法容易发生过拟合（overfitting），即其过度学习到训练集中一些比较特别的情况，使得其误认为训练集之外的其他集合也适用于这些规则，这使得我们训练好的算法在输入训练数据进行验证时结果非常好，但在训练集之外的新测试样本上精度则剧烈下降，这样训练出的模型可以说没有使用价值；因此怎样对数据集进行合理的抽样-训练-验证就至关重要。

在数据分析过程中，如果给定的样本数据充足，为了保证模型在实际系统中能够起到预期作用，一般需要将总样本分划分成独立的3部分如下。

sklearn机器学习的样本划分_数据集

1）训练集（Training Set）：

用于模型拟合的数据样本，即建立模型使用的样本集。

2）验证集（Validation Set）：

是模型训练过程中单独留出的样本，用于调整模型的超参数和用于对模型的能力进行初步评估

3）测试集（Test Set):

用来测试模型在预测未知样本时的准确率，即评估最终模型的泛化能力。

泛化能力（Generalization Ability)，是指机器学习模型对新鲜样本的适应能力，即对于任意未知类型的新样本，模型预测的准确率，它的目标是寻找一个假设h(x)，使得对于所有的样本，都有h(x)=c(x)(c(x)为实际类别）。

sklearn机器学习的样本划分_机器学习_02

一般做预测分析时，会将样本划分为两个部分：

一部分是训练集数据，用于构建模型
一部分是测试集数据，用于检验模型
但是有时模型的构建过程中也需要检验模型，辅助模型构建，这是就需要在样本中再划分出一部分作为验证集。验证集是可选项。

sklearn机器学习的样本划分_数据_03

训练集的规模远大于验证集和测试集：

在小样本机器学习中，训练集、测试集、验证集的比例一般为7：1：2
在大样本机器学习中，训练集所占的比例一般为99%以上，验证集和测试集占1%

拓展：样本和参数在统计学和机器学习中的意义

对于统计学来说，样本的作用是通过样本的特征（统计量）来估计总体的特征（参数，如方差、均值）。
而在机器学习中，样本的作用是利用训练集来建立模型和参数估计，利用测试集进行模型测试。

统计学和机器学习中都有“参数估计”的概念，但是它们的含义是不同的。

统计学中的参数是指总体的方差、均值等。
机器学习中的参数是指模型的参数，如神经网络中各个节点的权重值。

机器学习的步骤：

首先，在训练集上用不同的学习方法训练多个模型
然后，将训练到的多个模型在验证集上验证，选择验证误差最小的模型作为最终的模型
最后，用测试集对选出的最终模型进行测试。
具体方法如下：
先不看测试集中的类别属性，将测试集中的样本特征集输入机器学习模型中，看给模型输出的类别属性与测试集中的实际类别属性差异有多大。差异越小，就说明模型的有效性越高。
测试集只是测试模型的准确率，而不会再对模型进行调整，这是测试集和验证集的明显区别。

1.2 划分样本的方法

1.2.1 sklearn.model_selection.train_test_split

随机划分训练集和测试集

X_train,X_test, y_train, y_test = sklearn.model_selection.train_test_split(X, y, test_size=None, train_size=None, random_state=None, shuffle=True, stratify=None)