sklearn的train_test_split参数及具体说明-CFANZ编程社区

train_test_split 的头文件

from sklearn.model_selection import train_test_split

常见用法

x_train,x_test,y_train,y_test=train_test_split(x_data,y_data,test_size=0.30,random_state=1)

参数test_size：如果是浮点数，在0-1之间，表示test set的样本占比；如果是整数的话就表示test set样本数量。

test_size只是确定training set于test set的各自所占比例或者数量，并没有确定数据的划分规则。比如我们有数据集[1,2,3,4,5,6,7,8,9],我们确定test_size=3,那问题是我们应该取哪三个数作为test set呢，这时候就应该使用random_state来确定我们的划分规则，假设我们取random_state=1，它按一定的规则去取出我们的数据，当我们random_state=2时，它又换成另一种规则去取我们的数据，random_state的取值范围为0-2^32。当random_state=None时，可以理解为随机分配一个整数给random_state，这样就导致每次运行的结果都可能不同。