模型评估
划分数据集为训练集、验证集、测试集
60%训练集、20%测试集和验证集
x_train,x_,y_train,y_=train_test_split(X_train,y_train,test_size=0.4)
x_cv,x_test,y_cv,y_test=train_test_split(x_train,y_train,test_size=0.5)
交叉验证-模型选择
模型选择
偏差和方差
回归问题:不是从预测数据和原始数据来看,而主要指的是训练集和验证集的损失
分类问题:分类错误的比例
高偏差bias
J t r a i n = J c v 且 J t r a i n 较大 J_{train}=J_{cv}且J_{train}较大 Jtrain=Jcv且Jtrain较大
高方差variance
J t r a i n < < J c v J_{train}<<J{cv} Jtrain<<Jcv
正则化
学习曲线
模型改进
高偏差
- 增加训练集大小无用,模型欠拟合
- 增加更多特征:多项式化数据
- 减小正则化参数 λ \lambda λ
高方差
- 增加训练集大小有效减少过拟合情况
- 减小特征大小
- 增大正则化参数 λ \lambda λ
神经网络的改进
高偏差
- 更大的神经网络
高方差
- 更多的训练集
迁移学习
*分类评估指标
准确率Accuracy
略