0
点赞
收藏
分享

微信扫一扫

[数学理论]不同分布训练集、验证集、测试集处理


当训练集、验证集(开发集)、测试集来源不同,即分布不同时。需要对其进行处理。

[数学理论]不同分布训练集、验证集、测试集处理_系统性能

[数学理论]不同分布训练集、验证集、测试集处理_数据_02

如上图所示:测试集数据来源于网上清晰图像,而验证集、测试集数据来源于业余人士手机拍照照片。

假设网上下载的照片数据集大小为200000,而手机拍摄的照片数据集大小为10000。

[数学理论]不同分布训练集、验证集、测试集处理_数据集_03

有两种处理方式:

一种将网上数据和手机数据混合,然后将数据随机分配给训练集、验证集和测试集。这种方式最后应用效果不好,如上图的1图。

另外一种将网上数据作为训练集,并添加部分手机数据作为训练集。剩余手机数据作为验证集和测试集,如上图的2图。从长期来看,这种处理方式能够带来更好的系统性能。

举报

相关推荐

0 条评论