当训练集、验证集(开发集)、测试集来源不同,即分布不同时。需要对其进行处理。

[数学理论]不同分布训练集、验证集、测试集处理

[数学理论]不同分布训练集、验证集、测试集处理

如上图所示:测试集数据来源于网上清晰图像,而验证集、测试集数据来源于业余人士手机拍照照片。

假设网上下载的照片数据集大小为200000,而手机拍摄的照片数据集大小为10000。

[数学理论]不同分布训练集、验证集、测试集处理

有两种处理方式:

一种将网上数据和手机数据混合,然后将数据随机分配给训练集、验证集和测试集。这种方式最后应用效果不好,如上图的1图。

另外一种将网上数据作为训练集,并添加部分手机数据作为训练集。剩余手机数据作为验证集和测试集,如上图的2图。从长期来看,这种处理方式能够带来更好的系统性能。

相关文章:

  • 2022-12-23
  • 2021-06-23
  • 2021-06-03
  • 2021-06-28
  • 2021-12-27
猜你喜欢
  • 2021-12-15
  • 2022-12-23
  • 2021-07-02
  • 2022-02-22
  • 2021-09-05
相关资源
相似解决方案