tensorflow 数据集缓存交叉验证答案

【问题标题】：tensorflow dataset cache cross validationtensorflow 数据集缓存交叉验证
【发布时间】：2019-06-10 18:18:59
【问题描述】：

我有一个非常昂贵的数据管道。我想使用tf.data.Dataset.cache 将第一个纪元数据集缓存到磁盘。然后加快进程。我这样做而不是将数据集保存到 tfrecords 的原因是 1) 每次处理都会修改很多参数，动态缓存比较方便 2）我正在做交叉验证，所以我不知道要处理哪些文件

我有一个简单的解决方案 - 为训练文件的每一折创建一个管道，但这需要大量空间来缓存（我正在做 10 折），总共相当于 1TB。

有没有其他方法可以在空间和时间上更有效地做到这一点？

【问题讨论】：

【解决方案1】：

回答我自己的问题，为此，我可以为每个文件创建一个管道，将每个管道缓存在磁盘上，将它们放入双端队列，然后使用tf.data.experimental.sample_from_datasets。

【讨论】：