【发布时间】:2019-06-10 18:18:59
【问题描述】:
我有一个非常昂贵的数据管道。我想使用tf.data.Dataset.cache 将第一个纪元数据集缓存到磁盘。然后加快进程。我这样做而不是将数据集保存到 tfrecords 的原因是
1) 每次处理都会修改很多参数,动态缓存比较方便
2)我正在做交叉验证,所以我不知道要处理哪些文件
我有一个简单的解决方案 - 为训练文件的每一折创建一个管道,但这需要大量空间来缓存(我正在做 10 折),总共相当于 1TB。
有没有其他方法可以在空间和时间上更有效地做到这一点?
【问题讨论】:
标签: python-3.x tensorflow tensorflow-datasets