【问题标题】:tensorflow dataset cache cross validationtensorflow 数据集缓存交叉验证
【发布时间】:2019-06-10 18:18:59
【问题描述】:

我有一个非常昂贵的数据管道。我想使用tf.data.Dataset.cache 将第一个纪元数据集缓存到磁盘。然后加快进程。我这样做而不是将数据集保存到 tfrecords 的原因是 1) 每次处理都会修改很多参数,动态缓存比较方便 2)我正在做交叉验证,所以我不知道要处理哪些文件

我有一个简单的解决方案 - 为训练文件的每一折创建一个管道,但这需要大量空间来缓存(我正在做 10 折),总共相当于 1TB。

有没有其他方法可以在空间和时间上更有效地做到这一点?

【问题讨论】:

    标签: python-3.x tensorflow tensorflow-datasets


    【解决方案1】:

    回答我自己的问题,为此,我可以为每个文件创建一个管道,将每个管道缓存在磁盘上,将它们放入双端队列,然后使用tf.data.experimental.sample_from_datasets

    【讨论】:

      猜你喜欢
      • 2023-04-05
      • 1970-01-01
      • 2021-04-11
      • 2018-06-05
      • 2021-07-20
      • 2018-05-03
      • 2017-06-23
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多