【问题标题】:How to train a model with BIG data size and limited memory ram?如何训练具有大数据量和有限内存 ram 的模型?
【发布时间】:2021-10-02 15:28:01
【问题描述】:

问题很简单,但不知道如何在实践中实现。我想用数据集训练一个 tensorflow LSTM 模型,该数据集非常大(5000 万条记录)。我能够将数据文件加载到本地机器,但由于内存有限,机器在预处理阶段崩溃。我试图删除未使用的文件和垃圾收集来释放内存,但它没有帮助。

有什么办法,我可以单独训练一个 tensorflow 模型,例如,该模型将训练 5 次,每次只使用 1000 万条记录,然后在训练后删除 1000 万条记录以释放内存。同样的过程将重复 5 次来训练一个 tensorflow 模型。

谢谢

【问题讨论】:

  • 这就是我们使用批量和小批量随机梯度下降的真正原因,实际上不需要将所有数据加载到 RAM 中。

标签: python tensorflow machine-learning data-science


【解决方案1】:

有一些方法可以避免这些问题:

1- 您可以在运行时使用 google colab 和 high-RAM 或任何其他在云中租用 VM。

2- 处理过多数据的三种基本软件技术:压缩、分块和索引。

【讨论】:

    猜你喜欢
    • 2022-01-21
    • 1970-01-01
    • 2021-05-01
    • 2019-11-29
    • 1970-01-01
    • 2018-08-15
    • 1970-01-01
    • 2019-05-28
    • 2018-02-20
    相关资源
    最近更新 更多