如何加载 numpy 数组的大型数据集以便在 tensorflow2.1.0 中训练 CNN 模型答案

【问题标题】：how to load large datasets of numpy arrays in order to train a CNN model in tensorflow2.1.0如何加载 numpy 数组的大型数据集以便在 tensorflow2.1.0 中训练 CNN 模型
【发布时间】：2020-05-17 22:57:34
【问题描述】：

我正在为 tensorflow2.1.0 中的二进制分类任务训练卷积神经网络 (CNN) 模型。每个实例的特征是一个形状为 (50, 50, 50, 2) 的 4 维 numpy 数组，其中每个元素的类型为 float32。每个实例的标签为 1 或 0 我最大的训练数据集可以包含多达 1 亿个实例。

为了有效地训练模型，最好将我的训练数据序列化并存储在一组 TFrecord 格式的文件中，然后使用 tf.data.TFRecordDataset() 加载它们并使用 tf.data.map 解析它们()? 如果是这样，您能否向我展示一个如何序列化特征标签对并将它们存储到 TFrecord 文件中的示例，然后如何加载和解析它们？我在 Tensorflow 的网站上没有找到合适的例子。

或者有没有更好的方法来存储和加载庞大的数据集？非常感谢。

【问题讨论】：

标签： numpy tensorflow deep-learning

【解决方案1】：

没有TFRecord，有很多方法可以高效构建数据管道点击thislink it was very useful

要有效地从目录中提取图片，请点击link。

希望这对你有所帮助。

【讨论】：