处理从通用句子编码器生成的大型密集向量答案

【问题标题】：Handle large dense vectors generated from universal sentence encoder处理从通用句子编码器生成的大型密集向量
【发布时间】：2020-06-15 00:40:45
【问题描述】：

我正在使用 CNN/LSTM 和通用句子编码器生成的嵌入来解决文档分类问题。我有 10,000 条记录，每条记录大约有 100~600 句。在将所有文档矩阵输入神经网络模型之前，我将它们保存到一个 json 文件中。整个 json 文件大约 20GB 会占用太多内存。

我不确定是否应该以文本格式保存文档并在训练过程中将它们转换为句子嵌入。潜在的解决方案是什么？

【问题讨论】：

我不知何故觉得 JSON 在这方面做得不好，像 numpy 这样的二进制格式会起作用吗？ HDF5 通常用于图像，您也可以尝试一下。您可能会将每个文档的嵌入存储在单独的文件中，但我认为在培训之前进行转换肯定会对您有很大帮助。
@Jan 谢谢你的建议。我将嵌入保存在单独的泡菜文件中，它解决了问题。我也尝试过 hdf5，但我的情况似乎没有太大区别。

【解决方案1】：

为了社区的利益，在本部分提供解决方案（即使它出现在评论部分）。

将嵌入保存在单独的 Pickle 文件中解决了问题。

【讨论】：