【发布时间】:2022-01-18 21:15:06
【问题描述】:
我正在尝试训练用于文本预测的 LSTM 神经网络。
我有一个数据框,其中包含以字符串形式编写的 350 万个国际象棋游戏。
例如:
我已经解析、标记化并使游戏长度相同。为此,我使用了一个 udf 函数,这样我就有了一个整数列表,用于标识游戏中的移动。
完成后,我的模型将接受形状为 [batch, timesteps, feature] 的 3D 张量作为输入。 (我用的是keras LSTM:https://keras.io/api/layers/recurrent_layers/lstm/)
为此,我想将我的 pyspark 数据帧转换为 pandas 并使用 numpy,但我不能这样做,因为我是在 databricks 社区版上开发它,它总是给我带来内存不足的问题。
谁能告诉我如何解决这个问题?由于 OOM 问题,我无法将其转换为 pandas,任何人都可以建议我另一种方式吗?
【问题讨论】:
标签: python pandas keras pyspark lstm