【发布时间】:2017-06-03 13:24:57
【问题描述】:
我正在深入研究具有 Keras 和 Theano 后端的 LSTM RNN。在尝试使用 keras 的 repo whole code of lstm_text_generation.py on github 中的 lstm 示例时,我有一件不太清楚的事情:它对输入数据(文本字符)进行矢量化的方式:
# cut the text in semi-redundant sequences of maxlen characters
maxlen = 40
step = 3
sentences = []
next_chars = []
for i in range(0, len(text) - maxlen, step):
sentences.append(text[i: i + maxlen])
next_chars.append(text[i + maxlen])
print('nb sequences:', len(sentences))
#np - means numpy
print('Vectorization...')
X = np.zeros((len(sentences), maxlen, len(chars)), dtype=np.bool)
y = np.zeros((len(sentences), len(chars)), dtype=np.bool)
for i, sentence in enumerate(sentences):
for t, char in enumerate(sentence):
X[i, t, char_indices[char]] = 1
y[i, char_indices[next_chars[i]]] = 1
在这里,如您所见,它们使用 Numpy 生成零列表,然后以这种方式将“1”放在由输入字符编码序列定义的每个列表的特定位置。
问题是:他们为什么使用那个算法?是否有可能以某种方式对其进行优化?也许可以以其他方式对输入数据进行编码,而不是使用大量列表?问题是它对输入数据有严格的限制:为 >10 Mb 的文本生成这样的向量会导致 Python 的 MemoryError(需要数十个 Gbs RAM 来处理它!)。
提前谢谢各位。
【问题讨论】:
-
我们在谈论什么样的维度(对于您的数据集,
len(sentences)和len(chars)大约有多大)?你有多少内存? -
我有 6Gb RAM,但我也尝试在 32Gb RAM vps 上运行它。至于尺寸:对于 520Kb 的输入文本,它们是 len(sentences)=174507 和 len(chars)=74 ,并且运行正常。但是对于 17Mb 的输入文本,它们是 len(sentences)=5853627 和 len(chars)=74 并且 MemoryError 在 6Gb RAM 上抛出。
标签: python numpy out-of-memory theano keras