【发布时间】:2018-11-20 22:52:28
【问题描述】:
我有一个在输入 RNN 之前使用编码器的架构。编码器输入形状为[batch, height, width, channels],RNN 输入形状为[batch, time, height, width, channels]。我想将编码器的输出直接提供给 RNN,但这会带来内存问题。我必须一次将batch*time ~= 3*100(通过重塑)图像输入编码器。我知道tf.nn.dynamic_rnn 可以利用swap_memory,我也想在编码器中利用它。这是一些精简的代码:
#image inputs [batch, time, height, width, channels]
inputs = tf.placeholder(tf.float32, [batch, time, in_sh[0], in_sh[1], in_sh[2]])
#This is where the trouble starts
#merge batch and time
inputs = tf.reshape(inputs, [batch*time, in_sh[0], in_sh[1], in_sh[2]])
#build the encoder (and get shape of output)
enc, enc_sh = build_encoder(inputs)
#change back to time format
enc = tf.reshape(enc, [batch, time, enc_sh[0], enc_sh[1], enc_sh[2]])
#build rnn and get initial state (zero_state)
rnn, initial_state = build_rnn()
#use dynamic unrolling
rnn_outputs, rnn_state = tf.nn.dynamic_rnn(
rnn, enc,
initial_state=initial_state,
swap_memory=True,
time_major=False)
我目前使用的方法是先验地在我的所有图像上运行编码器(并保存到磁盘),但我想执行数据集扩充(到图像),这在提取特征后是不可能的。
【问题讨论】:
-
为什么投反对票? (真的很想知道,这样我就可以改进我未来的问题)。
标签: python tensorflow recurrent-neural-network