language model(LM)没有用encoder,只用了decoder,

在decoder代码里,transformer_prepare_decoder方法里调用了shift_right_3d方法

tensor2tensor 做 language model 的理解
使decode_input的sequence向右错一位,即
target [1,2,3,4]
input [0,1,2,3]
正好是预测下一个词

相关文章: