language model(LM)没有用encoder,只用了decoder,
在decoder代码里,transformer_prepare_decoder方法里调用了shift_right_3d方法
使decode_input的sequence向右错一位,即target [1,2,3,4]input [0,1,2,3]
正好是预测下一个词
language model(LM)没有用encoder,只用了decoder,
在decoder代码里,transformer_prepare_decoder方法里调用了shift_right_3d方法
使decode_input的sequence向右错一位,即target [1,2,3,4]input [0,1,2,3]
正好是预测下一个词
相关文章: