由李飞飞团队开发的

依然是基于encoder-decoder模型进行改编

 

图像生成文本(四) —— Show and Tell模型

使用了googlenet

相对于Multi-modal模型,其图像特征只使用了一次

图像生成文本(四) —— Show and Tell模型

 

 

与Encoder-Decoder的区别

由GooLeNet替换了Encoder,由GooLeNet得到hn

图像生成文本(四) —— Show and Tell模型

 

 

 

 

相关文章: