文章目录
图像捕捉
将input image切成不同的region,再用cnn去encoder成不同的vector,然后再六个不同的vectior计算不同的attention
得到这个时间点的六个hidden layer的weigtht,算出下个时间点
distribution,然后求和放入enconder当中得到下一个预测的单词。
memory network
将一个文本的问题做一次attention然后乘上橙色的weight,获取道extract information ,将它求和作为参数再做一次attention运算,以此循环多次,将最终的参数放入dnn模型训练得出最终的一个answer。
muti-hop分析
有种做英语阅读理解的感觉
利用不同时刻关注的vector,也就是通过不同时刻关注的hop,最终来推断出question的answer
也可以将attention和hidden 得到的weight作为question传入,再和document,以及input做match,此时得到的attention又和上一时刻的attention不同,通过多次的hopping来获得比较好的attention。