Dynamic Few-Shot Visual Learning without Forgetting||论文阅读

文章介绍：

这篇文章和前面两篇的基本思想也非常类似，也是直接用已有的大的数据集训练，核心还是在于如何处理新task 新class的输出。

那么这篇文章的idea和上一篇其实没有本质的区别，或者说几乎就是一样的，先用training set训练出一个feature extractor，然后对于新的few shot training data，通过一个few-shot classification weight generator来生成对应的参数weight。一点具体处理的小细节就是这个weight generator还把base weight作为输入，同时计算最后的概率输出不是直接相乘，而是使用cosine similarity相似度来算（这里的根本原因是base weight和novel weight的生成方式不同，量级可能差很多，而只用cosine similarity则不需要考虑这个量级的问题），最后就是作者在使用多个few shot样本时不仅仅是简单粗暴的对feature取平均，而且使用了attention注意力机制来选择对应的base weight，效果会更好。

最后说一下整个训练过程，不是完全的端到端过程而是分两步训，这个其实和前面两篇文章也一样，先训练出feature extractor，然后再固定它，训练后面的weight generator。个人认为这样做是比较丑的，而且并不利于效果的提升。

相比上面两篇文章，整体感觉这篇文章的处理会更好一些，特别是最后使用了attention-based weight generator，比较明显可以提升效果。那么实际实验上这篇文章只使用了64类，和其他方法是公平比较的，虽然看结果比前两篇略低，但估计如果是使用80类做training结果会更好。

文章阅读https://blog.csdn.net/few_shot/article/details/90048319#Methodology_24