【飞桨PaddlePaddle论文复现】Few-shot Video-to-Video Synthesis

项目地址 论文复现课程链接
光有理论没有实践是无法走远的，但跨出第一步是困难的，正好趁着暑假期间跟着这次复现项目动手实践，废话不多说，直接上准备选择复现的论文：Few-shot Video-to-Video Synthesis（essay，code）。
【飞桨PaddlePaddle论文复现】Few-shot Video-to-Video Synthesis

一看作者：老熟人NVIDIA，（嗯，是显卡，不，是金钱的香气），题目开门见山，显然是前作Video-to-Video Synthesis的进一步完善，至于论文效果嘛：大卫跳舞，蒙娜丽莎说话。

【飞桨PaddlePaddle论文复现】Few-shot Video-to-Video Synthesis

众所周知，视频是不能P的，所以我选择GAN。（不是）
效果还是相当不错的（毕竟NeurIPS2019），俗话说得好，外行看热闹，内行看不懂（不是），接下来就是技术细节部分。
首先先看这篇论文主要解决了什么问题：虽然当前vid2vid合成技术已经取得了显著进展，但依然存在以下两种局限：其一，现有方法极其需要数据，训练过程中需要大量目标人物或场景的图像；其二，学习到的模型泛化能力不足，姿态到人体的vid2vid模型只能合成训练集中单个人的姿态，不能泛化到训练集中没有的其他人，图来。
【飞桨PaddlePaddle论文复现】Few-shot Video-to-Video Synthesis

从图中可知，本文大体网络结构和前作相同，重点是提出了两大改进：为了让模型实现Few-shot并学习到如何合成未知领域的视频，即为了令生成器适应未见过的数据，他们给生成器F增加了两个额外的输入参数：即目标领域的K个样本图像{e_1,e_2,…,e_K}，以及对应它们对应的语义图像{s_e1,s_e2,…,s_eK}。这样整个生成器就可以表示为嵌入了少样本学习的属性的方程式：
【飞桨PaddlePaddle论文复现】Few-shot Video-to-Video Synthesis
除此之外，为了提高模型的泛化能力，他们还设计了一种注意力机制来聚合提取出的外观模式q_1……q_K。
光从文字上看创新点主要是这些，但大家都明白，代码和论文可能天壤之别，具体的实现过程先鸽一会。