项目地址 论文复现课程链接
光有理论没有实践是无法走远的,但跨出第一步是困难的,正好趁着暑假期间跟着这次复现项目动手实践,废话不多说,直接上准备选择复现的论文:Few-shot Video-to-Video Synthesisessaycode)。
【飞桨PaddlePaddle论文复现】Few-shot Video-to-Video Synthesis

一看作者:老熟人NVIDIA,(嗯,是显卡,不,是金钱的香气),题目开门见山,显然是前作Video-to-Video Synthesis的进一步完善,至于论文效果嘛:大卫跳舞,蒙娜丽莎说话。

【飞桨PaddlePaddle论文复现】Few-shot Video-to-Video Synthesis
【飞桨PaddlePaddle论文复现】Few-shot Video-to-Video Synthesis
众所周知,视频是不能P的,所以我选择GAN。(不是)
效果还是相当不错的(毕竟NeurIPS2019),俗话说得好,外行看热闹,内行看不懂(不是),接下来就是技术细节部分。
首先先看这篇论文主要解决了什么问题:虽然当前vid2vid合成技术已经取得了显著进展,但依然存在以下两种局限:其一,现有方法极其需要数据,训练过程中需要大量目标人物或场景的图像;其二,学习到的模型泛化能力不足,姿态到人体的vid2vid模型只能合成训练集中单个人的姿态,不能泛化到训练集中没有的其他人,图来。
【飞桨PaddlePaddle论文复现】Few-shot Video-to-Video Synthesis【飞桨PaddlePaddle论文复现】Few-shot Video-to-Video Synthesis【飞桨PaddlePaddle论文复现】Few-shot Video-to-Video Synthesis

从图中可知,本文大体网络结构和前作相同,重点是提出了两大改进:为了让模型实现Few-shot并学习到如何合成未知领域的视频,即为了令生成器适应未见过的数据,他们给生成器F增加了两个额外的输入参数:即目标领域的K个样本图像{e_1,e_2,…,e_K},以及对应它们对应的语义图像{s_e1,s_e2,…,s_eK}。这样整个生成器就可以表示为嵌入了少样本学习的属性的方程式:
【飞桨PaddlePaddle论文复现】Few-shot Video-to-Video Synthesis
除此之外,为了提高模型的泛化能力,他们还设计了一种注意力机制来聚合提取出的外观模式q_1……q_K
【飞桨PaddlePaddle论文复现】Few-shot Video-to-Video Synthesis光从文字上看创新点主要是这些,但大家都明白,代码和论文可能天壤之别,具体的实现过程先鸽一会。

相关文章: