Attention-Guided Generative Adversarial Networks for Unsupervised Image-to-Image Translation
当前的问题及概述:
通过GAN网络针对image-to-image translation任务目前只能转换low-level特征,而不能转换high-level特征,主要原因是生成器无法检测出图像中最能体现语义的部分,从而导致生成的图像质量较差。
针对这一局限性,本文提出了一种基于注意力引导的生成对抗网络(AGGAN),该网络可以在不使用额外数据和模型的情况下,检测出最具辨识性的语义对象,并将不需要的部分变化最小化。AGGAN中的注意导向发生器通过内置的注意机制产生attention mask,然后将输入图像与注意遮罩融合,得到高质量的目标图像。此外,本文还提出了一种新的只考虑被关注区域的注意力引导鉴别器。
上图左边是cycleGAN、DualGAN等框架,右边是本文所提出的AGGAN,AGGAN的生成器可以通过内置的注意模块生成attention mask(Mx和My),然后将生成的attention mask和content mask与输入图像混合,得到目标图像。此外,我们还提出了两种仅考虑被关注区域的注意导向鉴别器DXA和DYA。
模型及loss:
AGGAN:
2.1注意力指导的Generator:
G部分分为两个GX→Y:x→[My, Ry, Gy]和GY→X:y→[Mx, Rx, Gx],其中最终生成图Gy:
attention mask My使面部肌肉变化的一些特定区域得到了更多的聚焦,将其应用到内容mask Ry上,可以生成动态区域清晰,静态区域不清晰的图像。然后对静态区域进行增强,使生成的图像与原始真实图像相似。
2.2注意力指导的Discriminator:
在鉴别器中增加注意力机制,使其只考虑被注意的区域。注意引导D在结构上与普通D相同,但以attention mask作为输入,试图区分伪图像对[My, Gy]和真实图像对[My, y]。
2.3 loss:
常用的GAN loss:
本文的注意力机制指导GAN loss:
Cycle loss:
Pixel loss(一次生成图像与输入图像作l1 loss,虽然这个loss在本文中还是说的通,因为本文的任务是转化图像人物表情,所以图像的大部分还是相似的,但对其他image-to-image还是不一定适用的):
Attention Loss:
Overall:
实验:
数据集:
Large-scale Celeb Faces Attributes (CelebA) dataset
RaFD dataset
AR Face
Bu3dfe
与其他框架比较:
消融实验:
总结:
本文在以往以cycleGAN为主体的框架中加入了注意力指导机制和mask图像,在生成器和判别器中都加入了这两点进行端对端训练,同时还有的不同点是除了基础的cycleGAN loss之外还使用了pixel loss和attention loss进行学习。