《论文阅读》UCTGAN: Diverse Image Inpainting based on Unsupervised Cross-Space Translation

留个笔记自用

UCTGAN: Diverse Image Inpainting based on Unsupervised Cross-Space Translation

做什么

一幅图像中，通过已知区域修补未知区域。（未知区域位置已知）
《论文阅读》UCTGAN: Diverse Image Inpainting based on Unsupervised Cross-Space Translation

做了什么

《论文阅读》UCTGAN: Diverse Image Inpainting based on Unsupervised Cross-Space Translation

首先这里定义原始图片为I_g
附带遮挡的图片为I_m
合成图片为I_c
生成的一系列I_c的集合称为空间S_cc
由训练集中取出的示例图片为I_i
一系列I_i的集合为S_i
E()为一个计算函数，将I_i和I_c转换到一个低维空间中
将S_i和S_cc两个域共同映射到一个公共的空间S_m
U()为网络计算，将I_i和I_m输入，得到合成图片I_c

怎么做

《论文阅读》UCTGAN: Diverse Image Inpainting based on Unsupervised Cross-Space Translation
整个结构分为三个部分，第一部分为投影模块E₁，第二部分为编码模块E₂，第三部分为生成模块G。E₁和G主要功能就是将两个空间S_i和S_cc映射到条件完成空间S_m,E₂就是充当一种条件约束。
首先先看中部的黑箱layer
《论文阅读》UCTGAN: Diverse Image Inpainting based on Unsupervised Cross-Space Translation
这里就是对两个输入进行attention
其他的模型都是普通的encoder或者decoder
然后从LOSS出发理解
1.Condition Constraint Loss

这里的U()就是这个模型，由I_m和I_i得到I_c，M就是mask部分，M和I_c操作抽取出只有mask部分的一张图，也就是《论文阅读》UCTGAN: Diverse Image Inpainting based on Unsupervised Cross-Space Translation
的
部分。然后这里的loss由两个组成，可以理解成aloss为单纯的逐点像素点的比较，floss中使用一个训练好的提取特征的VGG，将这部分图片经过VGG得到的vector进行逐元素对比，也就是对比两幅图的特征，这个loss是为了保证仅仅mask部分中示例图片和生成图片的类似。
2.KL Divergence Loss
《论文阅读》UCTGAN: Diverse Image Inpainting based on Unsupervised Cross-Space Translation
这里的E就是上面说的转换为低维的模块函数，Z_c和Z_m是I_i和I_m的正态化（多元高斯分布），就是把两张图映射到一个正态函数上，后面的N就是标准的正态函数表示，KL是一个普遍使用的loss，与常用的cross entropy很像，在我的理解中这个loss的含义是为了均衡模型的分布，防止E模块出现模型崩塌。
《论文阅读》UCTGAN: Diverse Image Inpainting based on Unsupervised Cross-Space Translation
3.Reconstruction Loss

因为网络是输入I_i来得到最后的I_c，希望I_i和I_c经过E模块后的结果相同，也就是希望这两者相同或者说希望这两者映射后的注意力部分相同。
然后是《论文阅读》UCTGAN: Diverse Image Inpainting based on Unsupervised Cross-Space Translation
这里用到了label图片I_g，就是非常标准的逐元素对比，希望生成的I_c和I_g相同，这两个loss相加为重构loss，即为了判断生成图片的合理性的同时判断与label的相似性。
4.Adversarial Loss
《论文阅读》UCTGAN: Diverse Image Inpainting based on Unsupervised Cross-Space Translation
最后的这个loss是对从data中sample的各个I_i的评价，discriminator是另训的图片评价模型
5.Total

总结

从网络上来看整个结构非常简单，主要是用非常多的loss去限制它，在于它使用了无监督的方式来进行生成，从训练集sample出图片来进行合成图片的模拟，这种想法能用到很多类似的应用上。