留个笔记自用

UCTGAN: Diverse Image Inpainting based on Unsupervised Cross-Space Translation

做什么

一幅图像中,通过已知区域修补未知区域。(未知区域位置已知)
《论文阅读》UCTGAN: Diverse Image Inpainting based on Unsupervised Cross-Space Translation
《论文阅读》UCTGAN: Diverse Image Inpainting based on Unsupervised Cross-Space Translation

做了什么

《论文阅读》UCTGAN: Diverse Image Inpainting based on Unsupervised Cross-Space Translation
《论文阅读》UCTGAN: Diverse Image Inpainting based on Unsupervised Cross-Space Translation
首先这里定义原始图片为Ig
附带遮挡的图片为Im
合成图片为Ic
生成的一系列Ic的集合称为空间Scc
由训练集中取出的示例图片为Ii
一系列Ii的集合为Si
E()为一个计算函数,将Ii和Ic转换到一个低维空间中
将Si和Scc两个域共同映射到一个公共的空间Sm
U()为网络计算,将Ii和Im输入,得到合成图片Ic

怎么做

《论文阅读》UCTGAN: Diverse Image Inpainting based on Unsupervised Cross-Space Translation
整个结构分为三个部分,第一部分为投影模块E1,第二部分为编码模块E2,第三部分为生成模块G。E1和G主要功能就是将两个空间Si和Scc映射到条件完成空间Sm,E2就是充当一种条件约束。
首先先看中部的黑箱layer
《论文阅读》UCTGAN: Diverse Image Inpainting based on Unsupervised Cross-Space Translation
这里就是对两个输入进行attention
其他的模型都是普通的encoder或者decoder
然后从LOSS出发理解
1.Condition Constraint Loss
《论文阅读》UCTGAN: Diverse Image Inpainting based on Unsupervised Cross-Space Translation
这里的U()就是这个模型,由Im和Ii得到Ic,M就是mask部分,M和Ic操作抽取出只有mask部分的一张图,也就是《论文阅读》UCTGAN: Diverse Image Inpainting based on Unsupervised Cross-Space Translation
《论文阅读》UCTGAN: Diverse Image Inpainting based on Unsupervised Cross-Space Translation
部分。然后这里的loss由两个组成,可以理解成aloss为单纯的逐点像素点的比较,floss中使用一个训练好的提取特征的VGG,将这部分图片经过VGG得到的vector进行逐元素对比,也就是对比两幅图的特征,这个loss是为了保证仅仅mask部分中示例图片和生成图片的类似。
2.KL Divergence Loss
《论文阅读》UCTGAN: Diverse Image Inpainting based on Unsupervised Cross-Space Translation
这里的E就是上面说的转换为低维的模块函数,Zc和Zm是Ii和Im的正态化(多元高斯分布),就是把两张图映射到一个正态函数上,后面的N就是标准的正态函数表示,KL是一个普遍使用的loss,与常用的cross entropy很像,在我的理解中这个loss的含义是为了均衡模型的分布,防止E模块出现模型崩塌。
《论文阅读》UCTGAN: Diverse Image Inpainting based on Unsupervised Cross-Space Translation
3.Reconstruction Loss
《论文阅读》UCTGAN: Diverse Image Inpainting based on Unsupervised Cross-Space Translation
因为网络是输入Ii来得到最后的Ic,希望Ii和Ic经过E模块后的结果相同,也就是希望这两者相同或者说希望这两者映射后的注意力部分相同。
然后是《论文阅读》UCTGAN: Diverse Image Inpainting based on Unsupervised Cross-Space Translation
这里用到了label图片Ig,就是非常标准的逐元素对比,希望生成的Ic和Ig相同,这两个loss相加为重构loss,即为了判断生成图片的合理性的同时判断与label的相似性。
4.Adversarial Loss
《论文阅读》UCTGAN: Diverse Image Inpainting based on Unsupervised Cross-Space Translation
最后的这个loss是对从data中sample的各个Ii的评价,discriminator是另训的图片评价模型
5.Total
《论文阅读》UCTGAN: Diverse Image Inpainting based on Unsupervised Cross-Space Translation

总结

从网络上来看整个结构非常简单,主要是用非常多的loss去限制它,在于它使用了无监督的方式来进行生成,从训练集sample出图片来进行合成图片的模拟,这种想法能用到很多类似的应用上。

相关文章:

  • 2022-01-16
  • 2021-11-06
  • 2021-12-03
  • 2021-08-18
  • 2021-06-25
  • 2021-06-22
  • 2021-06-05
  • 2021-05-04
猜你喜欢
  • 2021-05-13
  • 2021-05-19
  • 2022-12-23
  • 2021-11-30
  • 2021-04-13
  • 2021-12-20
  • 2021-06-29
相关资源
相似解决方案