由于博主主要研究成对的图像到图像翻译,这篇博客主要是记录一下对这篇论文所提到的不配对图像翻译+few-shot+半监督场景的理解。
  整理如下:
【1】图像到图像翻译场景下的“标记图像”和分类场景下一样理解,即图像的类别,比如猫到狗的翻译,有猫、狗标签的就是标记图像。
【2】论文提到的成对图像到图像翻译参考文献:8、15、1、18、25
【3】few-shot在此并不是小样本的意思,而是测试过程中的目标图像在训练过程中并不可见,即没有出现。

摘要

  在过去的几年中,不成对的图像到图像的翻译取得了显着进展。尽管最新方法能够生成逼真的图像,但它们依赖于大量标记图像。最近,一些方法解决了小样本的图像到图像转换,从而降低了推理过程中对目标域标记数据的需求。在这项工作中,我们会更进一步,并在训练期间从源域中减少所需的标记数据量。为此,我们建议通过耐噪声的伪标签步骤应用半监督学习。我们还应用了循环一致性约束,以进一步利用来自未标记图像(来自相同数据集或来自外部)的信息。此外,我们提出了几种结构上的修改,以方便在这种情况下的图像翻译任务。我们的半监督图像翻译方法称为SEMIT,它使用仅10%的源标签在四个不同的数据集上均取得了优异的结果,并且仅使用20%的标签数据即可与主要的全监督模型性能相匹配。

介绍

  受益于大量的标记图像,图像到图像翻译在成对[8、15、19、42、49]和未成对图像转换[2、7、22、44、46、48]方面都取得了很大的进步。最近的研究趋势解决了早期方法的相关局限性,即多样性和可伸缩性。当前的方法[1,18,25]通过在给定输入图像的情况下生成各种转换来改善确定性模型的单样本限制。可伸缩性问题也已成功缓解[9、35、36、41],从而可以使用一个模型在多个域之间进行转换。但是,这些方法仍然存在两个问题。首先,在测试时,目标域必须包含与源域相同的类别或属性,因此无法扩展到看不见的类别(见图1(a))。其次,他们高度依赖在训练时刻访问大量标记数据(图1(a,b))。这样的标签可在训练过程中提供有用的信息,并在某些设置(例如可扩展的图像到图像翻译)中发挥关键作用。
Semi-supervised Learning for Few-shot Image-to-Image Translation,CVPR2020
  上图展示了图像到图像翻译的几种场景,不同的几何形状代表不同类别,彩色物体则代表有标签图像,无颜色的虚线物体则代表无标签图像。(a)标准场景:在训练时,目标域和源域图像都可见。(b)Few-shot场景:在训练过程中并不可见实际目标域,即目标图像并不出现在训练过程中。(c)半监督的Few-shot场景:不仅是Few-shot,在训练过程中源域还只有少数有标签数据。

相关文章:

  • 2021-09-19
  • 2021-12-14
  • 2022-01-04
  • 2022-12-23
  • 2021-10-20
  • 2021-12-02
  • 2021-10-17
  • 2021-12-09
猜你喜欢
  • 2022-01-07
  • 2021-05-13
  • 2021-10-26
  • 2021-10-31
  • 2021-07-30
  • 2022-01-05
  • 2022-01-16
相关资源
相似解决方案