[Style Transfer]——GANs for Medical Image Analysis

论文阅读之GANs for Medical Image Analysis

Abstract

生成对抗网络及其变体在医学图像去噪、重建、分割、生成、检测及分类等任务中均有诸多应用，此外，GAN强大的生成能力可以生成更为逼真的图样，很大程度上减轻了医学图像样本稀缺的问题。
 本文主要对GAN在医学图像领域的一些应用进行综述，截止到2018年末，对于各种方法的优点和不足以图表的形式罗列出来方便对比。

Section I Introduction

在医学图像分析的早期阶段，机器学习和人工智能算法就一直是一些复杂决策任务中的关键部分，研究人员的不懈努力聚焦于如何在更精细的粒度上进行决策，如特征工程、以监督方式训练CNN作为功能强大的分类器。
 在医学图像分析领域（MIA，Medical Image Analsis）的研究焦点一直在与监督学习决策边界，而生成模型一直不是研究热点。随着GAN的横空出世，昔日的冷板凳翻身了，GAN强大的生成能力可以更好的模拟数据分布，弥补了监督学习与图像生成之间的巨大差距。
  GAN的强大之处源自以下特点： 
  （1）GAN通过间接监督利用密度比估计，从而最大化数据分布上的概率密度
  （2）GAN可以捕捉到数据在高维隐空间中的视觉特征表达，从而显著提升模型性能 
  本文对2018年末之前GAN在医学图像处理方面的相关研究进行综述，分成了7大类：图像合成、图像分割、图像重建、图像检测、图像去噪、图像配准、图像分类。
   主要涉及的图像格式有：MRI、CT、OCT、X-Ray、Dermoscopy（皮肤镜）、超声、PET和显微镜图像。
    [Style Transfer]——GANs for Medical Image Analysis

Fig1展示了GAN用于上述7类应用各自所占比重，共涉及77篇论文，对以上工作进行总结分析旨在为进一步的研究提供一定的参考方向。 
   Section 3主要介绍GAN的基础知识及相关变体；
   Section 4分别总结GAN在上述47大方向中的具体研究进展；
   Section 5总结分析，并未进一步的研究指明方向。

Section II Opportunities for Medical Image Analysis

监督学习目前在许多计算机视觉和医学图像分析任务中取得了SOTA的结果，但每一种框架的成功都依赖于大规模的带标签的训练数据。而在医学领域最稀缺的恰恰是可用的训练数据，因为训练数据的采集、标注十分费时费力；另一方面医学图像数据集与自然图像数据集相比，还有很严重的类别不均衡问题（class imbalance).借助GAN强大的生成能力可以有效解决上述两大问题，根据是否有约束条件的参与分成（1）无条件和（2）条件生成两大类别。
GAN提出之初是一个无条件、无监督的生成模型，用于对生成的数据影响有限；而条件GAN允许基于一些先验信息（如类别标签、图像属性或图像本身）来约束数据生成。
考虑到带标签数据难以获取，但不带标签的数据往往获取较为容易，因此近年来也提出了所谓的半监督方法（Semi-Supervised Deep Learning)，可以基于带标签和任意不带标签的未标记数据联合进行分类器或分割网络的训练。
 GAN应用还有一个常见问题就是域迁移问题（domain shift)，由于训练数据和测试数据分布之间的差异，使得模型在训练数据之外的数据上泛化能力很差，会有一些潜在的不可预测的行为。比如来自不同设备的MR图像或者由于不同采集批次导致染色不同的组织学病理图像，都会由于域迁移影响模型性能。 通过引入GAN进行对抗学习，可以学习到更加丰富的相似性度量，与传统的l1,l2距离相比他们缺乏空间信息的参与，最后产生的是一个模糊的度量结果，而GAN可以在像素级别以外的图像概念层面进行相似性度量。 
 GAN也为一些时间复杂度高的算法提供了另一种解决思路，如图像重建、配准，这些任务在数学上已经建立了很好的模型，就是迭代优化的成本太高；GAN是直接学习原始输入到重建后或配准图像的映射，仅经过一次前向传播过程，因此大大减少了时间成本。

Section III Basic GAN Models

本节主要介绍GAN及相关变体：DCGAN,Markovian GAN,CycleGAN,Auxiliary GAN,WGAN，Least Squares GAN。
 在此之前，还需要理解以下概念： 
 对抗攻击：Adversarial attack指的是对图像进行一些细微修改，使得分类器产生分类错误；
  对抗训练：Adversarial training是Szegedy等人提出的，通过训练过程中引入正常训练样本和对抗攻击的样本从而提升模型的鲁棒性。
    GAN 
   GAN的结构不再赘述，由生成器和判别器构成，其中生成器是一个多层网络负责学习真实训练数据的分布，从而生成以假乱真的生成样本判别器则是一个二分类网络用于区分真实样本和生成样本。 其中G根据D反向传播的梯度进行参数更新；x,z和x^之前没有显式关系因此不必担心G会显式记住输入；损失函数其实是在优化真实数据分布与合成数据分布之间的JS散度。
    [Style Transfer]——GANs for Medical Image Analysis

尽管GAN的理论基础很完备，但实际中GAN训练较难收敛，需要微调各种超参，防止梯度消失或爆炸；还很容易导致mode collapse，也就是仅学习到真实分布的一部分导致生成的模式局限在一定范围，还会导致跳模（mode hopping）。因此为了避免上述问题，对GAN 进行了一系列改进； 
   DCGAN：
   为了提升GAN的稳定性以及生成图像的分辨率，2015年Radford等人提出了DeepConvolutional GAN(DCGAN),DCGAN中不管是生成器还是判别器都是用了卷积神经网络来代替原始GAN中的多层感知机，从而有效地学习层次特征；为了提升训练的稳定性还是用了BN，LeakyReLU，但仍未完全解决模式崩溃的问题。
    cGAN:
    2014年Mirza等人提出Conditional GAN从而可以通过用户影响生成的数据。CGAN具体结构参见Fig3，可以看到与原始GAN相比，D和G的输入均加入了额外的conditional信息c。
     [Style Transfer]——GANs for Medical Image Analysis

MGAN：
     Markovian GAN是另一种条件生成网络，主要用于加速、提升风格迁移的效果。MGAN结构如Fig4所示，可以看到D和G前面都经过了一个预训练的VGG19网络用于提取特征图谱，此外还是用了额外的感知损失函数（perceptual loss）。
      Pix2Pix:
      2017年Isola提出的Pix2Pix是一款非常成功的用于高分辨率图像变换的框架，Pix2Pix的生成网络参照UNet，判别网络参照MGAN，UNet中的跳跃连接（skip connections）对于保持生成图像的一致性非常有效；需要注意的是Pix2Pix输入的不再是随机噪声，而是原始图像，因此训练过程是基于图像对的。 
      CycleGAN:
      为了完成域迁移任务，模型应该能够学习两个域（源域和目标域）的特征以及两个域之间的映射关系，2017年提出的CycleGAN通过两个域的循环一致性变化有效地学习两个域之间的映射关系，Fig5具体展示了两个方向的循环学习。
       [Style Transfer]——GANs for Medical Image Analysis

AC-GAN：
       Auxiliary Classifier GAN是2017年Google提出的，主要用于进行多分类的数据增强。与原始GAN不同之处在于，输入除了随机噪声外还多了一个额外的类别信息，而判别网络的输出除了判别fake or real还多了一项类别判断，从Fig6也能看出，D的输出多了一项额外的分类网络，这样判别器部分可以使用预训练好的网络，也会是的训练更稳定。 
       WGAN：
       前述GAN的变体，其生成数据和原始数据分布通过JS散度来度量其相似度，WGAN则是使用Wasserstrin距离来作为相似性度量的，研究表明这样模型鲁棒性更佳，但实际应用中迭代优化进行的比较慢。 
       LSGAN：
       2017年Mao等人提出了最小二乘生成对抗网络（Least Square GAN),主要改进就是将交叉熵损失函数替换为最小二乘损失函数，从而提升生成图像的质量，同时增加训练稳定性。
        [Style Transfer]——GANs for Medical Image Analysis