【论文笔记】VoxelMorph-无监督医学图像配准模型

本文是无监督的医学图像配准模型——VoxelMorph 的论文笔记。

变形配准（Deformable registration）策略通常包括两步：第一步是可实现全局对齐的仿射变形，然后是具有自由度更高的更缓慢变形变换。本文主要是关心第二步。

一、记号

$f$ 和 $m$ 分别表示 fixed image 和 moving image， $\phi$ 表示从 $f$ 的坐标映射到 $m$ 的坐标的配准场， $u$ 表示一个位移向量场。 $g_\theta(f,m)=u$ 是 VoxelMorph 所表示的配准函数，其中 $\theta$ 是网络的模型， $u$ 是位移场。对与体素 $p$ 来说， $u(p)$ 就是让 $m$ 中的体素和 $f$ 中的体素对齐到相似位置的位移。

二、前人工作

基于学习就是指经过神经网络训练的(训练就是学习)，训练出来的参数函数是共享的（只需训练一次得到参数，以后配准都使用这些参数）；不基于学习是指传统的配准方法，每次配准都要对度量函数进行优化，参数不共享。

由于传统的配准方法是对每一个图像对进行优化，所以速度非常慢。有监督的神经网络训练的方式虽然提升了速度，但需要大量的标注信息。无监督的神经网络训练具有速度快、不需要标注信息的特点。

这一部分是自己总结的，论文中没有。

三、VoxelMorph 网络结构

【论文笔记】VoxelMorph-无监督医学图像配准模型
上图是 VoxelMorph 网络的示意图，下方浅蓝色区域是可选的。fixed image 和 moving image 通过一个卷积神经网络 $g_\theta(f,m)$ 产生一个配准场（可以理解为形变场） $\phi$ ，然后将该形变场作用在 moving image 上得到更接近 fixed image 的 moved image $m\circ\phi$ 。形变场有一个平滑损失 $L_{smooth}(\phi)$ ，moved image 和 fixed image 之间有一个相似性损失 $L_{sim}(f,m\circ\phi)$ 。如果是有监督（即有分割标签）的训练，则产生的形变场还会作用在 moving image 对应的分割标签上，得到 moved segmentation，并计算它与 fixed image segmentation 之间的分割损失 $L_{seg}(s_f,s_m\circ\phi)$ 。

【论文笔记】VoxelMorph-无监督医学图像配准模型

上图是本论文中使用的用来实现 $g_\theta(f,m)$ 的 U-Net 结构的 CNN 示意图，矩形下方的数字表示当前层三维图像的体积与输入的三维图像的关系。

四、空间变换函数

基于空间变换网络（STN），来缩小 moving image 和 fixed image 之间的区别，并预测一个形变场，然后将形变场作用到 moving image 上得到与 fixed image 更相似的 moved image，即 $m\circ\phi$ 。

五、损失函数

VoxelMorph 中有两种训练策略或者说损失函数，一种是基于图像的灰度值来最大化一个关于图像之间的匹配程度的目标函数，另一种除此之外还使用了诸如图像的分割标签等辅助信息。显然，第一种策略是无监督的，第二种是有监督的。

1. 无监督的损失函数

无监督的损失函数包括两部分：相似性损失 $L_{sim}$ 和平滑损失 $L_{smooth}$ ，相似性损失是衡量图像之间相似性的，而平滑损失是使产生的形变具有空间平滑性的。无监督损失函数可以表示为：
$L_{us}(f,m,\phi)=L_{sim}(f,m\circ\phi)+\lambda L_{smooth}(\phi)$
相似性损失可以是像素级的 均方误差，通常当 $f$ 和 $m$ 具有相似的灰度值分布的时候使用这种形式；也可以是 $f$ 和 $m\circ\phi$ 之间局部的 互相关，通常当 $f$ 和 $m$ 来自不同的扫描设备或数据集时使用这种形式。

2. 有监督的损失函数

有监督的损失函数包括两部分：一部分是无监督损失，另一部分是两幅图像的分割标签之间的 Dice 损失。有监督的损失函数可以表示为：
$L_a(f,m,s_f,s_m,\phi)=L_{us}(f,m,\phi)+\gamma L_{seg}(s_f,s_m\circ\phi)$
其中 $s_f,s_m$ 分别为 fixed image 和 moving image 对应的分割标签，需要注意的是分割损失只在训练的时候使用，在测试的时候因为没有标签所以不用。

对于分割损失来说，产生的形变场也会作用在 moving image 的分割标签上，得到 moved image 对应的分割标签，然后计算它与 fixed image 的分割标签之间的 Dice 损失。

实践证明，在使用了额外的分割信息之后，训练的效果得到了提升。