最优传输-熵正则化（第八篇）

最优传输系列是基于Computational Optimal Transport开源书的读书笔记

最优传输的熵正则化

在大型数据集上进行最优传输时，时间复杂度是个非常重要的因素。
不过，在大部分应用情况下，求标准Kantorovich解是不必要的：如果我们利用正则化，改求近似解，那么最优传输的计算代价就大幅降低了。

使用正则化的最优传输问题用一系列矩阵乘法即可求解–这意味着最优传输可以充分享受GPU的矩阵加速效果，实用价值明显提升。

同时，正则化后的最优传输距离对输入的概率分布是完全连续的，并且能够系统式求导，在WGAN等方向上这点卓有成效。

在这章里，我们正式介绍熵正则化之后，继续探索最优传输的主力算法–Sinkhorn algorithm，从第三章的理论基础出发，向最优传输的实际应用前进。

4.1 正则化–定义

$\mathbf{H}(\mathbf{P}) \stackrel{\mathrm{def.}}{=}-\sum_{i, j} \mathbf{P}_{i, j}\left(\log \left(\mathbf{P}_{i, j}\right)-1\right)$

$\mathbf{H}(\mathbf{P})$ 即为正则化的代价函数，是整个概念的核心。

那么加上正则化的最优传输问题则变为
$\mathrm{L}_{\mathrm{C}}^{\varepsilon}(\mathbf{a}, \mathbf{b}) \stackrel{\mathrm{def.}}{=} \min _{\mathbf{P} \in \mathbf{U}(\mathbf{a}, \mathbf{b})}\langle\mathbf{P}, \mathbf{C}\rangle-\varepsilon \mathbf{H}(\mathbf{P})$

这里的 $\varepsilon$ （epsilon）是个正则化系数，它的大小决定正则化作用的强度，道理和神经网络里的正则化系数是完全一样的。

那么我们来分析正则化的作用。
$\sum_{i,j} \mathbf{P}_{i,j}=1$ ，所以 $log(\mathbf{P}_{i,j})<0$ 绝对成立
同样一个单位的质量转移，如果分布在少数的 $\mathbf{P}_{i,j}$ 上，每个 $\mathbf{P}_{i,j}$ 取值较大，那么代价会大于将质量分布在多个 $\mathbf{P}_{i,j}$ 上，每个 $\mathbf{P}_{i,j}$ 取值很小。

换句话说，正则化鼓励利用多数小流量路径的传输，而惩罚稀疏的，利用少数大流量路径的传输，由此达到减少计算复杂度的目的。

最优传输-熵正则化（第八篇）
可以看到，在 $\varepsilon$ 取值较低时，传输集中使用少数路径，然而当 $\varepsilon$ 取值变大，正则化传输的最优解变得更加“扁平”，使用更多的路径进行传输。

介绍了正则化的基本定义后，在4.2节里我们正式进入Sinkhorn算法，正则化的用处所在也会更加清楚