最优传输系列是基于Computational Optimal Transport开源书的读书笔记

最优传输的熵正则化

在大型数据集上进行最优传输时 ,时间复杂度是个非常重要的因素。
不过,在大部分应用情况下,求标准Kantorovich解是不必要的:如果我们利用正则化,改求近似解,那么最优传输的计算代价就大幅降低了。

使用正则化的最优传输问题用一系列矩阵乘法即可求解–这意味着最优传输可以充分享受GPU的矩阵加速效果,实用价值明显提升。

同时,正则化后的最优传输距离对输入的概率分布是完全连续的,并且能够系统式求导,在WGAN等方向上这点卓有成效。

在这章里,我们正式介绍熵正则化之后,继续探索最优传输的主力算法–Sinkhorn algorithm,从第三章的理论基础出发,向最优传输的实际应用前进。

4.1 正则化–定义

H(P)=def.i,jPi,j(log(Pi,j)1)\mathbf{H}(\mathbf{P}) \stackrel{\mathrm{def.}}{=}-\sum_{i, j} \mathbf{P}_{i, j}\left(\log \left(\mathbf{P}_{i, j}\right)-1\right)

H(P)\mathbf{H}(\mathbf{P})即为正则化的代价函数,是整个概念的核心。

那么加上正则化的最优传输问题则变为
LCε(a,b)=def.minPU(a,b)P,CεH(P)\mathrm{L}_{\mathrm{C}}^{\varepsilon}(\mathbf{a}, \mathbf{b}) \stackrel{\mathrm{def.}}{=} \min _{\mathbf{P} \in \mathbf{U}(\mathbf{a}, \mathbf{b})}\langle\mathbf{P}, \mathbf{C}\rangle-\varepsilon \mathbf{H}(\mathbf{P})

这里的ε\varepsilon(epsilon)是个正则化系数,它的大小决定正则化作用的强度,道理和神经网络里的正则化系数是完全一样的。

那么我们来分析正则化的作用。
i,jPi,j=1\sum_{i,j} \mathbf{P}_{i,j}=1,所以log(Pi,j)<0log(\mathbf{P}_{i,j})<0绝对成立
同样一个单位的质量转移,如果分布在少数的Pi,j\mathbf{P}_{i,j}上,每个Pi,j\mathbf{P}_{i,j}取值较大,那么代价会大于将质量分布在多个Pi,j\mathbf{P}_{i,j}上,每个Pi,j\mathbf{P}_{i,j}取值很小。

换句话说,正则化鼓励利用多数小流量路径的传输,而惩罚稀疏的,利用少数大流量路径的传输,由此达到减少计算复杂度的目的。

最优传输-熵正则化(第八篇)
可以看到,在ε\varepsilon取值较低时,传输集中使用少数路径,然而当ε\varepsilon取值变大,正则化传输的最优解变得更加“扁平”,使用更多的路径进行传输。

介绍了正则化的基本定义后,在4.2节里我们正式进入Sinkhorn算法,正则化的用处所在也会更加清楚

相关文章:

  • 2022-01-11
  • 2021-10-02
  • 2022-02-07
  • 2022-02-20
  • 2021-05-21
  • 2021-12-28
  • 2021-09-03
  • 2022-12-23
猜你喜欢
  • 2021-10-15
  • 2022-12-23
  • 2021-09-25
  • 2021-04-11
  • 2022-12-23
  • 2022-02-05
  • 2021-04-27
相关资源
相似解决方案