最优传输系列是基于Computational Optimal Transport开源书的读书笔记
最优传输的熵正则化
在大型数据集上进行最优传输时 ,时间复杂度是个非常重要的因素。
不过,在大部分应用情况下,求标准Kantorovich解是不必要的:如果我们利用正则化,改求近似解,那么最优传输的计算代价就大幅降低了。
使用正则化的最优传输问题用一系列矩阵乘法即可求解–这意味着最优传输可以充分享受GPU的矩阵加速效果,实用价值明显提升。
同时,正则化后的最优传输距离对输入的概率分布是完全连续的,并且能够系统式求导,在WGAN等方向上这点卓有成效。
在这章里,我们正式介绍熵正则化之后,继续探索最优传输的主力算法–Sinkhorn algorithm,从第三章的理论基础出发,向最优传输的实际应用前进。
4.1 正则化–定义
H(P)=def.−∑i,jPi,j(log(Pi,j)−1)
H(P)即为正则化的代价函数,是整个概念的核心。
那么加上正则化的最优传输问题则变为
LCε(a,b)=def.minP∈U(a,b)⟨P,C⟩−εH(P)
这里的ε(epsilon)是个正则化系数,它的大小决定正则化作用的强度,道理和神经网络里的正则化系数是完全一样的。
那么我们来分析正则化的作用。
∑i,jPi,j=1,所以log(Pi,j)<0绝对成立
同样一个单位的质量转移,如果分布在少数的Pi,j上,每个Pi,j取值较大,那么代价会大于将质量分布在多个Pi,j上,每个Pi,j取值很小。
换句话说,正则化鼓励利用多数小流量路径的传输,而惩罚稀疏的,利用少数大流量路径的传输,由此达到减少计算复杂度的目的。

可以看到,在ε取值较低时,传输集中使用少数路径,然而当ε取值变大,正则化传输的最优解变得更加“扁平”,使用更多的路径进行传输。
介绍了正则化的基本定义后,在4.2节里我们正式进入Sinkhorn算法,正则化的用处所在也会更加清楚