【论文阅读】Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials

参考：
https://blog.csdn.net/dcz1994/article/details/88837760

用一个Gibbs分布来表征条件随机场：
$P(\mathbf{X} | \mathbf{I})=\frac{1}{Z(\mathbf{I})} \exp \left(-\sum_{c \in \mathcal{C}_{\mathcal{G}}} \phi_{c}\left(\mathbf{X}_{c} | \mathbf{I}\right)\right)$

【论文阅读】Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials
取随机场最大后验概率对应的x作为标签：
$\mathbf{x}^{*}=\arg \operatorname{mal}_{\mathbf{x} \in \mathcal{L}^{N}} P(\mathbf{x} | \mathbf{I})$

整个随机场的Gibbs能量为：
$E(\mathrm{x})=\sum_{i} \psi_{u}\left(x_{i}\right)+\sum_{i<j} \psi_{p}\left(x_{i}, x_{j}\right)$
式中， $\psi_{u}\left(x_{i}\right)$ 和 $\psi_{p}\left(x_{i},x_j\right)$ 分别代表unary and pairwise cliques
考虑二元势：
$\psi_{p}\left(x_{i}, x_{j}\right)=\mu\left(x_{i}, x_{j}\right) \underbrace{\sum_{m=1}^{K} w^{(m)} k^{(m)}\left(\mathbf{f}_{i}, \mathbf{f}_{j}\right)}_{k\left(\mathbf{f}_{i}, \mathbf{f}_{j}\right)}$
式中表示的是整个概率图模型中某一个pairwise cliques的势函数，那个K是指一共有k个高斯核吗？ $\mu(x_i,x_j)$ 是标签相关性函数：
【论文阅读】Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials
对于多类别图像分割问题使用contrast-sensitive two-kernel potentials, $I_i$ 和 $I_j$ 表示颜色向量， $p_i$ 和 $p_j$ 表示位置：
$k\left(\mathbf{f}_{i}, \mathbf{f}_{j}\right)=\underbrace{w^{(1)} \exp \left(-\frac{\left|p_{i}-p_{j}\right|^{2}}{2 \theta_{\alpha}^{2}}-\frac{\left|I_{i}-I_{j}\right|^{2}}{2 \theta_{\beta}^{2}}\right)}_{\text { appearance kernel }}+w^{(2)} \underbrace{\exp \left(-\frac{\left|p_{i}-p_{j}\right|^{2}}{2 \theta_{\gamma}^{2}}\right)}_{\text { smoothness kernel }}$

Efficient Inference in Fully Connected CRFs

使用 $Q(X)$ 近似代替原始的 $P(X)$ 分布，并使得KL散度 $D(Q||P)$ 最小。
推导过程参考FCN(5)——DenseCRF推导
这里我直接搬运过来了，这样方变做笔记哈哈哈
下面变分推断的目的是找到一个函数 $Q(x)$ ，来近似表示 $P(x)$ ，以降低模型的复杂度。这个过程经过推导可知需要进行迭代近似。CRF的参数包括 $\theta和w$ ，参数的学习需要使用其他算法进行。
我们首先给出denseCRF的Gibbs分布：
$P(X)=\frac{1}{Z} \tilde{P}(X)=\frac{1}{Z} \exp \left(\sum_{i} \psi_{u}\left(x_{i}\right)+\sum_{i<j} \psi_{p}\left(x_{i}, x_{j}\right)\right)$
$D(Q \| P)=\sum_{x} Q(x) \log \left(\frac{Q(x)}{P(x)}\right)=-\sum_{x} Q(x) \log P(x)+\sum_{x} Q(x) \log Q(x)$

$=-E_{X \in Q}[\log P(X)]+E_{X \in Q}[\log Q(X)]$

$=-E_{X \in Q}[\log \tilde{P}(X)]+E_{X \in Q}[\log Z]+\sum_{i} E_{X_{i} \in Q}\left[\log Q_{i}\left(X_{i}\right)\right]$

$=-E_{X \in Q}[\log \tilde{P}(X)]+\log Z+\sum_{i} E_{X_{i} \in Q_{i}}\left[\log Q_{i}\left(X_{i}\right)\right]$
由于我们要求的是Q，而logZ项中没有Q，所以这一项可以省略。
Q(X)是在当前输入下，某一标签取得x值的概率

同时Q还需要满足：
概率归一化
$\sum_{x_{i}} Q_{i}\left(x_{i}\right)=1$

所以利用拉格朗日乘子法，可以得到
$L\left(Q_{i}\right)=-E_{X_{i} \in Q}[\log \tilde{P}(X)]+\sum_{i} E_{x_{i} \in Q_{i}}\left[\log Q_{i}\left(x_{i}\right)\right]+\lambda\left(\sum_{x_{i}} Q_{i}\left(x_{i}\right)-1\right)$
这个公式的后面两项相对比较简单，但是前面一项比较复杂，我们单独做一下处理：
该项在之前被表示为： $\sum_{x} Q(x) \log Q(x)$
$-E_{X_{i} \in Q}[\log \tilde{P}(X)]=-\int \prod_{i} Q_{i}\left(x_{i}\right)[\log \tilde{P}(X)] d X$

$=-\int Q_{i}\left(x_{i}\right) \prod_{i} Q\left(\overline{x}_{i}\right)[\log \tilde{P}(X)] d x_{i} d \overline{X}$

$=-\int Q_{i}\left(x_{i}\right) E_{\overline{X} \in Q}[\log \tilde{P}(X)] d x_{i}$
经过上面的公式整理，我们可以求出偏导，可得
$\frac{\partial L\left(Q_{i}\right)}{\partial Q_{i}\left(x_{i}\right)}=-E_{\overline{X} \in Q_{i}}\left[\log \tilde{P}\left(X | x_{i}\right)\right]-\log Q_{i}\left(x_{i}\right)-1+\lambda$
令偏导为0，就可以求出极值：
$Q_{i}\left(x_{i}\right)=\exp (\lambda-1) \exp \left(-E_{\overline{X} \in Q_{i}}\left[\log \tilde{P}\left(X | x_{i}\right)\right]\right)$
由于每一个Q的 $\exp(\lambda-1)$ 都相同，我们将其当作一个常数项，之后在renormalize的时候将其抵消掉，于是Q函数就等于：
$Q\left(x_{i}\right)=\frac{1}{Z_{1}} \exp \left(-E_{\overline{X} \in Q_{i}}\left[\log \tilde{P}\left(X | x_{i}\right)\right]\right)$
我们将文章开头关于\tilde{P}的定义带入，就得到了
$Q\left(x_{i}\right)=\frac{1}{Z_{1}} \exp \left(-E_{\overline{X} \in Q}\left[\left(\sum_{i} \psi_{u}\left(x_{i}\right)+\sum_{j \neq i} \psi_{p}\left(x_{i}, x_{j}\right)\right) | x_{i}\right]\right)$
这里面xi的由于是已知的，所以我们可以得到补充材料里的结果（但是变量名不太一样）：
$Q_{i}\left(x_{i}=l\right)=\frac{1}{Z_{i}} \exp \left[-\psi_{u}(l)-\sum_{j \neq i} E_{\overline{X} \in Q_{j}} \psi_{p}\left(l, X_{j}\right)\right]$
继续扩展，就可以得到
$=\frac{1}{Z_{i}} \exp \left[-\psi_{u}(l)-\sum_{m=1}^{K} w^{(m)} \sum_{j \neq i} E_{X \in Q_{j}}\left[\mu\left(l, X_{j}\right) k^{(m)}\left(f_{i}, f_{j}\right)\right]\right]$

$=\frac{1}{Z_{i}} \exp \left[-\psi_{u}(l)-\sum_{m=1}^{K} w^{(m)} \sum_{j \neq i} \sum_{l^{\prime} \in L} Q_{j}\left(l^{\prime}\right) \mu\left(l, l^{\prime}\right) k^{(m)}\left(f_{i}, f_{j}\right)\right]$

$=\frac{1}{Z_{i}} \exp \left[-\psi_{u}(l)-\sum_{l^{\prime} \in L} \mu\left(l, l^{\prime}\right) \sum_{m=1}^{K} w^{(m)} \sum_{j \neq i} Q_{j}\left(l^{\prime}\right) k^{(m)}\left(f_{i}, f_{j}\right)\right]$
这样，一个类似message passing的公式推导就完成了。其中最内层的求和可以用截断的高斯滤波完成。搬运最后的一点公式，可以得：
$Q_{i}^{(\tilde{m})}(l)=\sum_{j \neq i} Q_{j}\left(l^{\prime}\right) k^{(m)}\left(f_{i}, f_{j}\right)=\sum_{j} Q_{j}(l) k^{(m)}\left(f_{i}, f_{j}\right)-Q_{i}(l)$
最终得到的迭代公式是：
$Q_{i}\left(x_{i}=l\right)=\frac{1}{Z_{i}} \exp \left\{-\psi_{u}\left(x_{i}\right)-\sum_{l^{\prime} \in \mathcal{L}} \mu\left(l, l^{\prime}\right) \sum_{m=1}^{K} w^{(m)} \sum_{j \neq i} k^{(m)}\left(\mathbf{f}_{i}, \mathbf{f}_{j}\right) Q_{j}\left(l^{\prime}\right)\right\}$

【论文阅读】Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials