From Hashing to CNNs: Training Binary Weight Networks via Hashing

Abstract

本文在二值化权重(BWN)方面做出了创新，发表在AAAI2018上，作者是自动化所程建团队。本文的主要贡献是提出了一个新的训练BWN的方法，揭示了哈希与BW(Binary Weights)之间的关联，表明训练BWN的方法在本质上可以当做一个哈希问题。基于这个方法，本文还提出了一种交替更新的方法来有效的学习hash codes而不是直接学习Weights。在小数据和大数据集上表现的比之前的方法要好。

主要贡献

本文揭示了保持内积哈希与BWN之间的紧密关联。
为了减轻用哈希方法所带来的loss，本文将binary codes乘以了一个scaling factor并用交替优化的策略来更新binary codes以及factor。
在Cifar10,Cifar100以及ImageNet上实验，本文提出的BWNH方法比之前方法要好。

Inner-product preserving hashing

保留内积哈希方法是沈老师团队在15年ICCV上提出的，方法是给定两个点集 $X \in R^{S \times M}$ 和 $W \in R^{S \times N}$ ， $X_{i} \in R^{S \times 1}$ 以及 $W_{i} \in R^{S \times 1}$ 分别代表向量 $X$ 和 $W$ 的第 $i$ 个点，记作向量 $X$ 和 $W$ 的内积相似性(inner-product similarity)为 $S \in R^{M \times N}$ 。则目标函数变为:

m i n ‖ S - h (X)^{T} g (W) ‖_{F}^{2} (1)

h (\cdot)

与

g (\cdot)

表示的是向量

X

和

W

的哈希函数。

哈希与BWN之间的关联

假设有一个L层pre-trained CNN model， $X \in R^{S \times M}$ 是第 $L$ 层的input feature map.记作第 $L$ 层的权重的真实值为 $W \in R^{S \times N}$ ，目标是得到二进制的weighs $B \in {- 1, + 1}^{S \times N}$ ,天真的想法可能就是直接优化二者的差:

m i n L (B) = ‖ W - B ‖_{F}^{2} s . t . B \in {+ 1, - 1}^{S \times N} (2)

优化上式的解就是

B = s i g n (W)

.直接来优化

W

会导致accuracy的严重下降。这时我们可以优化内积相似性的quantiztion error:

m i n L (B) = ‖ X^{T} W - X^{T} B ‖_{F}^{2} s . t . B \in {+ 1, - 1}^{S \times N} (3)

我们可以发现公式

(3)

和公式

(1)

很相似，令

S = X^{T} W, B = g (W), h (X) = X

,这时两个等式是一致的。换句话说，训练一个二值化网络(BWN)本质上就转化称为了一个哈希问题。由于

h (X) = X

是一个确定的公式，所以不用学习

X

的哈希codes。这可以用在哈希空间的ACD(asmmetric distances calculation)方法来实现。
其实公式

(3)

有时候仍然会导致accuracy的下降(原因?)。本文采用了在每个hashing codes

B_{i}

上乘以一个scaling factor：

g (W) = B A

，

A

是一个对角矩阵,

α_{i} = A_{i i}

对应

B_{i}

的scaling因子，这样目标函数就变为：

m i n L (A, B) = ‖ S - X^{T} B A ‖_{F}^{2} = \sum_{i}^{N} ‖ S_{i} - α_{i} \cdot X^{T} B_{i} ‖_{F}^{2} (5)

S = X^{T} W, S_{i} \in R^{M \times 1}

是向量

S

的第

i

列向量。等式

(5)

又可以分为N个独立子问题:

m i n L_{i} (a_{i}, B_{i}) = ‖ S_{i} - α_{i} \cdot X^{T} B_{i} ‖_{F}^{2} s . t . B_{i} \in {+ 1, - 1}^{S \times 1} (6)

这里本文也采用交替更新的策略来求解公式

(6)

.更新

B_{i}

，固定

α_{i}

；反之亦然。
首先初始化 $B_{i}$ 和 $α_{i}$ ，

B_{i} = s i g n (W_{i})

，对于

α_{i}

，用

W_{i}

的平均L1范数来初始化。
然后更新 $α_{i}$ 固定 $B_{i}$ ,对公式

(6)

进行展开，

m i n L_{i} (α_{i}) = c o n s t + α_{i}^{2} ‖ X^{T} B_{i} ‖_{F}^{2} - 2 α_{i} S_{i}^{T} X^{T} B_{i} (7)

对

α_{i}

进行求导，

\frac{\partial L_{i} (α_{i})}{\partial α_{i}}

= 2 α_{i} ‖ X^{T} B_{i} ‖_{F}^{2} - 2 S_{i}^{T} X^{T} B_{i} (8)

令其等于0，则

α_{i}

的解为

α_{i} = \frac{S_{i}^{T} X^{T} B_{i}}{‖ X^{T} B_{i} ‖_{F}^{2}} (9)

最后更新 $B_{i} 固定 α_{i}$ ,对公式

(6)

进行展开，

m i n L_{i} (B_{i}) = c o n s t + ‖ Z^{T} B_{i} ‖_{F}^{2} - 2 T r (B_{i}^{T} q) s . t . B_{i} \in {+ 1, - 1}^{S \times 1} (10)

在这里

Z = α \cdot X

T r ()

是矩阵的迹，

q = α \cdot X S_{i}

.这里公式

(10)

可以用15年沈老师团队在CVPR上提出DCC(discrete cyclic coordinate descent)离散循环梯度下降方法来解决。
DCC算法的推导可以参考http://jikaichen.com/2016/05/31/notes-on-sdh/这篇博客。
大致算法就是:令

b

为

B_{i}

的第

j

个元素，而

B_{i}^{'}

是列向量

B_{i}

除了

b

的剩下的元素。类似的，记作

q_{j}

是

q

的第

j

行的元素，

q^{'}

是

q

除了

q_{j}

剩下的元素；

v^{T}

是矩阵

Z

的第

j

行以及

Z^{'}

是除了

v^{T}

剩下的元素。则公式

(10)

就变为:

m i n (B_{i}^{' T} Z^{'} v - q_{j}) b s . t . b \in {+ 1, - 1} (11)

这样我们可以得到

B_{i}

的第

j

个元素的解：

b = s i g n (q_{j} - B_{i}^{' T} Z^{'} v) (12)

通过使用这种方法，通过固定

B_{i}

的其他

S - 1

个元素，

B_{i}

的每一个元素都可以被更新。
这种方法理论上是收敛的，实验结果也证明算法经过很少的迭代就可以收敛，下图展示了不同CNN model的收敛情况，可以看出在很少的迭代次数下就收敛了。
From Hashing to CNNs: Training Binary Weight Networks via Hashing

From Hashing to CNNs: Training Binary Weight Networks via Hashing

Layer-wise optimization

由于本文提出的交替优化binary weight策略是一层一层优化的，这样下来量化误差会层与层累加。这是因为量化第 $l$ 层会导致第 $l$ 层的输出的量化误差，而第 $l$ 层的输出正是第 $l + 1$ 层的输入，因此也就间接导致了第 $l + 1$ 层的优化。
本文采用Wu等人在QCNN中提出的training shceme.假设有一个pre-trained $L$ 层的CNN model和一个第 $l$ 层被二值化的CNN model，记作第 $l + 1$ 层的输入分别为 $X^{l + 1}$ 以及 ${\tilde{X}}^{l + 1}$ .则目标函数将变为:

m i n L (A, B) = ‖ (X^{l + 1})^{T} W^{l + 1} - ({\tilde{X}}^{l + 1})^{T} B^{l + 1} A^{l + 1} ‖_{F}^{2} = ‖ S^{l + 1} - ({\tilde{X}}^{l + 1})^{T} B^{l + 1} A^{l + 1} ‖_{F}^{2} (13)

目标相似性矩阵

S^{l + 1}

可以通过

X^{l + 1}

和

W^{l + 1}

计算出来，真实相似性通过

{\tilde{X}}^{l + 1}

和binary codes

B^{l + 1}

所得到。因此通过这样一个层与层的training框架，quantization error可以被避免。

The While Training Scheme

From Hashing to CNNs: Training Binary Weight Networks via Hashing
这里就是量化完二值化weights，之后会有一个fine-tune的过程。

Experiments

From Hashing to CNNs: Training Binary Weight Networks via Hashing

以上分别是VGG-9,Alexnet以及ResNet-18的结果，比当前BWN方法都好。

上图表明本文提出的BWNH方法没有fine-tuning的情况下依然accuracy很高，当然fine-tuning会提高accuracy。

The Effect of Scaling Factor

From Hashing to CNNs: Training Binary Weight Networks via Hashing
上图展示了scaling factor的作用，可以看出scaling factor非常重要，没有scaling factor网络的accuracy会下降的非常严重，而且会很快的下降到很低，本文将scaling factor融合到了BN层在前向传播的时候，这就不会带来额外的存储。还有一点就是通过上图可以发现优化完conv2会比优化conv1的accuracy高，This is because the binary weights in conv2 compensates the accuracy drop by adapting to the input featuremaps generated by binary weights in conv1.
本文只对weights进行二值化，并没有对featuremaps进行二值化，这也是一个研究点。