XNOR-Net: ImageNet Classification Using Binary Convolutional Neural Networks

Abstract

本文是一篇经典的二值化weight和activations的文章，发表在ECCV2016.本文提出了两种有效二值化的框架： $X N O R - N e t$ 以及 $B W N$ (Binary-Weight-Networks).在存储方面可以节省32倍的memory。在 $X N O R - N e t$ 上weights以及卷积层的input都是二值化的。在Imagenet数据集上用Alexnet做实验得到和全精度一样的accuracy。code地址: http://allenai.org/plato/xnornet.

Binary Convolutional Neural Network

设定一个三元组 $< I, W, * >$ 作为一个 $L$ 层的CNN框架， $I = I_{l (l = 1, . . ., L)}$ 是CNN第 $l$ 层的输入， $W = W_{l k (k = 1, . . ., K^{l})}$ 是CNN第 $l$ 层第 $k$ 个滤波器的权重， $K^{l}$ 是第 $l$ 层滤波器的数量， $*$ 代表 $I$ 和 $W$ 的卷积操作，这里原文假设卷积核没有bias。 $I \in R^{c \times w_{i n} \times h_{i n}}$ , $W \in R^{c \times w \times h}$ , $w \leq w_{i n}$ , $h \leq h_{i n}$ .本文提出的两种架构一一介绍。
XNOR-Net: ImageNet Classification Using Binary Convolutional Neural Networks

1.Binary-Weight-Networks(BWN)

本文直接给出了真实值 $W$ 与目标二值化的 $B \in {+ 1, - 1}^{c \times w \times h}$ 之间的关系，用一个scaling factor $α \in R^{+}$ 来联系两个weight。 $W \approx α B$ ，一个卷积操作就可以近似为

I * W \approx (I \oplus B) α (1)

\oplus

代表不带任何乘法的卷积操作。由于weight是二值化的，所以可以实现一个卷积操作转化为加法和减法。用

< I, B . A, \oplus >

代表二值化weight的CNN，

B = B_{l k}

是一个二值化的filter，

α = A_{l k}

，

W_{l k} \approx A_{l k} B_{l k}

Estimating binary weights

为了让loss不失一般性，假设 $W, B \in R^{n}, n = c \times w \times h$ 都是矢量.对于 $W \approx α B$ ，为了找到最优解，本文提出以下优化目标函数：

J (B, α) = ‖ W - α B ‖^{2}

α^{*}, B^{*} = a r g min_{α, B} J (B, α) (2)

展开公式(2)：

J (B, α) = α^{2} B^{T} B - 2 α W^{T} B + W^{T} W (3)

B \in {+ 1, - 1}^{n}, B^{T} B = n

是一个常数。

W^{T} W

也是一个常数由于

W

是一个已经得变量，设定

c = W^{T} W

,这样公式(3)就变为:

J (B, α) = α^{2} n - 2 α W^{T} B + c

.
这样求 $B$ 的最优解就变为以下的约束公式:

B^{*} = a r g max_{B} {W^{T} B}, s . t . B \in {+ 1, - 1}^{n} (4)

这个最优解就是:

B_{i} = + 1 i f W_{i} \geq 0

以及

B_{i} = - 1 i f W_{i} < 0

.因此最优解就是:

B^{*} = s i g n (W)

.为了找到

α^{*}

的最优解，可以求

J

对

α

的导数并置0得:

α^{*} = \frac{W^{T} B^{*}}{n} (5)

带入

B^{*} = s i g n (W)

得：

α^{*} = \frac{W^{T} s i g n (W)}{n} = \frac{\sum | W_{i} |}{n} = \frac{1}{n} ‖ W ‖_{l 1} (6)

Training Binary-Weights-Networks

训练CNN的每一次迭代包含三个步骤:forward pass, backward pass and parameters update.这里要注意一点:在训练二值化weight(在卷积层)的时候，只在forward pass和backward propagation的时候二值化weight。对 $s i g n (r)$ ,求导公式为 $\frac{\partial s i g n}{\partial r} = r 1_{| r | \leq 1}$ .weight的导数就是: $\frac{\partial C}{\partial W_{i}} = \frac{\partial C}{\partial {\tilde{W}}_{i}} (\frac{1}{n} + \frac{\partial s i g n}{\partial W_{i}} α)$ .对于update parameters来说，用全精度的weights，因为在梯度下降时，参数改变的很小，在更新完参数时，二值化可以忽略这些改变。
算法1展示了训练二值化weight的步骤：
XNOR-Net: ImageNet Classification Using Binary Convolutional Neural Networks
首先:对于每一层先计算出B和A，然后使用二值化的weight进行前向，然后在进行反向，最后更新参数。

XNOR-Network

在BWN里面，用A和B来近似表示真实值，但是卷积层的输入仍然是真实值的。

1.Binary Dot Product

近似 $X \in R^{n}$ 和 $W \in R^{n}$ 的点乘： $X^{T} W \approx β H^{T} α B$ , $H, B \in {+ 1, - 1}^{n}$ , $α, β \in R^{+}$ , 优化以下目标函数：

α^{*}, B^{*}, β^{*}, H^{*} = a r g min_{α, B, β, H} ‖ X ⊙ W - β α H ⊙ B ‖ (7)

⊙

代表element-wise乘(对应元素相乘)。
设定

Y \in R^{n}

Y_{i} = X_{i} W_{i}, C \in {+ 1, - 1}^{n}

C_{i} = H_{i} B_{i}, γ = β α

.公式(7)可以重写为:

γ^{*}, C^{*} = a r g min_{γ, C} ‖ Y - γ C ‖ (8)

根据公式(2),我们可以得到最优解:

C^{*} = s i g n (Y) = s i g n (X) ⊙ s i g n (W) = H^{*} ⊙ B^{*} (9)

由于

| X_{i} |

和

| W_{i} |

是独立的，

Y_{i} = X_{i} W_{i}

，所以

E [| Y_{i} |] = E [| X_{i} | | W_{i} |] = E [| X_{i} |] E [| W_{i} |]

,因此

γ^{*} = \frac{\sum | Y_{i} |}{n} = \frac{| X_{i} | | W_{i} |}{n} \approx (\frac{1}{n} ‖ X ‖_{l 1}) (\frac{1}{n} ‖ W ‖_{l 1}) = β^{*} α^{*} (10)

2.Binary Convolution

XNOR-Net: ImageNet Classification Using Binary Convolutional Neural Networks
输入 $I \in R^{c \times w_{i n} \times h_{i n}}$ 在图二中有两个sub-tensors $X_{1}$ 和 $X_{2}$ 。由于sub-tensors之间有很多重叠，导致有很多冗余的计算。为了克服这个冗余，首先计算出输入 $I$ 在channel的均方和， $A = \frac{\sum | I_{:, :, i} |}{c}$ , 将 $A$ 和一个2D的卷积核 $k \in R^{w \times h}, K = A * k ， k_{i j} = \frac{1}{w \times h}, \forall i j$ 。 $K_{i j}$ 对应位置 $i j$ 处的 $β$ ，一旦得到 $α$ 和 $β$ ：

I * W \approx (s i g n (I) ⊛ s i g n (W)) ⊙ K α (11)

⊛

表示一个卷积操作使用XNOR和bitcount操作。

3.Training XNOR-Networks

XNOR-Net: ImageNet Classification Using Binary Convolutional Neural Networks
Fig.3 左图展示了典型的block，右图展示了XNOR-Net的block，binary activation layer(BinActiv)作用是计算出 $K$ 和 $s i g n (I)$ , BinConv层中，给定 $K$ 和 $s i g n (I)$ ,根据公式(11),计算二值化的卷积。训练算法跟算法1一样。

4.Binary Gradient

Experiments

XNOR-Net: ImageNet Classification Using Binary Convolutional Neural Networks