拟牛顿法（DFP、BFGS、L-BFGS）

拟牛顿法

一、牛顿法

1.1 基本介绍

牛顿法属于利用一阶和二阶导数的无约束目标最优化方法。基本思想是，在每一次迭代中，以牛顿方向为搜索方向进行更新。牛顿法对目标的可导性更严格，要求二阶可导，有Hesse矩阵求逆的计算复杂的缺点。XGBoost本质上就是利用牛顿法进行优化的。

1.2 基本原理

现在推导牛顿法。
假设无约束最优化问题是

min_{x} f (x)

对于一维

x

的情况，可以将

f (x^{(t + 1)})

在

x^{(t)}

附近用二阶泰勒展开近似：

f (x^{(t + 1)}) = f (x^{(t)}) + f^{'} (x^{(t)}) Δ x + \frac{1}{2} f^{″} (x^{(t)}) Δ x^{2}

然后用泰勒展开的极值点近似

f (x)

的极值点：

\frac{\partial f (x^{(t + 1)})}{\partial x^{(t + 1)}} = f^{'} (x^{(t)}) + f^{″} (x^{(t)}) Δ x = 0

因此

Δ x = x^{(t + 1)} - x^{(t)} = - \frac{f^{'} (x^{(t)})}{f^{″} (x^{(t)})} = - \frac{g_{t}}{h_{t}}

于是得到迭代公式，

g

和

h

分别是目标在当前

x

上的一阶和二阶导

x^{(t + 1)} = x^{(t)} - \frac{g_{t}}{h_{t}}

推广到

x

是多维向量的情况，

g_{t}

仍然是向量，而

H_{t}

是Hesse矩阵

H = [\frac{\partial^{2} f}{\partial x_{i} \partial x_{j}}]

以二维

x = (x_{1}, x_{2})

为例：

H = [\begin{matrix} \frac{\partial^{2} f}{\partial x_{1}^{2}} & \frac{\partial^{2} f}{\partial x_{1} x_{2}} \\ \frac{\partial^{2} f}{\partial x_{2} x_{1}} & \frac{\partial^{2} f}{\partial x_{2}^{2}} \end{matrix}]

参数更新方程推广为：

x^{(t + 1)} = x^{(t)} - H_{t}^{- 1} g_{t}

可见，每一次迭代的更新方向都是当前点的牛顿方向，步长固定为1。每一次都需要计算一阶导数

g

以及Hesse矩阵的逆矩阵，对于高维特征而言，求逆矩阵的计算量巨大且耗时。

1.3 阻尼牛顿法

从上面的推导中看出，牛顿方向 $- H^{- 1} g$ 能使得更新后函数处于极值点，但是它不一定是极小点，也就是说牛顿方向可能是下降方向，也可能是上升方向，以至于当初始点远离极小点时，牛顿法有可能不收敛。因此提出阻尼牛顿法，在牛顿法的基础上，每次迭代除了计算更新方向（牛顿方向），还要对最优步长做一维搜索。

算法步骤

（1）给定给初始点 $x^{(0)}$ ，允许误差 $ϵ$
（2）计算点 $x^{(t)}$ 处梯度 $g_{t}$ 和Hesse矩阵 $H$ ，若 $| g_{t} | < ϵ$ 则停止迭代
（3）计算点 $x^{(t)}$ 处的牛顿方向作为搜索方向：

d^{(t)} = - H_{t}^{- 1} g_{t}

（4）从点

x^{(t)}

出发，沿着牛顿方向

d^{(t)}

做一维搜索，获得最优步长：

λ_{t} = \arg min_{λ} f (x^{(t)} + λ \cdot d^{(t)})

（5）更新参数

x^{(t + 1)} = x^{(t)} + λ_{t} \cdot d^{(t)}

二、拟牛顿法

2.1 提出的初衷

牛顿法中的Hesse矩阵 $H$ 在稠密时求逆计算量大，也有可能没有逆（Hesse矩阵非正定）。拟牛顿法提出，用不含二阶导数的矩阵 $U_{t}$ 替代牛顿法中的 $H_{t}^{- 1}$ ，然后沿搜索方向 $- U_{t} g_{t}$ 做一维搜索。根据不同的 $U_{t}$ 构造方法有不同的拟牛顿法。
注意拟牛顿法的 关键词：

不用算二阶导数
不用求逆

2.2 拟牛顿条件

牛顿法的搜索方向是

d^{(t)} = - H_{t}^{- 1} g_{t}

为了不算二阶导及其逆矩阵，设法构造一个矩阵

U

，用它来逼近

H^{- 1}

现在为了方便推导，假设

f (x)

是二次函数，于是 Hesse 矩阵

H

是常数阵，任意两点

x^{(t)}

和

x^{(t + 1)}

处的梯度之差是：

▽ f (x^{(t + 1)}) - ▽ f (x^{(t)}) = H \cdot (x^{(t + 1)} - x^{(t)})

等价于

x^{(t + 1)} - x^{(t)} = H^{- 1} \cdot [▽ f (x^{(t + 1)}) - ▽ f (x^{(t)})]

那么对非二次型的情况，也仿照这种形式，要求近似矩阵

U

满足类似的关系：

x^{(t + 1)} - x^{(t)} = U_{t + 1} \cdot [▽ f (x^{(t + 1)}) - ▽ f (x^{(t)})]

或者写成

Δ x_{t} = U_{t + 1} \cdot Δ g_{t}

以上就是拟牛顿条件，不同的拟牛顿法，区别就在于如何确定

U

。

2.3 DFP法

为了方便区分，下面把 $U$ 称作 $D$ （表示DFP）。

DFP推导

现在已知拟牛顿条件

Δ x_{t} = D_{t + 1} \cdot Δ g_{t}

假设已知

D_{t}

，希望用叠加的方式求

D_{t + 1}

，即

D_{t + 1} = D_{t} + Δ D_{t}

，代入得到

Δ D_{t} Δ g_{t} = Δ x_{t} - D_{t} Δ g_{t}

假设满足这个等式的

Δ D_{t}

是这样的形式：

Δ D_{t} = Δ x_{t} \cdot q_{t}^{T} - D_{t} Δ g_{t} \cdot w_{t}^{T}

首先，对照一下就能发现：

q_{t}^{T} \cdot Δ g_{t} = w_{t}^{T} \cdot Δ g_{t} = I_{n}

其次，要保证

Δ D_{t}

是对称的，参照

Δ D_{t}

的表达式，最简单就是令

q_{t} = α_{t} Δ x_{t} w_{t} = β_{t} D_{t} Δ g_{t}

第二个条件代入第一个得到：

α_{t} = \frac{1}{Δ g_{t}^{T} Δ x_{t}} β_{t} = \frac{1}{Δ g_{t}^{T} D_{t} Δ g_{t}}

然后代入回

Δ D_{t}

的表达式：

Δ D_{t} = \frac{Δ x_{t} Δ x_{t}^{T}}{Δ g_{t}^{T} Δ x_{t}} - \frac{D_{t} Δ g_{t} Δ g_{t}^{T} D_{t}}{Δ g_{t}^{T} D_{t} Δ g_{t}}

观察一下两项分式，第一项仅涉及向量乘法，时间复杂度是

O (n)

，第二项涉及矩阵乘法，时间复杂度是

O (n^{2})

，综合起来是

O (n^{2})

。

DFP算法步骤

（1）给定初始点 $x^{(0)}$ ，允许误差 $ϵ$ ，令 $D_{0} = I_{n}$ （ $n$ 是 $x$ 的维数）， $t = 0$
（2）计算搜索方向 $d^{(t)} = - D_{t}^{- 1} \cdot g_{t}$
（3）从点 $x^{(t)}$ 出发，沿着 $d^{(t)}$ 做一维搜索，获得最优步长并更新参数：

λ_{t} = \arg min_{λ} f (x^{(t)} + λ \cdot d^{(t)}) x^{(t + 1)} = x^{(t)} + λ_{t} \cdot d^{(t)}

（4）判断精度，若

| g_{t + 1} | < ϵ

则停止迭代，否则转（5）
（5）计算

Δ g = g_{t + 1} - g_{t}

，

Δ x = x^{(t + 1)} - x^{(t)}

，更新

H

D_{t + 1} = D_{t} + \frac{Δ x Δ x^{T}}{Δ g^{T} Δ x} - \frac{D_{t} Δ g Δ g^{T} D_{t}}{Δ g^{T} D_{t} Δ g}

（6）

t = t + 1

，转（2）

2.4 BFGS法

为了方便区分，下面把 $U$ 称作 $B^{- 1}$ （表示BFGS）。

BFGS推导

拟牛顿条件

Δ x_{t} = B_{t + 1}^{- 1} \cdot Δ g_{t} Δ g_{t} = B_{t + 1} \cdot Δ x_{t}

推导与DFP相似，但是，可以看到BFGS这种拟牛顿条件的形式与BFP的是对偶的，所以迭代公式只要把

Δ x_{t}

和

Δ g_{t}

调换一下就好。

Δ B_{t} = \frac{Δ g_{t} Δ g_{t}^{T}}{Δ x_{t}^{T} Δ g_{t}} - \frac{B_{t} Δ x_{t} Δ x_{t}^{T} B_{t}}{Δ x_{t}^{T} B_{t} Δ x_{t}}

只不过有个问题，按照下面这个迭代公式，不也一样要求逆吗？这就要引入谢尔曼莫里森公式了。

Δ x_{t} = B_{t + 1}^{- 1} \cdot Δ g_{t}

Sherman-Morrison 公式

对于任意非奇异方阵 $A$ ， $u, v \in R^{n}$ 是 $n$ 维向量，若 $1 + v^{T} A^{- 1} u \neq 0$ ，则

(A + u v^{T})^{- 1} = A^{- 1} - \frac{(A^{- 1} u) (v^{T} A^{- 1})}{1 + v^{T} A^{- 1} u}

该公式描述了在矩阵

A

发生某种变化时，如何利用之前求好的逆，求新的逆。
对迭代公式引入两次 Sherman-Morrison 公式就能得到

B_{t + 1}^{- 1} = (I_{n} - \frac{Δ x_{t} Δ g_{t}^{T}}{Δ x_{t}^{T} Δ g_{t}}) B_{t}^{- 1} (I_{n} - \frac{Δ g_{t} Δ x_{t}^{T}}{Δ x_{t}^{T} Δ g_{t}}) + \frac{Δ x_{t} Δ x_{t}^{T}}{Δ x_{t}^{T} Δ g_{t}}

就得到了逆矩阵之间的推导。可能有人会问，第一个矩阵不也要求逆吗？其实这是一个迭代算法，初始矩阵设为单位矩阵（对角阵也可以）就不用求逆了。
这个公式的详细推导可以参考这里或者这里。

BFGS算法步骤

虽然下面的矩阵写成 $B^{- 1}$ ，但要明确，BFGS从头到尾都不需要算逆，把下面的 $B^{- 1}$ 换成 $H$ 这个符号，也是一样的。
（1）给定初始点 $x^{(0)}$ ，允许误差 $ϵ$ ，设置 $B_{0}^{- 1}$ ， $t = 0$
（2）计算搜索 $d^{(t)} = - B_{t}^{- 1} \cdot g_{t}$
（3）从点 $x^{(t)}$ 出发，沿着 $d^{(t)}$ 做一维搜索，获得最优步长并更新参数：

λ_{t} = \arg min_{λ} f (x^{(t)} + λ \cdot d^{(t)}) x^{(t + 1)} = x^{(t)} + λ_{t} \cdot d^{(t)}

（4）判断精度，若

| g_{t + 1} | < ϵ

则停止迭代，否则转（5）
（5）计算

Δ g = g_{t + 1} - g_{t}

，

Δ x = x^{(t + 1)} - x^{(t)}

，更新

B^{- 1}

，然后

B_{t + 1}^{- 1} = (I_{n} - \frac{Δ x_{t} Δ g_{t}^{T}}{Δ x_{t}^{T} Δ g_{t}}) B_{t}^{- 1} (I_{n} - \frac{Δ g_{t} Δ x_{t}^{T}}{Δ x_{t}^{T} Δ g_{t}}) + \frac{Δ x_{t} Δ x_{t}^{T}}{Δ x_{t}^{T} Δ g_{t}}

（6）

t = t + 1

，转（2）

2.5 L-BFGS法（Limited-memory BFGS）

对于 $d$ 维参数，BFGS算法需要保存一个 $O (d^{2})$ 大小的 $B^{- 1}$ 矩阵，实际上只需要每一轮的 $Δ x$ 和 $Δ g$ ，也可以递归计算出当前迭代的 $B^{- 1}$ 矩阵，L-BFGS就是基于这种思想，实现了节省内存的BFGS。

L-BFGS推导

BFGS的递推公式：

B_{t + 1}^{- 1} = (I_{n} - \frac{Δ x_{t} Δ g_{t}^{T}}{Δ x_{t}^{T} Δ g_{t}}) B_{t}^{- 1} (I_{n} - \frac{Δ g_{t} Δ x_{t}^{T}}{Δ x_{t}^{T} Δ g_{t}}) + \frac{Δ x_{t} Δ x_{t}^{T}}{Δ x_{t}^{T} Δ g_{t}}

现在假设

ρ_{t} = \frac{1}{Δ x_{t}^{T} Δ g_{t}}

，

V_{t} = I_{n} - ρ_{t} Δ g_{t} Δ x_{t}^{T}

，则递推公式可以写成

B_{t + 1}^{- 1} = V_{t}^{T} B_{t}^{- 1} V_{t} + ρ_{t} Δ x_{t} Δ x_{t}^{T}

给定的初始矩阵

B_{0}^{- 1}

后，之后的每一轮都可以递推计算

B_{1}^{- 1} = V_{0}^{T} B_{0}^{- 1} V_{0} + ρ_{0} Δ x_{0} Δ x_{0}^{T} B_{2}^{- 1} = V_{1}^{T} B_{0}^{- 1} V_{1} + ρ_{1} Δ x_{1} Δ x_{1}^{T} = (V_{1}^{T} V_{0}^{T}) B_{0}^{- 1} (V_{0} V_{1}) + V_{1}^{T} ρ_{0} Δ x_{0} Δ x_{0}^{T} V_{1} + ρ_{1} Δ x_{1} Δ x_{1}^{T}

一直到最后

B_{k + 1}^{- 1}

可以由

t = 0

到

t = k

的

Δ x_{t}

和

Δ g_{t}

表示：

\begin{matrix} B_{t + 1}^{- 1} & = & (V_{t}^{T} V_{t - 1}^{T} \dots V_{1}^{T} V_{0}^{T}) B_{0}^{- 1} (V_{0} \dots V_{t - 1} V_{t}) \\ + & (V_{t}^{T} V_{t - 1}^{T} \dots V_{2}^{T} V_{1}^{T}) (ρ_{0} Δ x_{0} Δ x_{0}^{T}) (V_{1} \dots V_{t - 1} V_{t}) \\ + & \dots \\ + & V_{t}^{T} (ρ_{t - 1} Δ x_{t - 1} Δ x_{t - 1}^{T}) V_{t} \\ + & ρ_{t} Δ x_{t} Δ x_{t}^{T} \end{matrix}

看起来很长，其实可以写成一个求和项

B_{t + 1}^{- 1} = (\prod_{i = t}^{0} V_{i}^{T}) B_{0}^{- 1} (\prod_{i = 0}^{t} V_{i}) + \sum_{j = 0}^{t} (\prod_{i = t}^{j + 1} V_{i}^{T}) (ρ_{j} Δ x_{j} Δ x_{j}^{T}) (\prod_{i = j + 1}^{t} V_{i})

这个求和项包含了从

0

到

t

的所有

Δ x

和

Δ g

，而根据实际需要，可以只取最近的

m

个，也就是：

B_{t}^{- 1} = (\prod_{i = t - 1}^{t - m} V_{i}^{T}) B_{0}^{- 1} (\prod_{i = t - m}^{t - 1} V_{i}) + \sum_{j = t - 1}^{t - m} (\prod_{i = t}^{j + 1} V_{i}^{T}) (ρ_{j} Δ x_{j} Δ x_{j}^{T}) (\prod_{i = j + 1}^{t} V_{i})

工程上的L-BFGS

我们关心的其实不是 $B_{t}^{- 1}$ 本身如何，算 $B_{t}^{- 1}$ 的根本目的是要算本轮搜索方向 $B_{t}^{- 1} g_{t}$
以下算法摘自《Numerical Optimization》，它可以高效地计算出拟牛顿法每一轮的搜索方向。仔细观察一下，你会发现它实际上就是复现上面推导的那一堆很长的递推公式，你所需要的是最近 $m$ 轮的 $Δ x$ 和 $Δ g$ ，后向和前向算完得到最终的 $r$ 就是搜索方向 $B_{t}^{- 1} g_{t}$ ，之后要做一维搜索或者什么的都可以。
解释一下算法的符号和本文符号之间的对应关系， $s_{i} = Δ x_{i}$ ， $y_{i} = Δ g_{i}$ ， $H_{k} = B_{k}^{- 1}$
代码实现可以参考这里。

L-BFGS算法步骤

（1）给定初始点 $x^{(0)}$ ，允许误差 $ϵ$ ，预定保留最近 $m$ 个向量，设置 $B_{0}^{- 1}$ ， $t = 0$
（2）用Algorithm 9.1计算搜索方向 $d^{(t)} = - B_{t}^{- 1} \cdot g_{t}$
（3）从点 $x^{(t)}$ 出发，沿着 $d^{(t)}$ 做一维搜索，获得最优步长并更新参数：

λ_{t} = \arg min_{λ} f (x^{(t)} + λ \cdot d^{(t)}) x^{(t + 1)} = x^{(t)} + λ_{t} \cdot d^{(t)}

（4）判断精度，若

| g_{t + 1} | < ϵ

则停止迭代，否则转（5）
（5）判断

t > m

，删掉存储的

Δ x_{t - m}

和

Δ g_{t - m}

（5）计算

Δ g = g_{t + 1} - g_{t}

，

Δ x = x^{(t + 1)} - x^{(t)}

，令

t = t + 1

，转（2）

最后，有时候你看不懂BFGS到底意味着什么，并不是你英文差，而是因为这个简称真的没有意义。。。。。

拟牛顿法

一、牛顿法

1.1 基本介绍

1.2 基本原理

1.3 阻尼牛顿法

算法步骤

二、拟牛顿法

2.1 提出的初衷

2.2 拟牛顿条件

2.3 DFP法

DFP推导

DFP算法步骤

2.4 BFGS法

BFGS推导

Sherman-Morrison 公式

BFGS算法步骤

2.5 L-BFGS法（Limited-memory BFGS）

L-BFGS推导

工程上的L-BFGS

L-BFGS算法步骤

参考资料