BFGS

step 1.

根据泰勒公式，省略掉高阶项：

$f (x) \approx f (x_{k + 1}) + \nabla f (x_{k + 1}) \cdot (x - x_{k + 1}) + \frac{1}{2} \cdot (x - x_{k + 1})^{T} \cdot \nabla^{2} f (x_{k + 1}) \cdot (x - x_{k + 1})$

再两边取导数得

$\nabla f (x) = \nabla f (x + 1) + H_{k + 1} (x - x_{k + 1})$

此时，取 $x = x_{k}$ ，并设 $\nabla f (x_{k}) = g_{k}, \nabla^{2} f (x_{k}) = H_{k}$

有 $g_{k + 1} - g_{k} = H_{k + 1} \cdot (x_{k + 1} - x_{k})$ ，设 $g_{k + 1} - g_{k} = y_{k}$ , $x_{k + 1} - x_{k} = S_{k}$

则有

\begin{matrix} (1) & y_{k} = H_{k + 1} \cdot S_{k} \end{matrix}

step 2.

用 $B_{k}$ 表示海森矩阵 $H_{k}$ 的近似，用 $D_{k}$ 表示 $H_{k}^{-} 1$ (海森矩阵的逆)的近似

$B_{k + 1} = B_{k} + Δ B_{k}$

设 $\nabla B_{k} = α u u^{T} + β v v^{T}$ ,其中 $u$ 和 $v$ 是n维向量

又由(1)得 $y_{k} = B_{k + 1} \cdot S_{k}$

所以

$y_{k} = B_{k} \cdot S_{k} + α u u^{T} S_{k} + β v v^{T} S_{k}$

$y_{k} = B_{k} \cdot S_{k} + α u^{T} S_{k} u + β v^{T} S_{k} v$ (之所以能这么换位置，是因为 $u^{T} S_{k}$ 是一个数，而不是一个矩阵或向量)

令

{\begin{cases} α u^{T} S_{k} = 1 \\ β v^{T} S_{k} = 1 \\ \begin{array}{ll} u = y_{k} \\ v = B_{k} S_{k} \end{array}} 这 样 设 是 为 了 将 B_{k + 1} 能 用 y_{k} 和 S_{k} 表 示 \end{cases}

可以解得

α = \frac{1}{y_{k}^{T} S_{k}}

β = \frac{- 1}{v^{T} S_{k}} = \frac{- 1}{S_{k}^{T} B_{k}^{T} S_{k}}

所以

\begin{matrix} (2) & Δ B_{k} = \frac{y_{k} y_{k}^{T}}{y_{k}^{T} S_{k}} - \frac{B_{k} S_{k} S_{k}^{T} B_{K}^{T}}{S_{K}^{T} B_{K}^{T} S_{k}} \end{matrix}

后面转自：

作者: peghoty

出处: http://blog.csdn.net/itplus/article/details/21897443

BFGS

L-BFGS

所谓L-BFGS是对BFGS进行了空间优化：
这是由于向量维数n到达了一定数量级， $n \times n$ 的矩阵需要相当大的内存。

L-BFGS算法并没有直接存储整个矩阵，而是在需要用到时，根据若干个n维向量来计算。

由于计算的结果需要用到之前每一次迭代/循环中的结果， L-BFGS算法只保存了最近的m次迭代的结果，所以L-BFGS算法又做了近似。