一维线搜索确定最优步长

一维线搜索，就是指单变量函数的最优化，它是专门针对单峰函数设计的：

如上一篇文章所述，多变量函数中，迭代格式为：

x k + 1 = x k + α k d k

其中的关键就在于找到合适的步长αk,和搜索方向dk.可以设：

ϕ (α) = f (x k + α d k)

从初始点xk出发，以步长αk沿着搜索方向搜索，使得：

ϕ (α k) < ϕ (0)

的问题，就是所谓的关于α的一维搜索问题。
如果能找到αk使得：

f (x k + α k d k) = min α > 0 f (x k + α d k)

其中αk就是最优的步长因子。

关键还是怎么得到这样的αk,在一维搜索中，其主要的想法就是先确定一个搜索区间，然后采用插值法或者分割技术逐渐减小这个区间，直到找到最优的αk.

搜索区间，相当于满足α∗>0的同时，使得：

ϕ (α *) = min α > 0 ϕ (α)

的α∗所在的区间[a,b]（α∗∈[a,b]），且该区间必定会大于0，称该区间称为搜索区间。

其中确定搜索区间的方法之一就是进退法：

算法步骤如下：

α0∈[0,+∞),h0>0,k:=0,计算ϕ(α0)
比较目标函数值，令αk+1=αk+hk,计算ϕ(αk+1),若ϕ(αk+1)<ϕ(αk),转到第三步
加大搜索步长hk−1:=t∗hk(t一般取2),α:=αk,αk:=αk+1,ϕ(αk):=ϕ(αk+1)转至第二步
反向搜索；若k=0,令hk:=−hk,αk:=αk+1,转至第二步。否则停止迭代，得到 $a = m i n (α, α k + 1), b = m a x (α, α k + 1)$ 输出，a,b
过程如图所示：

前面介绍了怎么用进退法确定我们的搜索区间，但区间那么大，也不好求出最优化，因此可以通过切割区间，来减小区间，0.618和Fibonacci就是这样的分割方法。

0.618法是针对以上的单峰函数的，可以设

ϕ (α) = f (x k + α d k)

是搜索区间[a0,b0]上的单峰函数
一维线搜索确定最优步长

第一步迭代：
1. 要求λk,μk到搜索区间的两个端点等距;
2. 每次迭代，要求搜索区间的缩短率相同；

用数学表达式表达出来如下：
一维线搜索确定最优步长

第二次迭代：
一维线搜索确定最优步长
由此得到

迭代到一定条件之后，可以求出我们最初要求的参数：

α k = (λ k + μ k) 2

此外，还有一些分割方法，比如Fibonacci，它和0.618法的主要区别是它的缩短率不是采用黄金分割数，而是采用了Fibonacci数，Fibonacci数列满足：

F 0 = F 1 = 1, F k + 1 = F k + F k - 1

,详细的推导请参考袁亚湘老师的最优化理论与方法p73.

在一些实际问题中，目标函数如果不可微，就可以采用0.618法来确定步长，但也有很多情况下目标函数是可微的，一旦可微，我们就可以计算他们的梯度了。

4.1 梯度与函数下降的关系？

很多人有这样的疑问，梯度有什么用？
如图所示为梯度方向，如果梯度小于0，则必然是相反方向，也就是函数下降的方向，这是一个直观的看法，下面用公式证明这个结论。

定义：设f是Rn上的实函数，d∈Rn。若存在某个正数α⎯⎯>0使得

f (x + α d) < f (x), \forall α \in (0, α ⎯ ⎯)

则称d是f在x处的一个下降方向，相关系数α称为一个步长。（这个是下降方向的数学表达式，满足这个条件的就是下降方向）

再给出一个定理：设f:是Rn→R在x处可微，若存在d∈Rn使得

\nabla f (x) T d < 0,

则d必为f(x)在x处的一个下降方向。

为了看一下这个的准确性，现在给出证明。

证明：由Taylor定理，对于任意的α>0,我们有

f (x + α d) = f (x) + α \nabla f (x) T d + o (| | α d | |)

既然∇f(x)Td<0,从而必然存在α⎯⎯>0,使得当α∈(0,α⎯⎯)时，

\nabla f (x) T d + o (| | α d | |) α < 0

于是

f (x + α d) = f (x) + α \nabla f (x) T d + o (| | α d | |) < f (x)

得证。

由此我们发现，只要∇f(x)≠0,那么下降方向d一定存在，因为即使∇f(x)>0,我们可以取它的负方向作为下降方向。

4.2 wolfe条件

大于0的正数α作为步长，在函数下降方向总有：

A r m i j o 条 件 ： f (x + α d) = f (x) + c α \nabla f (x) T d, 0 < c < 1

但直接用该条件确定步长有可能使得步长太小，故使用后退技巧：选取0<t<1,找到一个最小的非负整数j，使得

f (x + t j d) \leq f (x) + c t j \nabla f (x) T d,

令步长为α=tj.

如果该条件加上曲率条件，就构成了Wolfe条件：

A r m i j o 条 件 ： f (x + α d) = f (x) + c 1 α \nabla f (x) T d,

曲 率 条 件 ： \nabla f (x + α d) T d \geq c 2 \nabla f (x) T d,

其中0<c1<c2<1.

参考

最优化理论与方法 –袁亚湘
最优化选讲