【问题标题】:Minimize quadratic function subject to linear equality constraints with SciPy使用 SciPy 最小化受线性等式约束的二次函数
【发布时间】:2019-08-27 19:33:42
【问题描述】:

我有一个相当简单的约束优化问题,但根据我的处理方式得到不同的答案。让我们先把 import 和一个漂亮的 print 函数排除在外:

import numpy as np
from scipy.optimize import minimize, LinearConstraint, NonlinearConstraint, SR1

def print_res( res, label ):
    print("\n\n ***** ", label, " ***** \n")
    print(res.message)
    print("obj func value at solution", obj_func(res.x))
    print("starting values: ", x0)
    print("ending values:   ", res.x.astype(int) )
    print("% diff", (100.*(res.x-x0)/x0).astype(int) )
    print("target achieved?",target,res.x.sum())

样本数据很简单:

n = 5
x0 = np.arange(1,6) * 10_000
target = x0.sum() + 5_000   # increase sum from 15,000 to 20,000

这是约束优化(包括 jacobians)。换句话说,我想要最小化的目标函数只是从初始值到最终值的百分比变化的平方和。线性 平等 约束只是要求 x.sum() 等于一个常数。

def obj_func(x):
    return ( ( ( x - x0 ) / x0 ) ** 2 ).sum()

def obj_jac(x):
    return 2. * ( x - x0 ) / x0 ** 2

def constr_func(x):
    return x.sum() - target

def constr_jac(x):
    return np.ones(n)

为了比较,我通过使用等式约束将x[0] 替换为x[1:] 的函数,将其重构为无约束的最小化。请注意,无约束函数传递给x0[1:],而约束函数传递给x0

def unconstr_func(x):
    x_one       = target - x.sum()
    first_term  = ( ( x_one - x0[0] ) / x0[0] ) ** 2
    second_term = ( ( ( x - x0[1:] ) / x0[1:] ) ** 2 ).sum()
    return first_term + second_term

然后我尝试通过三种方式最小化:

  1. 不受“Nelder-Mead”约束
  2. 受 'trust-constr' 约束(w/ & w/o jacobian)
  3. 受“SLSQP”约束(w/ & w/o jacobian)

代码:

##### (1) unconstrained

res0 = minimize( unconstr_func, x0[1:], method='Nelder-Mead')   # OK, but weird note
res0.x = np.hstack( [target - res0.x.sum(), res0.x] )
print_res( res0, 'unconstrained' )    

##### (2a) constrained -- trust-constr w/ jacobian

nonlin_con = NonlinearConstraint( constr_func, 0., 0., constr_jac )
resTCjac = minimize( obj_func, x0, method='trust-constr',
                     jac='2-point', hess=SR1(), constraints = nonlin_con )
print_res( resTCjac, 'trust-const w/ jacobian' )

##### (2b) constrained -- trust-constr w/o jacobian

nonlin_con = NonlinearConstraint( constr_func, 0., 0. )    
resTC = minimize( obj_func, x0, method='trust-constr',
                  jac='2-point', hess=SR1(), constraints = nonlin_con )    
print_res( resTC, 'trust-const w/o jacobian' )

##### (3a) constrained -- SLSQP w/ jacobian

eq_cons = { 'type': 'eq', 'fun' : constr_func, 'jac' : constr_jac }
resSQjac = minimize( obj_func, x0, method='SLSQP',
                     jac = obj_jac, constraints = eq_cons )    
print_res( resSQjac, 'SLSQP w/ jacobian' )

##### (3b) constrained -- SLSQP w/o jacobian

eq_cons = { 'type': 'eq', 'fun' : constr_func }    
resSQ = minimize( obj_func, x0, method='SLSQP',
                  jac = obj_jac, constraints = eq_cons )
print_res( resSQ, 'SLSQP w/o jacobian' )

这是一些简化的输出(当然你可以运行代码来获得完整的输出):

starting values:  [10000 20000 30000 40000 50000]

***** (1) unconstrained  *****
Optimization terminated successfully.
obj func value at solution 0.0045454545454545305
ending values:    [10090 20363 30818 41454 52272]

***** (2a) trust-const w/ jacobian  *****
The maximum number of function evaluations is exceeded.
obj func value at solution 0.014635854609684874
ending values:    [10999 21000 31000 41000 51000]

***** (2b) trust-const w/o jacobian  *****
`gtol` termination condition is satisfied.
obj func value at solution 0.0045454545462939935
ending values:    [10090 20363 30818 41454 52272]

***** (3a) SLSQP w/ jacobian  *****
Optimization terminated successfully.
obj func value at solution 0.014636111111111114
ending values:    [11000 21000 31000 41000 51000]    

***** (3b) SLSQP w/o jacobian  *****   
Optimization terminated successfully.
obj func value at solution 0.014636111111111114
ending values:    [11000 21000 31000 41000 51000]

注意事项:

  1. (1) 和 (2b) 是合理的解决方案,因为它们实现了显着降低的目标函数值,并且直观地我们预计具有较大起始值的变量比较小的。

  2. 将 jacobian 添加到 'trust-const' 会导致它得到错误的答案(或至少是更差的答案)并且还会超过最大迭代次数。也许 jacobian 是错误的,但函数非常简单,我很确定它是正确的 (?)

  3. 'SLSQP' 似乎在不使用 jacobian 提供的情况下都无法工作,但工作速度非常快,并且声称可以成功终止。这似乎非常令人担忧,因为得到错误答案并声称已成功终止几乎是最糟糕的结果。

  4. 最初我使用了非常小的起始值和目标(只是我上面的 1/1,000),在这种情况下,上面的所有 5 种方法都可以正常工作并给出相同的答案。我的样本数据仍然非常小,它处理1,2,..,5 而不是处理1000,2000,..5000 似乎有点奇怪。

  5. FWIW,请注意,3 个不正确的结果都通过在每个初始值上加 1,000 来达到目标​​——这满足了约束,但远未达到最小化目标函数(具有较高初始值的 b/c 变量应该是增加超过较低的,以最小化平方百分比差异的总和)。

所以我的问题实际上就是这里发生了什么,为什么只有 (1) 和 (2b) 似乎有效?

更一般地说,我想找到一个很好的基于 python 的方法来解决这个和类似的优化问题,并且会考虑使用除了 scipy 之外的其他包的答案,尽管最好的答案也可以解决这里的 scipy 发生了什么(例如这是用户错误还是我应该发布到 github 的错误?)。

【问题讨论】:

  • 对于无约束最小化,如果显式设置fatol=1e-8会得到什么?
  • 我的意思是,fatol 不是xatol。不幸的是,我无法测试,因为我的 scipy 版本太旧了。我怀疑它只是提前终止,因为它已经非常接近最小值,因此 7 个单纯形点的差异都小于默认值 0.0001
  • 值得我尝试使用 SLSQP 使用 nlopt 库的示例,它给出了正确的结果,因此排除了 jacobian 函数或局部最小值的问题。
  • 由于约束是线性的,它的 Hessian 是零。这会导致对约束施加过多的权重吗?例如。如果雅可比矩阵乘以逆 Hessian 矩阵,则 Hessian 矩阵的估计不准确。
  • CVXPY 下提供了更好的(凸)QP 求解器。

标签: python numpy scipy mathematical-optimization nlopt


【解决方案1】:

这是我提出的问题的部分答案,以防止问题变得更大,但我仍然希望看到更全面和解释性的答案。这些答案基于另外两个的 cmets,但他们都没有完全写出代码,我认为明确说明是有意义的,所以在这里:

修复 2a(使用 jacobian 的 trust-constr)

似乎这里关于雅可比和黑森的关键是既不指定也不指定两者(但不是只指定雅可比)。 @SubhaneilLahiri 对此效果发表了评论,并且还有一条我最初没有注意到的错误消息:

用户警告:delta_grad == 0.0。检查近似函数是否是线性的。如果函数是线性的,则可以通过将 Hessian 定义为零而不是使用准牛顿近似来获得更好的结果。

所以我通过定义 hessian 函数来修复它:

def constr_hess(x,v):
    return np.zeros([n,n])

并将其添加到约束中

nonlin_con = NonlinearConstraint( constr_func, 0., 0., constr_jac, constr_hess )

修复 3a 和 3b (SLSQP)

这似乎只是按照@user545424 的建议缩小容差的问题。所以我只是在最小化中添加了options={'ftol':1e-15}

resSQjac = minimize( obj_func, x0, method='SLSQP',
                     options={'ftol':1e-15},
                     jac = obj_jac, constraints = eq_cons )

【讨论】:

  • 关于你的第二个问题,我认为如果 scipy 将 ftol 默认设置为双精度的机器精度会更好。或者,nlopt 在您未设置限制时所做的是默认将其设置为零,然后通常您最终会收到有关舍入的错误警告,这会迫使用户设置合理的ftol
  • 嘿 John 和 @user545424,您的 cmets 和答案刚刚解决了我几天来一直在处理的问题(撞墙),对此我非常感激。都是关于 ftol 的!
【解决方案2】:

下面是如何使用nlopt 解决这个问题的方法,nlopt 是一个非线性优化库,我对它印象非常深刻。

首先,目标函数和梯度都是用同一个函数定义的:

def obj_func(x, grad):
    if grad.size > 0:
        grad[:] = obj_jac(x)
    return ( ( ( x/x0 - 1 )) ** 2 ).sum()

def obj_jac(x):
    return 2. * ( x - x0 ) / x0 ** 2

def constr_func(x, grad):
    if grad.size > 0:
        grad[:] = constr_jac(x)
    return x.sum() - target

def constr_jac(x):
    return np.ones(n)

然后,使用 Nelder-Mead 和 SLSQP 运行最小化:

opt = nlopt.opt(nlopt.LN_NELDERMEAD,len(x0)-1)
opt.set_min_objective(unconstr_func)
opt.set_ftol_abs(1e-15)
xopt = opt.optimize(x0[1:].copy())
xopt = np.hstack([target - xopt.sum(), xopt])
fval = opt.last_optimum_value()
print_res(xopt,fval,"Nelder-Mead");

opt = nlopt.opt(nlopt.LD_SLSQP,len(x0))
opt.set_min_objective(obj_func)
opt.add_equality_constraint(constr_func)
opt.set_ftol_abs(1e-15)
xopt = opt.optimize(x0.copy())
fval = opt.last_optimum_value()
print_res(xopt,fval,"SLSQP w/ jacobian");

结果如下:

 *****  Nelder-Mead  ***** 

obj func value at solution 0.00454545454546
result:  3
starting values:  [ 10000.  20000.  30000.  40000.  50000.]
ending values:    [10090 20363 30818 41454 52272]
% diff [0 1 2 3 4]
target achieved? 155000.0 155000.0


 *****  SLSQP w/ jacobian  ***** 

obj func value at solution 0.00454545454545
result:  3
starting values:  [ 10000.  20000.  30000.  40000.  50000.]
ending values:    [10090 20363 30818 41454 52272]
% diff [0 1 2 3 4]
target achieved? 155000.0 155000.0

在对此进行测试时,我想我发现了最初尝试的问题所在。如果我将函数的绝对容差设置为1e-8,这是 scipy 函数默认设置的值:

 *****  Nelder-Mead  ***** 

obj func value at solution 0.0045454580693
result:  3
starting values:  [ 10000.  20000.  30000.  40000.  50000.]
ending values:    [10090 20363 30816 41454 52274]
% diff [0 1 2 3 4]
target achieved? 155000.0 155000.0


 *****  SLSQP w/ jacobian  ***** 

obj func value at solution 0.0146361108503
result:  3
starting values:  [ 10000.  20000.  30000.  40000.  50000.]
ending values:    [10999 21000 31000 41000 51000]
% diff [9 5 3 2 2]
target achieved? 155000.0 155000.0

这正是您所看到的。所以我的猜测是,在 SLSQP 期间,最小化器最终会出现在似然空间中的某个位置,其中下一个跳跃距离最后一个位置小于 1e-8

【讨论】:

  • 谢谢!我可能会在复选标记上推迟一点 b/c 我正在考虑在这里放一个赏金来尝试更全面地解释 scipy 的情况,但这非常有帮助(以及你在 OP 下的 cmets)
  • @JohnE,只是好奇,将 fatol 更改为 1e-15 是否解决了您最初注意到的所有 3 个案例中的问题?
  • 查看我刚刚添加的答案,但对于 SLSQP 基本上是肯定的,但对于 trust-constr 则不然
  • 查看trust-constr 的文档,它还有一些其他公差,默认为1e-8。很想知道在没有明确设置粗麻布的情况下设置所有这些较低的值是否可以解决问题。
  • 谢谢!我确实开始研究trust-constr 方法来弄清楚那里发生了什么,但这是一个非常复杂的方法。我能够确定它缓慢向最小值移动,但由于某种原因,步长非常小,但我无法弄清楚究竟是什么原因造成的。
猜你喜欢
  • 1970-01-01
  • 2017-07-07
  • 1970-01-01
  • 2014-04-13
  • 2016-05-27
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2019-07-06
相关资源
最近更新 更多