【问题标题】:minimizing a multivariate, differentiable function using scipy.optimize使用 scipy.optimize 最小化多元、可微函数
【发布时间】:2014-06-08 07:36:09
【问题描述】:

我正在尝试使用scipy.optimize 最小化以下功能:

它的渐变是这样的:

(对于那些感兴趣的人,这是用于成对比较的 Bradley-Terry-Luce 模型的似然函数。与逻辑回归密切相关。)

很明显,向所有参数添加一个常量不会改变函数的值。因此,我让 \theta_1 = 0。这是目标函数和 python 中的梯度的实现(theta 在这里变为x):

def objective(x):
    x = np.insert(x, 0, 0.0)
    tiles = np.tile(x, (len(x), 1))
    combs = tiles.T - tiles
    exps = np.dstack((zeros, combs))
    return np.sum(cijs * scipy.misc.logsumexp(exps, axis=2))

def gradient(x):
    zeros = np.zeros(cijs.shape)
    x = np.insert(x, 0, 0.0)
    tiles = np.tile(x, (len(x), 1))
    combs = tiles - tiles.T
    one = 1.0 / (np.exp(combs) + 1)
    two = 1.0 / (np.exp(combs.T) + 1)
    mat = (cijs * one) + (cijs.T * two)
    grad = np.sum(mat, axis=0)
    return grad[1:]  # Don't return the first element

下面是cijs 的示例:

[[ 0  5  1  4  6]
 [ 4  0  2  2  0]
 [ 6  4  0  9  3]
 [ 6  8  3  0  5]
 [10  7 11  4  0]]

这是我为执行最小化而运行的代码:

x0 = numpy.random.random(nb_items - 1)
# Let's try one algorithm...
xopt1 = scipy.optimize.fmin_bfgs(objective, x0, fprime=gradient, disp=True)
# And another one...
xopt2 = scipy.optimize.fmin_cg(objective, x0, fprime=gradient, disp=True)

但是,它总是在第一次迭代中失败:

Warning: Desired error not necessarily achieved due to precision loss.
         Current function value: 73.290610
         Iterations: 0
         Function evaluations: 38
         Gradient evaluations: 27

我不知道它为什么会失败。由于这一行,错误被显示: https://github.com/scipy/scipy/blob/master/scipy/optimize/optimize.py#L853

所以这个“沃尔夫线搜索”似乎没有成功,但我不知道如何从这里开始......感谢任何帮助!

【问题讨论】:

  • 您的梯度函数可能不正确。尝试根据有限差分验证它(例如使用scipy.optimize.check_grad
  • @pv。你打赌;)谢谢!

标签: python numpy scipy mathematical-optimization


【解决方案1】:

作为@pv。作为评论指出,我在计算梯度时犯了一个错误。首先,我的目标函数梯度的正确(数学)表达式是:

(注意减号。)此外,我的 Python 实现完全错误,超出了符号错误。这是我更新的渐变:

def gradient(x):
    nb_comparisons = cijs + cijs.T
    x = np.insert(x, 0, 0.0)
    tiles = np.tile(x, (len(x), 1))
    combs = tiles - tiles.T
    probs = 1.0 / (np.exp(combs) + 1)
    mat = (nb_comparisons * probs) - cijs
    grad = np.sum(mat, axis=1)
    return grad[1:]  # Don't return the first element.

为了调试它,我使用了:

  • scipy.optimize.check_grad:表明我的梯度函数产生的结果与近似(有限差分)梯度相差甚远。
  • scipy.optimize.approx_fprime 了解值应该是什么样的。
  • 一些精心挑选的简单示例可以在需要时手动分析,以及一些 Wolfram Alpha 查询以进行完整性检查。

【讨论】:

    【解决方案2】:

    看来您可以将其转换为(非线性)最小二乘问题。这样,您必须为每个 n 变量定义间隔和每个变量的样本点数,以便构建系数矩阵。

    在本例中,我对所有变量使用相同的点数和相同的区间:

    from scipy.optimize import leastsq
    from numpy import exp, linspace, zeros, ones
    
    n = 4
    npts = 1000
    xs = [linspace(0, 1, npts) for _ in range(n)]
    
    c = ones(n**2)
    
    a = zeros((n*npts, n**2))
    def residual(c):
        a.fill(0)
        for i in range(n):
            for j in range(n):
                for k in range(npts):
                    a[i+k*n, i*n+j] = 1/(exp(xs[i][k] - xs[j][k]) + 1)
                    a[i+k*n, j*n+i] = 1/(exp(xs[j][k] - xs[i][k]) + 1)
    
        return a.dot(c)
    
    popt, pconv = leastsq(residual, x0=c)
    print(popt.reshape(n, n))
    #[[ -1.24886411   1.07854552  -2.67212118   1.86334625]
    # [ -7.43330057   2.0935734   37.85989442   1.37005925]
    # [ -3.51761322 -37.49627917  24.90538136  -4.23103535]
    # [ 11.93000731   2.52750715 -14.84822686   1.38834225]]
    

    编辑:关于上面构建的系数矩阵的更多详细信息:

    【讨论】:

    • 感谢您帮助我。我或多或少明白你的意思,但我想避免最小二乘拟合。我的目标函数是凸函数,所以我看不出为什么不能直接最小化它。
    • @lum 我明白你的意思......无论如何,这是一个非常强大的解决方案,以防你需要它......
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2019-09-17
    • 1970-01-01
    • 1970-01-01
    • 2021-04-08
    • 1970-01-01
    • 1970-01-01
    • 2018-12-15
    相关资源
    最近更新 更多