为什么 keras (SGD) optimizer.minimize() 在这个例子中没有达到全局最小值？答案

【问题标题】：Why does keras (SGD) optimizer.minimize() not reach global minimum in this example?为什么 keras (SGD) optimizer.minimize() 在这个例子中没有达到全局最小值？
【发布时间】：2020-08-25 21:52:55
【问题描述】：

我正在通过 DataCamp 完成 TensorFlow 教程，并且正在转录/复制我在自己的 Jupyter 笔记本中处理的代码示例。

这是编码问题的原始说明：

我正在运行以下 sn-p 代码，但无法得出我在教程中生成的相同结果，我已通过 x 与 loss_function 的连接散点图确认了正确的值（ x) 如下所示。

# imports
import tensorflow as tf
import numpy as np
import matplotlib.pyplot as plt
from tensorflow import Variable, keras

def loss_function(x):
    import math
    return 4.0*math.cos(x-1)+np.divide(math.cos(2.0*math.pi*x),x)

# Initialize x_1 and x_2
x_1 = Variable(6.0, np.float32)
x_2 = Variable(0.3, np.float32)

# Define the optimization operation
opt = keras.optimizers.SGD(learning_rate=0.01)

for j in range(100):
    # Perform minimization using the loss function and x_1
    opt.minimize(lambda: loss_function(x_1), var_list=[x_1])
    # Perform minimization using the loss function and x_2
    opt.minimize(lambda: loss_function(x_2), var_list=[x_2])

# Print x_1 and x_2 as numpy arrays
print(x_1.numpy(), x_2.numpy())

我绘制了一个快速连接的散点图，以确认（成功地）我使用的损失函数让我回到示例提供的同一图表（如上面的屏幕截图所示）

# Generate loss_function(x) values for given range of x-values
losses = []
for p in np.linspace(0.1, 6.0, 60):
    losses.append(loss_function(p))

# Define x,y coordinates
x_coordinates = list(np.linspace(0.1, 6.0, 60))
y_coordinates = losses

# Plot
plt.scatter(x_coordinates, y_coordinates)
plt.plot(x_coordinates, y_coordinates)
plt.title('Plot of Input values (x) vs. Losses')
plt.xlabel('x')
plt.ylabel('loss_function(x)')
plt.show()

根据 DataCamp 环境，以下分别是生成的全局最小值和局部最小值：

4.38 是正确的全局最小值，0.42 确实对应于图上的第一个局部最小值RHS（从 x_2 = 0.3 开始时）

这是来自我的环境的结果，两者都与寻求最小化损失值时应该朝着的方向相反：

在过去 90 分钟的大部分时间里，我都在试图弄清楚为什么我的结果与 DataCamp 控制台的结果不一致/为什么优化器未能将这个简单玩具示例的损失降到最低……？

感谢您在自己的环境中运行提供的代码后可能提出的任何建议，非常感谢提前！！！

【问题讨论】：

标签： tensorflow optimization keras minimize sgd

【解决方案1】：

事实证明，输出的差异源于 tf.division()（vs np.division()）和 tf.cos()（vs math.cos()）的默认精度——这些操作是在 loss_function() 的（我转录的，“自定义”）定义中指定。

loss_function() 已在教程正文中预定义，当我使用 inspect 包“检查”它时（使用 inspect.getsourcelines(loss_function) ）以便在我的自己的环境，所述检查的输出并没有清楚地表明使用 tf.division 和 tf.cos 而不是他们的 NumPy 对应物（我的代码版本已经使用）。

实际差异很小，但显然足以将优化器推向相反的方向（远离两个各自的最小值）。

在交换 tf.division() 和 tf.cos（如下所示）后，我能够得到与在 DC 控制台中看到的相同的结果。

这是 loss_function 的代码，它将返回与控制台中看到的相同结果（屏幕截图）：

def loss_function(x):
    import math
    return 4.0*tf.cos(x-1)+tf.divide(tf.cos(2.0*math.pi*x),x)

【讨论】：