高斯过程回归：根据验证集调整超参数答案

【问题标题】：Gaussian Process Regression: tune hyperparameters based on validation set高斯过程回归：根据验证集调整超参数
【发布时间】：2022-01-19 13:49:53
【问题描述】：

在standard scikit-learn implementation of Gaussian-Process Regression (GPR) 中，（内核的）超参数是根据训练集选择的。

是否有一个易于使用的 GPR 实现（在 python 中），其中（内核的）超参数是根据单独的验证集选择的？或者交叉验证也是寻找合适的超参数的一个不错的选择（经过优化以在多个 train-val 分割上表现良好）。（我更喜欢基于 scikit-learn GPR 的解决方案。）

_{详细说明：应该找到一组超参数 theta，在以下指标中表现良好：
根据训练数据计算后验 GP（给定具有超参数 theta 的先验 GP）。然后评估验证数据相对于后验的负对数似然。
对于 theta，这种负对数可能性应该是最小的。}

_{换句话说，我想找到这样的“P[valData | trainData, theta]”是最大的。更准确地说，我想找到 theta 使得 sum_i log(P[ valData_i | trainData, theta ] 是最大的，其中 P[ valData_i | trainData, theta ] 是给定训练的验证数据点 valData_i 的高斯边际后验密度-给定具有超参数 theta 的先前 GP 的数据集。}

【问题讨论】：

标签： python scikit-learn cross-validation non-linear-regression gaussian-process

【解决方案1】：

我会这样做：首先我会在我的验证集上安装一个带有默认内核的 sklearn GPR；然后我会在我的训练集上安装另一个 GPR，使用相同的超参数，但提供之前 GPR 的内核实例作为内核：

X_val = np.random.random((100, 5))
y_val = np.random.random((100,))

X_train = np.random.random((1000, 5))
y_train = np.random.random((1000,))

gpr_val = GaussianProcessRegressor().fit(X_val, y_val)
gpr_train = GaussianProcessRegressor(kernel=gpr_val.kernel_).fit(X_train, y_train)

【讨论】：

在您的建议中，仅根据验证集选择超参数。在我的问题的细节中，我已经解释了我想如何获得超参数：我希望超参数 theta 在基于训练集计算后验时在验证集上表现良好，即我想找到 P [val-data|train-data,theta] 最大