服务终止的 Vizier 超参数调整作业答案

【问题标题】：Vizier HyperParameter Tuning Jobs Terminated by Service服务终止的 Vizier 超参数调整作业
【发布时间】：2019-11-14 02:58:09
【问题描述】：

我正在 GCP AI 平台上运行 Vizier 超参数调整作业，但试验不断因错误而中断：Terminated by service. If the job is supposed to continue running, it will be restarted on other VM shortly.

我使用的是 STANDARD_P100 GPU，并且在训练过程中，似乎个别调整试验正在从 GPU 启动（抢占）——一些试验成功完成，一些试验在 1000 或 2000 步左右停止 - - 这些总是在 1000 上发生，这很重要，因为我每 1000 步进行一次评估，所以在训练和评估之间切换时似乎发生了一些事情，这使得这些工作被抢占先机。下一个 Trial 启动，然后通常再次运行 1000 步（而不是重新开始上一个 Trial）。

我可以做些什么来让我的试验成功完成吗？正如虚拟机所说，它们永远不会重新启动，而且似乎这使得整个超参数调整变得毫无价值，因为大约 90% 的试验从未完成，而失败的试验可能会给 vizier 优化算法提供错误的信息。这些运行在 GPU 上运行可能会非常昂贵，而且按照目前的配置，它们基本上毫无价值，即使我被收取了从未完成的试验费用。

下面是我的 hptuning_config 示例...

scaleTier: CUSTOM
  masterType: standard_v100
  hyperparameters:
    goal: MAXIMIZE
    hyperparameterMetricTag: 'accuracy'
    maxTrials: 80
    maxParallelTrials: 1
    enableTrialEarlyStopping: TRUE
    params: ...

【问题讨论】：

标签： google-cloud-platform google-cloud-ml

【解决方案1】：

我遇到了同样的问题。我怀疑是因为enableTrialEarlyStopping

https://cloud.google.com/ml-engine/docs/using-hyperparameter-tuning#stopping_trials_early

你必须设置：

enableTrialEarlyStopping: False

【讨论】：