【问题标题】:Vizier HyperParameter Tuning Jobs Terminated by Service服务终止的 Vizier 超参数调整作业
【发布时间】:2019-11-14 02:58:09
【问题描述】:

我正在 GCP AI 平台上运行 Vizier 超参数调整作业,但试验不断因错误而中断:Terminated by service. If the job is supposed to continue running, it will be restarted on other VM shortly.

我使用的是 STANDARD_P100 GPU,并且在训练过程中,似乎个别调整试验正在从 GPU 启动(抢占)——一些试验成功完成,一些试验在 1000 或 2000 步左右停止 - - 这些总是在 1000 上发生,这很重要,因为我每 1000 步进行一次评估,所以在训练和评估之间切换时似乎发生了一些事情,这使得这些工作被抢占先机。下一个 Trial 启动,然后通常再次运行 1000 步(而不是重新开始上一个 Trial)。

我可以做些什么来让我的试验成功完成吗?正如虚拟机所说,它们永远不会重新启动,而且似乎这使得整个超参数调整变得毫无价值,因为大约 90% 的试验从未完成,而失败的试验可能会给 vizier 优化算法提供错误的信息。这些运行在 GPU 上运行可能会非常昂贵,而且按照目前的配置,它们基本上毫无价值,即使我被收取了从未完成的试验费用。

下面是我的 hptuning_config 示例...

scaleTier: CUSTOM
  masterType: standard_v100
  hyperparameters:
    goal: MAXIMIZE
    hyperparameterMetricTag: 'accuracy'
    maxTrials: 80
    maxParallelTrials: 1
    enableTrialEarlyStopping: TRUE
    params: ...

【问题讨论】:

    标签: google-cloud-platform google-cloud-ml


    【解决方案1】:

    我遇到了同样的问题。我怀疑是因为enableTrialEarlyStopping

    https://cloud.google.com/ml-engine/docs/using-hyperparameter-tuning#stopping_trials_early

    你必须设置:

    enableTrialEarlyStopping: False
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2019-03-21
      • 1970-01-01
      • 2020-06-19
      • 1970-01-01
      • 2017-10-26
      • 2020-07-24
      相关资源
      最近更新 更多