【发布时间】:2019-11-14 02:58:09
【问题描述】:
我正在 GCP AI 平台上运行 Vizier 超参数调整作业,但试验不断因错误而中断:Terminated by service. If the job is supposed to continue running, it will be restarted on other VM shortly.
我使用的是 STANDARD_P100 GPU,并且在训练过程中,似乎个别调整试验正在从 GPU 启动(抢占)——一些试验成功完成,一些试验在 1000 或 2000 步左右停止 - - 这些总是在 1000 上发生,这很重要,因为我每 1000 步进行一次评估,所以在训练和评估之间切换时似乎发生了一些事情,这使得这些工作被抢占先机。下一个 Trial 启动,然后通常再次运行 1000 步(而不是重新开始上一个 Trial)。
我可以做些什么来让我的试验成功完成吗?正如虚拟机所说,它们永远不会重新启动,而且似乎这使得整个超参数调整变得毫无价值,因为大约 90% 的试验从未完成,而失败的试验可能会给 vizier 优化算法提供错误的信息。这些运行在 GPU 上运行可能会非常昂贵,而且按照目前的配置,它们基本上毫无价值,即使我被收取了从未完成的试验费用。
下面是我的 hptuning_config 示例...
scaleTier: CUSTOM
masterType: standard_v100
hyperparameters:
goal: MAXIMIZE
hyperparameterMetricTag: 'accuracy'
maxTrials: 80
maxParallelTrials: 1
enableTrialEarlyStopping: TRUE
params: ...
【问题讨论】:
标签: google-cloud-platform google-cloud-ml