【问题标题】:How to utilize multiple Google Cloud TPUs to train a single model如何利用多个 Google Cloud TPU 训练单个模型
【发布时间】:2019-10-30 04:18:08
【问题描述】:

我已在 us-central1-f 区域分配了多个 Google Cloud TPU。机器类型都是v2-8

如何利用我所有的 TPU 来训练一个模型?

us-central1-f 区域 doesn't support pods,因此使用 pod 似乎不是解决方案。即使 pod 可用,我拥有的 v2-8 单元的数量也不匹配任何 pod TPU 切片大小(16、64、128、256),因此我无法在单个 pod 中使用它们。

【问题讨论】:

  • 有什么具体原因你不能移动到有 TPU Pod 的 us-central1-a
  • 我收到的 TPU 是专门为 us-central1-f 设计的。例如,如果我移动它们,我将不得不为它们的使用付费,而不是免费。

标签: google-cloud-platform google-compute-engine google-cloud-tpu


【解决方案1】:

虽然我找不到明确回答这个问题的文档,但我阅读了多篇文章和问题并得出结论,如果您使用的是 v2-8v3-8 TPU,则不可能使用多个他们一次。您将不得不使用更大的机器,例如 v2-32v3-32,以确保您可以访问更多内核,而 TFRC 程序不会免费提供。

参考资料:

【讨论】:

    【解决方案2】:

    我相信你不能轻易做到这一点。如果您想使用多个 TPU 训练单个模型,则需要访问具有 TPU Pod 的区域。否则你可以做显而易见的事情:在不同的 TPU 上训练相同的模型,但使用不同的超参数作为网格搜索的一种方式,或者你可以训练多个弱学习器,然后手动组合它们。

    【讨论】:

      猜你喜欢
      • 2018-07-24
      • 2019-10-26
      • 2021-10-16
      • 2020-12-15
      • 1970-01-01
      • 1970-01-01
      • 2020-06-27
      • 2020-03-31
      • 2022-01-25
      相关资源
      最近更新 更多