如何利用多个 Google Cloud TPU 训练单个模型答案

【问题标题】：How to utilize multiple Google Cloud TPUs to train a single model如何利用多个 Google Cloud TPU 训练单个模型
【发布时间】：2019-10-30 04:18:08
【问题描述】：

我已在 us-central1-f 区域分配了多个 Google Cloud TPU。机器类型都是v2-8。

如何利用我所有的 TPU 来训练一个模型？

us-central1-f 区域 doesn't support pods，因此使用 pod 似乎不是解决方案。即使 pod 可用，我拥有的 v2-8 单元的数量也不匹配任何 pod TPU 切片大小（16、64、128、256），因此我无法在单个 pod 中使用它们。

【问题讨论】：

【解决方案1】：

虽然我找不到明确回答这个问题的文档，但我阅读了多篇文章和问题并得出结论，如果您使用的是 v2-8 或 v3-8 TPU，则不可能使用多个他们一次。您将不得不使用更大的机器，例如 v2-32 或 v3-32，以确保您可以访问更多内核，而 TFRC 程序不会免费提供。

参考资料：

【讨论】：

【解决方案2】：

我相信你不能轻易做到这一点。如果您想使用多个 TPU 训练单个模型，则需要访问具有 TPU Pod 的区域。否则你可以做显而易见的事情：在不同的 TPU 上训练相同的模型，但使用不同的超参数作为网格搜索的一种方式，或者你可以训练多个弱学习器，然后手动组合它们。

【讨论】：