【发布时间】:2021-01-15 02:27:16
【问题描述】:
作为 Tensorflow Research Cloud 计划的一部分,我可以使用 100 台 TPU v2 机器,上面有 8 个 TPU (TPU v2-8s)。
我需要实现模型数据并行。有没有办法让我同时在 100 台机器上运行数据并行?如果可能的话,我宁愿使用tf.distribute.TPUStrategy。还是我绝对需要编写自己的脚本来在机器之间进行通信以平均它们之间的梯度。
【问题讨论】:
-
您是否可以访问更大的 Cloud TPU v2 Pod 切片,例如v2-32、v2-64、...?一个 TPU pod 由许多连接的 TPU 机器组成,您可以像在单个机器上使用
tf.distribute.TPUStrategy一样在它们上进行训练。 cloud.google.com/tpu -
不,否则我会使用它。
标签: tensorflow tensorflow2.0 tpu