【问题标题】:Multiple TPUv2 devices in one training script?一个训练脚本中有多个 TPUv2 设备?
【发布时间】:2021-01-15 02:27:16
【问题描述】:

作为 Tensorflow Research Cloud 计划的一部分,我可以使用 100 台 TPU v2 机器,上面有 8 个 TPU (TPU v2-8s)。

我需要实现模型数据并行。有没有办法让我同时在 100 台机器上运行数据并行?如果可能的话,我宁愿使用tf.distribute.TPUStrategy。还是我绝对需要编写自己的脚本来在机器之间进行通信以平均它们之间的梯度。

【问题讨论】:

  • 您是否可以访问更大的 Cloud TPU v2 Pod 切片,例如v2-32、v2-64、...?一个 TPU pod 由许多连接的 TPU 机器组成,您可以像在单个机器上使用 tf.distribute.TPUStrategy 一样在它们上进行训练。 cloud.google.com/tpu
  • 不,否则我会使用它。

标签: tensorflow tensorflow2.0 tpu


【解决方案1】:

据我所知,目前我们还没有一种通过常规网络在 TPU 设备上减少所有梯度的好方法。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2019-12-25
    • 2020-11-28
    • 1970-01-01
    • 2018-04-02
    • 2019-01-12
    • 1970-01-01
    • 2021-07-03
    • 1970-01-01
    相关资源
    最近更新 更多