【发布时间】:2015-12-23 15:38:24
【问题描述】:
谁能提供有关如何设置 tensorflow 以在网络中的多个 CPU 上工作的指导?到目前为止,我发现的所有示例最多只使用一个本地盒子和多 GPU。我发现我可以在 session_opts 中传递一个目标列表,但我不确定如何在每个盒子上设置 tensorflow 来监听网络节点/任务。任何示例将不胜感激!
【问题讨论】:
标签: c++ tensorflow
谁能提供有关如何设置 tensorflow 以在网络中的多个 CPU 上工作的指导?到目前为止,我发现的所有示例最多只使用一个本地盒子和多 GPU。我发现我可以在 session_opts 中传递一个目标列表,但我不确定如何在每个盒子上设置 tensorflow 来监听网络节点/任务。任何示例将不胜感激!
【问题讨论】:
标签: c++ tensorflow
TensorFlow 的开源版本(目前为 0.6.0)仅支持单进程执行:特别是,tensorflow::SessionOptions 中唯一有效的目标是空字符串,表示“当前进程”。
TensorFlow whitepaper 描述了我们在 Google 内部使用的分布式实现的结构(参见图 3)。基本思想是可以使用 RPC 到一个 master 来实现 Session 接口; master 可以在多个worker 进程中的一组设备上划分计算,这些进程也使用 RPC 进行通信。唉,当前版本在很大程度上依赖于 Google 内部技术(如Borg),因此还有很多工作要让它为外部使用做好准备。我们目前正在努力,您可以关注this GitHub issue 的进展。
2016 年 2 月 26 日编辑:今天我们在 GitHub 上发布了 initial version of the distributed runtime。它支持多台机器和多个 GPU。
【讨论】: