【问题标题】:Distrubuted TensorFlow : CreateSession still waiting for response from worker: /job:ps/replica:0/task:0分布式 TensorFlow:创建会话仍在等待工作人员的响应:/job:ps/replica:0/task:0
【发布时间】:2017-03-23 05:21:18
【问题描述】:

我正在尝试此处提供的示例: https://github.com/ischlag/distributed-tensorflow-example 我有两台机器:一台作为服务器,另一台作为工人。 (两台机器上的版本都是1.0.1)

我收到以下错误:

变量初始化... 我 tensorflow/core/distributed_runtime/master.cc:193] CreateSession 仍在等待工作人员的响应:/job:ps/replica:0/task:0 我 tensorflow/core/distributed_runtime/master.cc:193] CreateSession 仍在等待工作人员的响应:/job:worker/replica:0/task:1 我 tensorflow/core/distributed_runtime/master.cc:193] CreateSession 仍在等待 worker 的响应:/job:worker/replica:0/task:2

【问题讨论】:

  • 您是否在parameter_servers = ["pc-01:2222"] workers = [ "pc-02:2222", "pc-03:2222", "pc-04:2222"] 中设置了您的ips/端口?
  • 是的。 pc-01 -> 是 IP 地址
  • 给出你的 ip 端口组合。如果它在您的本地机器上使用 localhost:2222 localhost:2223 等
  • @Himaprasoon 我有两个不同的服务器。 :2222 和 :2222 ...这就是我给的方式

标签: tensorflow


【解决方案1】:

我有一个类似的问题,我可以通过将第三个节点作为主节点添加到 ClusterSpec 来解决。我的 TF_CONFIG 环境变量看起来像:

    TF_CONFIG = { 
        'cluster' : { 
            'master' : [ master_node01:2222 ],
            'ps' : [ps_node01:2222, ...]
            'worker' : [worker_node01:2222, ...]}
        'environment' : 'cloud',
        'task': {'type': current_task, 'index': current_index}}

【讨论】:

    【解决方案2】:

    我也遇到了同样的问题,经过几个小时的调试,发现问题是因为cluster_spec的顺序不对。 task_index 与 ps/worker 列表不匹配。我改了顺序后就修好了。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2017-09-12
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-11-06
      • 1970-01-01
      • 2020-07-15
      • 2018-03-07
      相关资源
      最近更新 更多