【问题标题】:Distributed Tensorflow, Master stuck while training, workers do not start training, while using SyncReplicasOptimizer and MonitoredTrainingSession?分布式 TensorFlow,Master 训练时卡住,worker 不开始训练,同时使用 SyncReplicasOptimizer 和 MonitoredTrainingSession?
【发布时间】:2017-10-05 01:43:27
【问题描述】:

我正在尝试使用 SyncReplicaOptimizer 和 MonitoredTraining Session 在分布式张量流中编写同步训练代码。

我面临的问题是,主人在经过一些步骤之后就挂断了培训,并且没有工人开始培训。有没有人遇到过这种情况?

这是我写的代码。从张量流记录中读取数据。我已经按照 tensorflow 网站中描述的确切方式进行了操作。

def build(self):
    self.modelObj = Model(self.imagesize, self.targetSize)
    self.modelObj.model()
    self.global_step = tf.contrib.framework.get_or_create_global_step()
    self.opt = tf.train.AdamOptimizer(self.learningrate)
    if self.syncTraining:
        self.trainer = tf.train.SyncReplicasOptimizer(self.opt,replicas_to_aggregate=self.num_workers,total_num_replicas=self.num_workers)
    else:
        self.trainer = self.opt
    self.trainstep = self.trainer.minimize(self.modelObj.loss, global_step=self.global_step)
    self.saver = tf.train.Saver(max_to_keep=1)
    self.summary_op = tf.summary.merge_all()
    self.init_op = tf.global_variables_initializer()
    if self.syncTraining:
        self.sync_replicas_hook = self.trainer.make_session_run_hook(is_chief = (self.task_index==0))


def train(self):
    if self.syncTraining:



        with tf.train.MonitoredTrainingSession(master=self.server.target,
                                               is_chief=(self.task_index==0),
                                               checkpoint_dir=self.logdir,
                                               hooks=[self.sync_replicas_hook]) as self.session:
            step = 0
            try:
                while not self.session.should_stop():
                    # training

                    [trainx, trainy_] = self.session.run([self.trainx, self.trainy_])
                    feed = {self.modelObj.x: trainx, self.modelObj.y_: trainy_,
                            self.modelObj.batch: self.batch_size, self.modelObj.keep_prob: 0.7}
                    _, trainloss = self.session.run([self.trainstep, self.modelObj.loss], feed_dict=feed)

                    print("step: %d, training loss %f" % (step, trainloss))

                    step += 1

            except tf.errors.OutOfRangeError:
                print('training finished, number of epochs reached')

【问题讨论】:

    标签: python tensorflow distributed-computing


    【解决方案1】:

    是的,ps不应该放在gpu上。 我也有这个问题。我通过在 tf.train.replica_device_setter 中明确声明 ps_device="/job:ps/cpu:0" 来解决它。 整个代码是这样的:

    with tf.device(tf.train.replica_device_setter(
                                     ps_device="/job:ps/cpu:0",
                                     worker_device="/job:worker/task:%d" % (worker_index),
                                     cluster=cluster_spec)):
    

    非常感谢@prateek agrawal

    【讨论】:

      【解决方案2】:

      找到了解决办法。

      通过添加延迟首席工作者的启动

      time.sleep(5)
      

      另外,对参数服务器执行相同的操作,并尝试在 CPU 而不是 GPU 上运行参数服务器。

      【讨论】:

        猜你喜欢
        • 2016-03-22
        • 1970-01-01
        • 2018-02-13
        • 1970-01-01
        • 2016-03-09
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2017-11-28
        相关资源
        最近更新 更多