【问题标题】:Google Cloud ML Loss in Recall: Distributed LearningGoogle Cloud ML Loss in Recall:分布式学习
【发布时间】:2016-10-18 16:11:18
【问题描述】:

我有两个在 Google Cloud ML 上训练的模型版本,一个使用 2 个工作人员,一个只使用主节点。然而,在分布式模式下训练后召回率显着下降。我遵循了为大约 2000 个步骤提供的示例示例(worker 和 master 都参与了这些步骤)

只有大师

RECALL metrics:  0.352357320099
Accuracy over the validation set:  0.737576772753

Master和2个Worker

RECALL metrics:  0.0223325062035
Accuracy over the validation set:  0.770519262982

【问题讨论】:

    标签: tensorflow google-cloud-ml


    【解决方案1】:

    要记住的总体思路是,随着工作人员数量的增加,您的有效批量大小也在增加(每个工作人员每步处理 N 个示例)。

    为了解决这个问题,您需要考虑调整其他超参数。尝试选择较小的学习率来减少每一步的变化量。因此,您可能还需要根据您的模型和数据将步骤数增加一些因素,以达到相同的收敛。

    【讨论】:

    • 好的,那么当图的聚合参数被保存回来时,是否存在“损失”?
    • 不是在保存时,而是在训练过程中增加了噪音。
    • 我觉得这非常令人不安。这意味着一组训练参数取决于底层集群。我有一个问题:如何根据工作人员的数量(即 batch_size=batch_size/n_workers)减少“批量大小”以使参数独立于训练配置?
    猜你喜欢
    • 1970-01-01
    • 2018-10-28
    • 2017-12-08
    • 1970-01-01
    • 2016-03-30
    • 1970-01-01
    • 2017-08-03
    • 2022-10-06
    • 2015-06-03
    相关资源
    最近更新 更多