Google Cloud ML Loss in Recall：分布式学习

【问题标题】：Google Cloud ML Loss in Recall: Distributed LearningGoogle Cloud ML Loss in Recall：分布式学习
【发布时间】：2016-10-18 16:11:18
【问题描述】：

我有两个在 Google Cloud ML 上训练的模型版本，一个使用 2 个工作人员，一个只使用主节点。然而，在分布式模式下训练后召回率显着下降。我遵循了为大约 2000 个步骤提供的示例示例（worker 和 master 都参与了这些步骤）

只有大师

RECALL metrics:  0.352357320099
Accuracy over the validation set:  0.737576772753

Master和2个Worker

RECALL metrics:  0.0223325062035
Accuracy over the validation set:  0.770519262982

【问题讨论】：

【解决方案1】：

要记住的总体思路是，随着工作人员数量的增加，您的有效批量大小也在增加（每个工作人员每步处理 N 个示例）。

为了解决这个问题，您需要考虑调整其他超参数。尝试选择较小的学习率来减少每一步的变化量。因此，您可能还需要根据您的模型和数据将步骤数增加一些因素，以达到相同的收敛。

【讨论】：

好的，那么当图的聚合参数被保存回来时，是否存在“损失”？
不是在保存时，而是在训练过程中增加了噪音。
我觉得这非常令人不安。这意味着一组训练参数取决于底层集群。我有一个问题：如何根据工作人员的数量（即 batch_size=batch_size/n_workers）减少“批量大小”以使参数独立于训练配置？