Tensorflow 模型保存和计算模型的平均值 [关闭]答案

【问题标题】：Tensor flow Model saving and Calculating Average of Models [closed]Tensorflow 模型保存和计算模型的平均值 [关闭]
【发布时间】：2020-10-07 21:46:49
【问题描述】：

我正在尝试实现和重现与纸质相关的联合 Bert 的结果 Federated pretraining and fine-tuning of BERT using clinical notes from multiple silos.

我更喜欢使用TensorFlow Bert预训练代码。

为了以联合方式进行训练，最初，我将数据集划分为 3 个不同的数据集（每个数据集都包含 50 名患者的出院摘要，使用 mimic-3 数据）。然后使用TensorFlow为每个数据集预训练Bert模型从 Bert 官方发布的 Bert 预训练实现。

现在我有三个不同的模型，它们是从不同的数据集预训练的。对于模型聚合，我需要取所有三个模型的平均值。因为每个筒仓中的音符数量是相等的，为了平均，我需要对所有模型求和并除以三。 如何像论文中那样获取模型的平均值？有人，请给我一些见解以正确编码。平均模型权重的想法取自论文FEDERATED LEARNING: STRATEGIES FOR IMPROVING COMMUNICATION EFFICIENCY 。

我对@987654327@ 很陌生和TensorFlow .所以请有人帮我解决这个问题并为TensorFlow推荐一些阅读材料 .

在论文中提到，在共享临床数据的同时克服隐私和监管问题是一个不错的选择。我的问题是

是否可以从这个 model.ckpt 文件中获取敏感数据？那么如何？

任何帮助将不胜感激。谢谢...

【问题讨论】：

如果问题只是取 N 次保存模型的平均值，那么已经回答了可能的解决方案。复制。 stackoverflow.com/questions/48212110/…
以下是一些可能对您有所帮助的附加信息：tfa.callbacks.AverageModelCheckpoint

标签： python tensorflow deep-learning nlp bert-language-model

【解决方案1】：

模型平均可以通过多种方式完成。最简单的方法是在每个筒仓中拥有每个架构的完整副本，并对它们的参数得分进行（加权）平均，并将其用作完整模型的参数。但是，有许多实际问题（延迟、网络速度、设备的计算能力）可能会阻止这一点，因此使用了更复杂的解决方案，其中仅对变量子集进行训练的孤岛等（如您引用的论文中所述）。

通常不可能从数据集中仅从参数更新到对其进行微调的模型中检索信息（对其他方面敏感）。

【讨论】：