TFF：如何创建非 IID 数据集答案

【问题标题】：TFF: How create a Non-IID datasetTFF：如何创建非 IID 数据集
【发布时间】：2020-04-24 23:37:48
【问题描述】：

我有 2 个类，每个类有 140 个示例，我有 4 个客户端，我想创建一个像 McMahan 的论文那样的非 iid 数据集，如何将示例分成片段？

【问题讨论】：

【解决方案1】：

注意：有许多“非独立同分布”的概念值得探索。

标签非 iid：您可能希望标签在客户端之间的分布非常不平衡。平均分配样本数，我们仍然可以得到[(35, 35), (10, 60), (50, 20), (45, 25)]等非iid分布。 McMahan 2016 论文采用了类似的方法，但在 10 个类中存在问题，并且大多数客户只给了两个类（确切的方法在论文的第 5 页）。
数据量：您可能希望为某些客户提供比其他客户更多的数据。对于 280 个示例，可能拆分为 (180, 80, 10, 10) 示例（忽略标签的分布方式）。 TensorFlow Federated 中的 StackOverflow 数据集也展示了这一点，因为一些客户拥有数万个示例，而其他客户只有 100 个。
Feature non-iid：如果特征空间中存在模式，则将某些模式限制为某些用户可能很有用。例如，在图像识别任务中，可能某些相机的白平衡、旋转或颜色饱和度与其他相机不同（即使它们具有大部分或全部标签）。与其在合成客户端中随机打乱这些，不如将相似的特征模式分组到单个客户端中可以提供不同形式的非 iid。

【讨论】：