【问题标题】:TFF: How create a Non-IID datasetTFF:如何创建非 IID 数据集
【发布时间】:2020-04-24 23:37:48
【问题描述】:

我有 2 个类,每个类有 140 个示例,我有 4 个客户端,我想创建一个像 McMahan 的论文那样的非 iid 数据集,如何将示例分成片段?

【问题讨论】:

    标签: tensorflow-federated


    【解决方案1】:

    注意:有许多“非独立同分布”的概念值得探索。

    • 标签非 iid:您可能希望标签在客户端之间的分布非常不平衡。平均分配样本数,我们仍然可以得到[(35, 35), (10, 60), (50, 20), (45, 25)]等非iid分布。 McMahan 2016 论文采用了类似的方法,但在 10 个类中存在问题,并且大多数客户只给了两个类(确切的方法在论文的第 5 页)。

    • 数据量:您可能希望为某些客户提供比其他客户更多的数据。对于 280 个示例,可能拆分为 (180, 80, 10, 10) 示例(忽略标签的分布方式)。 TensorFlow Federated 中的 StackOverflow 数据集也展示了这一点,因为一些客户拥有数万个示例,而其他客户只有 100 个。

    • Feature non-iid:如果特征空间中存在模式,则将某些模式限制为某些用户可能很有用。例如,在图像识别任务中,可能某些相机的白平衡、旋转或颜色饱和度与其他相机不同(即使它们具有大部分或全部标签)。与其在合成客户端中随机打乱这些,不如将相似的特征模式分组到单个客户端中可以提供不同形式的非 iid。

    【讨论】:

      猜你喜欢
      • 2012-10-15
      • 1970-01-01
      • 2018-01-05
      • 2011-06-28
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-03-28
      • 2016-03-05
      相关资源
      最近更新 更多