【问题标题】:SubSampling data such that at least K classes are selected from a huge dataset containing N classes子采样数据,使得从包含 N 个类的巨大数据集中选择至少 K 个类
【发布时间】:2020-09-24 11:10:58
【问题描述】:

我有一个包含 130 万条记录的数据集,分为 109 个类别。显然存在类别不平衡,数据中最高类别为 18%,最低类别不到 1%

现在,我的任务是设计一个通用的论坛/技术/代码,用于从这些记录中进行采样,这样:我们需要选择的最小记录数是多少,以便它包含来自 K 个类别的记录(其中 K 可以从1 到 109),并代表这些类的原始数据。显然,这不是一个精确的解决方案,因此我们可以处理“高置信度”解决方案

【问题讨论】:

  • 代表是什么意思?您的意思是您的样本中的比例与您的集合中的比例相同吗?如果你有 7 条第 1 类的记录和 13 条第 2 类的记录,比例是 7:13,所以你必须全选(质数没有公约数)。
  • 不完全是这个意义上的。一个类比是:一般来说,我们说从大样本中随机抽取 10% 的样本足以了解整体数据。从这个意义上说。如果您有任何方法没有考虑这个“代表”的事情,请告诉

标签: python scikit-learn data-science sampling


【解决方案1】:

看来你有一个简单的组合问题。 假设你在一个盒子里有 M 个红色弹珠和 N 个绿色弹珠。你随机抽出 K 颗弹珠。您的样本中红绿比例的预期值是多少?此外,方差是多少?让我们将“代表性”定义为比率的 95% 置信区间中的极值(预期-2*std,预期+2*std)相对于比率的预期值不超过 10%。将其表示为 K 的函数一样简单(实际上,您可以用铅笔和纸来完成 2 个课程)。对于三个类别,您可以说任何两个类别之间的比率的最高方差应该不超过 10%。

【讨论】:

    猜你喜欢
    • 2017-04-03
    • 2016-11-03
    • 2019-11-03
    • 2017-03-24
    • 1970-01-01
    • 1970-01-01
    • 2018-06-18
    • 2012-09-13
    • 2013-11-14
    相关资源
    最近更新 更多