子采样数据，使得从包含 N 个类的巨大数据集中选择至少 K 个类答案

【问题标题】：SubSampling data such that at least K classes are selected from a huge dataset containing N classes子采样数据，使得从包含 N 个类的巨大数据集中选择至少 K 个类
【发布时间】：2020-09-24 11:10:58
【问题描述】：

我有一个包含 130 万条记录的数据集，分为 109 个类别。显然存在类别不平衡，数据中最高类别为 18%，最低类别不到 1%

现在，我的任务是设计一个通用的论坛/技术/代码，用于从这些记录中进行采样，这样：我们需要选择的最小记录数是多少，以便它包含来自 K 个类别的记录（其中 K 可以从1 到 109），并代表这些类的原始数据。显然，这不是一个精确的解决方案，因此我们可以处理“高置信度”解决方案

【问题讨论】：

代表是什么意思？您的意思是您的样本中的比例与您的集合中的比例相同吗？如果你有 7 条第 1 类的记录和 13 条第 2 类的记录，比例是 7:13，所以你必须全选（质数没有公约数）。
不完全是这个意义上的。一个类比是：一般来说，我们说从大样本中随机抽取 10% 的样本足以了解整体数据。从这个意义上说。如果您有任何方法没有考虑这个“代表”的事情，请告诉

标签： python scikit-learn data-science sampling

【解决方案1】：

看来你有一个简单的组合问题。假设你在一个盒子里有 M 个红色弹珠和 N 个绿色弹珠。你随机抽出 K 颗弹珠。您的样本中红绿比例的预期值是多少？此外，方差是多少？让我们将“代表性”定义为比率的 95% 置信区间中的极值（预期-2*std，预期+2*std）相对于比率的预期值不超过 10%。将其表示为 K 的函数一样简单（实际上，您可以用铅笔和纸来完成 2 个课程）。对于三个类别，您可以说任何两个类别之间的比率的最高方差应该不超过 10%。

【讨论】：