【发布时间】:2020-09-24 11:10:58
【问题描述】:
我有一个包含 130 万条记录的数据集,分为 109 个类别。显然存在类别不平衡,数据中最高类别为 18%,最低类别不到 1%
现在,我的任务是设计一个通用的论坛/技术/代码,用于从这些记录中进行采样,这样:我们需要选择的最小记录数是多少,以便它包含来自 K 个类别的记录(其中 K 可以从1 到 109),并代表这些类的原始数据。显然,这不是一个精确的解决方案,因此我们可以处理“高置信度”解决方案
【问题讨论】:
-
代表是什么意思?您的意思是您的样本中的比例与您的集合中的比例相同吗?如果你有 7 条第 1 类的记录和 13 条第 2 类的记录,比例是 7:13,所以你必须全选(质数没有公约数)。
-
不完全是这个意义上的。一个类比是:一般来说,我们说从大样本中随机抽取 10% 的样本足以了解整体数据。从这个意义上说。如果您有任何方法没有考虑这个“代表”的事情,请告诉
标签: python scikit-learn data-science sampling