【发布时间】:2020-01-06 00:11:48
【问题描述】:
我正在尝试对数据框行进行下采样以创建更小的数据框。假设我们的数据框有几列,每列都有预定义的分类值。如何确保每个不同的分类值都有机会出现在新的重采样数据框中?
例如:rows = [{'A':'a', 'B':'d', 'C':'g'},{'A':'a', 'B':'e', 'C':'h'},{'A':'a', 'B':'d', 'C':'g'},{'A':'c', 'B':'f', 'C':'i'},{'A':'c', 'B':'d', 'C':'g'},{'A':'b', 'B':'e', 'C':'h'}]
pd.DataFrame(rows)
out put of the code
在“A”列中,我们有“a”、“b”和“c”值。如何确保重采样后没有这些值丢失?
【问题讨论】:
-
请分享您的尝试以及您遇到的问题。
-
欢迎来到 StackOverflow。请花时间阅读how to provide a great pandas example 上的这篇文章以及如何提供minimal, complete, and verifiable example 并相应地修改您的问题。 how to ask a good question 上的这些提示也可能有用。
-
@jezrael - 感谢您的提示。我编辑了问题以澄清问题。
-
@qwerty - 我想出了使用
groupby对列进行分类并从每个组中抽取样本,但我发现它太复杂了,因为可能会发生重复。
标签: python pandas dataframe downsampling