【发布时间】:2021-11-06 22:08:16
【问题描述】:
我希望使用sampleBy根据一列的分布来获取样本。例如,在每个prod_name 组中,我想在colour 列sampleBy("colour", fractions ={"blue":0.5, "yellow",0.1, green: 0.3} 的基础上做一个sampleBy,如何将这两种方法结合使用?非常感谢您的帮助!
prod_name | colour | value | code
-------------------------------
A | blue |100 | Y
A | blue |200. | N
A | blue. |300. | Y
A | blue. |400. | Y
A | yellow. |500. | N
B | green. |600 | Y
B | green. |650 | Y
B | blue. |700 | N
C | red. |800. | Y
C | blue |900. | N
C | green |1000 | N
【问题讨论】:
-
如果
prod_names 在原始数据中分布不均匀,预期的结果是什么?假设原始数据包含 10 个As(颜色不同)和 1000 个Bs。结果应该包含(大约)相同数量的As 和Bs,还是应该反映As 和Bs 的原始分布?
标签: python dataframe apache-spark pyspark apache-spark-sql