【发布时间】:2019-09-24 01:30:23
【问题描述】:
我有一个包含 1% 正类(1)和 99% 负(0)的数据框,我正在 Pyspark 中使用逻辑回归。我骑here处理不平衡的数据集,解决方案是添加一个weightCol,正如链接中提供的答案中所说,为了告诉模型更多地关注1 , 因为少了。
我试过了,效果很好,但我不知道 mllib 如何在内部平衡数据。有人有线索吗?我不喜欢使用我无法理解的“黑匣子”。
【问题讨论】:
标签: pyspark apache-spark-mllib