【问题标题】:Pyspark FP growth implementation running slowPyspark FP 增长实现运行缓慢
【发布时间】:2020-02-09 12:52:09
【问题描述】:

我在 Spark v2.3 上使用关联规则挖掘的 pyspark.ml.fpm (FP Growth) 实现。

spark UI 显示作为结束的任务运行非常缓慢。这似乎是一个常见问题,可能与数据倾斜有关。

这是真正的原因吗?有什么解决办法吗?

我不想更改 minSupport 或 minConfidence 阈值,因为这会影响结果。删除列也不是解决方案。

【问题讨论】:

    标签: apache-spark pyspark arules fpgrowth


    【解决方案1】:

    我遇到了类似的问题。您可能会尝试的一种解决方案是为交易中的产品数量设置阈值。如果有几笔交易的产品比平均数量多得多,那么 FP Growth 计算的树就会爆炸。这会导致运行时间显着增加,并且内存错误的风险要高得多。

    因此,对产品数量不成比例的交易进行异常值删除可能会奏效。

    希望对你有所帮助:)

    【讨论】:

    • 感谢贾斯珀的回答。不幸的是,所有交易的大小都相同。我知道该算法是指数型的,但我能够在 R a-rules 实现上运行它,我想知道为什么这里要花这么长时间。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2011-07-23
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-09-03
    • 2021-11-25
    • 2020-07-22
    相关资源
    最近更新 更多