【问题标题】:Using 3rd party libraries with Pyspark将 3rd 方库与 Pyspark 一起使用
【发布时间】:2021-04-26 12:30:48
【问题描述】:

我一直在使用 Python 的 PYOD 库,并且一直在使用 LOF、LOCI 和 CBLOF 算法。现在我想转而使用 Pyspark。我在 pyspark MLlib 上做了一些 RnD。但是,我还没有在 Pyspark 中找到 LOF、LOCI 或 CBLOF 的实现。我想知道以下内容:

  1. Pyspark 中是否有 LOF、LOCI、CBLOF 实现?
  2. 如果不是问题 1,如何将 PyOD 库算法与 pyspark 集成。所以我可以使用 PySpark 对数据进行预处理,并使用 PyOD 中实现的算法进行训练。

如果有参考请分享。谢谢你

【问题讨论】:

    标签: python apache-spark pyspark scikit-learn outliers


    【解决方案1】:

    不幸的是,这些算法在 Spark MLlib 上不可用,您可能可以使用的唯一方法(虽然不是很有效,即使它有效)是通过 UDF https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.sql.functions.udf.html?highlight=udf#pyspark.sql.functions.udf

    【讨论】:

    • 谢谢。我使用 Spark 进行预处理,而机器学习算法我使用 PyOD 和 Sklearn 中的实现。
    猜你喜欢
    • 1970-01-01
    • 2011-11-01
    • 1970-01-01
    • 1970-01-01
    • 2015-09-08
    • 1970-01-01
    • 2019-10-09
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多