【问题标题】:Spark Structured Streaming performance for Scala vs PythonScala 与 Python 的 Spark Structured Streaming 性能
【发布时间】:2020-09-28 10:31:02
【问题描述】:

嗨~我打算用Kafka + Spark Structured Streaming开发一个小批量程序。但是我很困惑,到底是用python还是scala,哪个更快。如果有任何关于 Scala 和 Python 之间 Spark Structured Streaming 的基准性能测试结果会更好。

【问题讨论】:

    标签: scala apache-spark pyspark apache-kafka spark-structured-streaming


    【解决方案1】:

    这不是一个真正的问题。

    唯一的问题是 1) Scala 速度更快,但每个微批次的数据规模可能意味着影响更小,并且 2) Scala 支持数据集类型,而 pyspark 没有。

    大多数使用 Scala,pyspark 更多用于数据科学。

    也就是说,使用 pyspark 进行实时机器学习可能会更好。例如:https://towardsdatascience.com/building-a-real-time-prediction-pipeline-using-spark-structured-streaming-and-microservices-626dc20899eb

    【讨论】:

    • 感谢您的回复。实际上,pyspark 没有对类型的数据集支持对我来说很好。我在我的机器上做了一个测试。测试来自 kafka 的 1000 万条消息,结果是:Python 耗时 16.66 秒,Scala 耗时 16.98 秒。看来 Python 比 Scala 快。
    • 数据集支持仍在 wip,所以我同意
    • 不是结论性的。对于工程,我会坚持使用 scala。但我的偏好。
    猜你喜欢
    • 2020-07-25
    • 2018-06-04
    • 2018-10-05
    • 2020-03-19
    • 2015-12-04
    • 2020-09-12
    • 2023-01-20
    • 2022-01-05
    相关资源
    最近更新 更多