【问题标题】:In Spark, how do I use groupBy with spark-submit?在 Spark 中,如何将 groupBy 与 spark-submit 一起使用?
【发布时间】:2014-11-04 09:30:35
【问题描述】:

我有一个包含 groupBy 的 spark python 脚本。特别是结构是

import operator
result = sc.textFile(...).map(...).groupBy(...).map(...).reduce(operator.add)

当我在 ipython pyspark shell 中运行它时,它工作得很好。但是,当我尝试编写脚本并通过 spark-submit 运行它时,我收到一个 pickle.PicklingError: Can't pickle builtin <type 'method_descriptor'> 错误,指出 groupBy 是问题所在。是否有已知的解决方法?

【问题讨论】:

    标签: python group-by apache-spark


    【解决方案1】:

    事实证明,pickle 不能做很多事情,包括 lambda。我正在这样做,需要更加小心。

    【讨论】:

    • Spark 使用自己的 cloudpickle 分支来扩展 Pickle 以支持其他类型,包括 lambda。如果您能想出一个小型的、独立的 Spark 程序示例,该示例因此酸洗错误而失败,您能否在 issues.apache.org/jira/browse/SPARK 处打开一个问题以便我们修复它?谢谢!
    • 嗨乔希。我最终更改了程序的结构,但遇到了我在这里写的一致错误:stackoverflow.com/questions/26726780/…。你介意看看吗?
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-01-27
    • 1970-01-01
    • 1970-01-01
    • 2016-04-01
    • 1970-01-01
    • 2022-07-30
    相关资源
    最近更新 更多