在 Spark 中，如何将 groupBy 与 spark-submit 一起使用？

【问题标题】：In Spark, how do I use groupBy with spark-submit?在 Spark 中，如何将 groupBy 与 spark-submit 一起使用？
【发布时间】：2014-11-04 09:30:35
【问题描述】：

我有一个包含 groupBy 的 spark python 脚本。特别是结构是

import operator
result = sc.textFile(...).map(...).groupBy(...).map(...).reduce(operator.add)

当我在 ipython pyspark shell 中运行它时，它工作得很好。但是，当我尝试编写脚本并通过 spark-submit 运行它时，我收到一个 pickle.PicklingError: Can't pickle builtin <type 'method_descriptor'> 错误，指出 groupBy 是问题所在。是否有已知的解决方法？

【问题讨论】：

标签： python group-by apache-spark

【解决方案1】：

事实证明，pickle 不能做很多事情，包括 lambda。我正在这样做，需要更加小心。

【讨论】：

Spark 使用自己的 cloudpickle 分支来扩展 Pickle 以支持其他类型，包括 lambda。如果您能想出一个小型的、独立的 Spark 程序示例，该示例因此酸洗错误而失败，您能否在 issues.apache.org/jira/browse/SPARK 处打开一个问题以便我们修复它？谢谢！
嗨乔希。我最终更改了程序的结构，但遇到了我在这里写的一致错误：stackoverflow.com/questions/26726780/…。你介意看看吗？