【发布时间】:2017-11-06 15:15:28
【问题描述】:
您好,我在 pyspark 作业中遇到了一个奇怪的问题,无法弄清楚发生了什么。 基本上我有从数据帧转换的RDD。然后我使用 pipe() 调用外部命令来逐个处理 RDD 中的元素。 一切都很好,直到最后只有 4 个任务将继续运行并且永远不会完成。 当我检查执行程序日志时,似乎所有记录都已处理,但由于某种原因任务没有退出。
只是想知道是否有人有任何线索?
【问题讨论】:
-
忘了说我用的是 python3.4 和 spark 2.1
-
我遇到了同样的问题,这个askUbuntu issue 描述了同样的问题。 @seiya:你有什么发现吗?
-
实际上,在我们修复了外部程序中错误输出大量消息的问题后,问题就消失了。我们怀疑这与火花管缓冲区的大小有关,但我们再次缺乏证据。从 spark 作业日志中找不到任何有用的信息。奇怪。
标签: apache-spark pyspark