在 DSE 4.8 Spark 集群上运行 Python 作业时出错。答案

【问题标题】：Error running a Python job on DSE 4.8 Spark cluster.在 DSE 4.8 Spark 集群上运行 Python 作业时出错。
【发布时间】：2016-04-05 01:13:03
【问题描述】：

我刚刚在 DSE 集群 4.8 上运行 Spark (pyspark) 时遇到了一个奇怪的问题。出于某种原因，当作业运行时，我遇到了数十个错误，如下所述。有谁知道无论如何关闭这个错误的方法？

我正在使用dse spark-submit 命令。

ERROR 2016-04-04 12:49:21,305 org.apache.spark.scheduler.cluster.SparkDeploySchedulerBackend: Asked to remove non-existent executor 747
ERROR 2016-04-04 12:49:21,305 org.apache.spark.scheduler.cluster.SparkDeploySchedulerBackend: Asked to remove non-existent executor 748
ERROR 2016-04-04 12:49:21,347 org.apache.spark.scheduler.cluster.SparkDeploySchedulerBackend: Asked to remove non-existent executor 749
ERROR 2016-04-04 12:49:21,388 org.apache.spark.scheduler.cluster.SparkDeploySchedulerBackend: Asked to remove non-existent executor 750

【问题讨论】：

好吧，看来是内存问题。基本上当执行器耗尽内存时，错误开始弹出。

标签： apache-spark pyspark datastax-enterprise

【解决方案1】：

当我看到这条消息“要求删除不存在的执行程序”时，这意味着执行程序因不同的原因而崩溃，因此显然 spark 无法杀死它。查看执行程序日志以找出它崩溃的原因。

您也有可能遇到网络问题，您的驱动程序和执行程序无法通信。在那种情况下也看到了这条消息。

【讨论】：

我看到很多这样的错误：#Java 运行时环境没有足够的内存来继续。 # 本机内存分配 (mmap) 未能映射 3579314176 字节以提交保留内存。 # 包含更多信息的错误报告文件保存为：# /cassandra/data/spark/worker/worker-0/app-20160404163740-0012/725/hs_err_pid3930.log。我会很感激设置线索，ps。谢谢
这也是标准错误的输出：Java HotSpot(TM) 64-Bit Server VM warning: INFO: os::commit_memory(0x0000000680000000, 3579314176, 0) failed; error='无法分配内存' (errno=12)