【发布时间】:2021-03-17 11:51:06
【问题描述】:
My code is:
```
sample1 = df_pat_jour_status_other_occurances.rdd.map(lambda x: (x.lh_pat_id, x.src_key, x.Journey_Status)).toDF()
type(sample1)
```
```
Py4JJavaError:调用 z:org.apache.spark.api.python.PythonRDD.runJob 时出错。 :org.apache.spark.SparkException:作业因阶段失败而中止:阶段 1010.0 中的任务 0 失败 1 次,最近一次失败:阶段 1010.0 中丢失任务 0.0(TID 32154,LTIN214271.cts.com,执行程序驱动程序):org .apache.spark.SparkException:Python 工作者无法重新连接。 ```
【问题讨论】:
-
如错误所说“worker 中的 Python 版本 3.7 与驱动程序 3.8 中的版本不同...请检查环境变量 PYSPARK_PYTHON 和 PYSPARK_DRIVER_PYTHON 是否设置正确。”