【发布时间】:2019-09-23 08:18:35
【问题描述】:
我正在尝试运行 pyspark 程序,但出现错误:
python.exe:查找模块规范时出错 “pyspark.worker”(ModuleNotFoundError:没有名为“pyspark”的模块)
SparkException:Python 工作者无法重新连接。
代码:
from pyspark.sql import SparkSession
from pyspark.sql import Row
import pyspark.sql.functions as func
spark = SparkSession\
.builder\
.appName("ReplaceNanByAverage")\
.config("spark.master", "local")\
.getOrCreate()
items = [(1,12),(1,float('Nan')),(1,14),(1,10),(2,22),(2,20),(2,float('Nan')),(3,300),
(3,float('Nan'))]
sc = spark.sparkContext
rdd = sc.parallelize(items)
itemsRdd = rdd.map(lambda x: Row(id=x[0], col1=int(x[1])))
df = itemsRdd.toDF()
我尝试了很多建议的解决方案:
- 降级 spark 版本
- 使用 findspark.init()
- 使用 findspark.init('/path/to/spark_home')
- 将内容根添加到项目结构中。
- 使用 .config('PYTHONPATH','pyspark.zip:py4j-0.10.7-src.zip')
但我不断收到同样的错误。
我在 Windows 上的 PyCharm IDE 中工作。
【问题讨论】:
标签: python apache-spark pyspark pycharm