【发布时间】:2021-06-14 18:35:24
【问题描述】:
我正在尝试在我的 jupyter 笔记本上运行 spark-xml,以便使用 spark 读取 xml 文件。
from os import environ
environ['PYSPARK_SUBMIT_ARGS'] = '--packages com.databricks:spark-xml_2.10:0.4.1 pyspark-shell'
我发现这是使用它的方式。但是当我尝试导入 com.databricks.spark.xml._ 时,我收到一个错误提示
没有名为“com”的模块
【问题讨论】:
-
spark-xml 主要用于 Scala,而不是 Python。见readme
-
Python 导入也没有下划线,那么您为什么认为复制 Scala 代码会起作用?
-
我在这里提供了类似问题的详细答案:stackoverflow.com/questions/63951922/…
标签: apache-spark pyspark jupyter-notebook