【发布时间】:2019-08-11 22:27:19
【问题描述】:
我已将 XML 文件存储在 S3 存储桶中,并希望在键入后在 EMR 上读取它们:
sqlContext.read.format("com.databricks.spark.xml").option("rowTag", "Profile").load(xml_file_path)
它给了我错误:
调用 o445.load 时出错。 :java.lang.ClassNotFoundException:找不到数据源:com.databricks.spark.xml。请在http://spark.apache.org/third-party-projects.html查找包
【问题讨论】:
-
您需要指定外部 jar 的路径,例如:
pyspark --jars spark-xml_2.11-0.6.0.jar。有关更详细的答案,请查看:stackoverflow.com/questions/27698111/…
标签: xml amazon-web-services pyspark amazon-emr