【问题标题】:How can I read in XML files from S3 bucket on EMR?如何从 EMR 上的 S3 存储桶中读取 XML 文件?
【发布时间】:2019-08-11 22:27:19
【问题描述】:

我已将 XML 文件存储在 S3 存储桶中,并希望在键入后在 EMR 上读取它们:

sqlContext.read.format("com.databricks.spark.xml").option("rowTag", "Profile").load(xml_file_path)

它给了我错误:

调用 o445.load 时出错。 :java.lang.ClassNotFoundException:找不到数据源:com.databricks.spark.xml。请在http://spark.apache.org/third-party-projects.html查找包

【问题讨论】:

标签: xml amazon-web-services pyspark amazon-emr


【解决方案1】:
  1. 使用 Spark .Link 在正在运行的 EMR 集群上安装 spark-xml 库

  2. 启动 PySpark 笔记本

  3. 执行以下操作:

df = spark.read.format('com.databricks.spark.xml').options(rootTag='objects').options(rowTag='object').load("s3://bucket-name /sample.xml")

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2021-05-14
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-09-29
    • 2019-11-12
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多