【发布时间】:2016-05-18 15:46:10
【问题描述】:
我正在尝试将数据框保存为 avro 文件。我读过一个包含许多嵌套层的 xml 文件。它将其存储为数据框。数据帧存储成功。 xml 有许多名称空间标头,例如 @nso、@ns1、@ns2 等。这些成为数据帧中的标头。当我尝试将其保存为 avro 文件时,它给了我这个错误:“线程“主”中的异常 org.apache.avro.SchemaParseException:非法初始字符:@ns0”
val conf = new SparkConf()
.setMaster("local[2]")
.setAppName("conversion")
val sc = new SparkContext(conf)
val sqlContext = new SQLContext(sc)
val df = sqlContext.read
.format("com.databricks.spark.xml")
.option("rowTag", "Stuff")
.load("sample.xml")
df.printSchema()
df.show()
df.write
.format("com.databricks.spark.avro")
.save("output")
【问题讨论】:
标签: xml parsing apache-spark rdd avro