【发布时间】:2020-01-07 04:12:51
【问题描述】:
我需要一种将 XML 字符串直接放入数据集的方法。而不是从文件中加载它。
SparkSession spark = SparkSession.builder().master("local").getOrCreate();
Dataset<Row> df = spark.read().format("com.databricks.spark.xml")
.option("rowTag", "book").load("books.xml");
df.show();
这适用于简单地从文件中调用 xml。有没有办法直接将 xml 字符串输入到数据集?例如,使用字符串 xmlString,如下所示。
String xmlString = "<persons>
<person id="1">
<firstname>James</firstname>
<lastname>Smith</lastname>
<middlename></middlename>
<dob_year>1980</dob_year>
<dob_month>1</dob_month>
<gender>M</gender>
<salary currency="Euro">10000</salary>
</person>
</persons>";
问题是我不想使用文件。我只想使用字符串。我知道有一种方法可以将字符串保存到 xml 文件中,然后使用新创建的 xml 文件。但除此之外还有什么办法吗?
【问题讨论】:
标签: xml dataframe apache-spark dataset load