如何在 Spark 数据框中加载 avro 时合并模式？答案

【问题标题】：How to merge schema while loading avro in spark dataframe?如何在 Spark 数据框中加载 avro 时合并模式？
【发布时间】：2016-04-04 08:09:00
【问题描述】：

我正在尝试使用 https://github.com/databricks/spark-avro 读取 avro 文件，并且 avro 架构随着时间的推移而演变。我读到这样，mergeSchema 选项设置为true，希望它会合并模式本身，但它不起作用。

sqlContext.read.format("com.databricks.spark.avro").option("mergeSchema", "true").load('s3://xxxx/d=2015-10-27/h=*/')

解决方法是什么？

【问题讨论】：

【解决方案1】：

spark 中的 avro 文件没有实现合并模式，也没有简单的解决方法。一种解决方案是将您的 avro 数据文件逐个文件（或逐个分区）作为单独的数据集读取，然后合并这些数据集。但这可能非常慢。

【讨论】：