【问题标题】:How to merge schema while loading avro in spark dataframe?如何在 Spark 数据框中加载 avro 时合并模式?
【发布时间】:2016-04-04 08:09:00
【问题描述】:

我正在尝试使用 https://github.com/databricks/spark-avro 读取 avro 文件,并且 avro 架构随着时间的推移而演变。我读到这样,mergeSchema 选项设置为true,希望它会合并模式本身,但它不起作用。

sqlContext.read.format("com.databricks.spark.avro").option("mergeSchema", "true").load('s3://xxxx/d=2015-10-27/h=*/')

解决方法是什么?

【问题讨论】:

  • 我也有同样的问题。你能解决吗?它是一个错误吗?或者它可能是一个未实现的功能?
  • 你怎么知道“但是没用。”?什么是错误/异常?
  • @Zer001,它对我也不起作用,你找到解决方案了吗?

标签: apache-spark pyspark avro


【解决方案1】:

spark 中的 avro 文件没有实现合并模式,也没有简单的解决方法。一种解决方案是将您的 avro 数据文件逐个文件(或逐个分区)作为单独的数据集读取,然后合并这些数据集。但这可能非常慢。

【讨论】:

    猜你喜欢
    • 2018-11-24
    • 1970-01-01
    • 1970-01-01
    • 2017-08-19
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多