【发布时间】:2019-10-11 01:12:06
【问题描述】:
我有一个可以这样正确读取的文件:
sqlContext.read.format('csv').options(header='false', inferSchema='true', delimiter = "\a", nullValue = '\\N').load('adl://resource.azuredatalakestore.net/datalake-prod/raw/something/data/something/date_part={}/{}'.format(elem[0], elem[1]))
问题是没有头文件,头文件实际上在另一个avsc类型的文件中,一个Apache Avro模式对象。
将它用作我的 DF 标头的最佳方法是什么?
我正在 Azure Databricks 上运行 pyspark。
【问题讨论】:
-
了解“原始数据”是如何加载的可能值得一试……如果您获得了 AVSC,那么您是否曾经拥有过真正的 Avro?如果是,为什么要转换成 CSV?
标签: csv apache-spark pyspark avro databricks