【发布时间】:2019-05-03 10:57:17
【问题描述】:
现在 Spark 2.4 已经内置了对 Avro 格式的支持,我正在考虑更改我的数据湖中一些数据集的格式 - 通常查询/连接整行而不是特定列聚合的数据集 -从 Parquet 到 Avro。
但是,数据上的大部分工作都是通过 Spark 完成的,据我了解,Spark 的内存缓存和计算是在列格式数据上完成的。 Parquet 是否在这方面提供了性能提升,而 Avro 会招致某种数据“转换”损失?在这方面我还应该注意哪些其他注意事项?
【问题讨论】:
标签: apache-spark avro parquet