【发布时间】:2022-01-04 07:01:15
【问题描述】:
如果我需要在磁盘上写入数据帧,哪种格式会执行更好的 csv 或 'orc with snappy' ?
一方面 csv 格式将避免压缩任务开销,但另一方面 snappy 将减少总字节大小写入任务。请在这里也纠正我的假设?
请注意,我的问题是关于写入性能而不是存储角度。
【问题讨论】:
标签: apache-spark orc
如果我需要在磁盘上写入数据帧,哪种格式会执行更好的 csv 或 'orc with snappy' ?
一方面 csv 格式将避免压缩任务开销,但另一方面 snappy 将减少总字节大小写入任务。请在这里也纠正我的假设?
请注意,我的问题是关于写入性能而不是存储角度。
【问题讨论】:
标签: apache-spark orc
压缩是为了节省空间,而不是性能,因此您使用 Snappy 的事实并不是一个真正相关的细节,因为您可以使用 LZ4 或 ZSTD 代替。
ORC 是一种面向列的数据格式,其分析性能优于 CSV,并且在某些条件下,其性能将优于 Spark 的默认 Parquet 格式。
【讨论】: