【发布时间】:2019-07-01 20:57:46
【问题描述】:
在使用 parquet 数据摄取时,是否有任何原因导致 Druid 摄取速度变慢?我们观察到,摄取 JSON 数据时,摄取速度至少快 2 倍。一般来说,哪个更好? Druid Hadoop 批量摄取上下文中的 JSON 或 Parquet。
【问题讨论】:
-
澄清一下,您说的是在摄取之前采用 Parquet/JSON 格式的数据,对吧?到目前为止,一个答案似乎假设您正在谈论摄取后的数据格式。但是在摄取之后,数据将在 Druid 段文件中,既不是 Parquet 也不是 JSON。
-
我说的是摄取前的数据。
-
谢谢!是的,我永远不会期望 JSON 比 Parquet 更快地读取和解析。不过,对 Druid 的 Parquet 支持来自“contrib”扩展。也许性能是缺乏深度融合的结果。据我所知,我的意思是扩展可能会将 Parquet 数据转换为 JSON :)。 (我还没有研究它是如何工作的。)
标签: json apache-spark hadoop parquet druid