Druid parquet 摄取性能不佳答案

【问题标题】：Druid parquet poor ingestion performanceDruid parquet 摄取性能不佳
【发布时间】：2019-07-01 20:57:46
【问题描述】：

在使用 parquet 数据摄取时，是否有任何原因导致 Druid 摄取速度变慢？我们观察到，摄取 JSON 数据时，摄取速度至少快 2 倍。一般来说，哪个更好？ Druid Hadoop 批量摄取上下文中的 JSON 或 Parquet。

【问题讨论】：

澄清一下，您说的是在摄取之前采用 Parquet/JSON 格式的数据，对吧？到目前为止，一个答案似乎假设您正在谈论摄取后的数据格式。但是在摄取之后，数据将在 Druid 段文件中，既不是 Parquet 也不是 JSON。
我说的是摄取前的数据。
谢谢！是的，我永远不会期望 JSON 比 Parquet 更快地读取和解析。不过，对 Druid 的 Parquet 支持来自“contrib”扩展。也许性能是缺乏深度融合的结果。据我所知，我的意思是扩展可能会将 Parquet 数据转换为 JSON :)。（我还没有研究它是如何工作的。）

【解决方案1】：

Parquet 针对一次写入多次读取 (WORM) 范例进行了优化。它写起来很慢，但读起来却非常快，尤其是当你只访问总列的一个子集时。由于 parquet 数据格式经过压缩和编码，因此与 JSON 数据格式相比，它的写入速度较慢。

在这里，您可以使用 parquet 格式在数据摄取性能方面做出妥协，但对于数据分析来说，由于其柱状格式，它的速度非常快。

【讨论】：