【问题标题】:Druid parquet poor ingestion performanceDruid parquet 摄取性能不佳
【发布时间】:2019-07-01 20:57:46
【问题描述】:

在使用 parquet 数据摄取时,是否有任何原因导致 Druid 摄取速度变慢?我们观察到,摄取 JSON 数据时,摄取速度至少快 2 倍。一般来说,哪个更好? Druid Hadoop 批量摄取上下文中的 JSON 或 Parquet。

【问题讨论】:

  • 澄清一下,您说的是在摄取之前采用 Parquet/JSON 格式的数据,对吧?到目前为止,一个答案似乎假设您正在谈论摄取后的数据格式。但是在摄取之后,数据将在 Druid 段文件中,既不是 Parquet 也不是 JSON。
  • 我说的是摄取前的数据。
  • 谢谢!是的,我永远不会期望 JSON 比 Parquet 更快地读取和解析。不过,对 Druid 的 Parquet 支持来自“contrib”扩展。也许性能是缺乏深度融合的结果。据我所知,我的意思是扩展可能会将 Parquet 数据转换为 JSON :)。 (我还没有研究它是如何工作的。)

标签: json apache-spark hadoop parquet druid


【解决方案1】:

Parquet 针对一次写入多次读取 (WORM) 范例进行了优化。它写起来很慢,但读起来却非常快,尤其是当你只访问总列的一个子集时。由于 parquet 数据格式经过压缩和编码,因此与 JSON 数据格式相比,它的写入速度较慢。

在这里,您可以使用 parquet 格式在数据摄取性能方面做出妥协,但对于数据分析来说,由于其柱状格式,它的速度非常快。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2021-05-11
    • 1970-01-01
    • 1970-01-01
    • 2020-05-17
    • 2022-08-09
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多