【问题标题】:Real Time Interactive Queries IN HADOOPHADOOP 中的实时交互式查询
【发布时间】:2016-01-20 10:13:50
【问题描述】:

是否可以在 hadoop 中进行实时交互式查询?

当我在 YARN/tez 上使用 Hive 时,延迟仍然太高,即使在 parquet/ocr 上也是如此。

有什么建议吗?

提前致谢

【问题讨论】:

    标签: hadoop hive real-time


    【解决方案1】:

    Hadoop 不是实时或近实时查询的好选择。在 Hadoop 中运行任何东西的延迟开销都会很高。考虑使用 Apache Spark(因为我希望您有一个批处理系统,就像您使用 Hadoop 一样)。 Spark 使用 spark shell 提供交互式查询。您还可以使用 Impala 对存储在 HDFS 中的数据进行查询。我相信,与 Hive 相比,Impala 提供了更快的查询。

    【讨论】:

    • 当然,或者在 spark 上使用 hive,但真正的问题是 spark 上的 hive 仍然在开发分支中,对于 impala 它可以有超过 50 个用户的并发......所以对于生产模式它是不是最好的选择
    • 考虑直接使用Apache spark?或 Spark Shell 进行交互式查询,具体取决于您的目标。
    • 是的,这是一个解决方案,但大多数公司仍然希望使用 Hive 等传统系统或 tableau 等其他软件
    猜你喜欢
    • 2021-11-08
    • 1970-01-01
    • 2020-05-13
    • 2017-12-19
    • 2019-06-05
    • 2020-07-31
    • 2021-01-24
    • 1970-01-01
    • 2013-03-27
    相关资源
    最近更新 更多