【问题标题】:What is "cold start" in Hive and why doesn't Impala suffer from this?什么是 Hive 中的“冷启动”,为什么 Impala 不受此影响?
【发布时间】:2020-03-05 10:38:39
【问题描述】:

我正在阅读有关比较 Hive 和 Impala 的文献。

几个来源陈述了以下“冷启动”行的某些版本:

众所周知,MapReduce 程序在所有节点都满负荷运行之前需要一些时间。在 Hive 中,每个查询都会遇到这种“冷启动”问题。

Reference

在我看来,仅仅理解什么是“冷启动”是不够的。寻找更多信息和清晰度来理解这一点。

就上下文而言,我是一名数据科学家。我创建查询,并且对大数据概念只有基本的了解。

我提到了解释为什么 Impala 更快 (example) 的问题,但它们没有明确解决或定义冷启动。

【问题讨论】:

    标签: hive bigdata impala


    【解决方案1】:

    对于每个 Hive 查询,都会执行一个 MapReduce 作业,这需要 MapReduce 集群中的节点处理任务的开销和时间。这被称为“冷启动”。另一方面,由于 Impala 直接位于 HDFS 之上,因此它不会调用 MapReduce 作业并避免 MapReduce 作业所需的开销和时间。相反,Impala 守护进程在启动时处于活动状态并准备好处理查询。

    要点:冷启动是指启动和执行 MapReduce 作业所需的开销。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多