什么是 Hive 中的“冷启动”，为什么 Impala 不受此影响？答案

【问题标题】：What is "cold start" in Hive and why doesn't Impala suffer from this?什么是 Hive 中的“冷启动”，为什么 Impala 不受此影响？
【发布时间】：2020-03-05 10:38:39
【问题描述】：

我正在阅读有关比较 Hive 和 Impala 的文献。

几个来源陈述了以下“冷启动”行的某些版本：

众所周知，MapReduce 程序在所有节点都满负荷运行之前需要一些时间。在 Hive 中，每个查询都会遇到这种“冷启动”问题。

Reference

在我看来，仅仅理解什么是“冷启动”是不够的。寻找更多信息和清晰度来理解这一点。

就上下文而言，我是一名数据科学家。我创建查询，并且对大数据概念只有基本的了解。

我提到了解释为什么 Impala 更快 (example) 的问题，但它们没有明确解决或定义冷启动。

【问题讨论】：

标签： hive bigdata impala

【解决方案1】：

对于每个 Hive 查询，都会执行一个 MapReduce 作业，这需要 MapReduce 集群中的节点处理任务的开销和时间。这被称为“冷启动”。另一方面，由于 Impala 直接位于 HDFS 之上，因此它不会调用 MapReduce 作业并避免 MapReduce 作业所需的开销和时间。相反，Impala 守护进程在启动时处于活动状态并准备好处理查询。

要点：冷启动是指启动和执行 MapReduce 作业所需的开销。

【讨论】：