【发布时间】:2020-03-05 10:38:39
【问题描述】:
我正在阅读有关比较 Hive 和 Impala 的文献。
几个来源陈述了以下“冷启动”行的某些版本:
众所周知,MapReduce 程序在所有节点都满负荷运行之前需要一些时间。在 Hive 中,每个查询都会遇到这种“冷启动”问题。
在我看来,仅仅理解什么是“冷启动”是不够的。寻找更多信息和清晰度来理解这一点。
就上下文而言,我是一名数据科学家。我创建查询,并且对大数据概念只有基本的了解。
我提到了解释为什么 Impala 更快 (example) 的问题,但它们没有明确解决或定义冷启动。
【问题讨论】: