Hive 中的 "cold start" 是什么,为什么 Impala 不会受此影响?

What is "cold start" in Hive and why doesn't Impala suffer from this?

我正在阅读有关比较 Hive 和 Impala 的文献。

几个来源陈述了以下 "cold start" 行的某些版本:

It is well known that MapReduce programs take some time before all nodes are running at full capacity. In Hive, every query suffers this “cold start” problem.

Reference

在我看来,仅仅理解"cold start"的含义是不够的。寻找更多信息和清晰度来理解这一点。

就上下文而言,我是一名数据科学家。我创建查询,对大数据概念只有基本的了解。

我提到了解释为什么 Impala 更快 (example) 的问题,但它们没有明确解决或定义冷启动。

对于每个 Hive 查询,都会执行一个 MapReduce 作业,这需要 MapReduce 集群中的节点处理任务的开销和时间。这被称为“冷启动”。另一方面,因为 Impala 直接位于 HDFS 之上,它不会调用 MapReduce 作业并避免 MapReduce 作业所需的开销和时间。相反,Impala 守护进程在启动时处于活动状态并准备好处理查询。

要点:冷启动是指启动和执行 MapReduce 作业所需的开销。