运行 Hadoop 2.0.0-cdh4.4.0 上的 Apache Spark

Run Apache Spark on Hadoop 2.0.0-cdh4.4.0

我有一个带有 Hadoop 2.0.0-cdh4.4.0 的集群，我需要运行在其上使用 YARN 作为资源管理器进行 Spark。我从 http://spark.apache.org/docs/latest/building-spark.html#specifying-the-hadoop-version

获得了以下信息

You can enable the yarn profile and optionally set the yarn.version property if it is different from hadoop.version. Spark only supports YARN versions 2.2.0 and later.

我不想升级整个 Hadoop 包来支持 YARN 2.2.0 版本，因为我的 HDFS 有海量数据，升级它会导致服务中断时间太长，对我来说风险太大。

我认为对我来说最好的选择可能是使用比 2.2.0 更高版本的 YARN，同时保持我的 Hadoop 其他部分的版本不变。如果是这样，我应该遵循什么步骤来获取这样的 YARN 包并将其部署到我的集群上？

或者是否有其他方法运行 Spark on Hadoop 2.0.0-cdh4.4.0，使用 YARN 作为资源管理器？

虽然理论上您可以只升级 YARN 组件，但我的经验表明，如果您这样做，运行库和其他组件不兼容的风险很大。 Hadoop 由许多组件组成，但它们通常没有像应有的那样解耦，这是 CDH、HDP 和其他 Hadoop 发行版仅捆绑已知可以协同工作的某些版本的主要原因之一，如果您对它们有商业支持但是更改他们通常不会支持你的东西的版本，因为当你这样做时事情往往会中断。

此外，CDH4 已于去年结束维护，不再由 Cloudera 开发，因此如果您发现任何错误，您将发现很难修复（通常会被告知升级到较新的版本）。我还可以根据经验说，如果您想使用较新版本的 Spark（例如 1.5 或 1.6），那么您还需要较新版本的 Hadoop（无论是 CDH、HDP 还是其他版本），因为 Spark 发展如此之快并且支持 YARN稍后被固定，因此 Hadoop 和 Spark 的早期版本中存在大量错误和问题。

抱歉，我知道这不是您要找的答案，但如果您真的希望东西正常工作并且不想花很多时间调试，那么将 Hadoop 升级到更新版本可能是唯一的出路版本不兼容。

运行 Hadoop 2.0.0-cdh4.4.0 上的 Apache Spark

Run Apache Spark on Hadoop 2.0.0-cdh4.4.0

hadoop

hadoop-yarn

apache-spark