使用CDH(cloudera)有什么好处?

What is the benefit of using CDH (cloudera)?

为什么我们使用 CDH (cloudera) 而不是使用 Apache-Hadoop 或 Apache-Spark ets。独自?它有什么优势?

如果我想使用Apache-Spark做数据分析,单独使用CDH好还是Apache-Spark框架好?

谢谢

嗯,CDH是一个"Hadoop distribution"。对我来说,它是 "a simple way of installing Hadoop" 并且有一个很好的 Web 管理界面。所以你不能真正使用 CDH instead of Hadoop。 (就像你不能使用 Red Hat 而不是 Linux 一样。)

Spark 也可以 运行 作为没有 Hadoop 的独立集群。但是,您将无法使用 HDFS 资源位置信息和 YARN 调度。

要开始使用 Spark,我建议首先尝试独立集群,因为 Hadoop 是一个非常适合入门的野兽。但是,如果您从一开始就需要 HDFS 功能,那么我想您无论如何都必须设置 Hadoop(以任何形式)。