HDInsight Hadoop 集群和 HDInsight Spark 集群之间有什么区别?

What's difference between HDInsight Hadoop cluster & HDInsight Spark cluster?

HDInsight Hadoop 集群和 HDInsight Spark 集群有什么区别?我已经看到即使在 Hadoop 集群中也可以使用 pyspark。集群类型有区别吗?即 Hadoop 集群暗示 YARN 作为集群管理层,而 Spark 暗示 Spark Standalone(或 Mesos?)作为集群管理层?

如果是这种情况,我们仍然可以 运行 Hadoop 集群中的 Spark 我相信 Spark 将 运行 在 YARN 之上。

这些位与您注意到的相同。不同之处在于默认情况下 运行ning 的一组服务和 Ambari 组件(在 Spark 上,您将拥有额外的 spark thrift、livy、jupyter)以及这些服务的一组配置。因此,虽然您在技术上可以 运行 在 hadoop 集群上的 yarn 上激发作业,但不推荐这样做,某些配置可能未设置为最佳值。另一种方法会更可靠——创建 spark 集群并在其上 运行 hadoop 作业。

Maxim (HDInsight Spark PM)

HDInsight Spark 使用 YARN 作为集群管理层,就像 Hadoop 一样。集群上的二进制文件是相同的。

HDInsight Spark 和 Hadoop 集群的区别如下:

1) 最佳配置: Spark 集群针对 Spark 工作负载进行了调整和配置。例如,我们预先配置了 spark 集群使用 SSD 并根据机器资源调整执行器内存大小,因此客户将获得比 spark 默认配置更好的开箱即用体验。

2) 服务设置: Spark 集群还 运行 与 Spark 相关的服务,包括 Livy、Jupyter 和 Spark Thrift Server。

3) 工作负载质量:我们在每次发布之前在 spark 集群上测试 spark 工作负载,以确保服务质量。