HDInsight Hadoop 集群和 HDInsight Spark 集群之间有什么区别？

What's difference between HDInsight Hadoop cluster & HDInsight Spark cluster?

azure-hdinsight

HDInsight Hadoop 集群和 HDInsight Spark 集群有什么区别？我已经看到即使在 Hadoop 集群中也可以使用 pyspark。集群类型有区别吗？即 Hadoop 集群暗示 YARN 作为集群管理层，而 Spark 暗示 Spark Standalone（或 Mesos？）作为集群管理层？

如果是这种情况，我们仍然可以运行 Hadoop 集群中的 Spark 我相信 Spark 将运行在 YARN 之上。

这些位与您注意到的相同。不同之处在于默认情况下运行ning 的一组服务和 Ambari 组件（在 Spark 上，您将拥有额外的 spark thrift、livy、jupyter）以及这些服务的一组配置。因此，虽然您在技术上可以运行在 hadoop 集群上的 yarn 上激发作业，但不推荐这样做，某些配置可能未设置为最佳值。另一种方法会更可靠——创建 spark 集群并在其上运行 hadoop 作业。

Maxim (HDInsight Spark PM)

HDInsight Spark 使用 YARN 作为集群管理层，就像 Hadoop 一样。集群上的二进制文件是相同的。

HDInsight Spark 和 Hadoop 集群的区别如下：

1) 最佳配置： Spark 集群针对 Spark 工作负载进行了调整和配置。例如，我们预先配置了 spark 集群使用 SSD 并根据机器资源调整执行器内存大小，因此客户将获得比 spark 默认配置更好的开箱即用体验。

2) 服务设置： Spark 集群还运行与 Spark 相关的服务，包括 Livy、Jupyter 和 Spark Thrift Server。

3) 工作负载质量：我们在每次发布之前在 spark 集群上测试 spark 工作负载，以确保服务质量。

HDInsight Hadoop 集群和 HDInsight Spark 集群之间有什么区别？

What's difference between HDInsight Hadoop cluster & HDInsight Spark cluster?

azure-hdinsight