SnappyData Unified Cluster 模式下的 Spark 组件在哪里?

Where do Spark components live in SnappyData Unified Cluster mode?

我试图了解所有 "Spark" 部分在 SnappyData 的 "Unified Cluster Mode" 部署拓扑中的位置。

阅读本文时,文档中有几点不清楚:

http://snappydatainc.github.io/snappydata/deployment/#unified-cluster-mode-aka-embedded-store-mode

  1. 谁是大师 - 领导者还是定位者?
  2. Slave/Worker 在...上执行 - 领导或服务器?
  3. 执行器在...上执行 - 服务器(这在文档中看起来很简单
  4. 应用程序在...上执行 - 领导或服务器?
  5. 作业在...上执行 - 主管还是服务器?
  6. 流在...上执行 - 线索或服务器?

SnappyData 是一个点对点集群,并进行自己的集群管理。因此,它不需要像 Spark 独立集群管理器和 Yarn 这样的集群管理器来 start/stop Spark 驱动程序和执行程序。当 SnappyData 引导节点启动时,它会在其中启动一个 Spark 驱动程序,并在所有 SnappyData 服务器中启动 Spark 执行程序。现在回答你的问题:

Who is the Master - Lead or Locator?

SnappyData 没有Master。

Slave/Worker execute on... - Lead or Server?

SnappyData 没有 slave/worker。

Executor execute on... - Server (This seemed straight forward in the docs)

正确。

Apps execute on... - Lead or Server? Jobs execute on... - Lead or Server?

Spark 中的应用程序是一组独立的计算。对于每个 Spark 应用程序,都会启动一个驱动程序来启动 Spark 上下文。 Spark 上下文协调应用程序。上下文和驱动程序在应用程序结束后消失。从某种意义上说,SnappyData 可以称为长 运行 Spark 应用程序,因为它启动 Spark 上下文并将其 运行 保存在引导节点中。 SnappyData 作业可以提交到由已经 运行 Spark 上下文执行的引导节点。因此,领导节点(Spark 驱动程序)在实际执行任务的服务器(Spark 执行程序)上安排作业。

Streams execute on... - Lead or Server?

Spark 执行不变。当一个流作业提交给领导节点时,它会在其中一个可用服务器上创建一个接收器,然后为接收到的数据安排作业。