Spark Standalone 集群中的 Sparkling Water (pysparkling)

Sparkling Water (pysparkling) in Spark Standalone cluster

我已经设置了一个 Spark Standalone 集群(首先是 1 个主节点和 2 个从节点)并且喜欢在其中使用 Pysparkling。我的理解是我必须安装 h2o_pysparkling_2.0(我'm 运行 Spark 2.0.2), requests, tabulate, colorama and future on the master instance (我使用的是Anaconda distribution,所以我不应该关心numpy之类的):

pip install h2o_pysparkling_2.0
pip install requests 
pip install tabulate
pip install future
pip install colorama

但是,我不知道是否必须在从属实例上安装相同的包。我想是的,但我想知道你们是否有这方面的信息。可用official documentation and blog posts不提供关于此问题的具体信息。

python 依赖项需要在 Spark/Sparkling Water 运行ning 的所有节点上可用 - 这意味着在执行程序和驱动程序上。

这是因为这些操作是并行执行的,并且需要与驱动程序相同的依赖关系。我的建议是 运行 你的 Spark 应用程序在统一的环境中——即,具有相同的环境,所有 spark 执行程序和驱动程序的依赖关系,以防止出现一堆问题