Spark 集群 - read/write on hadoop

Spark cluster - read/write on hadoop

我想从 hadoop 读取数据，在 spark 上处理，并在 hadoop 和 elastic search 上写入结果。我几乎没有工作节点来执行此操作。

Spark独立集群够用吗？或者我需要制作 hadoop 集群才能使用 yarn 或 mesos 吗？

如果standalone集群模式就足够了，是否应该像yarn、mesos模式那样在所有节点上设置jar文件？

首先，不能在Hadoop中写入数据，也不能从Hadoop中读取数据。负责 read/write 数据的是 HDFS（Hadoop 生态系统的组件）。现在回答你的问题

是的，可以从HDFS读取数据并在spark引擎中处理，然后将输出写入HDFS。
YARN、mesos、spark standalone都是集群管理器，你可以使用其中任何一个来管理集群中的资源，与hadoop无关。但是既然你想读写数据 from/to HDFS，那么你需要在集群上安装 HDFS，因此最好在所有节点上安装 hadoop，这样也会在所有节点上安装 HDFS。现在，无论您是想使用 YARN、mesos 还是 spark standalone，您都可以使用 HDFS，我自己使用 spark standalone 进行集群管理。
不清楚您正在与哪个 jar 文件通话，但我认为它是 spark 那么是的，您需要在每个节点上设置 spark jar 的路径，这样就不会有火花运行时的路径矛盾。