Spark 集群 - read/write on hadoop
Spark cluster - read/write on hadoop
我想从 hadoop 读取数据,在 spark 上处理,并在 hadoop 和 elastic search 上写入结果。我几乎没有工作节点来执行此操作。
Spark独立集群够用吗?或者我需要制作 hadoop 集群才能使用 yarn 或 mesos 吗?
如果standalone集群模式就足够了,是否应该像yarn、mesos模式那样在所有节点上设置jar文件?
首先,不能在Hadoop中写入数据,也不能从Hadoop中读取数据。负责 read/write 数据的是 HDFS(Hadoop 生态系统的组件)。
现在回答你的问题
是的,可以从HDFS读取数据并在spark引擎中处理,然后将输出写入HDFS。
YARN、mesos、spark standalone都是集群管理器,你可以使用其中任何一个来管理集群中的资源,与hadoop无关。但是既然你想读写数据 from/to HDFS,那么你需要在集群上安装 HDFS,因此最好在所有节点上安装 hadoop,这样也会在所有节点上安装 HDFS。现在,无论您是想使用 YARN、mesos 还是 spark standalone,您都可以使用 HDFS,我自己使用 spark standalone 进行集群管理。
不清楚您正在与哪个 jar 文件通话,但我认为它是 spark 那么是的,您需要在每个节点上设置 spark jar 的路径,这样就不会有火花 运行 时的路径矛盾。
我想从 hadoop 读取数据,在 spark 上处理,并在 hadoop 和 elastic search 上写入结果。我几乎没有工作节点来执行此操作。
Spark独立集群够用吗?或者我需要制作 hadoop 集群才能使用 yarn 或 mesos 吗?
如果standalone集群模式就足够了,是否应该像yarn、mesos模式那样在所有节点上设置jar文件?
首先,不能在Hadoop中写入数据,也不能从Hadoop中读取数据。负责 read/write 数据的是 HDFS(Hadoop 生态系统的组件)。 现在回答你的问题
是的,可以从HDFS读取数据并在spark引擎中处理,然后将输出写入HDFS。
YARN、mesos、spark standalone都是集群管理器,你可以使用其中任何一个来管理集群中的资源,与hadoop无关。但是既然你想读写数据 from/to HDFS,那么你需要在集群上安装 HDFS,因此最好在所有节点上安装 hadoop,这样也会在所有节点上安装 HDFS。现在,无论您是想使用 YARN、mesos 还是 spark standalone,您都可以使用 HDFS,我自己使用 spark standalone 进行集群管理。
不清楚您正在与哪个 jar 文件通话,但我认为它是 spark 那么是的,您需要在每个节点上设置 spark jar 的路径,这样就不会有火花 运行 时的路径矛盾。