如何在 Google Cloud Platform 上提交 Spark Graphx 作业示例?

How can I submit a Spark Graphx job example on Google Cloud Platform?

我在 Google 云平台上创建了一个集群,该集群有五个基于 linux 的虚拟机 (VM):一个主节点和 4 个工作节点。 我在主 VM 上 运行 ./start-master.sh,在工作 VM 上 ./start-worker.sh [external-master-IP:7077]

现在我只想 运行 一个 Graphx 示例作业,例如一个已经在 Spark 中的 PageRank 算法,使用 。/bin/spark-submit.

我知道,我阅读了文档,其中对 运行 说的是这样的:

./bin/spark-submit \
   --class <main-class> \
   --master <master-url> \
   --deploy-mode <deploy-mode> \
   --conf <key>=<value> \
   ... # other options
   <application-jar> \
   [application-arguments]

我试过这个:

./bin/spark-submit \
  --class org.apache.spark.examples.graphx.PageRankExample \
  --master spark://<external-IP>:7077 \
  --deploy-mode cluster

它说:

" Error: Missing application resource. "

我需要添加 .jar 吗?对于此 PageRank 示例,我找不到它。

谢谢。

是的,需要在spark-submit命令中添加jar:

./bin/spark-submit \
  --class org.apache.spark.examples.graphx.PageRankExample \
  --master spark://<external-IP>:7077 \
  --deploy-mode cluster
  ../examples/jars/spark-examples_[your version].jar

您应该可以在 spark 安装下的 examples/jars 文件夹中找到它。该 jar 名为 spark-examples_*.jar: