运行 R 脚本与 Rscript 对比 spark-submit

Run R script with Rscript vs spark-submit

我不明白 运行 使用 Rscript 的 R 文件与 spark-submit 之间的区别。

在文件中我传递了连接到集群的选项,所以我不知道使用 spark-submit 有什么好处。

sparkR.session(master = "spark://...", appName = "test", sparkConfig = list(spark.driver.memory = "1g", spark.driver.cores = 1L, spark.executor.memory = "2g", spark.cores.max = 2L))

我在创建 spark 会话后在 R 程序中所做的是使用 SQL 查询存储在 HDFS 中的镶木地板文件。

我尝试了 运行 我的程序的两种方式,它们做的事情和我想的完全一样。

提前致谢

  • 将 SparkR 程序作为 R 脚本调用只是将其作为普通 R 程序进行评估。对于简单的情况还可以,但是有限制。
  • 使用 spark-submit 允许您设置许多 Spark 特定选项,包括但不限于掌握 URI、部署模式、内存、内核、配置选项、jar、包等等。

    其中大部分可以使用 Spark 配置进行设置或在脚本中进行硬编码,但 spark-submit 提供了更大的灵活性。

这同样适用于其他支持的语言(Java、Python、Scala)。