运行 R 脚本与 Rscript 对比 spark-submit

Question

我不明白运行使用 Rscript 的 R 文件与 spark-submit 之间的区别。

在文件中我传递了连接到集群的选项，所以我不知道使用 spark-submit 有什么好处。

sparkR.session(master = "spark://...", appName = "test", sparkConfig = list(spark.driver.memory = "1g", spark.driver.cores = 1L, spark.executor.memory = "2g", spark.cores.max = 2L))

我在创建 spark 会话后在 R 程序中所做的是使用 SQL 查询存储在 HDFS 中的镶木地板文件。

我尝试了运行我的程序的两种方式，它们做的事情和我想的完全一样。

提前致谢

Answer 1

将 SparkR 程序作为 R 脚本调用只是将其作为普通 R 程序进行评估。对于简单的情况还可以，但是有限制。
使用 spark-submit 允许您设置许多 Spark 特定选项，包括但不限于掌握 URI、部署模式、内存、内核、配置选项、jar、包等等。

其中大部分可以使用 Spark 配置进行设置或在脚本中进行硬编码，但 spark-submit 提供了更大的灵活性。

这同样适用于其他支持的语言（Java、Python、Scala）。

运行 R 脚本与 Rscript 对比 spark-submit

Run R script with Rscript vs spark-submit

r

apache-spark

sparkr