运行 R 脚本与 Rscript 对比 spark-submit
Run R script with Rscript vs spark-submit
我不明白 运行 使用 Rscript 的 R 文件与 spark-submit 之间的区别。
在文件中我传递了连接到集群的选项,所以我不知道使用 spark-submit 有什么好处。
sparkR.session(master = "spark://...", appName = "test", sparkConfig = list(spark.driver.memory = "1g", spark.driver.cores = 1L, spark.executor.memory = "2g", spark.cores.max = 2L))
我在创建 spark 会话后在 R 程序中所做的是使用 SQL 查询存储在 HDFS 中的镶木地板文件。
我尝试了 运行 我的程序的两种方式,它们做的事情和我想的完全一样。
提前致谢
- 将 SparkR 程序作为 R 脚本调用只是将其作为普通 R 程序进行评估。对于简单的情况还可以,但是有限制。
使用 spark-submit
允许您设置许多 Spark 特定选项,包括但不限于掌握 URI、部署模式、内存、内核、配置选项、jar、包等等。
其中大部分可以使用 Spark 配置进行设置或在脚本中进行硬编码,但 spark-submit
提供了更大的灵活性。
这同样适用于其他支持的语言(Java、Python、Scala)。
我不明白 运行 使用 Rscript 的 R 文件与 spark-submit 之间的区别。
在文件中我传递了连接到集群的选项,所以我不知道使用 spark-submit 有什么好处。
sparkR.session(master = "spark://...", appName = "test", sparkConfig = list(spark.driver.memory = "1g", spark.driver.cores = 1L, spark.executor.memory = "2g", spark.cores.max = 2L))
我在创建 spark 会话后在 R 程序中所做的是使用 SQL 查询存储在 HDFS 中的镶木地板文件。
我尝试了 运行 我的程序的两种方式,它们做的事情和我想的完全一样。
提前致谢
- 将 SparkR 程序作为 R 脚本调用只是将其作为普通 R 程序进行评估。对于简单的情况还可以,但是有限制。
使用
spark-submit
允许您设置许多 Spark 特定选项,包括但不限于掌握 URI、部署模式、内存、内核、配置选项、jar、包等等。其中大部分可以使用 Spark 配置进行设置或在脚本中进行硬编码,但
spark-submit
提供了更大的灵活性。
这同样适用于其他支持的语言(Java、Python、Scala)。