将 sparklyr 与 master="local" 一起使用有什么好处

What is the advantage of using sparklyr with master="local"

我对术语 "spark" 和 "sparklyr" 完全陌生,所以我的问题可能不太好。我知道当数据无法放入内存或 RAM 时应该使用 spark。如果我连接 master="local" 是否意味着我在我的 PC 上本地工作?这有什么好处。例如。我的计算机上有 16 GB 的 RAM,如果我使用 sparklyr,是否可以使用超过 16 GB 的内存?

连接服务器时:public服务器是供所有人使用还是私人服务器...

您在 local 模式下是对的,所有内容(驱动程序和工作人员)都 运行正在您的机器上 。优势仅用于测试目的/使用 Spark 功能。

集群

除了本地模式,您还可以连接到 Spark 集群:

  • 独立集群:spark://HOST:PORT
  • 金币:mesos://HOST:PORT
  • 纱线:yarn
  • Kubernetes:k8s://HOST:PORT

有关详细信息,请查看此 doc

使用集群时,您可以利用集群的核心和 RAM 执行计算(由工作人员完成)。但是,您可以决定 运行 集群或您机器上的驱动程序。最后一点主要取决于使用情况,对于交互模式(笔记本或 REPL),您需要 运行 本地驱动程序。

Spark 与 Sparklyr

Apache Spark 是一个 Scala 框架。 Sparklyr 是 Spark 的 R 接口(包),允许 R 用户以方便的方式执行 Spark 计算(例如使用 dplyr)。使用 Spark 的主要优点是执行分布式计算。这意味着能够将不适合内存的大型计算分解为小块,这些小块可以由具有隔离 CPU 和内存的不同进程执行。