如何使用 sparklyr 将数据存储在 Spark 集群中?
How to store data in a Spark cluster using sparklyr?
如果我连接到 Spark 集群,将一些数据复制到它,然后断开连接,...
library(dplyr)
library(sparklyr)
sc <- spark_connect("local")
copy_to(sc, iris)
src_tbls(sc)
## [1] "iris"
spark_disconnect(sc)
然后下次我连接到 Spark 时,数据就没有了。
sc <- spark_connect("local")
src_tbls(sc)
## character(0)
spark_disconnect(sc)
这与使用数据库的情况不同,无论连接多少次,数据就在那里。
如何在连接之间将数据保存在 Spark 集群中?
我认为 sdf_persist()
可能是我想要的,但似乎不是。
Spark 在技术上是一个在 computer/cluster 上运行以执行任务的引擎。它不是数据库或文件系统。您可以在完成文件系统后保存数据,并在下一次会话期间加载它。
如果我连接到 Spark 集群,将一些数据复制到它,然后断开连接,...
library(dplyr)
library(sparklyr)
sc <- spark_connect("local")
copy_to(sc, iris)
src_tbls(sc)
## [1] "iris"
spark_disconnect(sc)
然后下次我连接到 Spark 时,数据就没有了。
sc <- spark_connect("local")
src_tbls(sc)
## character(0)
spark_disconnect(sc)
这与使用数据库的情况不同,无论连接多少次,数据就在那里。
如何在连接之间将数据保存在 Spark 集群中?
我认为 sdf_persist()
可能是我想要的,但似乎不是。
Spark 在技术上是一个在 computer/cluster 上运行以执行任务的引擎。它不是数据库或文件系统。您可以在完成文件系统后保存数据,并在下一次会话期间加载它。