在 RStudio 中使用 sparklyr,我可以将本地 csv 文件上传到 spark 集群吗

using sparklyr in RStudio, can I upload a LOCAL csv file to a spark cluster

我对集群计算还很陌生,所以不确定这是否可行。

我在 Rstudio 中成功创建了 spark_context(使用 sparklyr)以连接到我们本地的 Spark 集群。使用 copy_to 我可以将数据帧从 R 上传到 Spark,但我试图使用 spark_read_csv 将本地存储的 CSV 文件直接上传到 Spark 集群,而不是先将其导入 R 环境(这是一个很大的5GB 文件)。它不起作用(甚至在 location 前面加上 file:///),而且它似乎只能上传已经存储在集群中的文件。

如何将本地文件直接上传到 spark 而无需先将其加载到 R 中??

感谢任何提示。

你不能。文件必须可以作为本地副本或放置在分布式文件系统/对象存储中从集群中的每台机器访问。

您可以使用spark_read_csv()方法将文件从本地上传到spark。请正确传递路径。

注意:不必先将数据加载到R环境中。