使用 Java 将 spark RDD 保存到本地文件系统

Save a spark RDD to the local file system using Java

我有一个使用 Spark 生成的 RDD。现在,如果我将这个 RDD 写入一个 csv 文件,我会得到一些方法,例如 "saveAsTextFile()" ,它将 csv 文件输出到 HDFS。

我想将文件写入我的本地文件系统,以便我的 SSIS 进程可以从系统中挑选文件并将它们加载到数据库中。

我目前无法使用sqoop。

除了编写 shell 脚本之外,在 Java 中是否有可能做到这一点。

任何需要澄清的地方,请告知。

saveAsTextFile 能够获取本地文件系统路径(例如 file:///tmp/magic/...)。但是,如果您的 运行 在分布式集群上,您很可能希望 collect() 将数据返回集群,然后使用标准文件操作将其保存。