将 Spark 的输出合并到一个文件中

merging output of Spark into one file

我知道我的问题与 Merge Output files after reduce phase 类似,但我认为它可能有所不同,因为我仅在本地机器上使用 Spark 而不是分布式文件系统。

我在单个 VM 上安装了 Spark(用于测试)。输出在 Home/Spark_Hadoop/spark-1.1.1-bin-cdh4/.

中名为 'STjoin' 的文件夹中的多个文件(part-000000、part-000001 等)中给出

命令 hadoop fs -getmerge /Spark_Hadoop/spark-1.1.1-bin-cdh4/STjoin /desired/local/output/file.txt 似乎不起作用 ("No such file or director")

这是因为此命令仅适用于存储在 HDFS 而不是本地的文件,还是我不了解一般的 linux 地址? (我是 linux 和 HDFS 的新手)

只需cat /path/to/source/dir/* > /path/to/output/file.txtgetmerge 是仅适用于 HDFS 文件的 Hadoop 版本。