将 Spark 的输出合并到一个文件中
merging output of Spark into one file
我知道我的问题与 Merge Output files after reduce phase 类似,但我认为它可能有所不同,因为我仅在本地机器上使用 Spark 而不是分布式文件系统。
我在单个 VM 上安装了 Spark(用于测试)。输出在 Home/Spark_Hadoop/spark-1.1.1-bin-cdh4/.
中名为 'STjoin' 的文件夹中的多个文件(part-000000、part-000001 等)中给出
命令 hadoop fs -getmerge /Spark_Hadoop/spark-1.1.1-bin-cdh4/STjoin /desired/local/output/file.txt
似乎不起作用 ("No such file or director")
这是因为此命令仅适用于存储在 HDFS 而不是本地的文件,还是我不了解一般的 linux 地址? (我是 linux 和 HDFS 的新手)
只需cat /path/to/source/dir/* > /path/to/output/file.txt
。 getmerge
是仅适用于 HDFS 文件的 Hadoop 版本。
我知道我的问题与 Merge Output files after reduce phase 类似,但我认为它可能有所不同,因为我仅在本地机器上使用 Spark 而不是分布式文件系统。
我在单个 VM 上安装了 Spark(用于测试)。输出在 Home/Spark_Hadoop/spark-1.1.1-bin-cdh4/.
中名为 'STjoin' 的文件夹中的多个文件(part-000000、part-000001 等)中给出命令 hadoop fs -getmerge /Spark_Hadoop/spark-1.1.1-bin-cdh4/STjoin /desired/local/output/file.txt
似乎不起作用 ("No such file or director")
这是因为此命令仅适用于存储在 HDFS 而不是本地的文件,还是我不了解一般的 linux 地址? (我是 linux 和 HDFS 的新手)
只需cat /path/to/source/dir/* > /path/to/output/file.txt
。 getmerge
是仅适用于 HDFS 文件的 Hadoop 版本。