具有 HAR 文件输出的 MapReduce 作业
MapReduce job with HAR file output
我有多个小输入文件。对于 运行 具有多个输入文件的 map reduce 作业,这将是命令:
hadoop jar <jarname> <packagename.classname> <input_dir> <output>
但是,如果上面的
您在示例中执行的 MapReduce 作业无法将其输出直接写入 har 文件。相反,您可以 运行 hadoop archive
作为 MapReduce 作业之后的 post 处理步骤,将 MapReduce 作业输出打包到 har 文件中。
> hadoop jar */share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar wordcount /README.txt /wordcountout
> hdfs dfs -ls /wordcountout
Found 2 items
-rw-r--r-- 3 chris supergroup 0 2015-12-16 11:28 /wordcountout/_SUCCESS
-rw-r--r-- 3 chris supergroup 1306 2015-12-16 11:28 /wordcountout/part-r-00000
> hadoop archive -archiveName wordcountout.har -p /wordcountout /archiveout
> hdfs dfs -ls har:///archiveout/wordcountout.har
Found 2 items
-rw-r--r-- 3 chris supergroup 0 2015-12-16 12:17 har:///archiveout/wordcountout.har/_SUCCESS
-rw-r--r-- 3 chris supergroup 1306 2015-12-16 12:17 har:///archiveout/wordcountout.har/part-r-00000
如果只有 har 格式的数据就足以满足您的需要,您可以选择删除原始内容(在我的示例中为 /wordcountout
目录)。
有关 hadoop archive
命令的更多信息可在此处获得:
http://hadoop.apache.org/docs/r2.7.1/hadoop-archives/HadoopArchives.html
我有多个小输入文件。对于 运行 具有多个输入文件的 map reduce 作业,这将是命令:
hadoop jar <jarname> <packagename.classname> <input_dir> <output>
但是,如果上面的
您在示例中执行的 MapReduce 作业无法将其输出直接写入 har 文件。相反,您可以 运行 hadoop archive
作为 MapReduce 作业之后的 post 处理步骤,将 MapReduce 作业输出打包到 har 文件中。
> hadoop jar */share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar wordcount /README.txt /wordcountout
> hdfs dfs -ls /wordcountout
Found 2 items
-rw-r--r-- 3 chris supergroup 0 2015-12-16 11:28 /wordcountout/_SUCCESS
-rw-r--r-- 3 chris supergroup 1306 2015-12-16 11:28 /wordcountout/part-r-00000
> hadoop archive -archiveName wordcountout.har -p /wordcountout /archiveout
> hdfs dfs -ls har:///archiveout/wordcountout.har
Found 2 items
-rw-r--r-- 3 chris supergroup 0 2015-12-16 12:17 har:///archiveout/wordcountout.har/_SUCCESS
-rw-r--r-- 3 chris supergroup 1306 2015-12-16 12:17 har:///archiveout/wordcountout.har/part-r-00000
如果只有 har 格式的数据就足以满足您的需要,您可以选择删除原始内容(在我的示例中为 /wordcountout
目录)。
有关 hadoop archive
命令的更多信息可在此处获得:
http://hadoop.apache.org/docs/r2.7.1/hadoop-archives/HadoopArchives.html