如何使用 hadoop 流在 hdfs 上的数据集中进行 grep
How to grep in dataset on hdfs using hadoop streaming
我在 hdfs 中有一个庞大的数据集,我想从中提取一些术语。 same 的 haddop streaming 命令是什么?
(请看我不想使用 PIG)
你可以使用这个命令:-
hadoop jar {path_to_jar}/hadoop-streaming.jar -Dmapreduce.job.queuename=default -Dstream.non.zero.exit.is.failure=false -Dmapred.job.name="grepper" -Dmapred.reduce.tasks=1 -输入/tmp/{input_path} -输出/tmp/{output_path} -映射器'grep searchTerm'
我在 hdfs 中有一个庞大的数据集,我想从中提取一些术语。 same 的 haddop streaming 命令是什么? (请看我不想使用 PIG)
你可以使用这个命令:-
hadoop jar {path_to_jar}/hadoop-streaming.jar -Dmapreduce.job.queuename=default -Dstream.non.zero.exit.is.failure=false -Dmapred.job.name="grepper" -Dmapred.reduce.tasks=1 -输入/tmp/{input_path} -输出/tmp/{output_path} -映射器'grep searchTerm'