如何使用 hadoop 流在 hdfs 上的数据集中进行 grep

How to grep in dataset on hdfs using hadoop streaming

我在 hdfs 中有一个庞大的数据集,我想从中提取一些术语。 same 的 haddop streaming 命令是什么? (请看我不想使用 PIG)

你可以使用这个命令:-

hadoop jar {path_to_jar}/hadoop-streaming.jar -Dmapreduce.job.queuename=default -Dstream.non.zero.exit.is.failure=false -Dmapred.job.name="grepper" -Dmapred.reduce.tasks=1 -输入/tmp/{input_path} -输出/tmp/{output_path} -映射器'grep searchTerm'