使用 HBase 作为数据接收器的 Hadoop 流式传输
Hadoop streaming with HBase as data sink
我们的研究小组设置了 Hadoop 和 HBase,并且 运行。
最近在用Hadoop streaming(只有mappers)处理数据,想用HBase做data sink。我觉得我可以将-outputformat设置为TableOutFormat。但是在网上搜索了一段时间后,我发现具体的操作要花很多时间才能弄清楚。
下面是我的试用版:
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \
-input myInputDirs \
-outputformat HBaseLibDir/TableOutFormat \
-mapper myMapperScript \
-numReduceTasks 0
有没有哪位有经验的教教我怎么做?包括在 myMapperScript 中更改的内容,以及传入的用于初始化流作业的参数。
来自 HBase 邮件列表的回答:
Cannot do Hadoop streaming output (directly) to HBase. Use REST/Thrift
API instead.
我们的研究小组设置了 Hadoop 和 HBase,并且 运行。
最近在用Hadoop streaming(只有mappers)处理数据,想用HBase做data sink。我觉得我可以将-outputformat设置为TableOutFormat。但是在网上搜索了一段时间后,我发现具体的操作要花很多时间才能弄清楚。
下面是我的试用版:
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \
-input myInputDirs \
-outputformat HBaseLibDir/TableOutFormat \
-mapper myMapperScript \
-numReduceTasks 0
有没有哪位有经验的教教我怎么做?包括在 myMapperScript 中更改的内容,以及传入的用于初始化流作业的参数。
来自 HBase 邮件列表的回答:
Cannot do Hadoop streaming output (directly) to HBase. Use REST/Thrift API instead.