使用 HBase 作为数据接收器的 Hadoop 流式传输

Hadoop streaming with HBase as data sink

我们的研究小组设置了 Hadoop 和 HBase,并且 运行。

最近在用Hadoop streaming(只有mappers)处理数据,想用HBase做data sink。我觉得我可以将-outputformat设置为TableOutFormat。但是在网上搜索了一段时间后,我发现具体的操作要花很多时间才能弄清楚。

下面是我的试用版:

$HADOOP_HOME/bin/hadoop  jar $HADOOP_HOME/hadoop-streaming.jar \
    -input myInputDirs \
    -outputformat HBaseLibDir/TableOutFormat \
    -mapper myMapperScript \
    -numReduceTasks 0

有没有哪位有经验的教教我怎么做?包括在 myMapperScript 中更改的内容,以及传入的用于初始化流作业的参数。

来自 HBase 邮件列表的回答:

Cannot do Hadoop streaming output (directly) to HBase. Use REST/Thrift API instead.