连接猪中的多条记录

concatenate multi records in pig

我想使用 Pig 连接所有记录。 使用 "pigStorage" 和“-tagFile”标签加载数据后,我的数据如下所示:

(filename, aaaaaaaaaaa)
(filename, bbbbbbbbbbbbbb)

而我更喜欢的结果是:

(filename, aaaaaaaaaaabbbbbbbbbbbbbb)

然后我可以将数据存储到 HBase 中,文件名为 rowkey。

如有任何建议,我们将不胜感激。

按文件名对数据进行分组,然后使用 BagToString 将所有包连接成一个字符串。

B = GROUP A BY filename;
C = FOREACH B GENERATE group,BagToString(A.,'');
DUMP C;