连接猪中的多条记录
concatenate multi records in pig
我想使用 Pig 连接所有记录。
使用 "pigStorage" 和“-tagFile”标签加载数据后,我的数据如下所示:
(filename, aaaaaaaaaaa)
(filename, bbbbbbbbbbbbbb)
而我更喜欢的结果是:
(filename, aaaaaaaaaaabbbbbbbbbbbbbb)
然后我可以将数据存储到 HBase 中,文件名为 rowkey。
如有任何建议,我们将不胜感激。
按文件名对数据进行分组,然后使用 BagToString 将所有包连接成一个字符串。
B = GROUP A BY filename;
C = FOREACH B GENERATE group,BagToString(A.,'');
DUMP C;
我想使用 Pig 连接所有记录。 使用 "pigStorage" 和“-tagFile”标签加载数据后,我的数据如下所示:
(filename, aaaaaaaaaaa)
(filename, bbbbbbbbbbbbbb)
而我更喜欢的结果是:
(filename, aaaaaaaaaaabbbbbbbbbbbbbb)
然后我可以将数据存储到 HBase 中,文件名为 rowkey。
如有任何建议,我们将不胜感激。
按文件名对数据进行分组,然后使用 BagToString 将所有包连接成一个字符串。
B = GROUP A BY filename;
C = FOREACH B GENERATE group,BagToString(A.,'');
DUMP C;