如何使用 sequence pig 脚本创建 CSV 文件?

How do I create a CSV file with sequence pig script?

我有一个 CSV 文件,其中有一列我要向其添加一系列数字,然后 link 带有连接的字段。

Column_A
-----------
claudio
carlo
pierluigi
giovanni

结果:

Column_A    |Column_B
---------------------
claudio     | 1
carlo       | 2
pierluigi   | 3
giovanni    | 4

或者,有没有一种方法可以合并两个文件的两列,这些文件具有要加入的字段?

文件 1:

Column_A
-------------
claudio
carlo
pierluigi
giovanni

文件 2:

Column_B
-------------
napoli
roma
milano
genova

结果:

Column_A   | Column_B
---------------------
claudio    | napoli
carlo      | roma
pierluigi  | milano
giovanni   | genova

方法有很多种,你可以用Apache Pig做你想做的事。

从 0.11 版本开始,您可以使用 RANK 运算符。

-- First load your csv file
A1 = LOAD '/path/to/file/file1.csv USING PigStorage(',') AS(name:CHARARRAY);
-- Then RANK
B1 = RANK A1;
-- Look at the results 
DUMP B;
-- First load your csv file
A2 = LOAD '/path/to/file/file2.csv USING PigStorage(',') AS(city:CHARARRAY);
B2 = RANK A2;
--- Then join by id (row number)
C = JOIN B1 BY [=10=], B2 BY [=10=];