如何使用 sequence pig 脚本创建 CSV 文件?
How do I create a CSV file with sequence pig script?
我有一个 CSV 文件,其中有一列我要向其添加一系列数字,然后 link 带有连接的字段。
Column_A
-----------
claudio
carlo
pierluigi
giovanni
结果:
Column_A |Column_B
---------------------
claudio | 1
carlo | 2
pierluigi | 3
giovanni | 4
或者,有没有一种方法可以合并两个文件的两列,这些文件具有要加入的字段?
文件 1:
Column_A
-------------
claudio
carlo
pierluigi
giovanni
文件 2:
Column_B
-------------
napoli
roma
milano
genova
结果:
Column_A | Column_B
---------------------
claudio | napoli
carlo | roma
pierluigi | milano
giovanni | genova
方法有很多种,你可以用Apache Pig做你想做的事。
从 0.11 版本开始,您可以使用 RANK 运算符。
-- First load your csv file
A1 = LOAD '/path/to/file/file1.csv USING PigStorage(',') AS(name:CHARARRAY);
-- Then RANK
B1 = RANK A1;
-- Look at the results
DUMP B;
-- First load your csv file
A2 = LOAD '/path/to/file/file2.csv USING PigStorage(',') AS(city:CHARARRAY);
B2 = RANK A2;
--- Then join by id (row number)
C = JOIN B1 BY [=10=], B2 BY [=10=];
我有一个 CSV 文件,其中有一列我要向其添加一系列数字,然后 link 带有连接的字段。
Column_A
-----------
claudio
carlo
pierluigi
giovanni
结果:
Column_A |Column_B
---------------------
claudio | 1
carlo | 2
pierluigi | 3
giovanni | 4
或者,有没有一种方法可以合并两个文件的两列,这些文件具有要加入的字段?
文件 1:
Column_A
-------------
claudio
carlo
pierluigi
giovanni
文件 2:
Column_B
-------------
napoli
roma
milano
genova
结果:
Column_A | Column_B
---------------------
claudio | napoli
carlo | roma
pierluigi | milano
giovanni | genova
方法有很多种,你可以用Apache Pig做你想做的事。
从 0.11 版本开始,您可以使用 RANK 运算符。
-- First load your csv file
A1 = LOAD '/path/to/file/file1.csv USING PigStorage(',') AS(name:CHARARRAY);
-- Then RANK
B1 = RANK A1;
-- Look at the results
DUMP B;
-- First load your csv file
A2 = LOAD '/path/to/file/file2.csv USING PigStorage(',') AS(city:CHARARRAY);
B2 = RANK A2;
--- Then join by id (row number)
C = JOIN B1 BY [=10=], B2 BY [=10=];