在展平的字符数组数据上使用字符串函数

Question

Objective：在扁平化的字符数组数据上使用字符串函数

输入：test.txt

file_id     file_name       created_time            accesssed_by
   1          a1                1                       user1
   1          a2                2                       user1
   2          b1                3                       user1
   3          c1                4                       user1

猪脚本:

  A = LOAD 'usertest.txt' USING PigStorage('\t') AS (file_id:long, file_name:chararray, created_time:long,accessed_by:chararray);
  B = GROUP A BY file_id;
  C = FOREACH B {
   sorted = ORDER A BY created_time DESC;
   user = A.accessed_by;
   uniq_user = DISTINCT user;
   last = LIMIT sorted 1;
   GENERATE UPPER(FLATTEN(last.file_name)) AS file_name, COUNT(uniq_user) AS access_count;
};

尝试在展平的 chararray 数据类型之上使用任何字符串操作函数会导致以下错误。

ERROR org.apache.pig.tools.grunt.Grunt - ERROR 1200: <line 185, column 22>  mismatched input 'FLATTEN' expecting RIGHT_PAREN

如果不使用 FLATTEN 之上的字符串操作函数，将产生所需的数据。

(a2,1)
(b1,1)
(c1,1)

Objective 是使用一些字符串操作函数将 file_name 转换为所需的格式，然后再持久化，而无需再次迭代数据。

再进行一次迭代，如下所示，我们能够实现我们的 objective，我们可以避免这种情况并早点做同样的事情吗？

 D = FOREACH C GENERATE UPPER(file_name) AS file_name, access_count;

输出：

 (A2,1)
 (B1,1)
 (C1,1)

更新：

基于@Balduz 使用 BagToString eval 函数将包输入转换为字符串，并能够实现我们的 objective。

   C = FOREACH B {
       sorted = ORDER A BY created_time DESC;
       user = A.accessed_by;
       uniq_user = DISTINCT user;
       last = LIMIT sorted 1;
       GENERATE UPPER(BagToString(last.file_name)) AS file_name,    COUNT(uniq_user) AS access_count;
       };

Answer 1

UPPER 函数接受一个字符串，但由于 file_name 包含一个包，当您将其展平时，您会将一个字符串列表传递给该函数，因此会出现错误。如果您真的想避免额外的 foreach，您将需要编写一个与 UPPER 完全相同的自定义 UDF，但将一个包作为输入。然后，您需要做同样的事情，但先调用 UPPER 然后再展平：

GENERATE FLATTEN(MyUpperForBags(last.file_name));

在展平的字符数组数据上使用字符串函数

Using String functions on flattened chararray data

string

function

flatten

apache-pig

uppercase