将使用累加器的最短 Pig 脚本

Question

我正在向 Pig UDF 添加一个累加器实现，我想测试它。

使用累加器的最短最简单的 Pig 脚本是什么？

为简单起见，假设它将加载一个包含 N 个整数的文件，其中 N > pig.accumulative.batchsize 这样accumulate()方法就会被调用不止一次。

data = LOAD 'input' AS (val1:int);

output = ... (code which uses the UDF comes here)

STORE output INTO 'output';

Answer 1

看来这样就够了:

data = LOAD 'input' AS (val1:int);

output = FOREACH (group d all) GENERATE ACCUMULATIVE_UDF(val1);

STORE output INTO 'output';

Shortest Pig script that will use Accumulator