针对级联内置函数的 Pig udf 效率

Pig udf efficiency against cascaded built in fucntions

我是 PIG 脚本的新手，我有一个要求，我需要在最多 10 个条件下执行 Ladder If Else，据我所知，我们只有三元运算符，所以我想写一个 UDF，而不是像下面这样级联三元运算符：- （条件：语句 1？（条件：语句 2？语句 3））

数据量在数千万行，我是否应该继续努力为我的要求创建一个 UDF？

最后，如果它导致性能问题，那么付出努力就没有意义了。

据我所知，将对所考虑的每一行调用 UDF，对百万条记录的递归调用是一项严重的开销。

我认为，如果您可以访问大型集群，那么 UDF 应该不是问题，它可以提高脚本的可读性。最后，您的脚本还编译为 java 可执行文件。如果您可以在昂贵的操作之前过滤数据，那么性能上的最大胜利。