针对级联内置函数的 Pig udf 效率
Pig udf efficiency against cascaded built in fucntions
我是 PIG 脚本的新手,我有一个要求,我需要在最多 10 个条件下执行 Ladder If Else,
据我所知,我们只有三元运算符,所以我想写一个 UDF,而不是像下面这样级联三元运算符:-
(条件:语句 1?(条件:语句 2?语句 3))
数据量在数千万行,我是否应该继续努力为我的要求创建一个 UDF?
最后,如果它导致性能问题,那么付出努力就没有意义了。
据我所知,将对所考虑的每一行调用 UDF,对百万条记录的递归调用是一项严重的开销。
我认为,如果您可以访问大型集群,那么 UDF 应该不是问题,它可以提高脚本的可读性。
最后,您的脚本还编译为 java 可执行文件。
如果您可以在昂贵的操作之前过滤数据,那么性能上的最大胜利。
我是 PIG 脚本的新手,我有一个要求,我需要在最多 10 个条件下执行 Ladder If Else, 据我所知,我们只有三元运算符,所以我想写一个 UDF,而不是像下面这样级联三元运算符:- (条件:语句 1?(条件:语句 2?语句 3))
数据量在数千万行,我是否应该继续努力为我的要求创建一个 UDF?
最后,如果它导致性能问题,那么付出努力就没有意义了。
据我所知,将对所考虑的每一行调用 UDF,对百万条记录的递归调用是一项严重的开销。
我认为,如果您可以访问大型集群,那么 UDF 应该不是问题,它可以提高脚本的可读性。 最后,您的脚本还编译为 java 可执行文件。 如果您可以在昂贵的操作之前过滤数据,那么性能上的最大胜利。