Apache PIG:PIG 脚本中不同运算符的处理时间

Apache PIG: Processing time taken by different operators in a PIG script

我有一个问题是关于计算 PIG 脚本中各种操作员所花费的时间。例如,我的脚本使用了以下运算符:

加载.. FOREACH..生成.. 通过...分组... FOREACH..生成.. 加入... 联盟...

现在,当脚本是 运行 时,它 运行 是一系列 1 个或多个 MapReduce 作业。现在,如果我想调整我的脚本的性能,我想知道哪个操作员花费了很多时间。有没有办法让我检查每个操作员花了多长时间 运行?

谢谢。

您可能可以查看 Oreilly 的 'programming Pig' 以了解哪个函数适用于 reduce 阶段,哪个只需要 map 阶段。有不同类型的连接,您将了解每个连接需要多少个 MR 阶段。这将帮助您提高绩效。顺便说一句,你的日志也会给你一些提示。

Job Stats (time in seconds):
JobId   Maps    Reduces MaxMapTime  MinMapTime  AvgMapTime  MedianMapTime   MaxReduceTime   MinReduceTime   AvgReduceTime   MedianReducetime    Alias   Feature Outputs
job_201510052259_0002   1   0   4   4   4   4   0   0   0   0   A,B **MAP_ONLY**    hdfs://localhost:9000/tmp/temp585169456/tmp-938748827,