Apache PIG:PIG 脚本中不同运算符的处理时间
Apache PIG: Processing time taken by different operators in a PIG script
我有一个问题是关于计算 PIG 脚本中各种操作员所花费的时间。例如,我的脚本使用了以下运算符:
加载..
FOREACH..生成..
通过...分组...
FOREACH..生成..
加入...
联盟...
现在,当脚本是 运行 时,它 运行 是一系列 1 个或多个 MapReduce 作业。现在,如果我想调整我的脚本的性能,我想知道哪个操作员花费了很多时间。有没有办法让我检查每个操作员花了多长时间 运行?
谢谢。
您可能可以查看 Oreilly 的 'programming Pig' 以了解哪个函数适用于 reduce 阶段,哪个只需要 map 阶段。有不同类型的连接,您将了解每个连接需要多少个 MR 阶段。这将帮助您提高绩效。顺便说一句,你的日志也会给你一些提示。
Job Stats (time in seconds):
JobId Maps Reduces MaxMapTime MinMapTime AvgMapTime MedianMapTime MaxReduceTime MinReduceTime AvgReduceTime MedianReducetime Alias Feature Outputs
job_201510052259_0002 1 0 4 4 4 4 0 0 0 0 A,B **MAP_ONLY** hdfs://localhost:9000/tmp/temp585169456/tmp-938748827,
我有一个问题是关于计算 PIG 脚本中各种操作员所花费的时间。例如,我的脚本使用了以下运算符:
加载.. FOREACH..生成.. 通过...分组... FOREACH..生成.. 加入... 联盟...
现在,当脚本是 运行 时,它 运行 是一系列 1 个或多个 MapReduce 作业。现在,如果我想调整我的脚本的性能,我想知道哪个操作员花费了很多时间。有没有办法让我检查每个操作员花了多长时间 运行?
谢谢。
您可能可以查看 Oreilly 的 'programming Pig' 以了解哪个函数适用于 reduce 阶段,哪个只需要 map 阶段。有不同类型的连接,您将了解每个连接需要多少个 MR 阶段。这将帮助您提高绩效。顺便说一句,你的日志也会给你一些提示。
Job Stats (time in seconds):
JobId Maps Reduces MaxMapTime MinMapTime AvgMapTime MedianMapTime MaxReduceTime MinReduceTime AvgReduceTime MedianReducetime Alias Feature Outputs
job_201510052259_0002 1 0 4 4 4 4 0 0 0 0 A,B **MAP_ONLY** hdfs://localhost:9000/tmp/temp585169456/tmp-938748827,