我应该将哪一个用于 hadoop 用户+系统时间或 hadoop 作业计数器中花费的总 cpu 时间的基准测试任务?
Which one should i use for benchmark tasks in hadoop user+sys time or total cpu time spent in hadoop job counter?
在 this 的回答中有一个陈述 "same job running over the same data but on one 20 node cluster, then a 200 node cluster.Overall, the same amount of CPU time will be used on both clusters" 有人可以解释一下吗?
我已经使用 time
命令来测量实时。有时我得到的 cpu 时间(hadoop 计数器)比实际实时多,或者反之 versa.I 知道实时测量实际时钟时间流逝,它可以大于或小于 user+sys
。
我仍然没有得到 hadoop 中的总 cpu 次测量值。
关于时间命令 this 写的答案最好与 user+sys 一起用于基准测试。
- As
total cpu time taken by process = user+sys
那么它应该与 hadoop 作业计数器的总 cpu 时间相同。但我得到了不同的结果。
- 如果我在 hadoop user+sys 或总 cpu 时间花费(hadoop 计数器)中做一些基准类型的任务,我应该考虑什么时间?
注意:
在 apache hive 基准测试中,他们考虑了实时性,但它也可能受到其他进程的影响。所以我不能考虑实时。
same job running over the same data but on one 20 node cluster, then a 200 node cluster.Overall, the same amount of CPU time will be used on both clusters
这意味着如果一个作业在 20 节点集群上需要 N
小时,而在 200 节点集群上需要 M
小时,那么 20 * N
应该等于 M * 200
实时应该是你的选择,但是正如你上面说的,这个值可能会随之改变,所以你至少应该尝试3次,然后计算平均值作为最终结果。
在 this 的回答中有一个陈述 "same job running over the same data but on one 20 node cluster, then a 200 node cluster.Overall, the same amount of CPU time will be used on both clusters" 有人可以解释一下吗?
我已经使用 time
命令来测量实时。有时我得到的 cpu 时间(hadoop 计数器)比实际实时多,或者反之 versa.I 知道实时测量实际时钟时间流逝,它可以大于或小于 user+sys
。
我仍然没有得到 hadoop 中的总 cpu 次测量值。 关于时间命令 this 写的答案最好与 user+sys 一起用于基准测试。
- As
total cpu time taken by process = user+sys
那么它应该与 hadoop 作业计数器的总 cpu 时间相同。但我得到了不同的结果。 - 如果我在 hadoop user+sys 或总 cpu 时间花费(hadoop 计数器)中做一些基准类型的任务,我应该考虑什么时间?
注意: 在 apache hive 基准测试中,他们考虑了实时性,但它也可能受到其他进程的影响。所以我不能考虑实时。
same job running over the same data but on one 20 node cluster, then a 200 node cluster.Overall, the same amount of CPU time will be used on both clusters
这意味着如果一个作业在 20 节点集群上需要 N
小时,而在 200 节点集群上需要 M
小时,那么 20 * N
应该等于 M * 200
实时应该是你的选择,但是正如你上面说的,这个值可能会随之改变,所以你至少应该尝试3次,然后计算平均值作为最终结果。