如何获取 distcp 失败的文件并重播任务?

How can I get distcp failed files and replay the task?

我在两个相同版本的hdfs集群之间distcp了一个文件,当我执行失败时,我想找到失败的mapreduce任务和相关文件路径,然后重播。

实际复制 'retrying' already happens exactlymapred.map.max.attempts 次)。

如果您再次运行 distcp,它只会尝试复制尚未复制的文件。 (由先前的 distcp 在 re-execution 上成功复制的文件将被标记为“已跳过”。)

如果您想要无法复制的文件的日志,您可以指定“-i”和-log <logdir>。这将忽略失败,但会写出更完整的失败日志以及失败原因。