在 Hadoop 1.0.3 中从 AWS EMR 上的 HDFS 清除数据

Question

出于各种原因，我运行使用 AMI 2.4.11/Hadoop 1.0.3 在 EMR 上完成一些工作。我正在尝试通过添加一个额外的 EMR 步骤来运行在我的工作之后清理 HDFS。使用博托：

    step = JarStep(
        'HDFS cleanup',
        'command-runner.jar',
        action_on_failure='CONTINUE',
        step_args=['hadoop', 'dfs', '-rmr', '-skipTrash', 'hdfs:/tmp'])
    emr_conn.add_jobflow_steps(cluster_id, [step])

然而，它经常失败，EMR 控制台中的 stderr 中没有任何内容。为什么我感到困惑是如果我 ssh 进入主节点和运行命令：

hadoop dfs -rmr -skipTrash hdfs:/tmp

它成功并返回 0 和一条消息，表明它已成功删除所有内容。所有正常的 hadoop 命令似乎都按照文档中的说明工作。有谁知道这是否有明显的原因？亚马逊分销有问题吗？某些命令中的未记录行为？

注意：我在 Hadoop 2 中还有其他工作运行ning 并且记录在案：

hdfs dfs -rm -r -skipTrash hdfs:/tmp

作为一个步骤和一个命令，就像人们期望的那样工作。

Answer 1

我的解决方案通常是将所有内容升级到 Hadoop2，在这种情况下可行：

        JarStep(
            '%s: HDFS cleanup' % self.job_name,
            'command-runner.jar',
            action_on_failure='CONTINUE',
            step_args=['hdfs', 'dfs', '-rm', '-r', '-skipTrash', path]
        )

这是我使用 Hadoop1 所能获得的最好结果，效果非常好。

        JarStep(
            '%s: HDFS cleanup' % self.job_name,
            'command-runner.jar',
            action_on_failure='CONTINUE',
            step_args=['hadoop', 'fs', '-rmr', '-skipTrash',
                       'hdfs:/tmp/mrjob']
        )

在 Hadoop 1.0.3 中从 AWS EMR 上的 HDFS 清除数据

Clear data from HDFS on AWS EMR in Hadoop 1.0.3

hadoop

amazon-web-services

hdfs

elastic-map-reduce