如何通过保留修改时间将 HDFS 文件从一个集群复制到另一个集群

How to copy HDFS files from one cluster to another cluster by preserving the modification time

我必须将一些 HDFS 文件从我的生产集群移动到开发集群。在根据文件修改时间移动到开发集群后,我必须测试对 HDFS 文件的一些操作。需要不同日期的文件才能在开发中进行测试。

我试过用 DISTCP 做,修改时间是用当前时间更新的。我使用在这里找到的许多参数检查了 Distcp distcp version2 guide

有没有其他方法可以在不改变修改时间的情况下获取文件?或者我可以在将文件导入 hdfs 后手动更改修改时间吗?

提前致谢

hadoop distcp 命令中使用 -pt 标志。这将 p 保留 distcp 文件的 t 时间戳(修改时间)。

hadoop distcp -pt hdfs://src_cluster/file hdfs://dest_cluster/file

使用 Hadoop-2.7.3 测试

参考最新Distcp Guide