将数据从一个 HDFS 目录连续复制到另一个目录
copy data from one HDFS directory to another continuously
我在 hdfs 中有一个目录,每 2 天填充一次文件。我想将此目录中的所有文件复制到另一个目录中,这样如果今天有新文件出现,我希望将该文件复制到重复的目录中。
我们如何在 Hdfs 中做到这一点。
我知道我们可以使用 rsync 在 linux 中做到这一点。 Hdfs也有这样的方法吗?
不,HDFS 没有可用的文件同步方法。您必须手动或通过任何调度程序 (cron
) 执行 hdfs dfs -cp
或 hadoop distcp
。
如果文件数量较多,优先选择distcp
hadoop distcp -update <src_dir> <dest_dir>
如果源和目标的大小、块大小或校验和不同,-update
标志将被覆盖。
我在 hdfs 中有一个目录,每 2 天填充一次文件。我想将此目录中的所有文件复制到另一个目录中,这样如果今天有新文件出现,我希望将该文件复制到重复的目录中。
我们如何在 Hdfs 中做到这一点。
我知道我们可以使用 rsync 在 linux 中做到这一点。 Hdfs也有这样的方法吗?
不,HDFS 没有可用的文件同步方法。您必须手动或通过任何调度程序 (cron
) 执行 hdfs dfs -cp
或 hadoop distcp
。
如果文件数量较多,优先选择distcp
hadoop distcp -update <src_dir> <dest_dir>
如果源和目标的大小、块大小或校验和不同,-update
标志将被覆盖。