备份 Hadoop 以安装新集群,最佳实践

Backup Hadoop in order to install new cluster, best practice

我正在构建一个新的Hadoop集群(扩展节点数量和扩展当前节点的容量)并且需要备份所有现有数据。现在我只是 tar-ing 一切并将其发送到另一台服务器。

是否有更智能的方法可以让我在设置新集群后轻松部署?

编辑:我还应该指出,我没有在集群上存储任何数据。我把数据带到集群中,处理它,然后将处理后的数据发送回原来的服务器。集群上的任何临时数据都被删除。

使用Distcp将HDFS数据传输到其他集群或任何云以存储数据。 如果您想安排备份过程,您可以使用 OOZIE-DISTCP 进行备份过程!