猎鹰 vs. Wandisco 不间断

Falcon vs Wandisco Non-stop

用例是:我需要将我的所有数据从一个 HDFS 集群复制到另一个具有相同主从设置的集群,我将释放之前的集群并开始 运行 我在新集群。

我已阅读有关 Apache Falcon 和 Wandisco 不间断 Hadoop 的信息,它们有助于此镜像。但是我不确定当我将它们作为我的生态系统的一部分时它们提供的其他优势(哪个会更有优势? - 这将取决于我的用例,但我想知道是否有任何特别的优势)。能否提供 Falcon 与 Wandisco 的类比,具体取决于您对它们的体验?

(免责声明:我在 WANdisco 工作。)

我的看法是产品是互补的。 Falcon 除了数据传输之外还做了很多事情,比如设置数据工作流阶段。 WANdisco的产品做的是双活数据复制(也就是说源集群和目标集群的数据都可以等价使用)。

在您的用例中,如果您使用 Falcon,那么您实际上是在使用 DistCP 将数据复制到您的新集群。您可能会进行初始传输以获取大量数据,然后在某个时候您需要进行最终切换以获取所有增量,然后您可以让应用程序 运行 在新集群上运行。

如果您使用 WANdisco 的产品进行数据传输,您可以同时使用两个集群,因为复制引擎使用 Paxos 算法协调更改。这可能会使增量迁移更容易。

您会注意到连续主动-主动复制与 DistCP 之间的区别的其他场景是备份和灾难恢复以及摄取到多个数据中心。希望对您有所帮助。