Falcon 在 Hadoop 生态系统中的作用

Falcon's role in Hadoop ecosystem

我应该在集群镜像上工作,我必须设置与现有集群相似的 HDFS 集群(相同的主从集群)并将数据复制到新集群,然后 运行 相同的作业原样。

我读过有关 falcon 的信息,它是一种馈送处理和工作流协调工具,它也用于 HDFS 集群的镜像。有人能告诉我 Falcon 在 Hadoop 生态系统中的作用是什么,它对镜像有何帮助?我在这里查看作为我的 Hadoop 生态系统 (HDP) 一部分的所有 facon 提供的功能。

  • Apache Falcon 通过以下方式简化了数据移动的配置:复制;生命周期管理;血统和可追溯性。这提供了跨 Hadoop 组件的数据治理一致性。
  • Falcon 复制与增量更改异步。恢复是通过 运行 一个进程并交换源和目标来完成的。
  • 数据丢失——如果主集群完全关闭,增量数据可能会丢失
  • 可以根据带宽和网络可用性在需要时安排备份。