Azure 和 HDInsight 中的持久性和瞬态 EMR 等效集群

Persistent and transient EMR equivalent clusters in azure and HDInsight

我想知道我在 Azure 上创建的 HDInsight 群集是否完全可靠。例如,我不想在一段时间后看到其中一个节点被清除或删除并且我丢失了数据。

我知道我们在 EMR 上会有两种类型的集群,如瞬态集群和持久集群,但我仍然怀疑即使是持久集群也可能在某些时候丢失节点数据。

Azure HDInsight 也会发生这种情况吗?想请教有这方面经验的大佬们的意见?

谢谢

Azure HDInsight clusters are similar to Persistent clusters in EMR.

On-demand HDInsight Hadoop clusters are similar to transient clusters in EMR.

AWS 与 Azure 服务比较:

Azure HDInsight 遵循计算和存储的严格分离——因此建议将数据存储在 Azure 存储 blob 和 Azure Data Lake Store 中,或两者的组合中。两者都提供了一个兼容 HDFS 的文件系统,即使集群被删除也能持久保存数据。

这种方法的好处是:

  • 即使您删除了 HDInsight 群集,数据仍然存在。 这意味着它也可以在没有任何数据传输工作的情况下使用 您是否应该部署一个新的集群来执行额外的处理。
  • 存储数据的成本主要由数据量驱动 存储和传输的数据,这可能比 运行 个集群的成本。
  • 数据可供多个集群使用。

详情请参考Azure Storage overview in HDInsight and Use Azure storage with Azure HDInsight clusters