如何恢复 dataproc 集群中已删除的主节点?

How to recover deleted Master Node in dataproc cluster?

我的 dataproc 集群中的一个主节点被意外删除。有什么方法可以恢复该主节点,或者我可以启动一个新的主节点并将其添加到我的集群中吗?删除的原因仍然未知。

非常感谢任何帮助。

如果它已经被删除,我认为它无法恢复到您删除之前的状态。但是,您可以通过确保它不会得到 scheduled deleted.

来防止将来意外删除

在知道我没有太多选择后,我尝试了以下步骤并且成功了。

  1. 确定当前活跃的NameNode(hdfs haadmin -getServiceState nn0/nn1)
  2. 创建当前活动NameNode的AMI
  3. 从该 AMI 启动一个新实例,其名称与已删除的主节点完全相同。(这很重要,因为 hdfs-site.xml 中的所有 hdfs 属性都仅使用此主机名进行配置。因此请确保每个此实例的详细信息与丢失的实例完全相同。)

我们的 AMI 包含所有必需的配置和服务,因此当新实例启动时,dataproc 将自动识别节点并将其添加到集群中。