Databricks 集群终止。原因:云提供商启动失败

Databricks Cluster terminated. Reason: Cloud Provider Launch Failure

我将 Azure Databricks 与使用 vnet 注入的自定义配置一起使用,但我无法在我的工作区中启动集群。 给出的错误消息 未在 Microsoft 或 databricks 文档中的任何地方记录 意味着我无法诊断我的集群未启动的原因。我重现了以下错误消息:

Instance ID: [redacted]

Azure error message: 
Instance bootstrap failed.
Failure message: Cloud Provider Failure. Azure VM Extension stuck on transitioning state. Please try again later.
VM extension code: ProvisioningState/transitioning
instanceId: InstanceId([redacted])
workerEnv: workerenv-6662162805421143
Additional details (may be truncated): Enable in progress

尽管它说“请稍后再试”,但我一整天都在尝试此操作并收到相同的消息,这让我认为此错误消息不是描述性的,并且确实发生了其他事情。

有人知道问题出在哪里吗?

这似乎是从数据块实例到中央数据块服务器的连接问题。我们的 vnet 注入设置似乎不足以将请求路由到正确的位置。 最终,通过将数据块实例更改为使用 vnet 对等互连(具有其自己的自定义 vnet)而不是 vnet 注入,问题得以解决。通过这种方式,databricks 实例能够与我们在另一个 vnet 中的资源进行通信,同时仍然能够启动集群。

这满足了我们的项目要求,但在某些情况下可能无法满足项目要求。希望 Azure Databricks 团队至少记录这个问题,以减少将来的混乱。

我也尝试创建 custom user defined routes for databricks 但这并没有解决问题。

Cloud Provider Failure. Azure VM Extension stuck on transitioning state. Please try again later.

这是一个云提供商问题 (Azure)。在 Azure 上,Databricks 使用 Azure VM 扩展服务来执行 bootstrap 个步骤。此错误表示 Azure 扩展服务无法完成扩展并将结果发回给我们。

这是一个 well-known Azure 扩展问题。但它是短暂的。重试启动集群将解决问题。