无法在门户中部署 Service Fabric 集群

Cannot Deploy Service Fabric Cluster in Portal

我已经尝试了几次,使用几个不同的帐户进行了多次订阅,并且在尝试通过 Azure 门户部署新的服务结构集群时,我一直 运行 遇到同样的问题。我在安全和不安全的集群(以确保我的证书设置不会受到指责)以及 5 节点集群和单节点测试集群上进行了尝试。在所有情况下,错误都完全相同。

在第 4 步,在所有情况下,门户都指示门户生成的 ARM 模板有效,并允许我开始部署过程。大约 10 分钟后,我第 20 次在仪表板上看到可怕的 部署失败 图标!

单击图标会将我带到错误日志,其中表明 "Write Deployments"

存在问题

我还看到已生成所有必要的资源类型(存储帐户、VM ScaleSets 等)

然而,查看 VM 规模集时,我看到另一个(更具描述性的)问题,指出代码 "ProvisioningState/failed/InternalDiskManagementError" 存在配置错误,并且内部磁盘出现管理错误。

我完全不知所措。我没有做任何定制,这一切都在 Azure 门户上,正如我提到的,我尝试了没有安全或日志记录的简单测试集群以及启用了安全和日志记录的 5 节点集群。在所有情况下,我都会得到完全相同的错误。这是在 3 个不同的 Azure 帐户上。

我可能会尝试的唯一另一件事是不同的区域(我只针对美国西部 2)以及 VM 大小的一些变体(针对成本针对 A0)。

还有其他人 运行 遇到过类似的问题吗?我之前(几个月前)已经能够部署集群,但从那时起我就一直被这个错误阻止!

更新 1

我尝试使用 A1_V2 VM 大小在美国西部 2 进行部署,但我再次遇到写入部署失败,但这次在 VM 规模集上出现不同的错误:

ProvisioningState/failed/VMExtensionHandlerNonTransientError

处理程序 'Microsoft.Azure.Diagnostics.IaaSDiagnostics' 已报告 VM 扩展 'VMDiagnosticsVmExt_vmNodeType0Name' 失败,终端错误代码为“1007”,错误消息为:'Install failed for plugin (name: Microsoft.Azure.Diagnostics.IaaSDiagnostics, version 1.10.0.0) with exception Command C:\Packages\Plugins\Microsoft.Azure.Diagnostics.IaaSDiagnostics.10.0.0\DiagnosticsInstall.cmd of Microsoft.Azure.Diagnostics.IaaSDiagnostics has not exited on time! Killing it...'

更新 2

我使用 D 大小的 VM 在美国中部进行了部署,并且部署得很好。此时,似乎区域或 VM 大小是导致问题的原因。将使用不同的 VM 大小和区域进行更多部署,并将继续在此处更新我的发现...

更新 3

能够在美国西部 2 创建单个节点 Standard_D1_v2 集群。

更新 4

能够在美国西部 2 创建一个 3 节点 Standard_A2_v2 集群。

地区不是问题.....

更新 5

在美国西部 2 部署 A1_V2 VM 的第二次尝试导致与上次使用此 VM 大小时相同的错误:

ProvisioningState/failed/VMExtensionHandlerNonTransientError

最终更新

问题似乎是我使用的虚拟机动力不足。

我希望 Microsoft 更新他们的门户,这样下一位开发人员就不会 运行 遇到与我相同的问题。现在,该门户让您认为您的设置是有效的(甚至通过了第 4 步中的验证),然后毫无意义地失败了。我打开了一张支持票,甚至 Azure 技术人员都给我 运行 并让我检查我的资源提供程序设置!他们不知道我使用的 VM 大小不足!

我还认为对于开发人员来说,仅仅为了在云上部署一些测试节点而不得不支付如此多的费用太昂贵了。而且我仍然感到困惑,我能够在 运行ning 上建立一个 5 节点 A0 集群,但现在不能了!也许从那以后就有了 Service Fabric 软件更新?

  • 推荐的 VM SKU 是标准 D3 或标准 D3_V2 或具有至少 14 GB 本地 SSD 的同等产品。
  • 支持的最低使用 VM SKU 是标准 D1 或标准 D1_V2 或具有至少 14 GB 本地 SSD 的同等产品。
  • 生产工作负载不支持标准 A0 等部分核心 VM SKU。
  • 出于性能原因,生产工作负载不支持标准 A1 SKU。

Source

这些错误通常是由于使用了不受支持的 VM 大小引起的。作为测试 集群的解决方法 ,您可以先使用类似 D3_V2 的方式进行部署,并在成功部署后缩小规模。