Service Fabric ImageStoreService 复制失败

Service Fabric ImageStoreService fails to replicate

我已经在三个 VM 上安装了 Service Fabric,每个 VM 在 Windows Server 2016 上有 5 个节点(每个节点都配置了单独的 NodeType 以避免端口冲突等)。这类似于 运行在开发机器上有 5 个节点的 OneBox Service Fabric。

安装期间一切正常,所有服务均正常启动。问题是 ImageStoreService 无法完成其复制周期,其中 3 个节点之一(下面的 beta2gamma4beta0)停留在 In Build 而不是完成。

服务本身报告:

Error event: SourceId='System.FM', Property='State'. Partition is below target replica or instance count. ImageStoreService 3 3 00000000-0000-0000-0000-000000003000 N/P RD beta2 Up 131372506454740092 N/S IB gamma4 Up 131372506515241065 N/S RD beta0 Up 131372506515241066 (Showing 3 out of 3 replicas. Total available replicas: 2.)

我已确保每个系统服务创建的共享文件夹可用并且在磁盘上有一个后备文件夹(有时卸载过程会创建孤立文件夹)。我已在所有三台服务器上禁用 Windows 防火墙以防止任何阻塞。我已经在所有三台机器上重新安装了 Windows Server 2016 并重新安装了 Service Fabric,问题依旧。

更新 根据对问题的评论,我创建了一个新配置并将其部署到 3 个虚拟机(和以前一样),但 运行 每个虚拟机只有 1 个节点。

服务再次正常启动,但 ImageStoreService 报告:

Unhealthy event: SourceId='System.FM', Property='State', HealthState='Warning', ConsiderWarningAsError=false. Partition reconfiguration is taking longer than expected. ImageStoreService 3 3 00000000-0000-0000-0000-000000003000 P/P RD gamma Up 131376836149092409 S/S IB alpha Up 131376836457801126 S/S IB beta Up 131376836457801127 (Showing 3 out of 3 replicas. Total available replicas: 1.)

随着时间的推移,这个 Warning 变成了 Error。似乎一旦 ImageStore 的复制必须跨越 VM,它就无法完成复制。

我的问题是以前是否有人遇到过这种情况?关于什么可能导致复制失败的任何建议?安装集群中与复制事件相关的错误信息存储在哪里?

一台机器应该是一个集群节点,而不是 5 个。更多信息 here

Each node in a standalone Service Fabric cluster has the Service Fabric runtime deployed and is a member of the cluster. In a typical production deployment, there is one node per OS instance (physical or virtual).