服务结构中的参与者事件有哪些限制?

What are the limits on actorevents in service fabric?

我目前正在测试我的应用程序的扩展,我 运行 变成了我没想到的东西。

该应用程序 运行 在一个 5 节点集群上,它有多个 services/actortypes 并且正在使用共享进程模型。 对于某些组件,它使用 actor 事件作为尽力而为的 pubsub 系统(有适当的回退,因此如果通知被删除,则没有问题)。 当参与者数量增加时(又名订阅主题),问题就出现了。 actorservice 目前被划分为 100 个分区。 此时的主题数量约为 160.000,其中每个主题被订阅 1-5 次(需要它的节点),平均有 2.5 个订阅(大约 400k 个订阅)。

此时集群中的通信开始中断,未创建新订阅,取消订阅超时。 但它也影响其他服务,对诊断服务的内部调用超时(询问 5 个副本中的每一个),这可能是由于 partitions/replica 端点的解析,因为对网页的外部调用很好(这些端点使用相同的 technology/codestack).

事件查看器充满警告和错误,例如:

EventName: ReplicatorFaulted Category: Health EventInstanceId {c4b35124-4997-4de2-9e58-2359665f2fe7} PartitionId {a8b49c25-8a5f-442e-8284-9ebccc7be746} ReplicaId 132580461505725813 FaultType: Transient, Reason: Cancelling update epoch on secondary while waiting for dispatch queues to drain will result in an invalid state, ErrorCode: -2147017731
10.3.0.9:20034-10.3.0.13:62297 send failed at state Connected: 0x80072745
Error While Receiving Connect Reply : CannotConnect , Message : 4ba737e2-4733-4af9-82ab-73f2afd2793b:382722511 from Service 15a5fb45-3ed0-4aba-a54f-212587823cde-132580461224314284-8c2b070b-dbb7-4b78-9698-96e4f7fdcbfc

我已经尝试扩展应用程序,但没有激活此订阅模型,我很容易达到两倍大的工作量而没有任何问题。

所以有几个问题

在处理支持票后,我们找到了一些信息。因此,我将 post 我的发现放在这里,以防对某人有所帮助。

演员事件使用重新订阅模型来确保他们仍然连接到演员。默认每 20 秒执行一次。这意味着大量资源被使用,最终整个系统因等待重新订阅的空闲线程负载而超载。 您可以通过在订阅时将 resubscriptionInterval 设置为更高的值来减少负载。缺点是这也意味着客户端可能同时错过事件(如果分区被移动)。

为了抵消重新订阅的延迟,可以挂钩到较低级别的服务结构事件。在支持电话中向我提供了以下伪代码。

  1. 注册参与者服务的端点更改通知
           fabricClient.ServiceManager.ServiceNotificationFilterMatched += (o, e) =>
            {
                var notification = ((FabricClient.ServiceManagementClient.ServiceNotificationEventArgs)e).Notification;
                /*
                 * Add additional logic for optimizations
                 * - check if the endpoint is not empty
                 * - If multiple listeners are registered, check if the endpoint change notification is for the desired endpoint
                 * Please note, all the endpoints are sent in the notification. User code should have the logic to cache the endpoint seen during susbcription call and compare with the newer one
                 */
                List<long> keys;
                if (resubscriptions.TryGetValue(notification.PartitionId, out keys))
                {
                    foreach (var key in keys)
                    {
                        // 1. Unsubscribe the previous subscription by calling ActorProxy.UnsubscribeAsync()
                        // 2. Resubscribe by calling ActorProxy.SubscribeAsync()
                    }
                }
            };

            await fabricClient.ServiceManager.RegisterServiceNotificationFilterAsync(new ServiceNotificationFilterDescription(new Uri("<service name>"), true, true));
  1. 将重新订阅间隔更改为适合您需要的值。 缓存分区 id 到 actor id 的映射。当副本的主要端点发生变化时,此缓存将用于重新订阅(参考#1)
              await actor.SubscribeAsync(handler, TimeSpan.FromHours(2) /*Tune the value according to the need*/);
              ResolvedServicePartition rsp;
              ((ActorProxy)actor).ActorServicePartitionClientV2.TryGetLastResolvedServicePartition(out rsp);
              var keys = resubscriptions.GetOrAdd(rsp.Info.Id, key => new List<long>());
       keys.Add(communicationId);

以上方法确保了以下

  • 定期重新订阅订阅
  • 如果主要端点在两者之间发生变化,actorproxy 会重新订阅服务通知回调

这将结束支持呼叫的伪代码。

回答我原来的问题:

  • 演员事件有限制known/advised吗? 没有硬性限制,只有资源使用。
  • 增加分区数 or/and 节点数对这里有帮助吗? 分区数没有。节点数也许,只有当这意味着节点上的订阅实体因此而减少时。
  • 通讯干扰合乎逻辑吗?为什么其他服务端点也有问题? 是的,资源争用是原因。