端点尽管重量较轻并最终被禁用,但仍获得流量

endpoint getting traffic inspite of being less weight an finally being disabled

北美地区的四个 Azure 云服务部署之一出现问题。 所有四个部署都托管在流量管理器后面。

有问题的

deployment/endpoint 也比其他 endpoints/deployment 获得更多流量。对流量管理器进行了以下更改

  1. 所以我们首先将它的权重减少到 10,而其他 3 个的权重为 25。尽管如此,故障端点的流量比其他端点多,尽管流量减少了一点
  2. 然后我们将它的权重降低到 1,而另一个的权重为 25,尽管流量再次降低,但它仍然获得了更多的流量
  3. 最终我们在流量管理器中禁用了故障端点,但它仍然在接下来的 6 个多小时内继续获取流量

有时,客户端的本地缓存名称服务器总是在特定时间查询固定端点,因为本地有 DNS 缓存。您可以 运行 ipconfig/flushdns 在 CMD 中以管理员帐户清除缓存。然后验证故障端点是否继续。

您还可以将 DNS 生存时间 (TTL) 更改为最能满足您需求的值。较短的值会导致更快的缓存过期,从而增加到流量管理器名称服务器的往返次数。更长的值意味着将流量从故障端点引导出去可能需要更长的时间。参考How Traffic Manager Works.

此外,流量管理器不直接从客户端接收 DNS 查询。相反,DNS 查询来自客户端配置使用的递归 DNS 服务。对于收到的每个 DNS 查询,流量管理器随机选择一个 ONLINE 终结点。

It is important to understand that DNS responses are cached by clients and by the recursive DNS servers that the clients use to resolve DNS names. This caching can have an impact on weighted traffic distributions. When the number of clients and recursive DNS servers is large, traffic distribution works as expected. However, when the number of clients or recursive DNS servers is small, caching can significantly skew the traffic distribution.

参考:Weighted traffic-routing method

更新

另一件事可能是 TM 健康探测时间。到达终结点的流量管理器运行状况检查的数量取决于监视间隔和运行状况检查发起的位置数。但这通常发生在很短的时间内,将近几秒钟。

Cloud Service 'staging' slots can be configured in Traffic Manager as External endpoints. Because the External endpoint type is in use, changes to the underlying service are not picked up automatically. With external endpoints, Traffic Manager cannot detect when the Cloud Service is stopped or deleted.

您可以通过 FAQs 了解更多详情。