高度可扩展的分布式系统的应用程序/自定义性能计数器日志记录?

Application / Custom Performance Counter logging for highly scalable distributed system?

我正在构建一个具有高规模要求(每秒 > 100 万个请求)的系统。我正在使用 Azure 服务结构集群构建此应用程序。

我已经阅读并看过有关 ETW 日志记录的视频 - https://blogs.msdn.microsoft.com/vancem/2012/08/13/windows-high-speed-logging-etw-in-c-net-using-system-diagnostics-tracing-eventsource/

http://answers.flyppdevportal.com/MVC/Post/Thread/b0302547-7ffb-4ff2-aef6-6e15ebe695b3?category=azureservicefabric

https://docs.microsoft.com/en-us/azure/service-fabric/service-fabric-diagnostics-event-aggregation-wad

我仍然不确定登录系统的长期选择是什么。我的一些问题-

  1. ETW 速度很快,但它是否支持所有日志记录功能,即。记录性能计数器,日志级别即。调试、信息、警告、错误等
  2. 对于我的规模要求(每秒超过 100 万个请求)应用程序洞察力是否足够好?为什么我应该使用 ETW 日志记录应用洞察?
  3. 有哪些我可以从 ETW 日志记录中获得的应用程序洞察力无法获得的?
  4. 就应用程序的开销而言 thread/process ETW 是否明显优于应用程序洞察力或它们相似?

我觉得你是想拿苹果和橙子做比较,让我解释一下为什么。

AI

Application Insights (AI) 是一个接收器,这意味着您使用 SDK 记录一些东西,它会将它发送给 AI。 AI 会缓冲写入的事件,并使用 http 调用每隔一段时间(我相信默认是 30 秒)将它们发送到云端。

AI 永远不会用于大规模、大规模的日志记录。如果您查看定价,您会发现当大量数据传入时,您会付出高昂的代价。

ETW

ETW 并不是真正的接收器。您可以将任何内容记录到事件源,但只要没有附加侦听器,您的事件就不会发生。侦听器确定事件记录到何处。

对于大规模指标日志记录,团队扩展了 EventSource 以支持 EventCounters(参见 this doc

ETW 的好处是您可以在同一进程中附加一个侦听器,该进程也写入 EventSource,或者您可以在单独的进程(在同一台机器上)中创建一个侦听器,然后您可以配置您的日志记录位置应该去。这可能是稍后分析或处理的 ETL 文件,或者它可以转到像 Azure EventHub 这样的大规模数据摄取端点,然后从那里转到例如数据湖或 blob 存储以进行进一步分析。

问题

ETW is fast, but does it support all logging features viz. logging performance counters, log levels viz. Debug, Info, Warn, Error etc.

是的。您可以按严重级别和/或关键字启用日志记录。

For my scale requirements (>1million requests per sec) Is application insights good enough ? Why should I used ETW logging over App insights ?

如前所述,我认为 AI 在性能和价格方面不适合这种规模。虽然数据是在一个单独的线程中收集/缓冲的,但它并不是为处理这种负载而设计的。限制为每秒 32K 个事件 (source)

What can I not get from application insights that I can get from ETW logging ?

记录事件结束位置的性能和灵活性。

In terms of overhead on application thread/process is ETW significantly better than application insights or they are similar ?

不,它们不相似,ETW 的开销要低得多。它的支持在 OS 中得到支持,而且速度非常快。

您可以按照评论中的建议使用 EventFlow,它确实支持进程内和进程外的 EventSource 侦听器。

如果您最终使用其他日志记录框架,请选择一个像 ETW 一样支持 structured logging 的框架。

最后的想法

我认为你应该首先考虑你想要记录什么以及你想用它做什么。将异常和一些指标记录到 AI 是完全可以接受的,这样您就可以实时监控您的应用程序并将其他指标或使用详细信息记录到另一个存储(如 Azure 表)以进行非实时分析。不要把所有的钱都花在一个水槽上,而是先确定一个日志策略。

AI 的优势在于丰富的可视化,但这是有代价的。 Azure Data Lake 分析不支持开箱即用的可视化,但对 PB 级日志数据使用 u-sql 对其他场景很有用。我希望你明白我的意思。