收集 CPU 使用数据以进行性能分析的程序

Program to collect CPU usage data for performance analysis

我用 Go 编写了一个复杂的程序(它使用了许多并发结构)。 我想对我程序的 CPU 用法 做一个准确的分析,但我不知道从哪里开始。 特别是,我想获得有关以下方面的有用信息:

我在 Linux Ubuntu 18.04.1 LTS 工作。 我应该怎么做才能获得这些信息?是否有任何程序(可能特定于 Golang)允许获取此信息?

好吧,这是一个复杂的话题,所以不可能有一个明确的答案。

实际上,您接近的内容在生产设置中称为 "collection of metrics" 或 "telemetry"。

在大多数情况下,度量标准的收集使用采样方法:即收集感兴趣的系统状态的快照并将其发送到某处。 "Somewhere" 通常是一些允许在某处保留指标值的系统,并且通常还提供各种分析它们的方法。

在最简单的情况下,分析是通过以某种 UI 的形式查看从收集的数据中绘制的图表来完成的。更复杂的情况包括当某些指标的值高于(或低于)某个阈值时发出警报。

单个指标是一些特定类型的命名值。


可以从不同的数据源生成指标。 使用 Go 运行 编写的程序的合理常见设置的典型来源包括:

  • 围棋运行时间本身。

    这包括 goroutine 的数量和垃圾收集统计数据——无法在 运行ning 之外获得的测量值 出于显而易见的原因去编程。

  • OS 提供的有关执行程序的 运行ning 进程的测量值。

    这包括在内核的用户和系统上下文中花费的 CPU 时间、内存消耗(如 OS 所见)、打开的文件(和套接字)的数量描述符、CPU 上下文切换次数、磁盘 I/O 统计信息等。

  • 容器化软件 运行 包含程序的容器提供的度量。

    在 Linux 这通常由 cgroup 子系统提供,该子系统主要负责控制对进程层次结构施加的资源限制。


如何从这些数据源中准确地转换数据是一个悬而未决的问题(这就是它不适合 SO 格式的原因)。

例如,要收集 Go 运行时间统计数据,您可以使用 expvar 机制——正如@Adrian 所建议的——并定期轮询它提供的 HTTP 端点以获取数据。

或者您可以 运行 程序中的内部 goroutine 定期从 运行 时间获取这些数据并将其推送到某个地方。

OS 级流程相关数据的抽样同样可以通过不同的方式完成。比如说,您可以使用 github.com/shirou/gopsutil/process 之类的方法从您的程序中收集它们,并将它们与从 运行 时间统计中收集的指标一起推送,或者您可以使用无数工具中的一种或多种来收集这些数据外部数据。

(据我所知,收集 OS 级性能数据的技术含量最低但可访问的方法是使用 pidstatiotopatop 等工具, cpustat 等).


保存和分析收集到的数据的问题再次开放。

首先,它可能就像将所有内容转储到一个结构化文件中一样简单——可能在每条记录上都有一个时间戳——然后用你喜欢的任何东西来处理它——例如,pyplot 或 RRD-工具或 R 或​​……随便什么。

或者你可以从一开始就拿起一把大枪,然后将你的指标发送到 graphite 或 graphana 或 zabbix 或 icinga 或任何当前处于其臀部曲线顶部的任何东西。