Kubernetes 运行 Kafka 时如何管理页面缓存资源

How to manage page cache resources when running Kafka in Kubernetes

我已经 运行 Kafka on Kubernetes 一段时间了,没有任何重大问题;然而,我最近引入了一个 Cassandra 集群 pods 并开始遇到 Kafka 的性能问题。

尽管 Cassandra 不像 Kafka 那样使用页面缓存,但它确实会频繁写入磁盘,这可能会影响内核的底层缓存。

我知道 Kubernetes pods 是通过 cgroups 管理内存资源的,这可以通过在 Kubernetes 中设置内存请求和限制来配置,但是我注意到 Cassandra 对页面缓存的利用可以增加我的 Kafka 中的页面错误 pods 即使它们似乎没有竞争资源(即,它们的节点上有可用内存)。

在 Kafka 中,更多的页面错误会导致更多的磁盘写入,这会阻碍顺序 IO 的优势并损害磁盘性能。如果您使用 AWS 的 EBS 卷之类的东西,这最终会耗尽您的突发余额并最终导致整个集群发生灾难性故障。

我的问题是,是否可以在 Kubernetes 中隔离页面缓存资源,或者以某种方式让内核知道我的 Kafka pods 拥有的页面在缓存中的保留时间应该比我的 Cassandra [=] 21=]?

我认为这是一个有趣的问题,因此发布了一些挖掘后的发现。

最佳猜测:k8s OOB 无法做到这一点,但有足够的工具可用,因此它可能成为研究和开发可以作为 DaemonSet 部署的调优和策略应用程序的富有成果的领域。

调查结果:

应用程序可以使用 fadvise() 系统调用向内核提供有关应用程序需要哪些文件支持页面以及哪些不需要并且可以回收的指导。

http://man7.org/linux/man-pages/man2/posix_fadvise.2.html

应用程序还可以使用 O_DIRECT 来尝试在执行 IO 时避免使用页面缓存:

https://lwn.net/Articles/457667/

有一些迹象表明 Cassandra 已经以一种尝试优化以减少其页面缓存占用空间的方式使用 fadvise:

http://grokbase.com/t/cassandra/commits/122qha309v/jira-created-cassandra-3948-sequentialwriter-doesnt-fsync-before-posix-fadvise

最近(2017 年 1 月)三星还对内核中的 Cassandra 和 fadvise 进行了一些研究,以更好地利用多流 SSD:

http://www.samsung.com/us/labs/pdfs/collateral/Multi-stream_Cassandra_Whitepaper_Final.pdf

Kafka 可以感知页面缓存架构,但它似乎并不直接使用 fadvise。内核提供的旋钮足以在专用主机上调优 Kafka:

  • vm.dirty* 有关何时将写入的(脏)页面返回到磁盘的指导
  • vm.vfs_cache_pressure 有关将 RAM 用于页面缓存的积极程度的指导

内核中对特定于设备的写回线程的支持可以追溯到 2.6 天:

https://www.thomas-krenn.com/en/wiki/Linux_Page_Cache_Basics

Cgroups v1 和 v2 专注于基于 pid 的 IO 节流,而不是基于文件的缓存调整:

https://andrestc.com/post/cgroups-io/

也就是说,旧的 linux-ftools 实用程序集有一个简单的命令行旋钮示例,用于对特定文件使用 fadvise:

https://github.com/david415/linux-ftools

所以这里已经足够了。给定特定的 kafka 和 cassandra 工作负载(例如,读取繁重与写入繁重)、特定优先级(kafka 优于 cassandra 或相反)和特定 IO 配置(专用设备与共享设备),可能会出现一种特定的调优模型,这些模型可能概括为政策模型。