Kubernetes 运行 Kafka 时如何管理页面缓存资源

How to manage page cache resources when running Kafka in Kubernetes

我已经运行 Kafka on Kubernetes 一段时间了，没有任何重大问题；然而，我最近引入了一个 Cassandra 集群 pods 并开始遇到 Kafka 的性能问题。

尽管 Cassandra 不像 Kafka 那样使用页面缓存，但它确实会频繁写入磁盘，这可能会影响内核的底层缓存。

我知道 Kubernetes pods 是通过 cgroups 管理内存资源的，这可以通过在 Kubernetes 中设置内存请求和限制来配置，但是我注意到 Cassandra 对页面缓存的利用可以增加我的 Kafka 中的页面错误 pods 即使它们似乎没有竞争资源（即，它们的节点上有可用内存）。

在 Kafka 中，更多的页面错误会导致更多的磁盘写入，这会阻碍顺序 IO 的优势并损害磁盘性能。如果您使用 AWS 的 EBS 卷之类的东西，这最终会耗尽您的突发余额并最终导致整个集群发生灾难性故障。

我的问题是，是否可以在 Kubernetes 中隔离页面缓存资源，或者以某种方式让内核知道我的 Kafka pods 拥有的页面在缓存中的保留时间应该比我的 Cassandra [=] 21=]?

我认为这是一个有趣的问题，因此发布了一些挖掘后的发现。

最佳猜测：k8s OOB 无法做到这一点，但有足够的工具可用，因此它可能成为研究和开发可以作为 DaemonSet 部署的调优和策略应用程序的富有成果的领域。

调查结果：

应用程序可以使用 fadvise() 系统调用向内核提供有关应用程序需要哪些文件支持页面以及哪些不需要并且可以回收的指导。

http://man7.org/linux/man-pages/man2/posix_fadvise.2.html

应用程序还可以使用 O_DIRECT 来尝试在执行 IO 时避免使用页面缓存：

https://lwn.net/Articles/457667/

有一些迹象表明 Cassandra 已经以一种尝试优化以减少其页面缓存占用空间的方式使用 fadvise：

http://grokbase.com/t/cassandra/commits/122qha309v/jira-created-cassandra-3948-sequentialwriter-doesnt-fsync-before-posix-fadvise

最近（2017 年 1 月）三星还对内核中的 Cassandra 和 fadvise 进行了一些研究，以更好地利用多流 SSD：