如何管理 librdkafka 消费者的线程和内存？

How to manage threads and memory of librdkafka consumer?

librdkafka

我尝试使用 librdkafka C++ 库。我注意到我的消费者 (RdKafka::KafkaConsumer) 订阅的每个新主题都会生成 4 个新线程。每个订阅的主题还使用大约 30 MB 的虚拟内存。

我的客户 application/consumer 需要使用大约 2000 个主题。然后这些将转换为我的应用程序使用大约 8000 个线程和 60 GB 的虚拟内存。假设我需要大约 20 个分区来实现所需的吞吐量，我将需要大约 20 个应用程序实例。如果所有应用程序实例都位于单个服务器中，则该服务器需要能够运行至少同时运行 8000 x 20 = 160,000 个线程并使用 60 x 20 = 1.2 TB 的虚拟内存。

160,000 个线程和 1.2 TB 的虚拟内存对于单个服务器来说是非常大的。因此，可以使用多个服务器来容纳实例以分配负载。不过，分割出来的数字还是挺让人摸不着头脑的。

有没有办法在使用 librdkafka 库时以某种方式控制客户端应用程序的线程和内存数量？

单个消费者可以从 topics/partitions 的任意数量（嗯，合理数量）消费，您不应该为每个主题创建单独的消费者。

另见https://github.com/edenhill/librdkafka/wiki/FAQ#number-of-internal-threads