带有 pyarrow 的消费者-生产者模式

Consumer-producer pattern with pyarrow

使用 pyarrow 作为 pandas 数据帧的快速内存存储来实现基于多进程的消费者生产者模式的最佳方法是什么?

目前我正在使用 redis pub sub 但我认为可能有更有效(更快)的解决方案?你能举个例子吗?

列表解决方案:

生产者将数据放入列表 LPUSH
消费者使用 RPOPBRPOP(阻塞)从此列表中获取数据。

限制:只有一个消费者阅读消息。如果您有 2 个,则只有其中一个会看到该消息。

速度:一对消费者-生产者的速度是一样的。消费者越多(对于这个或其他列表),它会比 pub/sub.

更快