PRECONDITION_FAILED:使用 Gevent 和并发的 Celery 和 RabbitMQ 上的传递确认超时

PRECONDITION_FAILED: Delivery Acknowledge Timeout on Celery & RabbitMQ with Gevent and concurrency

我刚刚从 ForkPool 切换到具有并发性 (5) 的 gevent 作为 Kubernetes 运行 中 Celery workers pods 的池方法。切换后,我在工作人员中遇到了一个不可恢复的错误:

amqp.exceptions.PreconditionFailed: (0, 0): (406) PRECONDITION_FAILED - delivery acknowledgement on channel 1 timed out. Timeout value used: 1800000 ms. This timeout value can be configured, see consumers doc guide to learn more

代理日志给出了基本相同的消息:

2021-11-01 22:26:17.251 [warning] <0.18574.1> Consumer None4 on channel 1 has timed out waiting for delivery acknowledgement. Timeout used: 1800000 ms. This timeout value can be configured, see consumers doc guide to learn more

我已设置 CELERY_ACK_LATE,但不熟悉为确认期设置超时的必要性。这在使用流程之前从未发生过。任务可能会很长(有时 60-120 秒),但我找不到特定的设置来允许这样做。

我在其他论坛的另一个 post 中读到一个用户将代理配置的超时设置为一个很大的数字(比如 24 小时),并且也遇到了同样的问题,所以这使得我认为可能还有其他与此问题相关的问题。

关于如何让员工更有弹性,有什么想法或建议吗?

为了将来参考,新的 RabbitMQ 版本 (+3.8) 似乎为 consumer_timeout(我认为是 15 分钟)引入了严格的默认值。

我找到的解决方案(不久前也被添加到 Celery 文档 here)是为 RabbitMQ 中的 consumer_timeout 添加一个大数字。

中,有人提到将 consumer_timeout 设置为 false,在某种程度上不需要使用大量数字,但显然有一些关于配置格式的细节才能起作用.

我是 运行 k8s 中的 RabbitMQ,刚刚做了类似的事情:

rabbitmq.conf: |
  consumer_timeout = 31622400000