Tensorflow 服务队列中的请求数

Tensorflow Serving number of requests in queue

我有自己的用于多个神经网络的 TensorFlow 服务服务器。现在我想估计它的负载。有人知道如何在 TensorFlow 服务中获取队列中的当前请求数吗?我尝试使用普罗米修斯,但没有这样的选择。

实际上,tf 服务没有请求队列,这意味着如果请求太多,tf 服务不会对请求进行排序。 tf serving 唯一要做的就是在服务器初始化时分配一个线程池。
当请求到来时,tf 服务将使用未使用的线程来处理请求,如果没有空闲线程,tf 服务将 return 不可用 error.and 客户端稍后重试。 您可以在 tensorflow_serving/batching/streaming_batch_schedulor.h

的评论中找到这些信息

此外,您可以通过 --rest_api_num_threads 分配线程数,或者将其留空并由 tf serivng

自动配置