TensorFlow 服务 RAM 使用

TensorFlow Serving RAM Usage

我无法在文档中找到有关如何在 TensorFlow Serving 中保存和加载模型的特定信息,以及 运行 在 CPU 与 GPU 上的可能差异。

为提供多个模型(以及每个模型的一个或多个版本),一个通用的工作流程是:

我目前正在 运行 推断 CPU 并同时加载许多模型,这比预期的要快得多。保存的模型在磁盘上相对较小,但当 TF Serving 将模型加载到内存中时,它几乎大了一个数量级。磁盘上的单个 200MB saved_model 变成 RAM 中的 1.5GB,极大地限制了可以加载的模型数量。

问题:

松散相关的搜索结果:

是的,这是预期的。

不,没关系CPU/GPU

由于 GPU 内存比系统内存少,您可能需要更少的 GPU 内存。