Kubernetes + TF 服务 - 如何在没有运行百个闲置 pods 和运行的情况下使用百个 ML 模型？

Kubernetes + TF serving - how to use hundred of ML models without running hundred of idle pods up and running?

我有数百个模型，基于类别、项目、s 等。一些模型被大量使用，而其他模型则不经常使用。如何仅在需要时触发扩展操作（对于不经常使用的模型），而不是运行数百个 pods 服务数百个模型，而大多数模型未被使用- 这是对计算资源的巨大浪费。

您要做的是在不使用这些部署时将部署扩展到零。

K8s 不提供这种开箱即用的功能。

您可以使用 Knative Pod Autoscaler 来实现它。在撰写此答案时，Knative 可能是可用的最成熟的解决方案。

还有一些更多的实验性解决方案，例如 osiris or zero-pod-autoscaler 您可能会觉得有趣并且可能非常适合您的用例。