Kubernetes + TF 服务 - 如何在没有 运行 百个闲置 pods 和 运行 的情况下使用百个 ML 模型?

Kubernetes + TF serving - how to use hundred of ML models without running hundred of idle pods up and running?

我有数百个模型,基于类别、项目、s 等。一些模型被大量使用,而其他模型则不经常使用。 如何仅在需要时触发扩展操作(对于不经常使用的模型),而不是 运行 数百个 pods 服务数百个模型,而大多数模型未被使用- 这是对计算资源的巨大浪费。

您要做的是在不使用这些部署时将部署扩展到零。

K8s 不提供这种开箱即用的功能。

您可以使用 Knative Pod Autoscaler 来实现它。 在撰写此答案时,Knative 可能是可用的最成熟的解决方案。

还有一些更多的实验性解决方案,例如 osiris or zero-pod-autoscaler 您可能会觉得有趣并且可能非常适合您的用例。