为什么使用多容器端点而不是多模型端点？

Why Use Multi-Container Endpoints instead of Multi-Model Endpoints?

在 SageMaker 文档中，Multi-Model Endpoints and Multi-Container Endpoints with Direct Invocation 都被描述为在单个端点上托管多个模型的非常相似的方法。除了 多模型端点 包含更多高级功能外，给定的用例看起来完全相同。

例如，多模型端点 可以托管 n 个模型并支持资源共享和模型缓存等功能，同时 直接调用的多容器端点仅限于托管 5 个模型并且缺少模型缓存。

什么时候使用带直接调用的多容器端点而不是多模型端点？

如果您想使用同一端点从同一框架为多个模型提供服务，则可以使用多模型端点。由于使用相同的框架（例如，仅 sklearn 模型），多模型端点在被调用时会到达端点。您可以在一个端点下拥有数千个这样的模型。另一方面，多容器端点允许服务来自多个框架的模型，例如一个 TensorFlow，一个 XGBoost 等等，再次直接调用。但是在这种情况下，单个端点上有 limit of 5 different models。

因此，根据您正在处理的问题，如果您需要在单个端点上使用多个框架，那么您将需要使用直接调用的多容器端点。否则，您可以使用多模型端点。

Reference

为什么使用多容器端点而不是多模型端点？

Why Use Multi-Container Endpoints instead of Multi-Model Endpoints?

amazon-web-services

amazon-sagemaker