扩展 GCP AI 模型 TF 服务的问题

Issues in scaling GCP AI model TF serving

我已经在 GCP AI 模型 TF 服务上部署了 MNIST 数据集并面临扩展问题。我想知道其他人是否遇到过类似的问题以及他们解决该问题以扩大规模的方法。

行为

  1. 如果我每秒创建 3 个请求,模型会在单核上给出正确的预测
  2. 如果将请求数增加到每秒 1000 个,我会得到“代码”:403, "message": "请求的认证范围不足。", 或 javax.net.ssl.SSLHandshakeException:远程主机终止握手

在另一个模型版本上,我非常确定它正在与 java 客户端一起工作,并且它也在 GCP 测试和使用 UI 上工作,但自从我尝试以 1000/sec 缩放后就停止工作了.这是在 n1-highmem-2 服务器上。它给出错误

 "{
  "error": {
    "code": 400,
    "message": "Request contains an invalid argument.",
    "errors": [
      {
        "message": "Request contains an invalid argument.",
        "domain": "global",
        "reason": "badRequest"
      }
    ],
    "status": "INVALID_ARGUMENT"
  }"

有几个问题是,tf 为模型提供 gcp ai 与部署在虚拟机上相比是否有任何优势?感谢帮助

您可以发送的数量有限制 online prediction requests per minute。我的假设是,当您尝试启动 60000 个请求时,您正在超过 6000 个请求/分钟的限制,十倍以上。虽然错误消息不是自我解释的,但它们可能来自那里。

如果您需要更多缩放能力,您可以通过检查 quotas page in your GCP console and looking for 'Online prediction requests per minute' under the AI Platform Training & Prediction API service. Fortunately, you have the possibility of increasing some of these limits 来确认这一点。

关于通过 AI Platform 为模型提供服务的优势,最主要的是您不必关心 VM 周围的架构,因为它会在更多请求到达时自动扩展(前提是您已设置限制你需要你的用例)。