将模型编译为可执行文件以加快推理速度?

Compiling model as executable for faster inference?

有没有办法用我训练好的模型编译整个 Python 脚本以加快推理速度?似乎加载 Python 解释器、所有 Tensorflow、numpy 等都需要大量时间。当这必须发生在响应非常频繁的请求的服务器上时,它看起来很慢。

编辑

我知道我可以使用 Tensorflow 服务,但不想使用,因为相关的成本。

如何设置服务器?如果您正在使用 python 框架(如 django、flask 或 tornado)设置服务器,您只需预加载模型并将其保存为全局变量,然后使用此全局变量进行预测。

如果您使用的是其他服务器。您还可以将用于预测的整个 python 脚本作为本地服务器,并在 python 服务器和 Web 服务器之间转换请求或响应。​​

您只想为 tensorflow 模型提供服务,还是在 tensorflow 之外做任何工作?

对于tensorflow模型,你可以使用TensorFlow Serving. If you are comfortable with gRPC,这对你来说非常有用。