MLFlow 注册表高可用性

MLFlow Registry high availability

我正在使用 mlflow server (https://mlflow.org/docs/latest/model-registry.html) 运行 设置 mlflow 注册表。服务器 运行 没问题。如果服务器因任何原因崩溃,它会自动重启。但是重启的时候服务器不可用。

是否可以运行 多个实例在负载均衡器后面并行?这是安全的还是可能存在任何不一致?

是的,在一个负载平衡器后面可以有多个 MLflow Tracker 服务实例 运行。

因为跟踪服务器是无状态的,所以您可以将多个实例作为存储记录到复制的主数据库。如果主数据库发生故障,第二个热备份可以接管。

关于如何设置后端存储的复制实例的文档会因您选择使用的实例而异,我们无法绝对记录所有不同的场景及其配置。

我会检查您的后端数据库和负载均衡器的相应文档,了解如何将请求联合到 MLflow 跟踪服务器的多个实例,如何故障转移到热备用或复制数据库,或者如何配置热-备用复制数据库实例。

简而言之:MLflow 跟踪服务器是无状态的。

以上建议主动-被动。服务器可以 运行 in active/active(负载均衡器向任何 运行nning 实例发送请求)吗?

在某些边缘情况下,无状态系统可能会遇到多个编写器的问题。