数据流 - 状态持久性?

Dataflow - State persistence?

我们正在考虑使用 Beam/Dataflow 进行有状态处理,但有点担心状态后端的可见性有限。如果内存不足,状态如何保存在磁盘上?任何底层数据库?

我在 2021 年的活动 [1] 中听说过 Windmill,但 2019 年 [2] 的一张票据指的是 Persistent Disk

谢谢!

[1] https://beamcollege.dev/
[2]

Windmill 和磁盘上的持久存储是一回事。 Windmill 将管道状态存储在永久磁盘上。

Windmill is a process running on user VMs in streaming Dataflow jobs. It is responsible for performing the streaming shuffle between workers, persisting and maintaining the consistency of pipeline state.

(非 public 来源)

您可以在 this stack 上找到更多详细信息。