数据流进程在失败时尚未恢复

Dataflow process has not recovered on failure

在最近发生了整个 AZ 会因中断而丢失的事件之后,我想更好地了解 Dataflow 故障转移过程。

当我手动删除数据流作业(Streaming、PubSub 到 BigQuery)的工作节点时,它们已成功 recreated/restarted,但数据流进程本身尚未恢复。

尽管所有状态都正常,但数据项没有流动。

重新启动流程的唯一方法是取消作业并重新提交。

尽管我知道手动删除不是有效的测试,但我们不能忽视人为错误的因素。

我的理解是工作流应该自动重新启动,但实际情况并非如此。

我错过了什么?

Dataflow 确实依赖 GCE 来恢复物理故障,因此我们不支持从手动删除节点中恢复。显式删除不会模拟 GCE 中断,因此这不会测试您感兴趣的弹性 属性。