在 DataFlow 上取消作业而不丢失数据

Cancelling jobs without dataloss on DataFlow

我正在尝试找到一种优雅地结束我的工作的方法,以免丢失任何数据,从 PubSub 流式传输并写入 BigQuery。

我可以设想的一种可能方法是让作业停止提取新数据,然后 运行 直到它处理完所有内容,但我不知道 if/how 这是否可行。

我相信这很难(如果不是不可能的话)靠你自己完成。我们(Google Cloud Dataflow 团队)意识到了这一需求,并正在努力在未来几个月内通过一项新功能来解决这一问题。

似乎在最新版本中添加了此功能。

您现在要做的就是select取消作业时drain option

谢谢。