在 DataFlow 上取消作业而不丢失数据
Cancelling jobs without dataloss on DataFlow
我正在尝试找到一种优雅地结束我的工作的方法,以免丢失任何数据,从 PubSub 流式传输并写入 BigQuery。
我可以设想的一种可能方法是让作业停止提取新数据,然后 运行 直到它处理完所有内容,但我不知道 if/how 这是否可行。
我相信这很难(如果不是不可能的话)靠你自己完成。我们(Google Cloud Dataflow 团队)意识到了这一需求,并正在努力在未来几个月内通过一项新功能来解决这一问题。
似乎在最新版本中添加了此功能。
您现在要做的就是select取消作业时drain option。
谢谢。
我正在尝试找到一种优雅地结束我的工作的方法,以免丢失任何数据,从 PubSub 流式传输并写入 BigQuery。
我可以设想的一种可能方法是让作业停止提取新数据,然后 运行 直到它处理完所有内容,但我不知道 if/how 这是否可行。
我相信这很难(如果不是不可能的话)靠你自己完成。我们(Google Cloud Dataflow 团队)意识到了这一需求,并正在努力在未来几个月内通过一项新功能来解决这一问题。
似乎在最新版本中添加了此功能。
您现在要做的就是select取消作业时drain option。
谢谢。