Google 具有 PubSubIO 源的数据流始终可用?

Google Dataflow with PubSubIO source constantly available?

假设我们有一些数据通过 Google PubSub 主题传入,并且其流量模式本质上是尖峰的,在突发数据以几分钟的速度传入之前可能有很长的安静时间。

为了处理这些数据,如果我们要使用基于订阅的 PubSubIO 的流模式数据流作为数据源,数据流将始终处于 运行 状态且工作人员数量最少,还是会当突发数据进来时重新启动,但一旦我们进入安静期就停止?

如果启用 autoscaling, Dataflow will raise or lower the number of workers dynamically according to load, without restarting the pipeline. You can read more about it here and here.