Cloud Pub/Sub 通过 Dataflow SQL 到 BigQuery

Cloud Pub/Sub to BigQuery through Dataflow SQL

我想了解 Dataflow 管道的工作方式。

就我而言，我定期向云 pub/sub 发布一些内容，然后 Dataflow 写入 BigQuery。通过的消息量以千计，因此我的发布者客户端对 1000 消息、1 MB 和 10 秒的延迟进行了批处理设置。

问题是：按上述方式批量发布时，Dataflow SQL是否将批量中的消息全部写入BigQuery走？或者，它一次写一条消息吗？

另一方面，一个比另一个有什么好处吗？

如果需要任何其他详细信息，请发表评论。谢谢

Dataflow SQL 只是一种使用 SQL 语法定义 Apache Beam 管道并在 Dataflow 上运行它的方法。

因为它是 PubSub，所以它是根据您的 SQL 定义创建的流式传输管道。当您运行您的 SQL 命令时，数据流作业启动并等待来自 pubSub 的消息。

如果您发布了一堆消息，Dataflow 能够扩展以尽快处理它们。

请记住，数据流流永远不会扩展到 0，因此您将始终支付 1 个或更多 VM 以保持您的管道正常运行和运行ning。