Cloud Pub/Sub 通过 Dataflow SQL 到 BigQuery
Cloud Pub/Sub to BigQuery through Dataflow SQL
我想了解 Dataflow 管道的工作方式。
就我而言,我定期向云 pub/sub 发布一些内容,然后 Dataflow 写入 BigQuery。通过的消息量以千计,因此我的发布者客户端对 1000
消息、1 MB 和 10
秒的延迟进行了批处理设置。
问题是:按上述方式批量发布时,Dataflow SQL是否将批量中的消息全部写入BigQuery走?或者,它一次写一条消息吗?
另一方面,一个比另一个有什么好处吗?
如果需要任何其他详细信息,请发表评论。谢谢
Dataflow SQL 只是一种使用 SQL 语法定义 Apache Beam 管道并在 Dataflow 上 运行 它的方法。
因为它是 PubSub,所以它是根据您的 SQL 定义创建的流式传输管道。当您 运行 您的 SQL 命令时,数据流作业启动并等待来自 pubSub 的消息。
如果您发布了一堆消息,Dataflow 能够扩展以尽快处理它们。
请记住,数据流流永远不会扩展到 0,因此您将始终支付 1 个或更多 VM 以保持您的管道正常运行和 运行ning。
我想了解 Dataflow 管道的工作方式。
就我而言,我定期向云 pub/sub 发布一些内容,然后 Dataflow 写入 BigQuery。通过的消息量以千计,因此我的发布者客户端对 1000
消息、1 MB 和 10
秒的延迟进行了批处理设置。
问题是:按上述方式批量发布时,Dataflow SQL是否将批量中的消息全部写入BigQuery走?或者,它一次写一条消息吗?
另一方面,一个比另一个有什么好处吗?
如果需要任何其他详细信息,请发表评论。谢谢
Dataflow SQL 只是一种使用 SQL 语法定义 Apache Beam 管道并在 Dataflow 上 运行 它的方法。
因为它是 PubSub,所以它是根据您的 SQL 定义创建的流式传输管道。当您 运行 您的 SQL 命令时,数据流作业启动并等待来自 pubSub 的消息。
如果您发布了一堆消息,Dataflow 能够扩展以尽快处理它们。
请记住,数据流流永远不会扩展到 0,因此您将始终支付 1 个或更多 VM 以保持您的管道正常运行和 运行ning。