BigQuery 的 table 装饰器在 Cloud Dataflow 中的等价物是什么？

Question

我们在 BigQuery 中有一个很大的 table 数据正在流入其中。每天晚上，我们希望运行 Cloud Dataflow 管道处理过去 24 小时的数据。

在 BigQuery 中，可以使用“Table Decorator”并指定我们想要的范围（即 24 小时）来执行此操作。

当从 BQ 读取时，Dataflow 是否可以实现相同的功能 table？

我们已经查看了 Dataflow 的“Windows”文档，但我们不太确定这是否是我们需要的。到目前为止我们想出了这个（我们想要使用 FixedWindows 的最后 24 小时数据），但它仍然试图读取整个 table:

pipeline.apply(BigQueryIO.Read
                .named("events-read-from-BQ")
                .from("projectid:datasetid.events"))
                .apply(Window.<TableRow>into(FixedWindows.of(Duration.standardHours(24))))
                .apply(ParDo.of(denormalizationParDo)
                        .named("events-denormalize")
                        .withSideInputs(getSideInputs()))
                .apply(BigQueryIO.Write
                        .named("events-write-to-BQ")
                        .to("projectid:datasetid.events")
                        .withSchema(getBigQueryTableSchema())
                        .withWriteDisposition(BigQueryIO.Write.WriteDisposition.WRITE_TRUNCATE)                          .withCreateDisposition(BigQueryIO.Write.CreateDisposition.CREATE_IF_NEEDED));

我们走在正确的轨道上吗？

Answer 1

感谢您的提问。

此时，BigQueryIO.Read 需要 table 格式的 "project:dataset:table" 信息，因此指定装饰器将不起作用。
在对此提供支持之前，您可以尝试以下方法：

运行一个批处理阶段，提取整个 bigquery 并过滤掉不需要的数据并处理该数据。如果 table 真的很大，如果读取的数据量明显小于数据总量，您可能希望将数据分叉到单独的 table 中。
使用流数据流。例如，您可以将数据发布到 Pubsub，并创建一个 24 小时 window 的流式管道。流式管道连续运行，但提供滑动 windows 与每日 windows.

希望对您有所帮助

BigQuery 的 table 装饰器在 Cloud Dataflow 中的等价物是什么？

What is the Cloud Dataflow equivalent of BigQuery's table decorators?

google-cloud-dataflow