BigQueryIO.Read 查询与作业：查询

BigQueryIO.Read Query vs. Jobs : Query

我玩数据流/bigquery 有一段时间了，但我仍然无法理解一些基本的东西，即何时使用某种类型的方法查询一个table.

带有BigQueryIO.Read的one-line查询选项是：
+ 简短，
+ suitable 用于大结果，在 PCollection 中 returned，
- 但不 return 结果的新 table 模式，
使两者更难导出到 (1).csv 文件 - table header, 字段！和 (2) bigquery table - 没有架构！每次我们想要将查询结果保存到 bigquery table 或 .csv 文件时，我们都需要手动定义 table 模式或 fields-csv header。
---> 有没有一种可以优雅地自动完成的方法？

另一个查询选项是使用 Jobs : Query。
这又有利有弊：
+ returns table 查询结果的架构
- 需要身份验证，最后还有更多的编码用于精确的简单查询
-> 异步和同步模式；
- 对于大的结果不 suitable，
除了在带有选项 allowLargeResults 的异步模式下，这会导致在后台进行多个查询，需要组合这些查询以获得检索到的完整列表行 (??)
- 结果可以保存到 table 中，但只有异步查询才能将结果保存到永久 table 中（而不仅仅是临时保存）。

问题依然存在：

(1)哪种方法更好，什么时候使用？

( 2) 如果我们查询的table中的数据量非常大，得到的结果非常大，那么首选哪种查询方式呢？

(3) 在处理非常大的结果时首选哪种导出 - table 或 .csv 文件？

请注意，BigQueryIO.Read 读取 table，但不执行查询。助手 .fromQuery() 让源执行查询，然后读取查询结果写入的目标 table。将查询执行与 table 读取分开可能很有用。

我们可以将 BigQueryIO.Read 视为运行一个 jobs.insert() 导出操作到 Google Cloud Storage，然后处理来自 GCS 的数据。

查看 https://cloud.google.com/bigquery/exporting-data-from-bigquery#exportingmultiple 的 "Multiple Wildcard Uris" 以高效并行处理导出到 GCS 的数据：您可以在导出数据时使用（小）导出数据碎片，因此您不必阻止处理并行读取操作以完成整个 BigQuery 导出作业。多个通配符让您可以预先确定工作人员的并行性，BigQuery 将按顺序写入数据，以便每个工作人员可以独立处理他们的分片，并确定他们的数据子集何时被完全处理。

Cloud Dataflow 支持自定义源 (https://cloud.google.com/dataflow/model/custom-io#creating-sources)，因此您可以复制 BigQueryIO.Read 版本，该版本具有您正在操作的 table 架构的侧通道（ *).

(*) 我不是 Cloud Dataflow 专家，所以我不确定如何构建此旁路。也许从此自定义源导出的架构是 table 的架构和一个 blob，您可以将源包装成一个 ParDo，它采用架构并将 blob 转换为该架构？此时您的代码将看到每行的架构和数据。这似乎不是解决问题的最有效方法，但它可能对您有用。

BigQueryIO.Read 查询与作业：查询

BigQueryIO.Read Query vs. Jobs : Query

java

csv

google-bigquery

google-cloud-dataflow

google-cloud-bigtable