GCP 中的流水线

Pipelining in GCP

我有大量数据定期从数据源收集并存储在 GCS 存储桶中。目前它们存储在一个本地区域（伦敦）。我们使用 GCP 服务（即作曲家、数据流或云功能等）的组合将这些数据与 ETL 流水线化到驻留在同一区域（例如 europe-west2 London）的 BigQuery tables。

除此之外，我想将这些数据（例如桶）传输到位于不同区域的不同 BQ table。

所以，总的来说输出的是大查询 tables 位于两个不同的区域，如下：

GCS buckets：项目 1，buckets in London (europe-west2)

输出 1：项目 1 区域 1（欧洲西部 2 伦敦）上的 BQ table -（现有）

预计： output2: BQ table on project2 region2 (EU) - 多区域或比利时

我可以这样做吗？我应该如何有效地做到这一点？

在此感谢您的建议和帮助。谢谢！

一个选项是使用 BigQuery 的 cross region copy of your dataset。该功能目前处于 Beta 阶段并且暂时免费（请注意它可能并不总是免费的）。

虽然服务位置有限，但支持europe-west2和EU。

除了跨区域复制之外，您还可以设计从 GCS 读取文件并将其通过管道传输到 Pub-Sub 主题的管道。然后，您可以从 Pub-Sub 主题向它发送区域特定的 BigQuery 吗？