GCP 中的流水线

Pipelining in GCP

我有大量数据定期从数据源收集并存储在 GCS 存储桶中。目前它们存储在一个本地区域(伦敦)。我们使用 GCP 服务(即作曲家、数据流或云功能等)的组合将这些数据与 ETL 流水线化到驻留在同一区域(例如 europe-west2 London)的 BigQuery tables。

除此之外,我想将这些数据(例如桶)传输到位于不同区域的不同 BQ table。

所以,总的来说输出的是大查询 tables 位于两个不同的区域,如下:

GCS buckets:项目 1,buckets in London (europe-west2)

输出 1:项目 1 区域 1(欧洲西部 2 伦敦)上的 BQ table -(现有)

预计: output2: BQ table on project2 region2 (EU) - 多区域或比利时

我可以这样做吗?我应该如何有效地做到这一点?

在此感谢您的建议和帮助。谢谢!

一个选项是使用 BigQuery 的 cross region copy of your dataset。该功能目前处于 Beta 阶段并且暂时免费(请注意它可能并不总是免费的)。

虽然服务位置有限,但支持europe-west2和EU。

除了跨区域复制之外,您还可以设计从 GCS 读取文件并将其通过管道传输到 Pub-Sub 主题的管道。然后,您可以从 Pub-Sub 主题向它发送区域特定的 BigQuery 吗?