Google 分析 -> Bigquery -> 每日导出到 IBM 云存储

Google Analytics -> Bigquery -> daily export to IBM cloud storage

我们启用了 GA 360 导出到 Bigquery,每天创建一个新的 table。为了进一步处理,我们需要将每日导出的数据传输到 IBM 云对象存储。

最简单的解决方案是使用 CLI -

a) bigquery 导出到 Google 云存储

bq extract

然后

b) 将提取物移动到 IBM 对象存储

gsutil cp

这方面的几个问题 -

1) 我们可以跳过中间的 google 云存储吗?是否可以直接导出到 IBM 存储桶?

2) 我们之前没有用过Data flows。这个用例可以成为使用数据流的候选者吗?或者 GCP 中最简单的本地解决方案是什么?

您在这里的最佳选择是以预定方式使用 bq extract,因为您可以使用 Cloud Scheduler 在 Cloud Functions 中组装。

  1. Cloud Scheduler 命中 Cloud Functions 端点。
  2. GCF 将提取作业运行到 GCS
  3. 另一个 GCF 观察 GCS 存储桶中的新文件并 notifies/uploads 到 IBM Cloud Storage。

我们用了不到一个小时就把它连接好并开始工作了。因为您必须基本上设置两个云功能和调度程序。

今年晚些时候,您将有一种方法可以通过 Functions 检测何时创建了 BigQuery table,因此您可以取出调度程序并在创建 table 后立即,您可以导出它。

作为附加步骤,您可以在完成移动后使用由 http 触发的另一个 GCF 删除导出的 GCS 文件。从本质上讲,您还可以将数据移动到分区中以 take advantage of the long term storage 降低价格。