Google 分析 -> Bigquery -> 每日导出到 IBM 云存储
Google Analytics -> Bigquery -> daily export to IBM cloud storage
我们启用了 GA 360 导出到 Bigquery,每天创建一个新的 table。为了进一步处理,我们需要将每日导出的数据传输到 IBM 云对象存储。
最简单的解决方案是使用 CLI -
a) bigquery 导出到 Google 云存储
bq extract
然后
b) 将提取物移动到 IBM 对象存储
gsutil cp
这方面的几个问题 -
1) 我们可以跳过中间的 google 云存储吗?是否可以直接导出到 IBM 存储桶?
2) 我们之前没有用过Data flows。这个用例可以成为使用数据流的候选者吗?或者 GCP 中最简单的本地解决方案是什么?
您在这里的最佳选择是以预定方式使用 bq extract
,因为您可以使用 Cloud Scheduler 在 Cloud Functions 中组装。
- Cloud Scheduler 命中 Cloud Functions 端点。
- GCF 将提取作业运行到 GCS
- 另一个 GCF 观察 GCS 存储桶中的新文件并 notifies/uploads 到 IBM Cloud Storage。
我们用了不到一个小时就把它连接好并开始工作了。因为您必须基本上设置两个云功能和调度程序。
今年晚些时候,您将有一种方法可以通过 Functions 检测何时创建了 BigQuery table,因此您可以取出调度程序并在创建 table 后立即,您可以导出它。
作为附加步骤,您可以在完成移动后使用由 http 触发的另一个 GCF 删除导出的 GCS 文件。从本质上讲,您还可以将数据移动到分区中以 take advantage of the long term storage 降低价格。
我们启用了 GA 360 导出到 Bigquery,每天创建一个新的 table。为了进一步处理,我们需要将每日导出的数据传输到 IBM 云对象存储。
最简单的解决方案是使用 CLI -
a) bigquery 导出到 Google 云存储
bq extract
然后
b) 将提取物移动到 IBM 对象存储
gsutil cp
这方面的几个问题 -
1) 我们可以跳过中间的 google 云存储吗?是否可以直接导出到 IBM 存储桶?
2) 我们之前没有用过Data flows。这个用例可以成为使用数据流的候选者吗?或者 GCP 中最简单的本地解决方案是什么?
您在这里的最佳选择是以预定方式使用 bq extract
,因为您可以使用 Cloud Scheduler 在 Cloud Functions 中组装。
- Cloud Scheduler 命中 Cloud Functions 端点。
- GCF 将提取作业运行到 GCS
- 另一个 GCF 观察 GCS 存储桶中的新文件并 notifies/uploads 到 IBM Cloud Storage。
我们用了不到一个小时就把它连接好并开始工作了。因为您必须基本上设置两个云功能和调度程序。
今年晚些时候,您将有一种方法可以通过 Functions 检测何时创建了 BigQuery table,因此您可以取出调度程序并在创建 table 后立即,您可以导出它。
作为附加步骤,您可以在完成移动后使用由 http 触发的另一个 GCF 删除导出的 GCS 文件。从本质上讲,您还可以将数据移动到分区中以 take advantage of the long term storage 降低价格。