Google BigQuery 优化策略

Question

我正在使用 Google BigQuery 从 Google Analytics Premium 查询数据。目前，我有一个查询用于计算一些指标（如总访问量或转化率）。此查询包含多个嵌套的 JOIN 子句和嵌套的 SELECT。仅查询一个 table 时出现错误：

Error: Resources exceeded during query execution.

使用 GROUP EACH BY 和 JOIN EACH 似乎不能解决这个问题。

未来要采用的一种解决方案是只提取本次查询需要的相关数据，并导出到一个单独的table（之后会被查询）。这个策略原则上是有效的，我已经有了一个工作原型。

但是，我想探索适用于原始 table 的此查询的其他优化策略。

在此演示文稿中 You might be paying too much for BigQuery 建议了其中一些，即：

缩小扫描范围（已经在做）
使用查询缓存（不适用）

书"Google BigQuery Analytics"也提到调整查询特征，即：

GROUP BY 子句生成大量不同的组（已经做了这个）
需要与输入值数量成比例的内存的聚合函数（可能不适用）
连接操作生成的输出数量多于输入数量（似乎不适用）

另一种方法是将这个查询拆分成它的组成子查询，但目前我不能选择这个策略。

我还能做些什么来优化这个查询？

Answer 1

Google 的 BigQuery 有很多怪癖，因为它不兼容 ANSI。这些怪癖也是它的优点。也就是说，您将浪费太多时间直接针对 BigQuery 编写查询。您应该使用 API/SDK 或 Looker 等工具，它会为您生成 SQL：https://looker.com/blog/big-query-launch-blog 在执行时，在花钱之前给您资源估算。

Answer 2

为什么 BigQuery 有错误？

BigQuery 是一种共享的分布式资源，因此预计作业会在某个时间点失败。这就是为什么唯一的解决方案是使用指数退避重试作业。作为一条黄金法则，作业应至少重试 5 次，只要作业无法完成超过 15 分钟，服务就在 SLA [1].

内

可能是什么原因？

我可以想出两个可能影响您的查询的原因：

数据倾斜[2]
未优化的查询

数据倾斜

关于第一种情况，当数据分布不均匀时会发生这种情况。因为 BigQuery 的内部机制使用 MapReduce 的一个版本，这意味着如果您有例如具有数百万点击率的音乐或视频文件，则进行数据聚合的工作人员将耗尽资源，而其他工作人员则不会做太多事情这一切都是因为他们正在处理的视频或音乐的聚合几乎没有点击率。

如果是这种情况，建议统一分发您的数据。