按多列从 GBQ table 中删除重复项的最有效方法

Question

我有以下 table（见上文）。

通过 appId 和 clientId 删除重复项的最有效方法是什么，以便生成的 table 仅包含具有最小 DIFF

的那些行

例如：260848 应该是 yandex 作为来源

谢谢！

Answer 1

以下适用于 BigQuery 标准 SQL

#standardSQL
SELECT AS VALUE ARRAY_AGG(t ORDER BY DIFF LIMIT 1)[OFFSET(0)]
FROM `project.dataset.table` t
GROUP BY appId, clientId

Most efficient way to delete duplicates from GBQ table by multiple columns