按多列从 GBQ table 中删除重复项的最有效方法

Most efficient way to delete duplicates from GBQ table by multiple columns

我有以下 table(见上文)。

通过 appId 和 clientId 删除重复项的最有效方法是什么,以便生成的 table 仅包含具有最小 DIFF

的那些行

例如:260848 应该是 yandex 作为来源

谢谢!

以下适用于 BigQuery 标准 SQL

#standardSQL
SELECT AS VALUE ARRAY_AGG(t ORDER BY DIFF LIMIT 1)[OFFSET(0)]
FROM `project.dataset.table` t
GROUP BY appId, clientId