按多列从 GBQ table 中删除重复项的最有效方法
Most efficient way to delete duplicates from GBQ table by multiple columns
我有以下 table(见上文)。
通过 appId 和 clientId 删除重复项的最有效方法是什么,以便生成的 table 仅包含具有最小 DIFF
的那些行
例如:260848 应该是 yandex 作为来源
谢谢!
以下适用于 BigQuery 标准 SQL
#standardSQL
SELECT AS VALUE ARRAY_AGG(t ORDER BY DIFF LIMIT 1)[OFFSET(0)]
FROM `project.dataset.table` t
GROUP BY appId, clientId
我有以下 table(见上文)。
通过 appId 和 clientId 删除重复项的最有效方法是什么,以便生成的 table 仅包含具有最小 DIFF
的那些行例如:260848 应该是 yandex 作为来源
谢谢!
以下适用于 BigQuery 标准 SQL
#standardSQL
SELECT AS VALUE ARRAY_AGG(t ORDER BY DIFF LIMIT 1)[OFFSET(0)]
FROM `project.dataset.table` t
GROUP BY appId, clientId