使用 "in" 删除重复记录

Question

我有一个 table 这样的：

CREATE TABLE foo (
  id SERIAL,
  a INTEGER,
  b INTEGER,
  some DOUBLE,
  other VARCHAR,
  data INTEGER
);

而且我知道 (a, b) 必须是唯一的，但由于某些原因，这不是由数据库强制执行的。假设我不关心进一步的歧视，我只是不时地擦除重复的，也许只保留最近的（ID最大的）：

DELETE FROM foo WHERE id NOT IN (SELECT max(id) FROM foo GROUP BY a, b);

现在假设有几条 100.000 条记录，IN (...) 变得相当大。

我阅读了有关自连接的内容（例如：DELETE FROM foo a LEFT JOIN foo b ON a.a = b.a AND a.b = b.b WHERE b.id < a.id），但这也意味着如果我有很多重复项，我会得到巨大的中间 tables。

我有什么选择？

Answer 1

如果你想删除旧的重复值，你可以使用：

delete from foo
    where foo.id < (select max(foo2.id)
                    from foo foo2
                    where foo2.a = foo.a and foo2.b = foo.b
                   );

请注意 (a, b, id) 上的索引将有助于提高性能。

您也可以将其表述为连接：

delete from foo
    using (select a, b, max(id) as max_id
           from foo
           group by a, b
          ) ab
    where foo.a = a.a and foo.b = ab.b and foo.id < ab.max_id;

使用 "in" 删除重复记录

delete duplicate records with "in"

sql

postgresql

sql-delete