使用 "in" 删除重复记录
delete duplicate records with "in"
我有一个 table 这样的:
CREATE TABLE foo (
id SERIAL,
a INTEGER,
b INTEGER,
some DOUBLE,
other VARCHAR,
data INTEGER
);
而且我知道 (a, b)
必须是唯一的,但由于某些原因,这不是由数据库强制执行的。假设我不关心进一步的歧视,我只是不时地擦除重复的,也许只保留最近的(ID最大的):
DELETE FROM foo WHERE id NOT IN (SELECT max(id) FROM foo GROUP BY a, b);
现在假设有几条 100.000 条记录,IN (...)
变得相当大。
我阅读了有关自连接的内容(例如:DELETE FROM foo a LEFT JOIN foo b ON a.a = b.a AND a.b = b.b WHERE b.id < a.id
),但这也意味着如果我有很多重复项,我会得到巨大的中间 tables。
我有什么选择?
如果你想删除旧的重复值,你可以使用:
delete from foo
where foo.id < (select max(foo2.id)
from foo foo2
where foo2.a = foo.a and foo2.b = foo.b
);
请注意 (a, b, id)
上的索引将有助于提高性能。
您也可以将其表述为连接:
delete from foo
using (select a, b, max(id) as max_id
from foo
group by a, b
) ab
where foo.a = a.a and foo.b = ab.b and foo.id < ab.max_id;
我有一个 table 这样的:
CREATE TABLE foo (
id SERIAL,
a INTEGER,
b INTEGER,
some DOUBLE,
other VARCHAR,
data INTEGER
);
而且我知道 (a, b)
必须是唯一的,但由于某些原因,这不是由数据库强制执行的。假设我不关心进一步的歧视,我只是不时地擦除重复的,也许只保留最近的(ID最大的):
DELETE FROM foo WHERE id NOT IN (SELECT max(id) FROM foo GROUP BY a, b);
现在假设有几条 100.000 条记录,IN (...)
变得相当大。
我阅读了有关自连接的内容(例如:DELETE FROM foo a LEFT JOIN foo b ON a.a = b.a AND a.b = b.b WHERE b.id < a.id
),但这也意味着如果我有很多重复项,我会得到巨大的中间 tables。
我有什么选择?
如果你想删除旧的重复值,你可以使用:
delete from foo
where foo.id < (select max(foo2.id)
from foo foo2
where foo2.a = foo.a and foo2.b = foo.b
);
请注意 (a, b, id)
上的索引将有助于提高性能。
您也可以将其表述为连接:
delete from foo
using (select a, b, max(id) as max_id
from foo
group by a, b
) ab
where foo.a = a.a and foo.b = ab.b and foo.id < ab.max_id;