具有重复值的 SQLite 列

Question

假设 SQLite 数据库的列 a 非常重复，总是有相同的 4 个值。其他值可能会稍后出现，但不会有 1000 个不同的值。

VALUES = ["hello world", "it's a shame to store this str many times", "bye bye", "abc"]

import sqlite3, random
db = sqlite3.connect('repetitive1.db')
db.execute("CREATE TABLE IF NOT EXISTS data(id INTEGER PRIMARY KEY, a TEXT);")
for i in range(1000 * 1000):
    db.execute("INSERT INTO data (a) VALUES (?)", (random.choice(VALUES),))
db.commit()

这里的数据库对于一百万个项目来说是 24 MB，即平均 24 字节。

多次重新存储所有字符串有点遗憾，因为它总是相同的值一次又一次。当然，解决方案是对重复值使用 ID = 0、1、2、3（最多 1000），并且只存储整数 ID：

db = sqlite3.connect('repetitive2.db')
db.execute("CREATE TABLE IF NOT EXISTS data(id INTEGER PRIMARY KEY, a INT);")
for i in range(1000*1000):
    db.execute("INSERT INTO data (a) VALUES (?)", (random.randint(0, 3),))
db.commit()

收获：DB只有9MB，平均每行9个字节，好多了。

但缺点是我们必须手动执行此操作：

维护另一个tableID和字符串的对应关系，
检测何时出现新值（以前从未见过），给它一个新 ID 等。
如果行被删除并且最后一个字符串不再出现在任何地方，我们可能想要做一些清理并从这一秒中删除它的 ID table
等等

这是可能的，而且不是很困难，但多年来我注意到 SQLite 通常对类似的事情有巧妙的优化/好的技巧。

问题：有没有办法让SQLite自动做所有事情？即设置一种模式，在这种模式下，SQLite 将在内部尽最大努力删除列中的重复数据，例如通过对该列使用 ID 而不是一次又一次地存储相同的字符串？（无需自己维护任何东西？）

Answer 1

这个问题与非常相似，但它还讨论了更深层次的问题 - 自动清理未使用的实体。

Is there a way to let SQLite do everything automatically? ... (without having to maintain anything ourselves)

没有。您基本上想要在基础 table 中插入行并引用 table（如果它尚不存在），同时按值而不是其 surrogate key 指定引用。事实上，这在其他 RDBMS 中也不是一项简单的任务。其中一些支持：

存储过程
Multitable inserts
OUTPUT clause
RETURNING clause
Writable（更新table）浏览量
INSTEAD OF 触发浏览量

从上面的列表来看，SQLite 只支持 INSTEAD OF 触发器。以下是它如何适用于您的用例（我从问题下的评论中提到的 db<>fiddle 中采用了 table words 并将其列 a 重命名为 value):

PRAGMA foreign_keys = ON;

CREATE TABLE words(
  id INTEGER PRIMARY KEY,
  value TEXT
);

CREATE UNIQUE INDEX unique_words_value ON words(value);

CREATE TABLE data(
  id INTEGER PRIMARY KEY,
  word_id INTEGER NOT NULL,
  FOREIGN KEY (word_id) REFERENCES words(id)
);

CREATE VIEW data_view AS
SELECT d.id, w.value FROM data AS d INNER JOIN words AS w on w.id = d.word_id;

CREATE TRIGGER data_view_insert INSTEAD OF INSERT ON data_view
BEGIN
  INSERT OR IGNORE INTO words(value) VALUES (NEW.value);
  INSERT OR IGNORE INTO data(word_id) VALUES(
    (SELECT id FROM words WHERE value = NEW.value)
  );
END;

INSERT INTO data_view (value) VALUES
  ('random1'),
  ('random2'),
  ('random3'),
  ('random1'),
  ('random3'),
  ('random4');

INSERT 语句产生了 table words 的内容：

id	value
1	random1
2	random2
3	random3
4	random4

和data_view：

id	value
1	random1
2	random2
3	random3
4	random1
5	random3
6	random4

要支持从 data 中删除行并自动清除 words 中未使用的值，您可以在 data_view 上添加 INSTEAD OF DELETE 触发器：

CREATE TRIGGER data_view_delete INSTEAD OF DELETE ON data_view
BEGIN
  DELETE FROM data
    WHERE id = OLD.id;
  DELETE FROM words
    WHERE value = OLD.value AND NOT EXISTS(SELECT 1 FROM data_view WHERE value = OLD.value);
END;

它的第一个语句删除 table data 中的一行，第二个语句删除 words 中引用的值，如果它没有被 [=91= 中的其他行引用的话] data。与 INSERT 类似，您可以通过 data_view:

间接从 table data 中删除行

-- delete one 'random2' and 'random4' value data
DELETE FROM data_view WHERE id IN (2, 4);

这导致 words:

id	value
1	random1
3	random3
4	random4

如您所见，删除了 'random2' 值，因为它在 data 中仅被引用了一次，并且保留了 'random4' 值，因为在 [=] 中还有另一个引用91=] data (data_view):

id	value
1	random1
3	random3
5	random3
6	random4

这里有 db<>fiddle 可以玩。

Answer 2

完全归功于@PeterWolf 的出色回答，这是一个稍微修改过的版本和现成的运行代码：

import sqlite3, random
VALUES = ["hello world", "it's a shame to store this str many times", "bye bye", "abc"]
db = sqlite3.connect('repetitive3.db')
db.executescript("""CREATE TABLE words(id INTEGER PRIMARY KEY, value TEXT UNIQUE);
CREATE TABLE data(id INTEGER PRIMARY KEY, word_id INTEGER NOT NULL);
CREATE VIEW data_view AS SELECT d.id, w.value FROM data AS d INNER JOIN words AS w on w.id = d.word_id;
CREATE TRIGGER data_view_insert INSTEAD OF INSERT ON data_view
BEGIN
  INSERT OR IGNORE INTO words(value) VALUES(NEW.value);
  INSERT OR IGNORE INTO data(word_id) VALUES((SELECT id FROM words WHERE value = NEW.value));
END;""")
for i in range(1000*1000):
    db.execute("INSERT INTO data_view (value) VALUES (?)", (random.choice(VALUES),))
print(list(db.execute("SELECT * FROM words")))
print(list(db.execute("SELECT * FROM data WHERE id BETWEEN 100 AND 105")))
print(list(db.execute("SELECT * FROM data_view WHERE id BETWEEN 100 AND 105")))

少量修改（结果相同：数据库大小仅为 9 MB）

这里 table words 没有索引，只有 value 的 UNIQUE 关键字，确保 INSERT OR IGNORE INTO 落入 IGNORE 如果该值已经存在
没有使用外键

相同的想法，但没有视图：

db.execute('CREATE TABLE words(value TEXT UNIQUE);')
db.execute('CREATE TABLE data(id INTEGER PRIMARY KEY, word_id INTEGER NOT NULL);')
for i in range(1000*1000):
    v = random.choice(VALUES)
    db.execute("INSERT OR IGNORE INTO words(value) VALUES(?);", (v,))
    db.execute("INSERT INTO data(word_id) VALUES ((SELECT rowid FROM words WHERE value = ?));", (v,))
searched_word = 'hello world'
print(list(db.execute("SELECT id, word_id FROM data WHERE id BETWEEN 100 AND 120 AND word_id = (SELECT rowid FROM words WHERE value = ?)", (searched_word,))))

具有重复值的 SQLite 列

Sqlite column with repetitive values

python

database

sqlite

duplicates

database-performance