数组的重复 Postgres 更新导致膨胀?

Repetitive Postgres updates of arrays leading to bloat?

我是 运行 一个 Python 脚本,它处理许多不同指标的时间序列数据,然后将结果写入 Postgres 数据库。

时间序列假设有 40 个时期,在数据库中存储为 real[40] 数组列。

当一次将所有 40 个时期的输出写入 table 时(对所有行进行批量更新),一切似乎都运行良好。即

UPDATE my_table SET
  arr_col_1 = {1, 2, 3, ... 40},
  arr_col_2 = {1, 2, 3, ...40},
  ...
  arr_col_90 = {1, 2, 3, ...40};

然而,将各个时期的结果迭代写入数组中的每个位置似乎会耗尽硬盘驱动器上的所有空闲 space,例如

UPDATE my_table SET
  arr_col_1[1] = 1,
  arr_col_2[1] = 1,
  ...
  arr_col_90[1] = 1;

UPDATE my_table SET
  arr_col_1[2] = 2,
  arr_col_2[2] = 2,
  ...
  arr_col_90[2] = 2;

-- repeat x 38 more times

迭代策略的原因是为了容纳更大数量的行,为此 40 个 epoch 的结果不能同时放入内存。

据我所知,UPDATE 查询会在某些情况下删除和重写行数据,但我不清楚这种情况何时发生以及这可能与数组有何关系。有没有办法在不导致数据库膨胀的情况下迭代更新大量行的数组?

Postgres 使用 MVCC,它执行写时复制。

UPDATE 将整行复制到一个新行,旧行被标记为删除,但删除本身只发生在真空期间,由 autovacuum 守护进程定期发生。

您可以通过 运行

自己释放 space
VACUUM

你有多少磁盘space用完了?我从来没有听说过非大型数据库有这样的问题。

正如其他人正确提到的那样,这种方法不太适合 PostgreSQL 的操作模式。

但是,您可以使用名为 HOT 的优化:

  • 用小于 100 的 fillfactor 声明您的 table,以便 INSERT 在每个块中留下空闲 space:

    ALTER TABLE my_table SET (fillfactor = 50);
    

    此设置仅影响未来 activity,您必须重新组织 table 才能影响现有数据。如果您更新 table 中的每一行,您可能需要低至 30 的设置才能生效。

  • 确保更新的列没有它们的索引。

然后 PostgreSQL 可以使用“热更新”并即时回收死的 table 条目,这避免了对 autovacuum 的需要,这显然跟不上你的 table。

检查 pg_stat_user_tables 行中的 n_tup_hot_upd 列以查看您的 table 是否有效。