带有 TimescaleDB 的 PostgreSQL 在索引创建期间仅使用单个内核
PostgreSQL with TimescaleDB only uses a single core during index creation
我们有一个包含数十亿行的 PostgreSQL hypertable,我们正在尝试在其之上创建一个唯一索引,如下所示:
CREATE UNIQUE INDEX device_data__device_id__value_type__timestamp__idx ON public.device_data(device_id, value_type, "timestamp" DESC);
我们这样创建了 hypertable:
SELECT create_hypertable('device_data', 'timestamp');
由于我们希望尽可能快地创建索引,因此我们希望将索引创建并行化,并遵循this guide。
我们测试了 work_mem
、maintenance_work_mem
、max_worker_processes
、max_parallel_maintenance_workers
和 max_parallel_workers
的各种设置。我们还在 table 上设置了 parallel_workers
设置:ALTER TABLE device_data SET (parallel_workers = 10);
。但是无论我们做什么,创建索引总是只使用一个核心(我们有 16 个可用),因此创建时间很长。
知道我们在这里可能遗漏了什么吗?
我们的PostgreSQL版本是12.5,服务器运行Ubuntu18.
遗憾的是,Timescale 目前不支持并行索引创建。我建议提交一个 Github 问题,要求支持它。这有点繁重,可能不会很快得到优先级排序。我认为另一个可能有用的选项是在此处采用 https://docs.timescale.com/latest/api#create_index transaction_per_chunk
选项并允许用户控制索引的创建方式,因此一个简单的 api 将创建索引对于所有未来的块,但不是在旧块上,然后允许您在所有块上调用 create_index(chunk_name, ht_index_name)
,然后您可以在自己的代码中并行化该操作。这最终成为一个更简单的提升,因为并行索引创建的事务性是最难的部分。
我们有一个包含数十亿行的 PostgreSQL hypertable,我们正在尝试在其之上创建一个唯一索引,如下所示:
CREATE UNIQUE INDEX device_data__device_id__value_type__timestamp__idx ON public.device_data(device_id, value_type, "timestamp" DESC);
我们这样创建了 hypertable:
SELECT create_hypertable('device_data', 'timestamp');
由于我们希望尽可能快地创建索引,因此我们希望将索引创建并行化,并遵循this guide。
我们测试了 work_mem
、maintenance_work_mem
、max_worker_processes
、max_parallel_maintenance_workers
和 max_parallel_workers
的各种设置。我们还在 table 上设置了 parallel_workers
设置:ALTER TABLE device_data SET (parallel_workers = 10);
。但是无论我们做什么,创建索引总是只使用一个核心(我们有 16 个可用),因此创建时间很长。
知道我们在这里可能遗漏了什么吗?
我们的PostgreSQL版本是12.5,服务器运行Ubuntu18.
遗憾的是,Timescale 目前不支持并行索引创建。我建议提交一个 Github 问题,要求支持它。这有点繁重,可能不会很快得到优先级排序。我认为另一个可能有用的选项是在此处采用 https://docs.timescale.com/latest/api#create_index transaction_per_chunk
选项并允许用户控制索引的创建方式,因此一个简单的 api 将创建索引对于所有未来的块,但不是在旧块上,然后允许您在所有块上调用 create_index(chunk_name, ht_index_name)
,然后您可以在自己的代码中并行化该操作。这最终成为一个更简单的提升,因为并行索引创建的事务性是最难的部分。