在两个 PostgreSQL 服务器之间传输数据
Transferring data between two PostgreSQL servers
我有两台 PostgreSQL 服务器,一台集中式服务器,一台外围设备。这个想法是让外围服务器从同一台机器上的各种进程运行积累数据。定期(也许每小时或大约),数据从外围服务器传输到中央服务器。确认服务器成功后,外围服务器将擦除其内容以使其实现尽可能轻量级。
虽然最初这是一个相当直接的场景,其中有许多现有的解决方案,但我确信,有几个因素限制了我的选择:
外围服务器和中央服务器之间的 link 可能一次停机几天,在这种情况下,它只会保留所有数据并重试下一次预定的传输,使用两倍的数据。
没有重复的记录是至关重要的,因此擦除的记录与传输的记录完全匹配很重要。
很可能外围服务器在传输过程中积累了额外的数据,因此删除并重新创建 table 是不可行的,因为这会清除一些没有的记录已转移
我从几个角度看了这个,我得出的结论是我很可能想在这里重新发明轮子,因为有多种方法 几乎适合我的需要。因此,我决定退后几步,看看针对这种情况会出现什么建议。那么我的问题是:
当link不可靠时,推荐的传输方法是什么?
转账验证方式有哪些?
传输过程中外设数据库还在积累数据,如何确保擦除日期与传输数据完全匹配?
在 debian 上使用 postgresql 9.4.9。
一个想法的大致轮廓:
table 有一个跟踪记录 ID 的 serial
列。
pg_dump
将数据写入文件。前面提到的序列号用在文件名中,基本上是"this contains all records from X
and to Y
"
dumpfile通过rsync之类的方式复制到中心化服务器
中央服务器加载数据,并以某种方式将验证发送回包含序列号的外围服务器。考虑重复此操作几次,以确保以后不会传输重复项。
外围服务器核对与已验证连续剧有关的所有数据。
有什么想法吗?
您提出的方法是一个合理的起点,但在第一点就存在缺陷。您隐含地假设 serial
列提供了一些可靠的排序边界。 没有。
- Txn 1 开始
- Txn 2 开始
- Txn 1 获取序列值 4
- Txn 2 获取序列值 5
- Txn 2 次提交
- Txn 3 开始
- Txn 3 拷贝出数据
- Txn 3 通知最高承诺值为 5
- Txn 1 提交
- Txn 3 删除所有 id <= 5 的数据
糟糕。 Txn 3 删除了 id=4,但它不会被复制。这个特殊情况通过创建 txn3 SERIALIZABLE
得到修复,但是如果 Txn3 提交而其他一些 tx txn4 执行删除,问题又回来了。
为了安全起见,您必须在 5 和 7 之间的某处添加屏障,您 LOCK TABLE ... IN EXCLUSIVE MODE
并等待获取锁。这确保没有未完成的写入,所有内容都已提交。您现在可以相信,以后不会提交低于最高值读取的值。
来自不同的(新开始的)xact,然后你pg_export_snapshot
。
导出快照后,您可以回滚获取锁的 xact 并让写入继续。
将导出快照的 xact 保持打开状态。使用 --snapshot
将快照 ID 传递给 pg_dump
,因此它会从您知道最高提交 ID 的虚拟时间点 精确地 转储。在转储完成之前,您必须保持保存快照的 xact 打开,但写入可以同时继续。
您现在可以安全地 DELETE FROM ... WHERE id < x
获取您在持有锁的情况下查找的 x
的值。您知道,由于导出的快照,您没有转储任何具有更高 ID 的内容。而且您知道,由于锁定,您不会错过任何稍后以较低 ID 提交的内容。
看起来很复杂?
相反,我建议使用 PostgreSQL 的逻辑解码功能。使用逻辑解码的工具pglogical,具有使您想做的事情相对容易的功能;它摆脱了排序问题并保证行被复制 exactly 一次。很容易将其设置为复制插入,但不复制删除,因此您可以时不时 DELETE FROM mytable
。
(当然,我是pglogical及其相关工具BDR的开发团队的一员,所以我有偏见)。
您可能面临的主要问题是您必须保留更多数据,因为您需要保留 WAL,而不仅仅是 table 内容。 (从技术上讲,您实际上可以 DELETE
数据一旦 INSERT
ed 就可以复制,但您可能不想这样做)。因此,如果磁盘 space 是一个问题,您可能希望使用转储方法。但是 pglogical3 中的一些重大改进将使这个问题消失。
我有两台 PostgreSQL 服务器,一台集中式服务器,一台外围设备。这个想法是让外围服务器从同一台机器上的各种进程运行积累数据。定期(也许每小时或大约),数据从外围服务器传输到中央服务器。确认服务器成功后,外围服务器将擦除其内容以使其实现尽可能轻量级。
虽然最初这是一个相当直接的场景,其中有许多现有的解决方案,但我确信,有几个因素限制了我的选择:
外围服务器和中央服务器之间的 link 可能一次停机几天,在这种情况下,它只会保留所有数据并重试下一次预定的传输,使用两倍的数据。
没有重复的记录是至关重要的,因此擦除的记录与传输的记录完全匹配很重要。
很可能外围服务器在传输过程中积累了额外的数据,因此删除并重新创建 table 是不可行的,因为这会清除一些没有的记录已转移
我从几个角度看了这个,我得出的结论是我很可能想在这里重新发明轮子,因为有多种方法 几乎适合我的需要。因此,我决定退后几步,看看针对这种情况会出现什么建议。那么我的问题是:
当link不可靠时,推荐的传输方法是什么?
转账验证方式有哪些?
传输过程中外设数据库还在积累数据,如何确保擦除日期与传输数据完全匹配?
在 debian 上使用 postgresql 9.4.9。
一个想法的大致轮廓:
table 有一个跟踪记录 ID 的
serial
列。pg_dump
将数据写入文件。前面提到的序列号用在文件名中,基本上是"this contains all records fromX
and toY
"dumpfile通过rsync之类的方式复制到中心化服务器
中央服务器加载数据,并以某种方式将验证发送回包含序列号的外围服务器。考虑重复此操作几次,以确保以后不会传输重复项。
外围服务器核对与已验证连续剧有关的所有数据。
有什么想法吗?
您提出的方法是一个合理的起点,但在第一点就存在缺陷。您隐含地假设 serial
列提供了一些可靠的排序边界。 没有。
- Txn 1 开始
- Txn 2 开始
- Txn 1 获取序列值 4
- Txn 2 获取序列值 5
- Txn 2 次提交
- Txn 3 开始
- Txn 3 拷贝出数据
- Txn 3 通知最高承诺值为 5
- Txn 1 提交
- Txn 3 删除所有 id <= 5 的数据
糟糕。 Txn 3 删除了 id=4,但它不会被复制。这个特殊情况通过创建 txn3 SERIALIZABLE
得到修复,但是如果 Txn3 提交而其他一些 tx txn4 执行删除,问题又回来了。
为了安全起见,您必须在 5 和 7 之间的某处添加屏障,您 LOCK TABLE ... IN EXCLUSIVE MODE
并等待获取锁。这确保没有未完成的写入,所有内容都已提交。您现在可以相信,以后不会提交低于最高值读取的值。
来自不同的(新开始的)xact,然后你pg_export_snapshot
。
导出快照后,您可以回滚获取锁的 xact 并让写入继续。
将导出快照的 xact 保持打开状态。使用 --snapshot
将快照 ID 传递给 pg_dump
,因此它会从您知道最高提交 ID 的虚拟时间点 精确地 转储。在转储完成之前,您必须保持保存快照的 xact 打开,但写入可以同时继续。
您现在可以安全地 DELETE FROM ... WHERE id < x
获取您在持有锁的情况下查找的 x
的值。您知道,由于导出的快照,您没有转储任何具有更高 ID 的内容。而且您知道,由于锁定,您不会错过任何稍后以较低 ID 提交的内容。
看起来很复杂?
相反,我建议使用 PostgreSQL 的逻辑解码功能。使用逻辑解码的工具pglogical,具有使您想做的事情相对容易的功能;它摆脱了排序问题并保证行被复制 exactly 一次。很容易将其设置为复制插入,但不复制删除,因此您可以时不时 DELETE FROM mytable
。
(当然,我是pglogical及其相关工具BDR的开发团队的一员,所以我有偏见)。
您可能面临的主要问题是您必须保留更多数据,因为您需要保留 WAL,而不仅仅是 table 内容。 (从技术上讲,您实际上可以 DELETE
数据一旦 INSERT
ed 就可以复制,但您可能不想这样做)。因此,如果磁盘 space 是一个问题,您可能希望使用转储方法。但是 pglogical3 中的一些重大改进将使这个问题消失。