Debezium 心跳未提交 LSN
Debezium heartbeat is not committing LSN
我们有 13 个 (Amazon RDS) 由部署在 Kafka Connect 集群中的 debezium 监控的数据库。
现在发生的事情是这 13 个数据库中有 1 个有一个复制槽,它的延迟越来越大。
12 个数据库有 10 到 120 kB 的延迟,而此时有一个超过 700 MB。
正在使用
SELECT slot_name,
pg_size_pretty(pg_wal_lsn_diff(pg_current_wal_lsn(), restart_lsn)) as replicationSlotLag,
pg_size_pretty(pg_wal_lsn_diff(pg_current_wal_lsn(), confirmed_flush_lsn)) as confirmedLag,
active
FROM pg_replication_slots;
复制槽处于活动状态;我检查了连接器状态 (GET kafka-connect:8083/<connector-name>/status
),连接器和任务都处于 运行 状态。
要添加更多信息,我们已启用心跳和 heartbeat.action.query
以定期在发件箱 table 中插入一个虚拟事件,因此我希望每 10 秒收到每个受监控数据库的新更改
我们已经尝试过:
- 检查心跳线程故障的日志,但我们没有看到任何异常
- 重新启动集群,但延迟仍然存在
- 检查滞后数据库的相关心跳主题,那里没有消息,即使在集群重启后也是如此
有人知道发生了什么事吗?
看起来在滞后的数据库上手动执行 heartbeat.action.query
就可以了......仍然不知道为什么或什么时候发生
我们有 13 个 (Amazon RDS) 由部署在 Kafka Connect 集群中的 debezium 监控的数据库。 现在发生的事情是这 13 个数据库中有 1 个有一个复制槽,它的延迟越来越大。
12 个数据库有 10 到 120 kB 的延迟,而此时有一个超过 700 MB。
正在使用
SELECT slot_name,
pg_size_pretty(pg_wal_lsn_diff(pg_current_wal_lsn(), restart_lsn)) as replicationSlotLag,
pg_size_pretty(pg_wal_lsn_diff(pg_current_wal_lsn(), confirmed_flush_lsn)) as confirmedLag,
active
FROM pg_replication_slots;
复制槽处于活动状态;我检查了连接器状态 (GET kafka-connect:8083/<connector-name>/status
),连接器和任务都处于 运行 状态。
要添加更多信息,我们已启用心跳和 heartbeat.action.query
以定期在发件箱 table 中插入一个虚拟事件,因此我希望每 10 秒收到每个受监控数据库的新更改
我们已经尝试过:
- 检查心跳线程故障的日志,但我们没有看到任何异常
- 重新启动集群,但延迟仍然存在
- 检查滞后数据库的相关心跳主题,那里没有消息,即使在集群重启后也是如此
有人知道发生了什么事吗?
看起来在滞后的数据库上手动执行 heartbeat.action.query
就可以了......仍然不知道为什么或什么时候发生