波纹集群备份

Riak Cluster Backup

我们在 Amazon EC2 上有一个五节点 Riak 集群(n_val 是 3)运行分布在多个可用性区域。由于我们没有企业版,我们没有多数据中心复制和完全同步到不同 zone/region 的奢侈。

我们目前的备份策略是这样的:

我已经在没有太多活动 activity 的 3 节点测试集群上测试了这种方法,并且可以毫无问题地从快照中恢复。我想从这里的专家那里了解这种方法是否适用于重 activity 的生产集群。在关闭节点并再次启动节点期间,我们会 运行 讨论与切换相关的任何问题吗?是否还有其他我目前没有意识到的事情,可能会在灾难发生时阻碍恢复的机会?

提前致谢!

backup documentation 表示

Riak backups can be performed using OS features or filesystems that support snapshots, such as LVM or ZFS, or by using tools like rsync or tar

我从未使用过 EBS 快照,但我很确定它可以被视为 "filesystem that supports snapshots"

所以,只要在备份之前关闭每个节点,就可以了。

关于切换:我建议您在备份节点 A 后,在备份下一个节点 B 之前,等待创建的所有切换(因为 A 已关闭)转移到 A。

注意不要将所有单个节点的备份视为与"backup of the entire cluster"相同。每个节点将单独备份。如果您的集群处于繁重的写入负载下,并且您等待在备份之间转移切换,那么您不能认为您的节​​点备份是同时完成的。

没什么大不了的:当您从备份中恢复节点时,您可以触发读取修复,或者等待 AAE 为您修复数据。当您从备份中恢复节点时,您可能希望将 AAE 配置为更具攻击性。