Cassandra 顺序修复不会修复一个 运行 上的所有节点?

Cassandra sequential repair does not repair all nodes on one run?

前天,我使用以下命令对 5 节点 Cassandra 集群中的一个节点进行了单个 table 的完整顺序修复。

nodetool repair -full -seq -tr <keyspace> <table> > <logfile>

现在发出命令的节点已正确修复,从以下命令可以推断

nodetool cfstats -H <keyspace.columnFamily>

但是,对于其他节点不能说相同,因为对于它们我得到修复百分比的随机值,明显更小。

我不确定这里发生了什么,看起来唯一为键空间和列族修复的节点是发出修复命令的节点。关于这里可能发生的事情或如何正确调查问题的任何猜测

谢谢!

你说你的集群有 5 个节点,但不是你为 table 使用的 复制因子 (RF) - 我假设你使用的是通用的射频=3。当RF=3时,每条数据在5个节点上复制3次。

您错过的关键点是,在这样的设置中,每个特定节点包含所有数据。它包含多少总数据?做个简单的数学运算:如果实际插入到table中的数据量是X,那么集群存储的数据总量就是3*X(因为RF=3,每块有3份数据的)。这个总数分布在 5 个节点上,因此每个节点将持有 (3*X)/5,即 3/5*X。

当你在一个特定的节点上开始修复时,它只修复这个节点拥有的数据,即我们刚刚计算的,总数据的3/5。这个repair做的是针对这个节点持有的每一条数据,将这个数据和其他replicas持有的副本进行比较,修复不一致的地方,修复all这些副本。这意味着当修复结束时,在我们修复的节点中,它的所有数据都被修复了。但是对于其他节点,并不是所有的数据都被修复了——只是与发起此修复的节点相交的部分。这个交集应该大约是数据的 3/5*3/5 或 36%(当然一切都是随机分布的,所以你很可能得到一个接近 36% 但不完全是 36% 的数字)。

所以您现在可能已经意识到,这意味着 "nodetool repair" 不是集群范围的操作。如果在一个节点上启动,则只能保证修复一个节点上的所有数据,而在其他节点上可能修复较少。因此,您必须 运行 分别对每个节点进行修复。

现在你可能会问:既然修复节点1也修复了节点2的36%,那我们已经完成了36%的工作,还修复节点2岂不是浪费?确实,这是一种浪费。所以 Cassandra 有一个修复选项“-pr”("primary range"),它确保每个片段数据的 3 个副本中只有一个会修复它。使用 RF=3,"nodetool repair -pr" 将比不使用“-pr”快三倍;您仍然需要在每个节点上单独 运行 它,当所有节点完成时,您的数据将在所有节点上 100% 修复。

所有这些都相当不方便,而且在长时间的维修过程中也很难从瞬态故障中恢复过来。这就是为什么 Datastax 和 ScyllaDB 的两种商业 Cassandra 产品都提供了一个单独的修复工具,它比 "nodetool repair" 更方便,确保以最有效的方式修复整个集群,并从瞬态问题中恢复无需从头开始进行冗长的修复过程。