为什么使用空操作来填补 paxos 事件之间的空白是合法的?

Why is it legit to use no-op to fill gaps between paxos events?

正在学习Paxos算法(http://research.microsoft.com/en-us/um/people/lamport/pubs/paxos-simple.pdf),有一点不懂。

我们知道事件遵循及时的顺序,例如,事件 1-5 和 10 已经决定,但之后的 6-9 和 11 尚未确定。在上面的论文中,它说我们简单地用空操作值填充 6-9 之间的间隙,并简单地记录从 11 开始的新事件。

所以在这种情况下,由于事件 10 已经被记录,我们知道某些类型的事件一定发生在 5 到 10 之间,但由于某些失败而没有被 Paxos 记录。如果我们简单地填写无操作值,这些事件将在我们的记录中丢失。

更糟糕的是,如果正如我上面链接的论文所说,事件实际上是来自客户端的命令,那么中间缺少一些命令可能会使整个操作集非法(如果 none命令的一部分可以跳过或者它们的顺序很重要)。

那么为什么 Paxos 为事件之间的间隙填充空操作值仍然是合法的? (如果整个记录集可能因为我上面所关心的空操作值而无效。)此外,是否有更好的方法来从这种差距中恢复而不是使用空操作?

系统模型允许命令(消息)无论如何都会被网络丢失。如果消息丢失,客户端最终会重试请求;所以放弃其中一些是可以的。如果客户端的命令必须按客户端顺序执行,那么要么客户端只同步发送命令;或者命令必须在库中的更高级别排序并在执行之前保存在某个客户端会话对象中。

据我所知,Zab 协议可以保证客户端顺序,如果您不想在更高级别实施的话。

这是一个由多个部分组成的答案。

提出无操作值是发现尚未到达节点的命令的方法。我们不会简单地用空操作命令填充间隙中的每个槽:我们建议每个槽都用空操作填充。如果 任何 对等方已经接受了一个命令,它将 return 在 Prepare-ack 消息中发送该命令,提议者将使用 that 命令而不是空操作。

例如,假设一个节点位于临时网络分区之后,无法与其他节点一起玩插槽 6-9。它知道它错过了在插槽 10 中学习命令的机会。然后它提出无操作以了解在这些插槽中决定的内容。

实际实现也有一个带外学习协议来批量学习大量转换。

命令在完全决定之前不是命令在那之前它只是一个提议 命令。 Paxos 是关于在来自多个客户端的竞争命令之间进行选择。客户必须准备好拒绝他们的命令,因为选择了另一个客户的命令。

实际实现都是关于选择客户端命令的顺序。他们的世界观是预写日志,他们将命令放在该日志中。如果没有选择他们的命令,他们会在下一个时段重试。 (有很多方法可以减少争用;Lamport 提到将请求转发给领导者,例如在 Multi-Paxos 中所做的。)

实际系统也有一些方法可以在提出命令之前知道命令是否无效;例如知道一组读取和一组写入。这很重要,原因有二。首先,它是一个异步的多客户端系统,当客户端的命令到达服务器时,任何事情都可能发生变化。其次,如果两个并发命令不冲突,那么两者都应该能够成功。