HP/Tandem NonStop 是如何实现单故障无备件的 FT？

How does HP/Tandem NonStop achieve single failure FT without spares?

据我从维基百科和令人难以置信的 HPE 网站上收集到的信息，NonStop 系统架构的名声在于它可以实现单一故障 FT，而无需分配过多的备用容量（即在锁步架构通常需要 3 倍的超额配置）。

这似乎是一个令人满意的属性，但我找不到有关他们使用的方法和注意事项的更多详细信息。 IE。他们对网络的假设是什么，他们容忍的故障类型，假设的客户端行为，可接受的恢复时间，他们的工作流程运行，等等

谁能简单介绍一下NonStop系统是如何解决故障检测和故障纠正的典型问题的？它是系统级别的通用神奇解决方案，还是需要编写应用程序以使用某些交易设施和检查点数据和通信？

非常感谢！

我认为它类似于IBM 架构，shared nothing 结构。很多冗余，但没有共享或 provisioned/dedicated -- 基于我之前对 IBM z/OS 和大型机的阅读。

通常这种类型的系统使用专有 OS 和修改内核以及特殊 FS/driver 来利用底层硬件。在某些情况下，是的，需要修改应用程序以利用一些特殊的事务库，但这就像水平扩展 RDBMS 时需要为 RDBMS 提供事务锁一样。

其中很多 HA/FT 可以在内核级别实现，从应用程序中抽象出来。

注意 HPE Non-Stop 系统中的芯片，它是 Itanium 架构，而不是常规的 Xeon 芯片。就像IBM有一段时间自己的专有企业classCPUhttps://en.wikipedia.org/wiki/Z/Architecture

HP 的这篇论文从概念上涵盖了您的问题：

绝对不同于 IBM 架构，T/16 CPU 是专有设计。它深受 HP 3000 小型机的影响。最初的 Tandem 团队主要来自 HP 和 Burroughs。

Wiki 在高层次上陈述了大部分内容：https://en.wikipedia.org/wiki/Tandem_Computers