HP/Tandem NonStop 是如何实现单故障无备件的 FT?

How does HP/Tandem NonStop achieve single failure FT without spares?

据我从维基百科和令人难以置信的 HPE 网站上收集到的信息,NonStop 系统架构的名声在于它可以实现单一故障 FT,而无需分配过多的备用容量(即在锁步架构通常需要 3 倍的超额配置)。

这似乎是一个令人满意的 属性,但我找不到有关他们使用的方法和注意事项的更多详细信息。 IE。他们对网络的假设是什么,他们容忍的故障类型,假设的客户端行为,可接受的恢复时间,他们的工作流程 运行,等等

谁能简单介绍一下NonStop系统是如何解决故障检测和故障纠正的典型问题的?它是系统级别的通用神奇解决方案,还是需要编写应用程序以使用某些交易设施和检查点数据和通信?

非常感谢!

我认为它类似于IBM 架构,shared nothing 结构。很多冗余,但没有共享或 provisioned/dedicated -- 基于我之前对 IBM z/OS 和大型机的阅读。

通常这种类型的系统使用专有 OS 和修改内核以及特殊 FS/driver 来利用底层硬件。在某些情况下,是的,需要修改应用程序以利用一些特殊的事务库,但这就像水平扩展 RDBMS 时需要为 RDBMS 提供事务锁一样。

其中很多 HA/FT 可以在内核级别实现,从应用程序中抽象出来。

注意 HPE Non-Stop 系统中的芯片,它是 Itanium 架构,而不是常规的 Xeon 芯片。就像IBM有一段时间自己的专有企业classCPUhttps://en.wikipedia.org/wiki/Z/Architecture

HP 的这篇论文从概念上涵盖了您的问题:

http://www.hpl.hp.com/techreports/tandem/TR-86.2.pdf

绝对不同于 IBM 架构,T/16 CPU 是专有设计。它深受 HP 3000 小型机的影响。最初的 Tandem 团队主要来自 HP 和 Burroughs。

Wiki 在高层次上陈述了大部分内容:https://en.wikipedia.org/wiki/Tandem_Computers