CPCI总线的冗余设计、故障切换和故障管理
发布时间:2022/4/27
可用性技术的目标就是通过硬件和软件设计,使系统的宕机时间(Downtime) 为最小。今天,大多数电信设备供应商都将高可用性作为一个主要的技术指标。电信设备要求系统每年的连续运行时间为99.999%,即每年宕机时间不超过5 分15秒钟。根据可用性的计算公式 Availability = MTBF / ( MTBF + MTTR ),给出下表。
系统可用性示意表
9's |
Availability |
Downtime/Year |
Examples |
1 |
90.0% |
36 days 12 hours |
Personal clients |
2 |
99.0% |
87 hours 36 minutes |
Entry-level businesses |
3 |
99.9% |
8 hours 46 minutes |
ISPs, mainstream businesses |
4 |
99.99% |
52 minutes 33 seconds |
Data centers |
5 |
99.999% |
5 minutes 15 seconds |
Carrier-grade Telco, medical, banking |
6 |
99.9999% |
31.5 seconds |
Military defense system, CG goal |
从技术的角度来看,PICMG发布的热插拔规范只是“预警”机制,也就是当系统出现 故障时,通过一种方式通知操作员按照规定的程序,在不关机的条件下更换故障模板,使系统继续运行。当然,在一定时间内,故障模板上的功能是不能工作的。但 高可用性系统必须具有故障自动检测、诊断和排除故障能力,保证系统所有功能都正常连续运行。这就需要冗余设计(Redundancy)、自动故障切换 (Failover)以及进行故障管理(Fault Management)。
冗余设计的目的是为了消除单点故障(Single Point of Failure)。单点故障是指“由于系统中一个部件出现故障而将导致整个系统大部分失效或完全失效的故障”。这是高可用性系统所不允许的。冗余设计分为系统槽冗余、I/O冗余和整机冗余。
系统槽冗余(Redundancy of System Slot, RSS),也称为CPU板冗余。在传统CPCI系统中,CPU板冗余主要有两种方式,即主/主方式(Active/Active)和主/备方式 (Active/Standby)。在主/主方式中,将系统分成2个独立的段(Segment),每段一般6个插槽。每个CPU板管理一个段,两个CPU 同时工作。当一个CPU板出现故障时,这个CPU板被隔离,由另一个CPU接管控制权来同时管理2个段,维持系统的正常运转。在主/备方式(Active /Standby)中,在某一时间段,系统只有一个CPU工作。当一个CPU出现故障时,系统马上切换到备份CPU板,由备份CPU板接管系统的控制权, 故障CPU板被迅速隔离。备份CPU板是处于“热备份”状态,还是处于“冷备份”状态,需视具体情况而定。当然,冗余设计和多主系统设计是不能等同起来 的,多主系统可以实现负载均衡,但CPCI的冗余设计一般还不能。在CPCI系统中,CPU板与段之间的连接和故障切换需要通过PCI-to-PCI桥或 Switched PCI Fabric实现。
I/O冗余(Peripheral Redundancy)。I/O模板的热插拔功能可以缩短系统的MTTR,但却不能防止系统出现宕机。为此,需要设计I/O冗余。I/O冗余一般采用主 /备机制,当主工作不正常时,在没有人干预的情况下,自动切换到备份,由备份I/O板作为主I/O板,接替原主I/O板的工作。然后通知系统维护人员,更 换故障I/O,将系统恢复到冗余状态。
故障管理。为了将系统的宕机时间降到最短,系统还必须有完善的故障管理机制。故障管理一般分为5个阶段或过程:
·故障检测(Detection);
·故障诊断与定位(Diagnosis & Location);
·故障隔离(Isolation);
·故障切换(Failover);
·故障排除(Repair or Replacing)。
当然,系统的高可用性硬件设计也只能保证硬件系统连续工作,但不能保证系统连续可 用,还需要高可用性系统管理软件的支持。高可用性系统管理软件一般分三个层次:底层硬件驱动程序,由硬件供应商提供;中间层是软件中间件 (middleware),对系统工作状态进行检测、实现硬件资源管理与切换,一般由第三方提供;最上层是系统应用管理软件,对整个系统进行管理,保证信 息的正常流通和信息的完整性,一般由系统设备制造商针对特定应用自行研制。
需要指出的是,多处理器技术(Multi-Processors, MPS)也是冗余设计中经常采用的技术之一,一般分为对称多处理器(Symmetric Multi-Processor, SMP)系统以及非对称多处理器(Asymmetric Multi-Processor, AMP)系统两种。冗余设计也可以采用系统级冗余设计,如双机冗余和三模冗余(Triple Modular Redundancy, TMR)等。
上海高临电子有限公司经过多年的积累和创新,我们已经自主研发了多种基于CPCI、PXI/PXIe、VPX等总线技术的19寸上架式计算机平台,产品包括背板、机箱、电源、控制器以及国产化的飞腾主板,提供基于标准化及定制化产品的开发设计,向客户提供符合行业标准的产品和服务。
服务于客户是我们的宗旨。关注客户需求,满足客户需求,通过服务为客户创造价值,是我们不懈的追求;通过快速反应、精益生产、专业服务,实现产品性能和价值最大化,同时将费用和复杂性降到最低。
服务于客户是我们的宗旨。关注客户需求,满足客户需求,通过服务为客户创造价值,是我们不懈的追求;通过快速反应、精益生产、专业服务,实现产品性能和价值最大化,同时将费用和复杂性降到最低。 备案号:沪ICP备20004832号-1 |
联系我们
联系地址
上海市松江区九新公路1198号G60微衡科技园2号楼4层
邮编:201615
电话:021-67630928
传真:021-67630905
手机:18939739869(同微信)
Q Q: 2814911302
|
快速链接 |