第359章 高可用指标、系统集成与优化

秦奕微微点头,条理清晰地介绍起来:“高可用指标大致涵盖基础可用性、业务连续性、数据一致性、性能与容量这四大方面,此外,还需配套相应的高可用性验证方法。”

“先说基础可用性指标。可用性百分比,指的是系统在指定时间内提供服务的时间占比,通过 1 减去计划外停机时间与总运行时间的比值,再乘以 100% 计算得出。光讲概念可能不太直观,我举几个例子。”

“一个可用性 99% 的系统,一年 365 天里,停机时间不超过 3.65 天,这类系统适用于非关键的内部工具,而可用性 99.9% 的系统,每年停机 8.76 小时,企业级 ERP 系统常用这类标准。”

“我认为,机场运行控制中心整体可用性至少要达到 99.99%,也就是一年不可用时间不超过 1 小时。其中,协同决策系统、应急响应等关键子系统,应朝着 99.999% 的标准努力,年停机时间需要能控制在 5 分钟以内。”

“平均故障间隔时间,反映系统两次故障之间的稳定运行时长,常作为硬件选型的参考。就像咱们讨论的企业级专用存储,其平均故障间隔时间通常要求不少于 200 万小时。要是磁盘矩阵的间隔时长超过这个标准,就说明它的可靠性更有保障。”

“行啊。” 吴松英点了点头,“那我后续重点关注下,看看你提出的磁盘矩阵方案,在这项指标上是不是更可靠。”

“哈哈,那吴市长你就期待一下吧。”秦奕接着说道,“剩下的最后一个基础可用性指标,平均修复时间是系统从故障发生到恢复的平均时长,这里定义的修复包括检测、诊断、修复、验证的整个流程。”

“这项指标主要用于指导我们快速恢复服务。”

“在故障发生之前,我们首先得想办法通过监控或者其他什么方式了解系统的整体运行状态,这样在故障发生之后运维人员能快速定位故障位置,同时在定位到故障之后,运维人员需要优先采用一些方式绕过故障硬件,恢复服务,而非急着彻底修复硬件。”

“接着是业务连续性指标,主要包括恢复时间目标和恢复点目标。前者指灾难发生后,系统恢复到可接受服务水平的最大容忍时间;后者则是灾难恢复时,允许的数据丢失量时间窗口。”

“这两项指标,对系统降级功能的设计起着指导作用。”

“一般来说,一个系统功能繁杂。以机场运行控制中心为例,除核心的航班、机位调度功能外,还会开发一些方便旅客的非核心商务功能。一旦系统崩溃,我们就得优先调配硬件资源,恢复航班、机位调度功能。”