自打进了第三季度,全球各顶尖大厂的数据中心就没消停过,7月谷歌和甲骨文英国服务器宕机,8月谷歌爱荷华州数据中心爆炸,眼看熬到9月了,Twitter加州数据中心又瘫了…虽然每次都成功的把问题推到了极端天气这种“不可抗力”上,但机房的冷却系统、设备供电和相关运维操作方面多多少少也要背点责任。
金石易服作为老牌第三方数据中心运维服务提供商,在保障数据中心平稳安全运行方面拥有丰富经验。近期,金石在全国范围内近300个数据中心运维项目中,抽取了部分机房针对运维故障开展了一次调研。
调研结果显示,在“导致数据中心基础设施服务中断的外部因素占比”中,有45.8%的受访数据中心在2年内没有因外部因素出现过故障。在其他出现过故障的数据中心中,因市政供电、市政停水、供冷中断、限电等因素出现故障的情况较多,总数达到了全部故障的90%。由此可见,市政配套资源的多样性和稳定性对数据中心的平稳运行起着至关重要的作用。
在“导致数据中心基础设施服务中断的运维故障占比”中,各类故障原因相对平均,没有特别集中的问题,其中系统设备故障占比相对最高,这一结果也在意料之中,设备因长期运行不可避免的会发生老化问题造成故障,目前只能通过定期健康检查,提前更换维修并做好维护保养,减少此类设备故障的发生。
在“导致数据中心IT服务中断的主要原因占比”中,因电力引起的故障较为突出,无论是停电还是限电,对数据中心的平稳运行都是个大麻烦,另外在大面积进行切换的情况下会有一些服务器的电源失效,也会造成一些问题。
一线工程师流动性大、高标准人才招聘困难已经是数据中心行业老生常谈的问题了,无论数字经济如何蓬勃发展,“东数西算”工程如何稳步推进,产业规模虽然越来越大,但高素质的人才培养并没有显著增速,造成人才的摊薄,反而加剧了人才匮乏的问题。
系统自动化程度低、节能空间局限,系统/设备故障率高,这类问题都属于机房基础设施架构的问题,从机房落成,服务器上架就埋下了伏笔,如不付出巨大成本代价,很难有本质的改善,作为第三方运维服务提供商,也只能针对此类已知问题着重优化巡检机制,在故障发生前处置问题。
最后,在“数据中心预防性管理措施”的调研中,措施基本围绕设备管理和人员管理两方面展开。
设备管理
更换设备、加强或升级设备功能、升级冗余配置、增强备件储备、设备预测性管理、数据中心健康度监测都属于从系统设备端着手,保证设备时时处于良好的运行状态,拥有充足备件应对突发问题,从而保障数据中心平稳有序运营。
人员管理
提高人员能力或管理力度、加强风险排查力度、增加人员储备、增加公司内部支撑力量属于从人员管理侧入手,通过培训和组织架构调整,全面提升运营人员技术水平和管理力度,增强巡检质量,从而保障及时预防风险。
金石认为,在应对数据中心故障方面,处理水平分为三个阶段。初级阶段是被动处理,虽然可以修复故障,但在故障造成的损失巨大;中级阶段是主动排查,及时发现风险,在未形成大范围影响时进行处置,普适性强,只要人员经过严格培训,基本就可以做到;高级阶段提前预警,通过对运营数据的监测推演,做到提前发现故障源,将风险扼杀在摇篮中,但对数据中心的基础设施建设有较高的要求,现阶段还无法大面积应用。
金石易服始终坚持以人为本,通过自有仁知学院自主培养相关专业技术人才,并定期组织技能培训提升技能,制定4T法则规范工作流程,保障操作水平,全力维护数据中心安全、平稳、有序运行,为客户提供卓越服务。




