行业调研丨数据中心故障为哪般？

自打进了第三季度，全球各顶尖大厂的数据中心就没消停过，7月谷歌和甲骨文英国服务器宕机，8月谷歌爱荷华州数据中心爆炸，眼看熬到9月了，Twitter加州数据中心又瘫了…虽然每次都成功的把问题推到了极端天气这种“不可抗力”上，但机房的冷却系统、设备供电和相关运维操作方面多多少少也要背点责任。金石易服作为老牌第三方数据中心运维服务提供商，在保障数据中心平稳安全运行方面拥有丰富经验。近期，金石在全国范围内近300个数据中心运维项目中，抽取了部分机房针对运维故障开展了一次调研。

调研结果显示，在“导致数据中心基础设施服务中断的外部因素占比”中，有45.8%的受访数据中心在2年内没有因外部因素出现过故障。在其他出现过故障的数据中心中，因市政供电、市政停水、供冷中断、限电等因素出现故障的情况较多，总数达到了全部故障的90%。由此可见，市政配套资源的多样性和稳定性对数据中心的平稳运行起着至关重要的作用。

在“导致数据中心基础设施服务中断的运维故障占比”中，各类故障原因相对平均，没有特别集中的问题，其中系统设备故障占比相对最高，这一结果也在意料之中，设备因长期运行不可避免的会发生老化问题造成故障，目前只能通过定期健康检查，提前更换维修并做好维护保养，减少此类设备故障的发生。

在“导致数据中心IT服务中断的主要原因占比”中，因电力引起的故障较为突出，无论是停电还是限电，对数据中心的平稳运行都是个大麻烦，另外在大面积进行切换的情况下会有一些服务器的电源失效，也会造成一些问题。

一线工程师流动性大、高标准人才招聘困难已经是数据中心行业老生常谈的问题了，无论数字经济如何蓬勃发展，“东数西算”工程如何稳步推进，产业规模虽然越来越大，但高素质的人才培养并没有显著增速，造成人才的摊薄，反而加剧了人才匮乏的问题。系统自动化程度低、节能空间局限，系统/设备故障率高，这类问题都属于机房基础设施架构的问题，从机房落成，服务器上架就埋下了伏笔，如不付出巨大成本代价，很难有本质的改善，作为第三方运维服务提供商，也只能针对此类已知问题着重优化巡检机制，在故障发生前处置问题。

最后，在“数据中心预防性管理措施”的调研中，措施基本围绕设备管理和人员管理两方面展开。 设备管理 更换设备、加强或升级设备功能、升级冗余配置、增强备件储备、设备预测性管理、数据中心健康度监测都属于从系统设备端着手，保证设备时时处于良好的运行状态，拥有充足备件应对突发问题，从而保障数据中心平稳有序运营。 人员管理 提高人员能力或管理力度、加强风险排查力度、增加人员储备、增加公司内部支撑力量属于从人员管理侧入手，通过培训和组织架构调整，全面提升运营人员技术水平和管理力度，增强巡检质量，从而保障及时预防风险。金石认为，在应对数据中心故障方面，处理水平分为三个阶段。初级阶段是被动处理，虽然可以修复故障，但在故障造成的损失巨大；中级阶段是主动排查，及时发现风险，在未形成大范围影响时进行处置，普适性强，只要人员经过严格培训，基本就可以做到；高级阶段提前预警，通过对运营数据的监测推演，做到提前发现故障源，将风险扼杀在摇篮中，但对数据中心的基础设施建设有较高的要求，现阶段还无法大面积应用。金石易服始终坚持以人为本，通过自有仁知学院自主培养相关专业技术人才，并定期组织技能培训提升技能，制定4T法则规范工作流程，保障操作水平，全力维护数据中心安全、平稳、有序运行，为客户提供卓越服务。

case studies

See More Case Studies

News

致客户的一封信

您好！
感谢您一直以来对金石易服的信任和支持，您的满意是我们最大的动力。我们非常荣幸地向您宣布，金石易服正式启动了全新的战略转型，将“EASY AIGC”作为公司的新定位，简称EZAIGC。这是我们为了更好地适应市场变化，迎接未来的挑战和机遇，做出的重大决策。作为一家专注于数据中心轻资产服务的领先企业，我们深刻地认识到AIGC技术的重要性和潜力，因此我们决定全面拥抱AIGC。将其作为我们的核心竞争力

Learn more

News

金石易服2023年度暨2024年工作会议圆满召开

早春三月，万物复苏，金石易服迎来了一年一度的盛会——2023年度暨2024年工作会议。
本次会议旨在指明未来战略方向、明确长期定位、凝聚团队力量，为公司未来的发展描绘出清晰的蓝图。
本次全面梳理和规划了2024年的战略方向，明确了全球各区域的工作目标及业务重点，通过这一系列的部署和安排，金石希望能够在新的一年里实现更加稳健和可持续的发展。

Learn more