微信号:dellemc_tech

介绍:为戴尔易安信客户提供技术支持服务,为广大IT行业用户分享技术文章与行业信息。

水冷故障导致5万网站被迫关闭,这起事故我们应该学到什么

2017-07-31 16:32 戴尔易安信技术支持


墨菲定律说:凡是可能出错的事必定会出错。而位于法国巴黎的一座数据中心就因为侥幸心理,导致5万家网站被迫关闭24小时。事故发生后,该公司公布了调查报告,事情究竟是怎么发生的?我们一起来看。






事故发生



事故发于巴黎的一座数据中心,由全球第三大互联网托管商OVH公司运营。建造设计之初,这座数据中心就运用了水冷系统。然而6月29日晚6:48,其中一个冷水塑料管发生破裂,液体直接流出,导致了事故的发生。



按理来说,采用水冷的数据中心在设计时都会考虑到液体泄露的可能,所以即使发生泄露也能有足够的应对措施,那么这次究竟是怎么回事呢?


原来,真正受到影响的并不是位于泄漏点的服务器,而是一台存储设备,由于该设备并没有采用水冷系统,且两者的距离很近,受到了影响,从而引发电气故障,导致该设备彻底关闭。巧的是,这台存储设备正好是EMC VXN存储阵列(躺着也中枪...)。


事故分析中,OVH承认将两种采用不同冷却机制的服务器安装在同一机房之内是个错误。“我们做出了错误的判断,我们本应为这些存储设施提供最大程度的保护。”




坏事成双



悲剧的是,出现故障的不止水冷系统,语音报警系统也一同出了问题。泄露发生后,位于机架内的传感器立刻发现了液体泄露情况,并将这一信息发送到了语音警报系统。


不巧的是,语音报警系统正在进行更新,导致报警出现延迟。最终,工作人员在泄露发生后的11分钟才赶到现场。


(图片与内容无关)




事故抢救



工作人员赶到后,立即采用了两种方案进行抢救。


Plan A:尝试重启该故障阵列,但由于触发了安全机制而无法启动,并且磁盘数据无法访问。


Plan B:使用一套日备份方案,为了完成数据恢复,OVH公司需要:



  • 在P19数据中心之内从现有服务器上找到充足的可用存储空间。


  • 迁移整套支持服务运行环境(即负责运行数据库的虚拟机、相关操作系统、其特定软件包以及配置文件)。


  • 将数据迁移至新的托管基础设施当中。


OVH公司此前虽然虽然对这一流程进行过基础测试,但却从未以高达5万个网站的规模进行。最终,直到次日晚23:40,整个恢复工作才得以完成,所有受影响的网站恢复上线,但部分用户原本托管的MySQL 5.1实例被恢复成了MySQL 5.5版本。




吸取教训



从这次事故中,我们应该学到......


  1. 不要心存侥幸,采用不同冷却机制的设备应分开放置。

  2. OVH公司虽然进行了恢复,但恢复流程并不顺利,因此面向关键性的系统组件应建立完善的灾难恢复计划与测试方案。

  3. 应定期进行审查以配合系统组件的更换。

  4. 除非对更新进行严格测试,否则不要轻易对关键性系统组件加以更新。


最后,本次事故虽然EMC VNX躺着也中枪,但是如果OVH采用连续数据保护方案,那么造成的影响应该会更小一些。








更多精彩内容,请点击阅读原文”进行查看!

如何每天都能收到如此精彩的文章?

①点击右上角点击查看官方账号”→点击关注

②长按并识别下图中的二维码,直接访问EMC中文支持论坛


 
戴尔易安信技术支持 更多文章 Virtustream将任务关键型应用企业云平台扩展到亚太地区 备份基础之完全、增量与差异备份 您意识到数据货币化的潜力了吗? SmartPools:数据位置,池相关性和用户定义的属性 Dell Technologies:魔法不能实现数字转型,但我们可以
猜您喜欢 计算机程序的思维逻辑 (7) - 如何从乱码中恢复 (下)? 跨界 |《三体》作者、科幻作家刘慈欣受邀担任IDG资本首席畅想官 前端每周清单: GraphQL安全加固,去中心化的Web MongoDB 数据存储分析 | 点融黑帮 PHP语言基础简单整理