偌大的数据中心仅留3名员工值班 微软在澳大利亚的数据中心起火损毁硬件 – 蓝点网
上周 Microsoft Azure 位于澳大利亚新南威尔士州的数据中心发生起火,除了服务全部离线外,这次事故还导致部分硬件被烧毁。此次事故持续将近 24 小时才陆续恢复,其中由于硬件损坏,部分客户的数据无法转移只能通过恢复手段进行复原。 微软已经发布了这次事故的详细报告,报告中提到了一些令人匪夷所思的情况,例如偌大的数据中心,在夜间竟然只有 3 名工程师值班,尽管这 3 名工程师已经尽力,但面对这种情况时仍然忙不过来,进而导致事故变得更严重。 澳大利亚东区数据中心概况:由多个机房组成、使用水冷系统、有 7 台水冷设备其中 5 台为常开机 2 台为备用。 事故时间线: 事故触发原因是新南威尔士州的市电供应出现问题 (8 月 30 日 08:41,注意是 UTC+0 时间非当地时间),导致 5 台常开水冷机组全部挂掉,只有 1 台备用机组自动开机,另一台开机了但又跳闸了。 现场值班工程师按照紧急操作程序试图恢复常开水冷机组但失败了,微软承认由于数据中心园区的规模,夜间团队配备的人手不足以及时重启水冷机组,为此微软临时将夜间值班工程师由 3 名增加到 7 名。 在水冷机组歇菜后,存储和 SQL 服务器发出了告警,此时距离市电供应问题已经过去了 1 个小时 50 分钟。随着水冷机组的歇菜,服务器的温度也越来越高。 接着工程师继续尝试启动水冷机组,但依然没能成功,到 11:20 水冷机组的 OEM 支持工程师抵达现场进行处理,到 11:34 现场工程师最终决定关闭两个受影响的数据大厅的基础设施。 到 12:12 五台常开水冷机组终于手动重启成功,接着数据中心温度开始逐渐下降,随后工程师开始为受影响的基础设施恢复供电,最终到次日 06:40 所有设施恢复、所有数据恢复。 微软大客户受影响严重: 新南威尔士州数据中心托管着微软多个大客户的数据,包括但不限于昆士兰银行、捷星航空 (澳航旗下子公司) 等,这次事故导致微软的这些大客户受到严重影响。 从事故报告来看,故障自动转移进行的似乎并不是很顺利,按照设计逻辑,一旦出现故障,服务会自动转移到其他数据中心确保客户不受影响。 此次故障 Azure 的故障转移也进行了,但效果好像并不是很好,微软表示后续要重新改进。 微软的事后反思: 1. 由于数据中心规模较大,夜间团队人员配备不足,无法及时重启水冷机组,微软暂时将夜间值班人员从 3 名增加到 7 名。 2. 对于这类大型事故,重启水冷机组的经济操作程序执行速度很慢,微软正在探索改进自动化方案用来应对供电等问题。 3. 展望未来,微软正在评估各种方法确保可以对各个水冷机组的子集负载曲线进行优先级排序,以便挂了的时候先将负载最高的机组重启。 4. 利用流程表对工作负载故障转移和设备关闭进行排序,用来确定不同的优先级,同时微软正在改进水冷温度报告,以便更好的根据温度阈值来决定何时进行故障转移或关闭服务器。 5. 五台水冷机组没有重启,因为相应的水泵没有收到水冷机组的运行信号,这很重要,因为水泵对水冷机组的成功启动至关重要,为此微软正在找水冷机组 OEM 调查为什么水冷机组没有命令各自的水泵重启。 6. 由于未知错误,一台备用水冷机组就是跳闸那个没能自动重启,微软正在找 OEM 诊断。
-
上一篇
-
下一篇
- 最近发表
- 随机阅读
-
- 《The Star Named EOS︰未晓星程》7月23日已正式发售
- 2023北昌中下考逝世劣惠景面有哪些
- 2024北京车展:新款捷达VS5售8.79万元起
- 拼多多开启“双11”大促,百亿补贴上线新玩法
- Steam三月第四周销量排行 孤岛惊魂5登顶
- 马云交班人张怯讲2018年单11窜改 最新演讲齐文分享
- 三星a8足机民圆衬着图出炉:尾款Infinity
- 《扫乌风暴》里的反派有多坏?
- PvE迷宫探索《地牢完毕》上线Steam发售时间未确定
- 苹果iPhone X缝隙被乌客收明:可规复被删除照片战文件
- 小白书涉嫌套路营销如何回事 办月卡主动跳转至办年卡
- 2023上海迪士僧烟花秀时候+玩耍攻略
- 《阳阳师》齐新结界皮肤·华夜枫舞 即将上线!
- 2024北京车展:哪吒L纯电版亮相
- 苹果亚洲供应商股价遍及下跌 果新iPhone收卖疲硬导致
- 北京值得往的小众景面保举
- 《饿狼传说:群狼都市》全新参战角色“凯文里安”PV发布
- AMD 7nm措置器到去:从钝龙到现在一个又一个CPU市场
- 美的香港上市申请“抛绣球” 将物色智能家居和ToB领域并购目标
- 蓝光风险品级如此下!您借敢没有放正在眼里蓝光的风险吗
- 搜索
-