微软公布11月8日Azure宕机幕后原因?
11月18日,微软Azure客服中断,影响了Azure存储以及包括虚拟机在内的一些其他服务。今天,微软宣布了问题的根本原因以及如何改进。首先,服务中断是由Azure存储配置的变化引起的。
部署变更时有两个操作错误:
1.在实施标准的leap部署策略时,有一些细节没有涉及。
当工程师修复Azure Table存储性能问题时,他们认为几周前已经更改了部分基础架构,但遗憾的是,配置工具没有完全实现整个基础架构的部署更改。
2.虽然微软已经对Azure Table存储前端做了测试和生产前验证,但配置错误启用,导致Azure Blob存储前端进入无限循环,无法应答服务请求。我们的工程团队在几分钟内收到了自动监控警报。我们在0分钟内全局恢复了部署更改,避免了Azure Blob存储前端出现同样的问题,但是Azure Blob存储前端已经进入无限循环,无法接受任何配置更改。这些配置恢复需要重新启动,这也延长了优艾设计网_Photoshop问答恢复时间。
微软表示,将致力于改善Azure平台的体验,并对:进行以下改进。
-存储服务中断:确保增量批次发生变化时,部署协议的执行标准得到加强。
-虚拟机服务中断:改进了Windows和Linux的VW恢复机制。改进由存储导致的Windows Installer配置失败的检测和恢复。
-修复网络服务网络编程错误。
:号来文
-修复由服务运行状况仪表板的错误配置导致的标题状态不正确的问题。
——实施新型社交媒体传播机制。
-提高健康仪表盘和创意工具的容错能力。
支持:
提供微软支持自动化工具和基础设施的容错能力。
Azure CTO Mark Russinovich走访了第九频道,详细回顾了调查过程,并描述了团队如何积极改善Azure平台的用户体验。
精彩评论