微软称 Azure 故障是由 Azure 存储服务升级导致?
微软Azure本周近11个小时的故障是由微软Azure存储服务升级的性能更新引起的。微软Azure Enterprise副总裁Jason Zander解释了此次失败的原因,并向所有受影响的Azure用户道歉。
太平洋时间11月18日晚,部分Azure用户在美国、欧洲和亚洲的存储和网站服务无法访问,也影响了部分Xbox LIVE用户的在线访问,包括微软MSN.com网站、Visual Studio Online和搜索。更糟糕的是,Azure服务运行状况和Azure管理门户都依赖于Azure存储服务,这两种服务都不开发者_Python百科能正确显示Azure故障状态—当Azure出现故障时,服务状态显示为正常。
虽然微软已经对Azure存储服务的性能更新进行了几周的测试,但直到微软部署到Azure,才意识到“无限循环”的问题。微软在发现问题后立即回滚了更新,但仍需要重新启动存储前端才能完全恢复。根据官方的失败报告,“这种失败已经被广泛传播。由于操作错误,更新在短时间内迅速部署到大多数数据中心。通常,这种生产环境的部署是渐进的”。
杰森詹德也承诺尽可能避免这样的失败:
确保部署工具使用渐进式部署来改进恢复方法,以最大限度地缩短恢复时间,修复存储前端中的无限循环错误,然后部署到生产环境中,以改进服务运行状况体系结构和协议。
精彩评论