宕机这回事:Microsoft Azure不是独一份?
当所有人都在关注诺基亚的新安卓平板电脑N1时,微软云服务微软Azure今天意外中断,导致全球范围内的失败。虽然微软在短时间内恢复了微软Azure的服务,但还是造成了不小的影响。
按照微软目前的说法,对客户的影响程度还没有估计出来,但对消费者最直接的影响就是无法访问微软的一些服务,比如微软OneDrive、Xbox Live、Windows Phone开发者官网等等。
那么你可能会说,云服务难道不是有史以来最安全的运维服务吗?为什么还有停机时间?
事实上,云服务并非完全没有问题。就像现在,我们可以看到很多云服务提供商都提出了99.99甚至更高的服务保障,但是没有人敢说他们的云服务完开发者_如何转开发全没有问题。甚至亚马逊的AWS和微软的微软Azure。
我们从最简单的层面理解云服务的后台后端,云服务商以数据中心的形式,花费大量的成本置办了诸多服务器,建造专门的机房、铺设了专用的线路,我们甚至在微软雷德蒙德的数据中心看到了自然吸气技术的运用,在中国世纪互联用两个相距超过1000公里的两个数据中心保障数据的异地安全。在大量基础设施投入之后,云服务商将自己的服务提供给全球不同地方的客户。通过高度集中的资源整合,云服务往往能够提供最高级别的安保、最高级别的SLA(Service-Level Agreement)保障。
可以看出,本质上,云服务的优势在于资源的高度聚合,为用户提供更灵活、更低成本的服务,但只要是设备,就有失败的可能。以微软的微软Azure为例。微软花费大量精力来确保后端不出现故障,当出现故障这样的事件时,微软也花费大量资源来尽快恢复服务。
从去年到今年,云服务的概念是两年来最热的,各大云服务提供商都经历了大大小小的宕机事件。去年,亚马逊在8月19日和8月26日两次宕机,用户无法通过Amazon.com、亚马逊移动等网站购物,部分AWS用户受到影响,导致亚马逊损失约700万美元。2013年8月16日,谷歌倒闭。停机给谷歌造成了约55万美元的损失。同样,2013年8月,近300万用户受到苹果iClould宕机的影响。
停机不仅仅发生在微软的微软Azure上。从上面的例子可以看出,各大云服务提供商或多或少都存在这样的问题。“永不掉线”是所有云服务提供商都在追求的目标。理论上来说,实现起来有很大阻力。现在微软在不同的地方有大量的数据中心,它正在努力做的是确保所有的数据中心都在最稳定的状态下运行,尽量避免出现问题。
精彩评论