内容简介:据外媒报道,前两天微软的云服务平台 Azure 出现了严重的中断故障,波及微软旗下的众多业务。而中断原因竟是 —— 被雷劈…… 微软表示导致用户无法正常使用几项服务的一起故障归咎于“恶劣天气”: 微软在 Azur...
据外媒报道,前两天微软的云服务平台 Azure 出现了严重的中断故障,波及微软旗下的众多业务。而中断原因竟是 —— 被雷劈……
微软表示导致用户无法正常使用几项服务的一起故障归咎于“恶劣天气”:
微软在 Azure 状态页面上的一份声明中表示:“美国中南部的数据中心附近发生了一起恶劣的天气事件,包括雷击。这导致电源电压升高,从而影响了散热系统。为确保数据和硬件完整性的自动化数据中心程序立即生效,关键硬件进入了有条不紊的断电过程。”
故障刚开始时,Azure 状态页面甚至一度无法打开:
微软表示,位于得克萨斯州的美国中南部数据中心遭到了雷电风暴,结果散热系统出现了故障,迫使该公司关闭了许多服务器和系统,以防遭到更严重的损坏。
散热系统是现代数据中心的一个重要组成部分,因为散热系统是消除在一个封闭的地方紧密堆叠在一起的成千上万台服务器产生的高温所必不可少的。简而言之,如果这个系统出了故障,所有系统都将随之停运。
因此,如果温度上升到超过安全水平,像微软这样的公司落实了自动关闭数据中心机器的程序。这是保护微软数据中心投资的重要措施,但是对云客户来说也带来了很大的不便。
微软提到的恶劣天气很可能与飓风戈登有关,这场1级风暴目前正在得克萨斯州海岸的附近兜转。
微软表示,这起故障已影响了许多 Azure 云服务,包括 Visual Studio Team 服务。停运的其他服务包括 Azure Active Directory 身份管理服务和基于云的生产力套件 Office 365。所以,昨天国内很多开发者也表示 Visual Studio Code 的扩展中心无法搜索插件。
Visual Studio Team Services 小组补充道:“由于一些内部基础设施依赖 Azure 云服务,美国中南部地区以外的企业组织的客户所用的持续集成/持续交付(CI/CD)工作流程和仪表板也可能受到了影响。”
专家们表示,这一事件向使用云服务的企业组织敲响了警钟:说到运行云端的关键工作负载,只有傻瓜才会依赖单单一家提供商。
Mimecast 有限公司的网络弹性专家彼得•班纳姆(Pete Banham)说:“今天 Azure 发生的事件再一次清楚地表明,企业组织需要做好自己的冗余机制,而不是依靠单单一家提供商。”
Constellation 研究公司的首席分析师兼副总裁霍尔格•米勒(Holger Mueller)表示,不过,该事件也给了希望避免将来发生此类事件的微软一个深刻的教训。
米勒说:“这次事件深刻地提醒人们,即使对于像微软这等规模的 IaaS 提供商来说,要保持数据中心正常运行有多难。闪电、洪水、飓风、大雪和暴雨都会影响数据中心的可用性。所以一个关键的问题是,微软从中汲取了什么教训?它如何在将来能避免类似的故障?这给了希望加强云基础设施的公司一个深刻的教训。”
在发布的最新消息中,微软表示它在努力使所有受影响的服务重新上线,不过截止本文发稿时,这项工作仍在进行之中。而 Azure 状态页面也尚未更新相关动态消息。微软的恢复计划如下:
恢复美国中南部数据中心的电源(已完成)
恢复美国中南部 Azure 存储规模单元的软件负载均衡器(已完成)
恢复美国中南部受影响的 Azure 存储规模单元(进行中)
恢复美国中南部剩余的依赖于存储的服务(进行中)
微软表示:“工程师已成功地恢复了数据中心的电源。此外,工程师已恢复了大部分受影响的网络设备。虽然一些服务开始出现了恢复如初的迹象,但抢救工作仍在进行之中。”
不过我们也发现 Azure 服务支持在推特发布的公告,评论中依然有不少用户反映很多服务存在问题。
参考:云头条
【声明】文章转载自:开源中国社区 [http://www.oschina.net]
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:- 因“恶劣天气”Azure 服务中断,目前已逐步恢复
- 免费天气API,天气JSON API,不限次数获取十五天的天气预报
- Linux中断一网打尽(2) - IDT及中断处理的实现
- Kernel trace tools(一):中断和软中断关闭时间过长问题追踪
- Java中断机制
- 展开中断或忽略的序号
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。