SRE 超载系统导致,谷歌发布宕机事故分析报告

栏目: IT资讯 · 发布时间: 6年前

内容简介:谷歌发布了 12 日大面积服务中断事故的分析报告,指出系 SRE 超载系统使得 Google 云存储错误率提高导致。 12 日全球各地的许多用户反映使用 Gmail、YouTube、Google Drive、谷歌音乐与谷歌的其它服务时都遇到了问...

谷歌发布了 12 日大面积服务中断事故的分析报告,指出系 SRE 超载系统使得 Google 云存储错误率提高导致。

SRE 超载系统导致,谷歌发布宕机事故分析报告

12 日全球各地的许多用户反映使用 Gmail、YouTube、Google Drive、谷歌音乐与谷歌的其它服务时都遇到了问题,包括北美洲、南美洲、欧洲和亚洲的部分地区都受到影响,谷歌随后承认出现故障,谷歌云平台状态页面(Google Cloud Status Dashboard)显示,此次故障影响了谷歌云存储的所有区域。

当地时间 14 日,谷歌发布了针对该事件的分析报告。

谷歌表示内部 blob(大型数据对象)存储服务经历了 4 小时 10 分钟的服务中断。分析了根本原因,其指出在 3 月 11 日,Google SRE 被告警内部 blob 服务使用的元数据的存储资源显著增加;3 月 12 日,为了减少资源使用,SRE 进行了配置更改,其副作用是使系统的关键部分超载以查找 blob 数据的位置,而增加的负载最终导致级联故障

更具体的,12 日 18:40 到 22:50,谷歌内部 blob 存储服务错误率提高,平均错误率为 20%,事件发生时错误率为 31%,用户可见的 Google 服务,包括使用 blob 存储服务的 Gmail、照片和 Google 云硬盘错误率也提高了,如果没有这些服务中内置的缓存和冗余机制极大地降低了用户影响,那么后果会更加严重。

此次事故中,重大的影响包括:Google 云存储的长尾延迟较高,平均错误率为 4.8%,所有存储桶位置和存储类都受到影响,依赖于云存储的 Google 云平台服务也受到影响;Stackdriver Monitoring 在检索历史时间序列数据时出现了高达 5% 的错误率,最近的时间序列数据可用,警报没有受到影响。App Engine 的 Blobstore API 出现了较高的延迟和错误率,在获取 blob 数据时达到峰值 21%,App Engine 部署出现了高达 90% 的错误,从 App Engine 提供静态文件也会出现错误率提升。

谷歌表示非 Google 云平台服务受到的影响将会有单独的事件报告。

对于因此事件受到影响的服务与应用客户,谷歌深表歉意,并表示正在采取措施以提高可用性并防止此类中断再次发生。

详情查看:https://status.cloud.google.com/incident/storage/19002


以上所述就是小编给大家介绍的《SRE 超载系统导致,谷歌发布宕机事故分析报告》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Python 3面向对象编程

Python 3面向对象编程

[加]Dusty Phillips(达斯帝•菲利普斯) / 肖鹏、常贺、石琳 / 电子工业出版社 / 2015-6 / 79.00元

Python 是一种面向对象的解释型语言,面向对象是其非常重要的特性。《Python 3面向对象编程》通过Python 的数据结构、语法、设计模式,从简单到复杂,从初级到高级,一步步通过例子来展示了Python 中面向对象的概念和原则。 《Python 3面向对象编程》不是Python 的入门书籍,适合具有Python 基础经验的开发人员阅读。如果你拥有其他面向对象语言的经验,你会更容易理解......一起来看看 《Python 3面向对象编程》 这本书的介绍吧!

JSON 在线解析
JSON 在线解析

在线 JSON 格式化工具

RGB CMYK 转换工具
RGB CMYK 转换工具

RGB CMYK 互转工具

HEX HSV 转换工具
HEX HSV 转换工具

HEX HSV 互换工具