谷歌云公布全局负载均衡服务故障原因:新功能的 bug

栏目: IT资讯 · 发布时间: 7年前

内容简介:前天7月18日,我们报道了“谷歌的云平台 Google Cloud 全局负载均衡服务发生中断”这一消息。 由于谷歌云平台出现了问题,多个热门在线服务遇到了停机或响应缓慢的现象。经谷歌确认,它的许多工具出现了问题,而 ...

前天7月18日,我们报道了“谷歌的云平台 Google Cloud 全局负载均衡服务发生中断”这一消息。

由于谷歌云平台出现了问题,多个热门在线服务遇到了停机或响应缓慢的现象。经谷歌确认,它的许多 工具 出现了问题,而 Discord、Spotify 和 Snapchat 等知名网站和服务依赖这些工具才能正常运行。

谷歌云平台的状态页面上的一则通告声称:“我们正在调查谷歌云全局负载均衡系统(Global Loadbalancers)的问题,该系统为许多服务返回 502 出错消息,包括 AppEngine、Stackdriver 和 Dialogflow 等服务,此外客户全局负载均衡系统也出了问题。”

一些受到影响的第三方服务包括:

  • Snapchat

  • Pokémon Go

  • Faceit

  • Discord

  • Spotify

昨天谷歌云对外公布了调查结果,根本原因如下:

谷歌的全局负载均衡系统基于谷歌前端服务(GFE)的双层架构。GFE 的第一层尽量靠近用户来响应请求,以便在建立连接的过程中为用户最大限度地提高性能。这些 GFE 将请求路由到 GFE 的第二层,而这第二层的位置靠近请求所使用的服务。这种类型的架构让客户得以在世界上任何地方都拥有低延迟连接,同时又可以充分利用谷歌的全球网络为后端处理请求,无论客户在哪个地区。

GFE 开发团队当时正在为 GFE 添加一些功能,以提高安全性和性能。这些功能被添加到了第二层 GFE 代码库,但尚未投入使用。其中一个功能含有一个会导致 GFE 重启的错误(bug);不过无论在测试阶段,还是在初始部署阶段,工作人员都没有发现这个错误。事件开始时,生产环境的一个配置变更间歇性地触发了该错误,结果导致受影响的 GFE 一再重启。由于重启不是瞬时的,可用的第二层 GFE 容量因此减少。虽然一些请求得到了正确响应,但 GFE 重新上线时,其他请求却由于容量暂时不足而被中断(导致连接重置)或被拒绝。

这个说法有木有很耳熟?与6月27日的阿里云故障如出一辙:

谷歌云公布全局负载均衡服务故障原因:新功能的 bug

来自:云头条


【声明】文章转载自:开源中国社区 [http://www.oschina.net]


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

大数据日知录

大数据日知录

张俊林 / 电子工业出版社 / 2014-9 / 69.00元

大数据是当前最为流行的热点概念之一,其已由技术名词衍生到对很多行业产生颠覆性影响的社会现象,作为最明确的技术发展趋势之一,基于大数据的各种新型产品必将会对每个人的日常生活产生日益重要的影响。 《大数据日知录:架构与算法》从架构与算法角度全面梳理了大数据存储与处理的相关技术。大数据技术具有涉及的知识点异常众多且正处于快速演进发展过程中等特点,其技术点包括底层的硬件体系结构、相关的基础理论、大规......一起来看看 《大数据日知录》 这本书的介绍吧!

HTML 压缩/解压工具
HTML 压缩/解压工具

在线压缩/解压 HTML 代码

JSON 在线解析
JSON 在线解析

在线 JSON 格式化工具

RGB CMYK 转换工具
RGB CMYK 转换工具

RGB CMYK 互转工具