在过去的几周里,GitHub 经历了多次宕机事件,导致平台的服务降级,影响了许多用户的正常使用。GitHub 团队在解决问题的同时,近日也分享了这些事件的详细情况。
据介绍,近期 GitHub 频繁宕机主要是其mysql1
集群的资源争夺导致,这影响了 GitHub 在负载高峰期的大量服务和功能性能。虽然在过去几年 GitHub 已经进行了许多优化,例如增加集群以支持平台的增长、对主数据库进行分区等,但这不是一劳永逸的工作,直到现在他们仍在积极解决这个问题。
近期宕机事件的时间线:
- 3 月 16 日 14:09 UTC(持续 5 小时 36 分钟)
- 3 月 17 日 13:46 UTC(持续 2 小时 28 分钟)
- 3 月 22 日 15:53 UTC(持续 2 小时 53 分钟)
- 3 月 23 日 14:49 UTC(持续 2 小时 51 分钟)
为了防止将来发生此类事件,GitHub 已开始在高峰时段对该特定数据库的负载模式进行审计,并根据这些审计进行一系列性能修复。作为其中的一部分,他们正在将流量转移到其他数据库,以减少负载和加快故障转移时间,并审查我们的变更管理程序,特别是与生产环境中高负载期间相关的监控和变更。
随着平台的不断发展,他们会一直积极扩展基础设施,包括对数据库进行分片和扩展硬件。
暂无回复。