内容简介:我开始编制一份自2016年我们在Zalando开始使用Kubernetes以来,我们收集了许多内部故障问题。Docker的bug(我们在演讲中分享了一些事件和Kubernetes失败:
我开始编制一份 与Kubernetes有关的公共故障/恐怖故事清单 。它应该能使负责运维的人员更容易找到相应的中断问题。
自2016年我们在Zalando开始使用Kubernetes以来,我们收集了许多内部故障问题。Docker的bug( 守护进程没有响应 ,进程陷入管道等待,......)在一开始就是一个主要的痛点,但 Docker 本身已经变得更加成熟并且最近没有让我们烦恼。最大的问题可归因于分布式系统的性质和“级联故障”,例如Kubernetes API服务器中断不应影响正在运行的工作负载,但事实上 确实如此 ,或者看到 我们最近的CoreDNS事件 。
我们在演讲中分享了一些事件和Kubernetes失败:
- 在生产中运行Kubernetes:百万种方式崩溃你的集群 - DevOpsCon慕尼黑2018
- 在生产中运行Kubernetes:百万种方式崩溃你的集群 - 2018年英国集装箱营地
- Zalando在AWS上的Kubernetes:失败与学习 - DevOps NRW 2018年见面会
我对失败进行此类讨论的主要动机是我希望自己能够听到更多这些内容!Nordstrom 在KubeCon 2017上 的 演讲“101种方式崩溃你的群集” 是我的灵感(因为你甚至可以从谈话标题的相似性中看出来;-))。我希望看到更多的人分享他们的事后记录并给出失败的谈话。Monzo的透明度和 公共尸检 是对社区的一项伟大服务,应该是我们所有人都努力的方向。
编制Kubernetes失败故事列表
在我寻找更多公共Kubernetes失败故事的过程中,我发现它要么很难找到它们(或者我的网络搜索技能缺乏),要么只发布很少。搜索条件我在 DuckDuckGo 和Google 上试过:
我还尝试了各种组合和“k8s”,“kube-dns”和“kube-proxy”而不是“kubernetes”。这并没有产生很多结果,我发现的大多数页面都是某种更“成功”的故事,并强调如何防止中断发生。那很无聊!
到目前为止我发现的Kubernetes Failure Stories 的 编译列表可以在GitHub上找到 。我希望从社区中看到许多对该列表的贡献,但我想很难鼓励人们发布他们的中断报告。 请通过打开问题,创建公关或 在Twitter上与我联系 ,为列表做出贡献!
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:- Node.js 应用故障排查手册 —— 雪崩型内存泄漏问题 原 荐
- 从一个 VNC 黑屏故障谈一谈怎么排查系统层面的问题
- 故障公告:Linux 内核故障导致网站宕机近 1 个小时
- 线上故障处理手册
- PostgreSQL复制断开故障
- MySQL -- 故障诊断
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。