记一次 Kafka 集群的故障恢复

栏目: 后端 · 发布时间: 7年前

内容简介：1、kafka 集群所用版本 0.9.0.12、集群部署了实时监控: 通过实时写入数据来监控集群的可用性, 延迟等;Part

女主宣言

本文是作者根据实际经验总结出的关于Kafka集群的故障恢复相关的总结，希望对大家有所帮助。

PS：丰富的一线技术、多元化的表现形式，尽在“ HULK一线技术杂谈 ”，点关注哦！

Kafka 集群部署环境

1、kafka 集群所用版本 0.9.0.1

2、集群部署了实时监控: 通过实时写入数据来监控集群的可用性, 延迟等;

Part

集群故障发生

● 集群的实时监控发出一条写入数据失败的报警, 然后马上又收到了恢复的报警, 这个报警当时没有重要,没有去到对应的服务器上去看下log, 恶梦的开始啊~~~

● 很快多个业务反馈Topic无法写入, 运维人员介入

故障解决

● 运维人员首先查看kafka broker日志, 发现大量如下的日志:

记一次 Kafka 集群的故障恢复

● 这个问题就很明了了, 在之前的文章里有过介绍: Kafka运维填坑 , 上面也给出了简单修复, 主要原因是 新版kafka 客户端 sdk访问较旧版的kafka, 发送了旧版 kafka broker 不支持的request , 这会导致exception发生, 然后同批次select出来的所有客户端对应的request都将被抛弃不能处理,代码在 SocketServer.scala 里面, 大家有兴趣可以自行查阅

这个问题不仅可能导致客户端的request丢失, broker和broker, broker和controller之间的通讯也受影响；’
这也解释了为什么实时监控先报警然后又马上恢复了: 不和这样不被支持的request同批次处理就不会出现问题；

● 解决过程:

我们之前已经修复过这个问题, 有准备好的相应的jar包;
运维小伙伴开始了愉快的jar包替换和启动broker的工作~~~~~~

集群恢复

● kafka broker的优雅shutdown的时间极不受控, 如果强行kill -9 在start后要作长时间的recovery, 数据多的情况下能让你等到崩溃；

● 集群重启完, 通过log观察, ArrayIndexOutOfBoundsException 异常已经被正确处理, 也找到了相应的业务来源；

● 业务反馈Topic可以重新写入；

然而, 事件并没有结束, 而是另一个恶梦的开始

Part

集群故障再次发生

● 很多业务反馈使用原有的group无法消费Topic数据;

● 用自己的consumer测试, 发现确实有些group可以, 有些group不能消费;

● 一波不平一波又起, 注定是个不平凡的夜晚啊, 居然还有点小兴奋~~~

故障解决

● 查看consumer测试程序不能消费时的日志,一直在重复如下log:

第一条日志说明consumer已经确认了当前的coordinator, 连接没有问题;
第二条日志显示没有 Not coordinator , 对应broker端是说虽然coordinator确认了,但是没有在这个 coodinator上找到这个group对应的metada信息;
group的metada信息在coordinator启动或__consuser_offsets的partion切主时被加载到内存,这么说来是相应的__consumer_offsets的partition没有被加载;
关于coordinator, __consumer_offsets, group metada的信息可以参考 Kafka的消息是如何被消费的?

● 查看broker端日志, 确认goroup metadata的相关问题

查找对应的__consumer_offsets的partition的加载情况, 发现对应的
没有找到下面类似的加载完成的日志:

也没有发生任何的exception的日志
使用jstack来dump出当前的线程堆栈多次查看, 证实一直是在加载数据,没有卡死;

现在的问题基本上明确了, 有些__consumer_offsets加载完成了,可以消费, 些没有完成则暂时无法消费, 如果死等loading完成, 集群的消费可以正常, 但将花费很多时间;

●为何loading这些__consumer_offsets要花费如此长的时间?

去到__conuser_offsets partition相应的磁盘目录查看,发生有2000多个log文件, 每个在100M左右;
kaka 的log compac功能失效了, 这个问题在之前的文章里有过介绍: Kafka运维填坑,
log compact相关介绍可以参考 Kafka的日志清理-LogCleaner

● 手动加速Loading:

即使log cleaner功能失败, 为了加速loading, 我们手动删除了大部分的log文件; 这样作有一定风险, 可能会导致某些group的group metadata和committed offset丢失, 从而触发客户端在消费时offset reset;

故障恢复

● 所有__consumer_offset都加载完后, 所有group均恢复了消费;

● 对实时监控的报警一定要足够重视;

● 更新完jar包, 重启broker时, 三台存储__consumer_offsets partition合部同时重启,均在Loading状态, 这种作法不合适,最多同时重启两台, 留一台可以继续提供coordinattor的功能;

● 加强对log compact失效的监控, 完美方案是找到失效的根本原因并修复;

HULK一线技术杂谈

由360云平台团队打造的技术分享公众号，内容涉及云计算、数据库、大数据、监控、泛前端、自动化测试等众多技术领域，通过夯实的技术积累和丰富的一线实战经验，为你带来最有料的技术分享

以上所述就是小编给大家介绍的《记一次 Kafka 集群的故障恢复》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对码农网的支持！

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

谁说商业直觉是天生的

[美] 戴夫·帕特奈克 (Dev Patnaik)、[美] 彼得·莫特森 (Peter Mortensen) / 马慧 / 万卷出版公司 / 2010-07 / 36.00

《Wired to Care》是帕特奈克集近年来在创新顾问公司 Jump Associates 实务经验，与史丹佛大学教学经验之大成，虽然《Wired to Care》定位为一本用设计创新方法谈企业管理的书，但本书，活像是一本近代的设计史，从以销售为设计目标的Raymond Loewy谈起，到以人为设计中心的OXO GOOD GRIPSSwivelPeeler削皮刀。由此作者向我们揭示了企业如何运......一起来看看《谁说商业直觉是天生的》这本书的介绍吧!

码农工具

RGB转16进制工具

RGB HEX 互转工具

记一次 Kafka 集群的故障恢复

女主宣言

Kafka 集群部署环境

集群故障发生

故障解决

集群恢复

然而, 事件并没有结束, 而是另一个恶梦的开始

集群故障再次发生

故障解决

● 查看consumer测试程序不能消费时的日志,一直在重复如下log:

● 查看broker端日志, 确认goroup metadata的相关问题

●为何loading这些__consumer_offsets要花费如此长的时间?

● 手动加速Loading:

故障恢复

谁说商业直觉是天生的

RGB转16进制工具

html转js在线工具