Kafka kafka 为什么使用 High Level Consumer？

sheppard · 2020-07-02 09:58:36 · 热度: 133

为什么使用High Level Consumer？

在某些应用场景，我们希望通过多线程读取消息，而我们并不关心从Kafka消费消息的顺序，我们仅仅关心数据能被消费就行。High Level 就是用于抽象这类消费动作的。

消息消费已Consumer Group为单位，每个Consumer Group中可以有多个consumer，每个consumer是一个线程，topic的每个partition同时只能被某一个consumer读取，Consumer Group对应的每个partition都有一个最新的offset的值，存储在zookeeper上的。所以不会出现重复消费的情况。

因为consumer的offerset并不是实时的传送到zookeeper（通过配置来制定更新周期），所以Consumer如果突然Crash，有可能会读取重复的信息
设计High Level Consumer

High Level Consumer 可以并且应该被使用在多线程的环境，线程模型中线程的数量(也代表group中consumer的数量)和topic的partition数量有关，下面列举一些规则：

当提供的线程数量多于partition的数量，则部分线程将不会接收到消息；
当提供的线程数量少于partition的数量，则部分线程将从多个partition接收消息；
当某个线程从多个partition接收消息时，不保证接收消息的顺序；可能出现从partition3接收5条消息，从partition4接收6条消息，接着又从partition3接收10条消息；
当添加更多线程时，会引起kafka做re-balance, 可能改变partition和线程的对应关系。

因为突然停止Consumer以及Broker会导致消息重复读的情况，为了避免这种情况在shutdown之前通过Thread.sleep(10000)让Consumer有时间将offset同步到zookeeper。

猜你喜欢:

0 个赞 0 收藏

暂无回复。

需要登录后方可回复, 如果你还没有账号请点击这里注册。