kafka-06 kafka生产者

Posted by 蓝染君

On 2023年 9月 25日

已关闭评论

分区策略

分区的原因

方便在集群中扩展，每个partition可以通过调整以适应它所在的机器，而一个topic又可以有多个partition组成，因此整个集群就可以适应任意大小的数据了
可以提高并发，因为可以以partition为单位读写了

分区的策略

将producer发送的数据封装成一个ProducerRecord对象

指定partition的情况下，直接指明的值作为partition值
没有指明partition值但有key的情况下，将key的hash值与topic的partition数进行取余得到partition值
既没有partition值又没有key值的情况下，第一次调用时随机生成一个整数（后面每次调用在这个整数上自增），将这个值与topic可用的partition总数取余得到partition值，也就是常说的round-robin算法

数据可靠性保证

topic的每个partition收到producer发送的数据后，都会向producer发送ack（确认收到），producer收到ack就会继续进行下一轮的发送，否则重新发送数据

ISR: in-sync replica set

ack应答机制

对于某些不太重要的数据，对数据的可靠性要求不是很高，没必要等ISR中的follower全部接收成功

三种可靠性级别可选：

acks参数配置：

acks：

0 At Most Once 生产者每条消息发送一次（只管发消息）
- producer不等待broker的ack，这一操作提供了一个最低的延迟，broker一接收到还没有写入磁盘就已经返回，当broker故障时有可能丢失数据
1
- producer等待broker的ack，partition的leader落盘成功后返回ack，如果follower同步成功之前leader故障，那么将会丢失数据
- （leader写完还没同步数据挂掉了）

-1 At Least Once 每条消息最少发送一次不会丢数据但是可能重复（all）
- producer等待broker的ack，partition的leader和follower全部落盘成功后才返回ack，但是如果在follower同步完成后，broker发送ack之前，leader发生故障，那么会造成数据重复

故障处理细节

log文件中的hw（High Watermark）和leo（Log End Offset）

LEO：每个副本最大的offset

HW：消费者能见到的最大的offset，ISR队列中最小的LEO

follower故障
- follower发生故障后被临时踢出ISR，待该follower恢复后，follwer会读取本地磁盘记录的上次HW，并将log文件高于hw的部分截取掉，从HW开始向leader进行同步
- 等该follower的LEO大于等于该partition的hw，即follower追上leader之后，就可以重新加入ISR了
leader故障
- leader发生故障之后会从ISR中选出一个新leader，之后为保证多个副本之间数据的一致性，其余的follower会将各自的log文件高于hw的部分截掉，然后从新的leader同步数据 (多退少补)
- 这只能保证副本之间的数据一致性，不能保证数据不丢失或者不重复

hw保证消费一致性，存储一致性

Exactly Once

producer不论向server发送多少次重复数据，server端只会持久化一条

At Least Once + 幂等性 = Exactly Once

启动幂等性：Producer参数中enable.idompotence设置为true

在kafka中做去重