Kafka, 大数据

kafka-02 基础架构

Kafka架构

  • 生产者和消费者只连接主题分区的leader,follower只做备份使用
  • zookeeper集群管理kafka集群信息
  • 0.9版本之前kafka偏移量存储在zookeeper
  • 0.9版本之后kafka偏移量保存在kafka自身主题中,减少zookeeper的访问量
  • kafka数据存储在磁盘,默认168小时7天

概念

  • Producer:消息生产者,就是向kafka broker发消息的客户端
  • Consumer:消息消费者,向kafka broker取消息的客户端
  • Consumer Group:消费者组,由多个consumer组成
    • 消费者组内每个消费者负责消费不同分区的数据
  • Topic:可以理解为一个队列,生产者和消费者面向的都是Topic
  • Partition:为了实现扩展性,一个非常大的topic可以分布到多个broker(即服务器)上,一个topic可以分为多个partition,每个partition是一个有序的队列
  • Replica:副本,为保证集群中的每个节点发生故障时,该节点上的partition数据不丢失,且kafka仍然能够继续工作,kafka提供了副本机制,一个topic的每个分区都有若干个副本,一个leader和若干个follower
  • leader:每个分区多个副本的”主“,生产者发送数据的对象,以及消费者消费数据的对象都是leader
  • follower:每个分区多个副本中的“从”,实时从leader中同步数据,保持和leader数据的同步,leader发生故障时,某个follower会成为新的leader