大数据分析相关技术学习

Kafka, 大数据
Posted by

kafka-10 Kafka事务

Producer事务 幂等性只能解决单分区单会话的问题 精准一次性写到开发集群 为实现跨分区会话的事务,引入全局唯一的TransactionID(事务ID),将Producer的PID和TransactionID绑定,在Producer重启后就可以通...
Kafka, 大数据
Posted by

kafka-07 kafka消费者

消费方式 consumer采用pull(拉)模式从broker中读取数据 如果kafka没有数据,消费者可能会陷入循环中,一直返回空数据 如果当前没有数据可供消费,consumer会等待一段时间之后再返回,这段时长即为timeout(传入的时长参数t...
Kafka, 大数据
Posted by

kafka-06 kafka生产者

分区策略 分区的原因 方便在集群中扩展,每个partition可以通过调整以适应它所在的机器,而一个topic又可以有多个partition组成,因此整个集群就可以适应任意大小的数据了 可以提高并发,因为可以以partition为单位读写了 ...
Kafka, 大数据
Posted by

kafka-05 kafka架构深入

kafka工作流程及文件存储机制 工作流程 创建副本,leader也算副本之一,且相同分区的副本不会在同一台服务器上 上图012345表示偏移量 follower会主动找到leader把数据备份过来 kafka中的消息是以topi...
Kafka, 大数据
Posted by

kafka-01 基础知识

解耦 允许你独立的扩展或修改两边的处理过程,只要确保他们遵循同样的接口约束 可恢复性 系统的一部分组件失效时,不会影响整个系统。消息队列降低了进程间的耦合度,所以即使一个处理消息的进程挂掉,加入队列中的消息仍然可以在系统恢复后被处理 缓冲 有助...