解析SparkStreaming和Kafka集成的两种方式

spark streaming是基于微批处理的流式计算引擎,通常是利用spark core或者spark core与spark sql一起来处理数据。在企业实时处理架构中,通常将spark streaming和kafka集成作为整个大数据处理架构的核心环节之一 ... »

初识Kafka

Kafka是由scala和java编写的一款高吞吐量分布式发布订阅消息系统。 应用场景: 异步处理 应用解耦 流量削峰 日志处理 消息通讯 相关术语: Broker:在集群中的服务器,用于存储消息,提供接口给生产者和消费者 Topic:消息的一个自定义类别,每个消息都有一个topic,topic下有 ... »

分布式消息系统之Kafka集群部署

kafka是基于发布/订阅模式的一个分布式消息队列系统,用java语言研发,是ASF旗下的一个开源项目;类似的消息队列服务还有rabbitmq、activemq、zeromq;kafka最主要的优势具备分布式功能,并且结合zookeeper可以实现动态扩容;kafka对消息保存是通过Topic进行... ... »

《Kafka笔记》4、Kafka架构,与其他组件集成

1 kafka架构进阶 1.1 Kafka底层数据的同步机制(面试常问) 1、Kafka的Topic被分为多个分区,分区是是按照Segments(文件段)存储文件块。分区日志是存储在磁盘上的日志序列,Kafka可以保证分区里的事件是有序的。其中Leader负责对应分区的读写、Follower负责同步 ... »

《Kafka笔记》3、Kafka高级API

1 Kafka高级API特性 1.1 Offset的自动控制 1.1.1 消费者offset初始策略 一般来说每个消费者消费之后,都会把自己消费到分区的位置(也就是offset提交给Kafka集群),但是对于没有消费过该分区的消费者,他之前并未提交给集群自身偏移量的信息。 Kafka消费者默认对于未 ... »

消息队列之事务消息,RocketMQ 和 Kafka 是如何做的?

每个时代,都不会亏待会学习的人。 大家好,我是 yes。 今天我们来谈一谈消息队列的事务消息,一说起事务相信大家都不陌生,脑海里蹦出来的就是 ACID。 通常我们理解的事务就是为了一些更新操作要么都成功,要么都失败,不会有中间状态的产生,而 ACID 是一个严格的事务实现的定义,不过在单体系统时候一 ... »

《Kafka笔记》2、环境搭建、Topic管理

一、Kafka环境搭建和Topic管理 1 单机环境搭建 1.1 环境准备 安装JDK1.8+,配置JAVA_HOME(CentOS 6.10+ 64bit) 配置主机名和IP映射 关闭防火墙&防火墙开机自启动 集群环境下需要配置每台机器,同步时钟 ntpdate cn.pool.ntp.org | ... »

《Kafka笔记》1、Kafka初识

一、初识Kafka 1 apache kafka简介 Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以收集并处理用户在网站中的所有动作流数据以及物联网设备的采样信息。 Apache Kafka是Apac ... »

从面试角度学完 Kafka

Kafka 是一个优秀的分布式消息中间件,许多系统中都会使用到 Kafka 来做消息通信。对分布式消息系统的了解和使用几乎成为一个后台开发人员必备的技能。今天就从常见的 Kafka 面试题入手,和大家聊聊 Kafka 的那些事儿。 ... »

硬核测试:Pulsar 与 Kafka 在金融场景下的性能分析

背景 Apache Pulsar 是下一代分布式消息流平台,采用计算存储分层架构,具备多租户、高一致、高性能、百万 topic、数据平滑迁移等诸多优势。越来越多的企业正在使用 Pulsar 或者尝试将 Pulsar 应用到生产环境中。 腾讯把 Pulsar 作为计费系统的消息总线来支撑千亿级在线交易 ... »

Kafka监控必备——Kafka-Eagle 2.0.2正式发布

对于经常使用Kafka的同学,拥有一个炫酷又实用的监控系统是非常有必要的。可以实时的监控数据流的情况,了解实时数据流的变化。 Kafka Eagle Kafka Eagle是一个监控系统,监控Kafka群集以及偏移量,消费者等等。 通过Kafka Eagle可以看到当前的消费者组,对于每个组,他们正 ... »

Kafka消费与心跳机制

1.概述 最近有同学咨询Kafka的消费和心跳机制,今天笔者将通过这篇博客来逐一介绍这些内容。 2.内容 2.1 Kafka消费 首先,我们来看看消费。Kafka提供了非常简单的消费API,使用者只需初始化Kafka的Broker Server地址,然后实例化KafkaConsumer类即可拿到To ... »

kafka面试总结

本文为复习期间面试总结 从以下方面对kafka面试进行总结:基本原理架构/项目实践/生产者/消费者/协调者/存储层/控制器 基本原理架构 简单讲下什么是kafka[一句话概括/架构图] 消息队列选型 你们为什么不选用其他消息队列 ZK 在消息队列中的作用是什么 注册中心[作为共享存储保存了kafka ... »

Kafka入门(2):消费与位移

摘要 在这篇文章中,我将从消息在Kafka中的物理存储方式讲起,介绍分区-日志段-日志的各个层次。 然后我将接着上一篇文章的内容,把消费者的内容展开讲一讲,区分消费者与消费者组,以及这么设计有什么用。 根据消费者的消费可能引发的问题,我将介绍Kafka中的位移主题,以及消费者要怎么提交位移到这个位移 ... »

Apache Avro & Avro Schema简介

为什么需要schema registry? 首先我们知道: Kafka将字节作为输入并发布 没有数据验证 但是: 如果Producer发送了bad data怎么办? 如果字段被重命名怎么办? 如果数据类型改变了怎么办? 这些情况都会导致consumer break 所以: 我们需要数据能够自我描述 ... »

Kafka 是如何管理消费位点的?

Kafka 是一个高度可扩展的分布式消息系统,在实时事件流和流式处理为中心的架构越来越风靡的今天,它扮演了这个架构中核心存储的角色。从某种角度说,Kafka 可以看成实时版的 Hadoop 系统。Hadoop 可以存储和定期处理大量的数据文件,而 Kafka 可以存储和持续处理大型的数据流。 Had ... »

Kafka入门(1):概述

摘要 在本文中,我将从为什么需要消息队列开始讲起,举两个小例子,跟你聊聊目前消息队列的一些使用场景。 比如消息队列在复杂系统中的解耦,又比如消息队列在高并发下的场景如果让流量变得更平缓。 随后我会跟你介绍一下Kafka中的一些重要的名词,比如主题、Broker、分区等。 注意,Kafka不仅仅是消息 ... »

Kafka源码解析(二)---Log分析

上一篇文章讲了LogSegment和Log的初始化,这篇来讲讲Log的主要操作有哪些。 一般来说Log 的常见操作分为 4 大部分。 高水位管理操作 日志段管理 关键位移值管理 读写操作 其中关键位移值管理主要包含Log Start Offset 和 LEO等。 高水位HighWatermark 高 ... »

撒花,推荐一下我怒肝的 GitHub

缘起 之前一直有很多小伙伴们找我,让我聊一聊如何学习 Java ,我都直接回复了一个思维导图,后来想一想觉得回答不是很认真,我的初衷是想让小伙伴们根据思维导图中的知识点,采取各个击破 的原则,哪里不会查哪里,后来想想这种回答方式没有多少人能够直接接受。大家更想要的是从我这里获得点什么。 确实是,让小 ... »

聊一聊高并发高可用那些事 - Kafka篇

目录 为什么需要消息队列 1.异步 :一个下单流程,你需要扣积分,扣优惠卷,发短信等,有些耗时又不需要立即处理的事,可以丢到队列里异步处理。 2.削峰 :按平常的流量,服务器刚好可以正常负载。偶尔推出一个优惠活动时,请求量极速上升。由于服务器 Redis,MySQL 承受能力不一样,如果请求全部接收 ... »