SparkStreaming和Kafka基于Direct Approach如何管理offset实现exactly once
在之前的文章《解析SparkStreaming和Kafka集成的两种方式》中已详细介绍SparkStreaming和Kafka集成主要有Receiver based Approach和Direct Approach。同时对比 ... »
在之前的文章《解析SparkStreaming和Kafka集成的两种方式》中已详细介绍SparkStreaming和Kafka集成主要有Receiver based Approach和Direct Approach。同时对比 ... »
本文首发于公众号:五分钟学大数据 在面试的时候,发现很多面试官特别爱问Kafka相关的问题,这也不难理解,谁让Kafka是大数据领域中消息队列的唯一王者,单机十万级别的吞吐量,毫秒级别的延迟,这种天生的分布式消息队列,谁能不爱? 在最近的一场面试中,有个面试官看到简历中的项目上写Kafka了,就直接 ... »
什么是 Kafka Kafka 是一个分布式流式平台,它有三个关键能力 订阅发布记录流,它类似于企业中的消息队列 或 企业消息传递系统 以容错的方式存储记录流 实时记录流 Kafka 的应用 作为消息系统 作为存储系统 作为流处理器 Kafka 可以建立流数据管道,可靠性的在系统或应用之间获取数据。 ... »
前言 老刘是一名即将找工作的研二学生,写博客一方面是复习总结大数据开发的知识点,一方面是希望帮助更多自学的小伙伴。由于老刘是自学大数据开发,肯定会存在一些不足,还希望大家能够批评指正,让我们一起进步! 今天讲述的是SparkStreaming与Kafka的整合,这篇文章非常适合刚入门的小伙伴,也欢迎 ... »
Cassandra和Kafka经常一起用于微服务架构中。本文将介绍几种Cassandra和Kafka常见的集成模式。 简介 如果您的开发团队乐于接纳微服务架构的优点,那么您就会了解到,Kafka针对不变事件(Immutable Events)的持久性日志,能够使微服务以独立且异步的方式运行。 在某些 ... »
前言:老刘今天写这篇文章首先想对一些复制粘贴的博客表达不满;其次是想用通俗易懂的话解释消息系统;最后欢迎各位英雄好汉、女中豪杰前来battle。 1. 为什么有消息系统? 1.1 背景 今天复习kafka知识点的第一个问题是:为什么有消息系统?可能有很多自学大数据开发的人都不怎么注意这个问题,但老刘 ... »
1.概述 最近有同学留言咨询Kafka数据落地到Hive的一些问题,今天笔者将为大家来介绍一种除Flink流批一体以外的方式(流批一体下次再单独写一篇给大家分享)。 2.内容 首先,我们简单来描述一下数据场景,比如有这样一个数据场景,有一批实时流数据实时写入Kafka,然后需要对Topic中的数据进 ... »
Kafka-Eagle简介 源代码地址:https://github.com/smartloli/kafka-eagle Kafka Eagle是什么 Kafka Eagle是一款用于监控和管理Apache Kafka的完全开源系统,目前托管在Github,由笔者和一些开源爱好者共同维护。它提供了完 ... »
官方文档:http://kafka.apache.org/23/documentation.html#introduction 中文文档:https://kafka.apachecn.org/ 本篇要点 介绍kafka的特性、概念、API及专业术语。 介绍Windows环境下kafka的安装配置,启 ... »
Kafka高性能的原理 高性能,高并发,高可用 使用了NIO技术。高并发。 顺序读写。硬盘的顺序读写性能要高于内存的随机读写。 跳表设计。 稀疏索引。index文件里面有部分offset的位置。 使用零拷贝。从内存,直接拷贝到网卡。 producer: 按批次发消息,而不是条数。 producer: ... »
提到Kafka很多人的第一印象就是它是一个消息系统,但Kafka发展至今,它的定位已远不止于此,而是一个分布式流处理平台 ... »
搭建 Kafka:2.13-2.6.0 和 Zookeeper:3.6.2 集群 一、服务版本信息: Kafka:v2.13-2.6.0 Zookeeper:v3.6.2 Kubernetes:v1.18.4 二、制作 Zookeeper 镜像 Zookeeper 使用的是 docker hub 中 ... »
spark streaming是基于微批处理的流式计算引擎,通常是利用spark core或者spark core与spark sql一起来处理数据。在企业实时处理架构中,通常将spark streaming和kafka集成作为整个大数据处理架构的核心环节之一 ... »
Kafka是由scala和java编写的一款高吞吐量分布式发布订阅消息系统。 应用场景: 异步处理 应用解耦 流量削峰 日志处理 消息通讯 相关术语: Broker:在集群中的服务器,用于存储消息,提供接口给生产者和消费者 Topic:消息的一个自定义类别,每个消息都有一个topic,topic下有 ... »
kafka是基于发布/订阅模式的一个分布式消息队列系统,用java语言研发,是ASF旗下的一个开源项目;类似的消息队列服务还有rabbitmq、activemq、zeromq;kafka最主要的优势具备分布式功能,并且结合zookeeper可以实现动态扩容;kafka对消息保存是通过Topic进行... ... »
1 kafka架构进阶 1.1 Kafka底层数据的同步机制(面试常问) 1、Kafka的Topic被分为多个分区,分区是是按照Segments(文件段)存储文件块。分区日志是存储在磁盘上的日志序列,Kafka可以保证分区里的事件是有序的。其中Leader负责对应分区的读写、Follower负责同步 ... »
1 Kafka高级API特性 1.1 Offset的自动控制 1.1.1 消费者offset初始策略 一般来说每个消费者消费之后,都会把自己消费到分区的位置(也就是offset提交给Kafka集群),但是对于没有消费过该分区的消费者,他之前并未提交给集群自身偏移量的信息。 Kafka消费者默认对于未 ... »
每个时代,都不会亏待会学习的人。 大家好,我是 yes。 今天我们来谈一谈消息队列的事务消息,一说起事务相信大家都不陌生,脑海里蹦出来的就是 ACID。 通常我们理解的事务就是为了一些更新操作要么都成功,要么都失败,不会有中间状态的产生,而 ACID 是一个严格的事务实现的定义,不过在单体系统时候一 ... »
一、Kafka环境搭建和Topic管理 1 单机环境搭建 1.1 环境准备 安装JDK1.8+,配置JAVA_HOME(CentOS 6.10+ 64bit) 配置主机名和IP映射 关闭防火墙&防火墙开机自启动 集群环境下需要配置每台机器,同步时钟 ntpdate cn.pool.ntp.org | ... »
一、初识Kafka 1 apache kafka简介 Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以收集并处理用户在网站中的所有动作流数据以及物联网设备的采样信息。 Apache Kafka是Apac ... »