数据采集组件:Flume基础用法和Kafka集成

Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据; 特点:分布式、高可用、基于流式架构,通常用来收集、聚合、搬运不同数据源的大量日志到数据仓库。 ... »

如何系统的了解Kafka

1.概述 在大数据的浪潮下,时时刻刻都会产生大量的数据。比如社交媒体、博客、电子商务等等,这些数据会以不同的类型存储在不同的平台里面。为了执行ETL(提取、转换、加载)操作,需要一个消息中间件系统,该系统应该是异步和低耦合的,即来自各种存储系统(如HDFS、Cassandra、RDBMS等)的数据可 ... »

alpakka-kafka(2)-consumer

alpakka-kafka-consumer的功能描述很简单:向kafka订阅某些topic然后把读到的消息传给akka-streams做业务处理。在kafka-consumer的实现细节上,为了达到高可用、高吞吐的目的,topic又可用划分出多个分区partition。分区是分布在kafka集群节 ... »

alpakka-kafka(1)-producer

alpakka项目是一个基于akka-streams流处理编程工具的scala/java开源项目,通过提供connector连接各种数据源并在akka-streams里进行数据处理。alpakka-kafka就是alpakka项目里的kafka-connector。对于我们来说:可以用alpakka ... »

Kafka官方文档V2.7

1.开始 1.1 简介 什么是事件流? 事件流相当于人体的中枢神经系统的数字化。它是 "永远在线 "世界的技术基础,在这个世界里,业务越来越多地被软件定义和自动化,软件的用户更是软件。 从技术上讲,事件流是指以事件流的形式从数据库、传感器、移动设备、云服务和软件应用等事件源中实时捕获数据;将这些事件 ... »

Kafka调试入门(一)

很多人对kafka消息队列应该不陌生,使用起来也比较方便。对kafka最常见的操作一般有如下几种: 启动kafka集群 创建一个名称为xxx的主题(topic) 查看已经创建好的主题 向xxx这个主题中插入一些数据 从xxx这个主题中消费一些数据 针对这几种操作,其实kafka都为大家提供了一系列方 ... »

Spark+Kafka实时监控Oracle数据预警

目标: 监控Oracle某张记录表,有新增数据则获取表数据,并推送到微信企业。 流程: Kafka实时监控Oracle指定表,获取该表操作信息(日志),使用Spark Structured Streaming消费Kafka,获取数据后清洗后存入指定目录,Python实时监控该目录,提取文本里面数据并 ... »

大厂面试官竟然这么爱问Kafka,一连八个Kafka问题把我问蒙了?

本文首发于公众号:五分钟学大数据 在面试的时候,发现很多面试官特别爱问Kafka相关的问题,这也不难理解,谁让Kafka是大数据领域中消息队列的唯一王者,单机十万级别的吞吐量,毫秒级别的延迟,这种天生的分布式消息队列,谁能不爱? 在最近的一场面试中,有个面试官看到简历中的项目上写Kafka了,就直接 ... »

真的,kafka 入门看这一篇准没错!

什么是 Kafka Kafka 是一个分布式流式平台,它有三个关键能力 订阅发布记录流,它类似于企业中的消息队列 或 企业消息传递系统 以容错的方式存储记录流 实时记录流 Kafka 的应用 作为消息系统 作为存储系统 作为流处理器 Kafka 可以建立流数据管道,可靠性的在系统或应用之间获取数据。 ... »

图解SparkStreaming与Kafka的整合,这些细节大家要注意错过!

前言 老刘是一名即将找工作的研二学生,写博客一方面是复习总结大数据开发的知识点,一方面是希望帮助更多自学的小伙伴。由于老刘是自学大数据开发,肯定会存在一些不足,还希望大家能够批评指正,让我们一起进步! 今天讲述的是SparkStreaming与Kafka的整合,这篇文章非常适合刚入门的小伙伴,也欢迎 ... »

Cassandra与Kafka的集成

Cassandra和Kafka经常一起用于微服务架构中。本文将介绍几种Cassandra和Kafka常见的集成模式。 简介 如果您的开发团队乐于接纳微服务架构的优点,那么您就会了解到,Kafka针对不变事件(Immutable Events)的持久性日志,能够使微服务以独立且异步的方式运行。 在某些 ... »

为什么会有kafka消息系统?小问题藏着大细节!

前言:老刘今天写这篇文章首先想对一些复制粘贴的博客表达不满;其次是想用通俗易懂的话解释消息系统;最后欢迎各位英雄好汉、女中豪杰前来battle。 1. 为什么有消息系统? 1.1 背景 今天复习kafka知识点的第一个问题是:为什么有消息系统?可能有很多自学大数据开发的人都不怎么注意这个问题,但老刘 ... »

Kafka数据每5分钟同步到Hive

1.概述 最近有同学留言咨询Kafka数据落地到Hive的一些问题,今天笔者将为大家来介绍一种除Flink流批一体以外的方式(流批一体下次再单独写一篇给大家分享)。 2.内容 首先,我们简单来描述一下数据场景,比如有这样一个数据场景,有一批实时流数据实时写入Kafka,然后需要对Topic中的数据进 ... »