目录:
- flume简介
- 产生背景
- flume是什么
- Flume的data flow(数据流)
- flume架构
- flume基础架构
- 多节点架构
- 多节点合并架构
- 节点分流架构
- flume特点
- 扩展性
- 延展性
- 可靠性
- fluem安装与简单使用步骤
- 下载、上传、解压、安装、配置环境变量
- 在conf目录下创建配置文件(没有要求必须在conff目录下创建)
- 启动flume
- 测试
一.flume简介
1.产生背景
如果数据在关系型数据库(RDBMS)里面,可通过Sqoop进行抽取。(Spark SQL可代替)
如果日志在其他机器上,就有了Flume的产生;Flume就是干日志采集的事情。
2.flume是什么:http://flume.apache.org/
各组件说明:
- 细分 Flume 数据流应该是由5个组件组成:Events、Sources、Channels、Sink、Agent。
- Agent : Source + Channel + Sink
- Source : 负责日志流入,比如从文件、网络、Kafka等数据源流入数据,数据流入的方式有两种:轮训拉取和事件驱动。
- Channel :负责数据聚合或暂存,比如暂存到内存、本地文件、数据库、Kafka 等,日志数据不会在管道停留很长时间,很快会被 Sink 消费掉。
- Sink :也叫接收器,负责数据转移存储,比如从Channel拿到日志后直接存储到HDFS、Hbase、ElasticSearch、Kafka 等。
- Events :是使用Flume移动的数据的基本单位。它类似于JMS中的消息,通常很小。它由头和字节数组体组成。
说明:如果A中的数据来此其它机器或者公司,我们不能编写代码获得特定的数据,所以需要通过一个信息采集中间件来迁移或者归类数据,然后将数据送到目的地:内存或者硬盘,如图
3.Flume的data flow(数据流)
二.flume架构
1.flume基础架构
说明:Agent : Source + Channel + Sink
2.多节点架构
hop说明:
3.多节点合并架构
4.节点分流架构
总结:上述4种架构说明
三.flume特点
四.fluem安装与简单使用
1.在linux上搭建步骤:
- 下载、上传、解压,配置环境变量
- 下载
- 上传
- 解压:
- 配置环境变量:
增加
让修改的文件生效
- 修改配置文件:进入http://flume.apache.org/,用户手册(不是开发手册)
实例:- 创建一个配置文件 test01.conf(文件名可以随便取,后缀名也无所谓),一般放在flume解压文件的conf目录下
- 配置
- 说明
- 创建一个配置文件 test01.conf(文件名可以随便取,后缀名也无所谓),一般放在flume解压文件的conf目录下
- 启动flume( 路径可以使用相对路径和绝对路径)
- 测试
例如:
命令说明:
2.在windows上测试:使用telnet(相当于第4步:测试)
- 打开控制面板,点击程序和功能
- 点击打开或关闭Windows 功能
- 勾选telnet客户端
- 重启电脑生效
- 测试:在dos中输入telnet