2020-09-27【学习笔记】【企业数据湖】五、基于Apache Sqoop的批量数据获取

一、数据湖背景中的数据获取

1、数据获取层

2、批量数据获取--技术路线图

二、为什么使用sqoop

sqoop是一款非常常用的用于向ApacheHadoop传输数据的工具

1、sqoop简史

最早由cloudera开发维护，分为1.X,2.X版本，区别很大

2、sqoop的优势

3、sqoop劣势

三、sqoop功能

sql to hadoop = sqoop

1、sqoop2架构

2020-09-27【学习笔记】【企业数据湖】五、基于Apache Sqoop的批量数据获取

2、sqoop1与sqoop2

sqoop2主要设计思路

易用性

易扩展性

安全性

3、sqoop功能

当在命令行中输入一个命令，首先启动一个map任务，会通过合适的connector连接到相应的RDBMS，检索相关数据。在map任务结束后，这些数据会交给reduce任务进行处理，这里数据会被持久化到hdfs，hbase，hive中

4、sqoop导入数据

2020-09-27【学习笔记】【企业数据湖】五、基于Apache Sqoop的批量数据获取

5、sqoop导出数据

2020-09-27【学习笔记】【企业数据湖】五、基于Apache Sqoop的批量数据获取

四、sqoop connector

sqoop connector在sqoop任务中起到如下作用：

sqoop进行数据传输时，两个组件开始起到作用，他们分别是：

sqoop connector的类型

五、sqoop对HDFS的支持

sqoop为HDFS数据导入导出而生。