01 为什么学习Hadoop -> 原因?
- 数据存量和增量极大
- 极大数据需要存储和分析
- Hadoop可以存储并处理大量数据
- Hadoop编程简单易学
02 Hadoop生态系统
- HBase、Hive、Spark
- 更好的学习其他大数据技术
数据访问
- HBase是非结构化的数据库,以键值对的形式进行存储。可以在线实时查询。
数据传输
序列化
机器学习包
03 学什么(以任务为导向)
- Hadoop架构、原理 + 完全分布式Hadoop集群搭建(搭建方法) + 常用HDFS操作 + MapReduce Shell + API操作 + MapReduce编程技术 + 把常用数据挖掘算法进行MapReduce化 + Hadoop大数据案例
04 Hadoop背景
- 理解Hadoop的概念 + 了解Hadoop的由来和特点
- 理解HDFS、MapReduce、YARN原理
- 了解Hadoop生态系统 + 了解Hadoop应用场景
05 Hadoop特点
06 Hadoop简介 —— 核心:Common + HDFS + MapReduce
- RPC是文件传输的协议。
- 可扩展:增加结点、扩展资源。
- 容错:备份副本、多个结点存放数据(高性能)。
- 一次写入:写完之后不能修改但可添加,防止数据不一致的问题。
分布式文件系统HDFS 、Hadoop Distributed File System
- 不能修改文件里面的数据。
- 按照128M拆分成块。
- fsimage:快照。