0 前言:

自2月25起,实训20天,选择的大数据方向,最终团队需要给出一个大数据项目。0基础。

从2.18起,先一步入门学习预习大数据内容

以下记录所有的预习内容


1.体系:

MapReduce

hive    Hadoop扩展工具,使用sql转换为Hadoop任务

HBASE  关系型数据库,但是去除了事务这个特性,实现随机读取和实时访问。表数据读写

zookeeper   管理,监控Hadoop集群的状态并维护


2.安装流程:

linux环境

jdk环境及变量

Hadoop环境及变量

修改四个配置文件

大数据入门学习全过程知识记录

格式化

启动


3.HDFS 分布式文件系统

3.1 基础

NameNode类似于  mysql里面的 索引机制,用于二次查询。

DataNode 则是实际存储管理数据块的单元,下图有5个DataNode。

大数据入门学习全过程知识记录

大数据入门学习全过程知识记录

大数据入门学习全过程知识记录

3.2 数据管理

数据副本

大数据入门学习全过程知识记录

心跳检测

DataNode定义向NameNode发送心跳消息

 

3.3 文件读写

大数据入门学习全过程知识记录

大数据入门学习全过程知识记录

 

3.4 特点

不支持修改,只能删除,不同于数据库

大数据入门学习全过程知识记录

大数据入门学习全过程知识记录

大数据入门学习全过程知识记录

 

3.5 Hadoop命令操作

 


4.MapReduce

4.1 原理

大数据入门学习全过程知识记录

大数据入门学习全过程知识记录


5.单词计数的例子


------------------------------------------------------------------

..................................2.19 .....................................


HBase 学习   分布式数据库

1 基础 

大数据入门学习全过程知识记录

大数据入门学习全过程知识记录

大数据入门学习全过程知识记录

大数据入门学习全过程知识记录

大数据入门学习全过程知识记录

大数据入门学习全过程知识记录

 

2.表结构模型

允许 再一次分列    列簇。

大数据入门学习全过程知识记录

大数据入门学习全过程知识记录

大数据入门学习全过程知识记录

 

----------------------------2.20  记录------------------------------------

Hive  学习   数据仓库

1.基础

数据是不会更新的,无更新删除操作,只有查询操作。

大数据入门学习全过程知识记录

2.数据类型

类似与  mysql  也有对应的基本数据类型。  可以创建表。有远程连接的方式,类似于mysql。

大数据入门学习全过程知识记录

char  varchar

大数据入门学习全过程知识记录

大数据入门学习全过程知识记录

 

3.数据模型

3.1 数据存储

大数据入门学习全过程知识记录

3.2 内部表

 

3.3 分区表

大数据入门学习全过程知识记录

大数据入门学习全过程知识记录

3.4 外部表

大数据入门学习全过程知识记录

大数据入门学习全过程知识记录

3.5 桶表

hash操作

大数据入门学习全过程知识记录

3.6 视图

同mysql  视图概念一样

大数据入门学习全过程知识记录

 

 

 

 

------------------------------------------------------------------------------------------------------------------------

2月24日记录

1、python基础教学

 

 

 

 

 

 

 

 

 

 

 

相关文章:

  • 2021-09-13
  • 2021-09-24
  • 2022-12-23
  • 2021-11-29
  • 2021-07-13
  • 2021-06-16
  • 2021-12-01
猜你喜欢
  • 2020-03-23
  • 2021-08-21
  • 2021-11-20
  • 2021-09-03
  • 2021-11-02
  • 2018-06-23
  • 2021-06-08
相关资源
相似解决方案