生态圈大数据系列(8)Hadoop生态简介

HBase简介

  • 高可靠,高性能,面向列,可伸缩,实时读写的分布式数据库
  • 利用HDFS作为其文件存储系统,支持MR程序读取数据
  • 存储非结构化和半结构化数据

RowKey:数据唯一标识,按字典排序
Column Family:列族,多个列的集合,最多不要超过3个
**TimeStamp时间戳:**支持多版本数据同时存在
大数据系列(8)Hadoop生态简介

Spark

  • 基于内存的大数据并行计算框架
  • Spark是MapReduce的替代方案,兼容HDFS,HIVE等数据源
  • 抽象出分布式内存存储数据结构,弹性分布式数据集RDD
  • 基于事件驱动,通过线程池复用线程提高性能

相关文章: