1.大数据的4V特性
| 中文 |
英文 |
| 大量化 |
volume |
| 快速化 |
velocity |
| 多样化 |
variety |
| 价值化 |
value |
2.大数据的基本处理步骤
- 数据获取
flume
数据来源:专业数据机构,国家统计局,企业内部数据,互联网数据
- 数据清洗
mapreduce
清除不需要,错误,无效的数据
- 数据存储
hdfs
性能,可用,可靠,成本等方面考量
- 数据处理
hive
按业务需求处理
- 数据分享
sqoop,kettle
可视化展示,最大化利用数据价值
3.Hadoop
- apache旗下开源软件平台,广义是指Hadoop生态圈
- 利用分布式集群,根据具体业务,对海量数据进行分布式处理
- 核心组件包括COMMON,HDFS,YARN,MAPREDUCE
4.组件
| 组件名称 |
主要功能 |
| HDFS |
分布式文件系统 |
| MAPREDUCE |
分布式运算程序开发框架 |
| HIVE |
基于文件系统和运算框架的SQL数据仓库工具 |
| ZOOKEEPER |
分布式协调服务基础组件 |
| HBASE |
分布式数据库OLTP |
| Mahout |
基于分布式运算框架的机器学习算法库 |
| Saoop |
数据的导入导出工具 |
| Flume |
日志数据采集框架 |
5.分布式系统
- 划分成多个子系统或模块,各自运行在不同机器上,通过网络通信协作实现整体功能
- 操作系统,程序设计语言,编译系统,文件系统,数据库
6.ETL (数据仓库技术)
| 中文 |
英文 |
| 抽取 |
extract |
| 交互转换 |
transform |
| 加载 |
load |
7.BI
- 商业智能
- 将企业现有数据有效整合,快速准确提供报表提出决策依据,帮助作出业务决策
- 需求分析和功能实现依赖的技术组件

相关文章: