大数据特点和基本处理流程

1.大数据的4V特性

中文	英文
大量化	volume
快速化	velocity
多样化	variety
价值化	value

2.大数据的基本处理步骤

数据获取
flume
数据来源:专业数据机构,国家统计局,企业内部数据,互联网数据
数据清洗
mapreduce
清除不需要,错误,无效的数据
数据存储
hdfs
性能,可用,可靠,成本等方面考量
数据处理
hive
按业务需求处理
数据分享
sqoop,kettle
可视化展示,最大化利用数据价值

3.Hadoop

apache旗下开源软件平台,广义是指Hadoop生态圈
利用分布式集群,根据具体业务,对海量数据进行分布式处理
核心组件包括COMMON,HDFS,YARN,MAPREDUCE

4.组件

组件名称	主要功能
HDFS	分布式文件系统
MAPREDUCE	分布式运算程序开发框架
HIVE	基于文件系统和运算框架的SQL数据仓库工具
ZOOKEEPER	分布式协调服务基础组件
HBASE	分布式数据库OLTP
Mahout	基于分布式运算框架的机器学习算法库
Saoop	数据的导入导出工具
Flume	日志数据采集框架

5.分布式系统

划分成多个子系统或模块,各自运行在不同机器上,通过网络通信协作实现整体功能
操作系统,程序设计语言,编译系统,文件系统,数据库

6.ETL (数据仓库技术)

中文	英文
抽取	extract
交互转换	transform
加载	load

7.BI

商业智能
将企业现有数据有效整合,快速准确提供报表提出决策依据,帮助作出业务决策
需求分析和功能实现依赖的技术组件

相关文章：

猜你喜欢

相关资源

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode