【发布时间】:2017-09-17 09:25:47
【问题描述】:
我正在努力掌握大数据,主要是如何管理大数据。
我熟悉传统的数据管理形式和数据生命周期;例如:
- 收集的结构化数据(例如网络表单)
- 数据存储在数据库服务器上 RDBMS 的表中
- 数据清理,然后 ETL 到数据仓库中
- 使用 OLAP 多维数据集和各种其他 BI 工具/技术分析数据
但是,就大数据而言,我对第 2 点和第 3 点的等效版本感到困惑,主要是因为我不确定每个大数据“解决方案”是否总是涉及使用 NoSQL 数据库处理和存储非结构化数据,以及大数据等价物是数据仓库。
据我所知,在某些情况下,NoSQL 并不总是被使用并且可以完全省略 - 这是真的吗?
对我来说,大数据生命周期大致如下:
- 收集的数据(结构化/非结构化/半)
- 数据存储在大数据平台上的 NoSQL 数据库中;例如HBase on MapR Hadoop 服务器分布。
- 大数据分析/数据挖掘工具清理和分析数据
但我有一种感觉,情况并非总是如此,第 3 点可能完全是错误的。任何人都可以对此有所了解吗?
【问题讨论】:
标签: database hadoop bigdata nosql