大数据复习 上部分
第一章
1、
| 信息化浪潮 | 标志 | 解决的问题 |
|---|---|---|
| 第一次浪潮 | 个人计算机 | 信息处理 |
| 第二次浪潮 | 互联网 | 信息传输 |
| 第三次浪潮 | 物联网、云计算和大数据 | 信息爆炸 |
2、人类社会的数据产生方式大概经历了3个阶段:运营式阶段、用户原创内容阶段 和 感知式系统阶段
3、大数据的4个“V”,或者说是大数据的4个特点:数据量大、数据类型繁多、处理速度快、价值密度低
4、四种范式:实验科学、理论科学、计算科学、数据密集型科学。
5、大数据时代最大的转变就是思维方式的3种转变:全样而非抽样、效率而非精确、相关而非因果
6、MapReduce是大数据计算模式种的一种,它代表了针对大规模数据的批量处理技术,大数据计算模式:批处理计算、流计算、图计算、查询分析计算。
7、大数据、云计算、物联网的区别:
- 大数据侧重于对海量数据的存储、处理与分析,从海量数据中发现价值,服务于生产和生活;
- 云计算本质上旨在整合和优化各种IT资源,并通过网络以服务的方式廉价地提供给用户;
- 物联网的发展目标是实现物物相连,应用创新是物联网发展的核心
8、大数据、云计算、物联网的联系:从整体上看,大数据、云计算和物联网这三者是相辅相成的。
- 云计算为大数据提供了技术基础,大数据为云计算提供用武之地
- 云计算为物联网提供海量数据存储能力,物联网为云计算技术提供了广阔的应用空间
- 物联网是大数据的重要来源,大数据技术为物联网数据分析提供支撑
第二章
1、Hadoop是Apache软件基金会旗下的一个 开源分布式计算平台,为用户提供了系统底层细节透明的 分布式基础架构。Hadoop是基于 Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中。Hadoop的核心是 分布式文件系统(hdfs)和 MapReduce。
2、Hadoop生态系统
- HDFS:分布式文件系统
- YARN:资源调度和管理框架
- MapReduce:分布式计算框架
- Hive:数据仓库
- Pig:数据流处理
- Mahout:数据挖掘库
- Zookeeper:分布式协作服务
- HBase:分布式数据库
- Flume:日志收集
- Sqoop:数据库ETL
- Ambari:安装、部署、配置和管理工具
第三章
1、HDFS默认的一个块大小是 64MB
2、名称节点(NameNode)和数据节点(DataNode)是干什么的?
名称节点:名称节点负责文件和目录的创建、删除和重命名等,同时管理着数据节点和文件块的映射关系。(因此客户端只有访问名称节点才能找到请求的文件块所在的位置,进而到相应位置读取所需文件块)
数据节点:数据节点负责数据的存储和读取。(在存储时,由名称节点分配存储位置,然后由客户端把数据直接写入相应数据节点;在读取时,客户端从名称节点获得数据节点和文件块的映射关系,然后就可以到相应位置访问文件块。数据节点也要根据名称节点的命令创建、删除数据块和冗余复制)
3、第二名称节点(SecondaryNameNode)的功能:
- 可以完成EditLog与FsImage的合并操作,减少EditLog文件的大小,缩短名称节点重启时间。
- 可以作为名称节点的“检查点”,保存名称节点中的元数据信息。
4、HDFS默认的冗余复制因子是3,每一个文件会被同时保存到3个地方,其中有两份副本放在同一个机架的不同机器上,第三个副本放在不同机架的机器上。
第四章
1、HBase列族数据模型包括:列族、列限定符、单元格、时间戳。
2、HBase是一个稀疏、多维、持久化的映射表,它采用行键、列族、列限定符和时间戳进行索引。
3、面向行的存储和面向列的存储的区别(行式数据库和列式数据库的区别)
-
行式数据库使用NSM存储模型,一个元组(或行)会被连续地存储在磁盘页中。如果每个元组只有少量属性的值对于查询是有用的,那么NSM就会浪费许多磁盘空间和内存带宽。
列式数据库采用DSM存储模型,DSM对关系进行垂直分解,并为每个属性分配一个子关系。
-
行式数据库主要适合于小批量地数据处理。列式数据库主要适合于批量数据处理和即席查询
-
列式数据库的优点:降低I/O开销,支持大量并发用户查询。缺点是:执行连接操作时需要昂贵的元组重构代价。
第五章
1、NoSQL与关系数据库的比较
- 关系数据库的突出优势在于,以完善的关系代数理论作为基础,有严格的标准,支持事务ACID四性,借助索引机制可以实现高效的查询,技术成熟,有专业公司的技术支持;其劣势在于,可扩展性较差,无法较好地支持海量数据存储,数据模板过于死板,无法较好地支持Web2.0应用,事务机制影响了系统地整体性能。
- NoSQL数据库地明显优势在于,可以支持超大规模数据存储,灵活的数据模型可以很好地支持Web2.0应用,具有强大地横向扩展能力等;其劣势在于,缺乏数学理论基础,复杂查询性能不高,一般都不能实现事务强一致性,很难实现数据完整性,技术尚不成熟,缺乏专业团队的技术支持,维护较困难等。
2、NoSQL四大类型数据库以及代表:
- 键值数据库 Redis
- 列族数据库 HBase
- 文档数据库 MongoDB
- 图数据库 Neo4J
第七章
1、MapReduce原理:在MapReduce中,一个存储在分布式文件系统中的大规模数据集会被切分成许多独立的小数据块,这些小数据块可以被多个Map任务并行执行。
2、MapReduce设计理念:计算向数据靠拢
3、Map、Shuffle、Reduce
第八章
1、HDFS HA解决了什么问题?怎么解决的?
- 为了解决单点故障问题,HDFS2.0采用了HA架构。
- 在一个典型的HA集群中,一般设置两个名称节点,其中一个名称节点处于活跃状态,另一个处于待命状态。处于活跃状态的名称节点负责对外处理所有客户端的请求,而处于待命状态的名称节点则作为备用节点,保存了足够多的系统元数据,当名称节点出现故障时提供快速恢复能力。也就是说,在HDFS HA中,处于待命状态的名称节点提供了“热备份”,一旦活跃名称节点出现故障,就可以立即切换到待命名称节点不会影响到系统的正常对外服务。
2、HDFS联邦解决了HDFS1.0中的什么问题?
- HDFS集群可扩展性。多个名称节点各自分管一部分目录,使得一个集群可以扩展到更多节点,不再像HDFS1.0中那样由于内存的限制制约文件存储数目。
- 性能更高效。多个名称节点管理不同的数据,且同时对外提供服务,将为用户提供更高的读写吞吐率。
- 良好的隔离性。用户可根据需要将不同业务数据交由不同名称节点管理,这样不同业务之间影响很小。