Hadoop一些数据案例

数据案例

1）纽约时报当时累计4TB纸质文档资料，要将这些资料扫描为PDF，用了Hadoop，耗时24小时，成本240美元搞定了。由此可见，Hadoop的高校性和廉价性（Hadoop本身也有一套比较完善的检测机制确保集群正常运行）
2）国内的很多公司在08年就开始使用Hadoop处理大规模数据集。比如淘宝，百度，华为，中国移动等等。

淘宝的Hadoop应用

Hadoop一些数据案例

支付宝的Hadoop应用

Hadoop一些数据案例

Hadoop的技术细节

一、概述

在HDFS中，存在两类主要的节点：NameNode和DataNode
NameNode负责管理DataNode，DataNode负责存储数据
在存储数据的时候会将数据进行切块
为了防止产生数据丢失，会将数据进行备份，备份称之为复本 - replication。在Hadoop中，默认复本数量为3

二、block
5. 在存储数据的时候会将数据进行切块，每一个块称之为是一个Block
6. Block是HDFS的基本存储单位
7. 在Hadoop2.0版本中，每一个Block默认是128M。可以通过dfs.blocksize来更改块的大小，在更改的时候，单位是字节
8. 如果一个文件的大小不足128M，那么这个文件是多大在HDFS上就占多大的地方
9. 在HDFS中，会对Block进行编号 - BlockID
10. 将数据切块的意义：
a. 便于存储超大文件
b. 便于进行快速的备份