数据案例
1)纽约时报当时累计4TB纸质文档资料,要将这些资料扫描为PDF,用了Hadoop,耗时24小时,成本240美元搞定了。由此可见,Hadoop的高校性和廉价性(Hadoop本身也有一套比较完善的检测机制确保集群正常运行)
2)国内的很多公司在08年就开始使用Hadoop处理大规模数据集。比如淘宝,百度,华为,中国移动等等。
淘宝的Hadoop应用
支付宝的Hadoop应用
Hadoop的技术细节
一、概述
- 在HDFS中,存在两类主要的节点:NameNode和DataNode
- NameNode负责管理DataNode,DataNode负责存储数据
- 在存储数据的时候会将数据进行切块
- 为了防止产生数据丢失,会将数据进行备份,备份称之为复本 - replication。在Hadoop中,默认复本数量为3
二、block
5. 在存储数据的时候会将数据进行切块,每一个块称之为是一个Block
6. Block是HDFS的基本存储单位
7. 在Hadoop2.0版本中,每一个Block默认是128M。可以通过dfs.blocksize来更改块的大小,在更改的时候,单位是字节
8. 如果一个文件的大小不足128M,那么这个文件是多大在HDFS上就占多大的地方
9. 在HDFS中,会对Block进行编号 - BlockID
10. 将数据切块的意义:
a. 便于存储超大文件
b. 便于进行快速的备份