数据案例

1)纽约时报当时累计4TB纸质文档资料,要将这些资料扫描为PDF,用了Hadoop,耗时24小时,成本240美元搞定了。由此可见,Hadoop的高校性和廉价性(Hadoop本身也有一套比较完善的检测机制确保集群正常运行)
2)国内的很多公司在08年就开始使用Hadoop处理大规模数据集。比如淘宝,百度,华为,中国移动等等。

淘宝的Hadoop应用

Hadoop一些数据案例

支付宝的Hadoop应用

Hadoop一些数据案例

Hadoop的技术细节

一、概述

  1. 在HDFS中,存在两类主要的节点:NameNode和DataNode
  2. NameNode负责管理DataNode,DataNode负责存储数据
  3. 在存储数据的时候会将数据进行切块
  4. 为了防止产生数据丢失,会将数据进行备份,备份称之为复本 - replication。在Hadoop中,默认复本数量为3
    Hadoop一些数据案例

二、block
5. 在存储数据的时候会将数据进行切块,每一个块称之为是一个Block
6. Block是HDFS的基本存储单位
7. 在Hadoop2.0版本中,每一个Block默认是128M。可以通过dfs.blocksize来更改块的大小,在更改的时候,单位是字节
8. 如果一个文件的大小不足128M,那么这个文件是多大在HDFS上就占多大的地方
9. 在HDFS中,会对Block进行编号 - BlockID
10. 将数据切块的意义:
a. 便于存储超大文件
b. 便于进行快速的备份

相关文章:

  • 2022-12-23
  • 2021-06-21
  • 2021-09-15
  • 2022-01-09
  • 2021-11-06
  • 2021-11-03
  • 2022-12-23
  • 2021-08-09
猜你喜欢
  • 2021-11-17
  • 2021-05-03
  • 2021-08-17
  • 2021-11-28
  • 2022-12-23
  • 2021-12-30
相关资源
相似解决方案