1、hadoop解决两个方面的问题:
(1)解决海量数据的存储问题,用到HDFS分布式存储系统,HDFS利用多台机器的存储空间进行存储。
(2)解决海量数据的运算问题,用到MapReduce分布式编程框架,MapReduce利用多台机器的运算程序进行运算。
2、hadoop组成:
(1)HDFS分布式文件系统,对海量数据进行存储;
(2)MapReduce分布式运算编程框架;
(3)Yarn:资源调度系统和任务监控平台;检验机器的运算资源,并进行合理分配,分布式任务监控;
(4)comments:工具,hadoop的底层技术支持,写好了现成的工具类等。
注:为什么需要平台?
举个例子:这里有四台机器,用这四台机器统计一下a.txt中a出现的次数。现在,把a.txt分成四份,分配到四台机器中进行处理。机器之间的核心数、内存有大有小都不尽相同,大的在十秒钟能够完成,内存小、核心数少的五分钟才能完成。那这时,就需要有一个平台来对这四台机器进行资源的调度分配,这四台机器定时向平台汇报自己的内存占用、可用资源等,让平台进行合理的分配,以达到提高效率、节省开发时间的目的。
hadoop特点与组成

3、hadoop的特点:
(1)高可靠性:hadoop底层将数据物理切块,分别在不同的机器上存储副本;数据落地到磁盘;
(2)高容错性:能够自动保存数据的多个副本,当有存储数据的节点宕机以后, 会自动复制副本维持集群中副本的个数 ,并且能够自动将失败的任务重新分配;
(3)高扩展性:当存储hadoop的集群的存储能力和运算资源不能满足生产需要,可以横向扩展机器节点达到扩容和增强运算能力。
(4)高效性:虽然没有单机的速度快,但是多台机器组成的集群在MapReduce的思想下可以在不同节点之间动态地移动运算,且是分布式工作;
(5)低成本:hadoop可以运行在廉价的机器上,机器之间并行工作,中大型企业可以达到上千台机器的规模;(一般一台新机器价格在1w以上)
(6)一次存储,多次读取;
(7)不能实现数据的随机修改,只能实现数据的追加(append);
(8)不要并发写,不建议修改内容。
注:与mysql不同,客户端不能直接操作数据,只能向有namenode的机器发出请求进行上传文件或者下载文件。

相关文章:

  • 2021-07-20
  • 2021-04-29
  • 2022-01-07
  • 2021-10-07
  • 2021-09-27
  • 2021-11-10
  • 2021-11-14
猜你喜欢
  • 2021-08-17
  • 2021-07-29
  • 2022-12-23
  • 2021-04-15
  • 2021-05-02
相关资源
相似解决方案