hadoop特点与组成

1、hadoop解决两个方面的问题：
（1）解决海量数据的存储问题，用到HDFS分布式存储系统，HDFS利用多台机器的存储空间进行存储。
（2）解决海量数据的运算问题，用到MapReduce分布式编程框架，MapReduce利用多台机器的运算程序进行运算。
2、hadoop组成：
（1）HDFS分布式文件系统，对海量数据进行存储；
（2）MapReduce分布式运算编程框架；
（3）Yarn：资源调度系统和任务监控平台；检验机器的运算资源，并进行合理分配，分布式任务监控；
（4）comments：工具，hadoop的底层技术支持，写好了现成的工具类等。
注：为什么需要平台？
举个例子：这里有四台机器，用这四台机器统计一下a.txt中a出现的次数。现在，把a.txt分成四份，分配到四台机器中进行处理。机器之间的核心数、内存有大有小都不尽相同，大的在十秒钟能够完成，内存小、核心数少的五分钟才能完成。那这时，就需要有一个平台来对这四台机器进行资源的调度分配，这四台机器定时向平台汇报自己的内存占用、可用资源等，让平台进行合理的分配，以达到提高效率、节省开发时间的目的。
hadoop特点与组成

3、hadoop的特点：
（1）高可靠性：hadoop底层将数据物理切块，分别在不同的机器上存储副本；数据落地到磁盘；
（2）高容错性：能够自动保存数据的多个副本，当有存储数据的节点宕机以后, 会自动复制副本维持集群中副本的个数 ,并且能够自动将失败的任务重新分配；
（3）高扩展性：当存储hadoop的集群的存储能力和运算资源不能满足生产需要，可以横向扩展机器节点达到扩容和增强运算能力。
（4）高效性：虽然没有单机的速度快，但是多台机器组成的集群在MapReduce的思想下可以在不同节点之间动态地移动运算，且是分布式工作；
（5）低成本：hadoop可以运行在廉价的机器上，机器之间并行工作，中大型企业可以达到上千台机器的规模；（一般一台新机器价格在1w以上）
（6）一次存储，多次读取；
（7）不能实现数据的随机修改，只能实现数据的追加（append）；
（8）不要并发写，不建议修改内容。
注：与mysql不同，客户端不能直接操作数据，只能向有namenode的机器发出请求进行上传文件或者下载文件。