概述
Hadoop简介:
Hadoop是Aapache软件基金会旗下的一个开源分布式计算平台,hadoop的核心是分布式文件系统(HDFS)和MyReduce。hadoop被公认为行业大数据标准开源软件。
Hadoop来历:
Hadoop和Google一样都是小孩子起的名字,hadoop最初由Apache Lucene项目创始人DougCutting开发的文本搜索库。
Hadoop的特性:
高可靠性、高效性、可扩展性、高容错性、成本低.
Hadoop的应用现状:
国内采用Hadoop的公司主要有百度、淘宝、网易、华为、中国移动等。其中淘宝的Hadoop集群比较大。华为是Hadoop的使用者,也是Hadoop技术的重要推动者。
Hadoop生态系统:
HDFS:
分布式文件系统是Hadoop项目的两大核心之一,是针对谷歌文件系统的开源实现。HDFS具有处理超大数据,流式数据,可以运行在廉价商用服务器上等优点。
HBase:
是一个提高可靠性、高性能、可伸缩、实时读写、分布式的列式数据库,一般采用HDFS作为其底层数据存储。
MapReduce:
是一种编程模型,用于大规模数据集的并行运算,它将复杂的、运行与大规模集群上的并行计算过程高度地抽象到了两个函数---Map 和Reduce上,并且允许用户在不了解分布式系统底层细节情况下开发并行应用程序,并将其运行与廉价计算机集群上,完成海量数据处理。通俗说MapReduce的核心思想就是“分而治之”。
Hive:
是一个基于Hadoop的数据仓库工具,将数据集进行数据整理、特殊查询、分析存储。学习门槛低,与数据库类似。
Pig:
是一种数据流语言和运行环境,适合于使用Hadoop和MapReduce平台来查询大型半结构化数据集。
Mahout:
Mahout是Apache基金会旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法实现,旨在帮住开发人员更加方便快捷地创建智能应用程序,它包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘,通过Apache Hadoop库,Mahout可以有效地扩张到云中。
Zookeeper
Zookeeper是高效可可靠的协同工作系统,提供了分布式锁之类的基本服务。
Flume:
Flume:是Cloudera提供的一个高可用、高可靠的、分布式的海量日志此采集、聚合和传输的系统。
Sqoop:
Sqoop是SQL-to-Hadoop的缩写,主要用来在Hadoop的关系数据库之间交换数据,可以改进数据的互操作性。
Ambari;
是一种基于web的工具,支持Apache Hadoop集群的安装、部署、配置和管理。
Hadoop安装和使用:
Hadoop学习指南:http://dblab.xmu.edu.cn/blog/285/
安装提纲:
1:hadoop安装预备知识
2:安装Linux虚拟机
3:安装双系统
4:详解Hadoop的安装与使用
Linux的选择:CentOS与Ubuntu在世面占比最高
推荐使用Ubantu轻量级的,而CentOS相对重量级一点
选择32或者64,看自己内存来定。
看自己电脑配置来觉得装双操作系统或者用虚拟机
关于Linux的基础知识:
shell :是指“提供使用者使用界面”的软件(命令解析器)类似于DOS下的command和后来的cmd.exe.它接收用户命令然后调用相应的应用程序
sudo命令:是ubuntu中一种权限管理机器,管理员可以授权给一些普通用户去执行一些需要root权限执行的操作,当使用sudo命令时,就需要输入您当前的用户密码
输入密码:输入密码的时候不会显示
输入法中英文切换:“shift”切换
Ubantu终端复制粘贴快捷键:复制粘贴在windows的基础上加上shift,及粘贴是ctrl + shift + v
Hadoop的安装方式:
单机模式:安装解压缩就是默认是一种本地模式(非分布式模式),即单运行JAVA进程,没有任何配置就可以运行Hadoop,它访问的是本地磁盘,不去访问分布式文件HDFS。
伪分布式模式:Hadoop可以在单个节点上模拟多个节点的运行方式,Hadoop进程以分离的java进程来运行,真正的分布式是由一个NameNode和若干个DataNode构成的,如果把NameNode和若干个DataNode放在同一个节点上运行就是伪分布式。
分布式模式:使用多个节点构成的集群环境来进行Hadoop,名称节点和数据节点放在不同的机器上运行。
安装虚拟机Ubuntu:
安装软件VMware Workstation 准备好Ubuntu镜像
参考安装网址:https://www.cnblogs.com/Asgard-l/p/10301453.html
https://www.linuxidc.com/Linux/2020-03/162547.htm
Ubuntu 16.04 下安装VMware Tools:
https://blog.csdn.net/Franticquanshi/article/details/81348796