水平有限,本文仅以流水账的方式 介绍自己 安装 三款软件 的过程。

 

环境Ubuntu on 虚拟机:

$ cat /proc/version
Linux version 4.15.0-54-generic (buildd@lgw01-amd64-014) (gcc version 7.4.0 \
(Ubuntu 7.4.0-1ubuntu1~18.04.1)) #58-Ubuntu SMP Mon Jun 24 10:55:24 UTC 2019

 

背景

 

Hadoop 包含 HDFS、MapReduce(两大核心),基于 Hadoop core 实现,对了Hadoop中还有一款 资源管理器YARN。

HBase 一个分布式数据库,列存储模式,HBase将数据存储在HDFS(基于),分布式NoSQL数据库,类似MongoDB、Cassandra,不过,可以处理的数据量级大于MongoDB。

Spark 是一个计算框架,为了解决Hadoop的计算效率低下等问题而生,它基于内存做计算,可以基于Hadoop,也可以不和Hadoop一起使用。

 

三款软件都属于 Apache基金会,从下面的链接中可以找到 各个软件(Download & Documentation):

https://www.apache.org/index.html#projects-list

安装选择的版本:

Hadoop:hadoop-3.1.3.tar.gz 2019 Oct 21

HBase:hbase-2.2.5-bin.tar.gz 2020/05/21

Spark:spark-3.0.0-bin-hadoop3.2.tgz Jun 18, 2020

注意,

HBase 1.*、2.* 的区别是什么?其 1.6.0 发布于 2020/03/06,看来两个版本都是处于 很好的维护阶段。

spark with hadoop、without hadoop的区别是什么?

作者还没弄明白。

 

正文

 

0、准备工作

创建 hadoop用户(不一定是 hadoop),并添加 管理员权限

Hadoop、HBase、Spark单机安装

 

JDK 8+(Linux上有 OpenJDK 的)

ssh、sshd、pdsh

 

修改 /etc/profile:添加 export PDSH_RCMD_TYPE=ssh

Hadoop、HBase、Spark单机安装

 

1、Hadoop

Hadoop、HBase、Spark单机安装

 

三种安装模式中的 Pseudo-Distributed Mode(伪分布式) 模式 + YARN资源调度器。

 

解压hadoop-3.1.3.tar.gz;

Hadoop、HBase、Spark单机安装

修改 etc/hadoop/hadoop-env.sh:

添加export JAVA_HOME=jdk安装目录;

执行 bin/hadoop 可以看到 这个命令的用户;

bin目录 下是 一些 原始命令,sbin目录 下 是 一些服务命令——启动、停止等。

Hadoop、HBase、Spark单机安装

Hadoop、HBase、Spark单机安装

此时,hadoop命令就可以使用了,如官网所说,可以执行一些任务了。

 

etc下文件:

$ ll etc/hadoop/
total 184
drwxr-xr-x 3 hadoop hadoop  4096 7月   9 08:46 ./
drwxr-xr-x 3 hadoop hadoop  4096 9月  12  2019 ../
-rw-r--r-- 1 hadoop hadoop  8260 9月  12  2019 capacity-scheduler.xml
-rw-r--r-- 1 hadoop hadoop  1335 9月  12  2019 configuration.xsl
-rw-r--r-- 1 hadoop hadoop  1940 9月  12  2019 container-executor.cfg
-rw-r--r-- 1 hadoop hadoop   866 6月  29 15:50 core-site.xml
-rw-r--r-- 1 hadoop hadoop  3999 9月  12  2019 hadoop-env.cmd
-rw-r--r-- 1 hadoop hadoop 15934 6月  29 14:48 hadoop-env.sh
-rw-r--r-- 1 hadoop hadoop  3323 9月  12  2019 hadoop-metrics2.properties
-rw-r--r-- 1 hadoop hadoop 11392 9月  12  2019 hadoop-policy.xml
-rw-r--r-- 1 hadoop hadoop  3414 9月  12  2019 hadoop-user-functions.sh.example
-rw-r--r-- 1 hadoop hadoop  1072 6月  30 15:03 hdfs-site.xml
-rw-r--r-- 1 hadoop hadoop  1484 9月  12  2019 httpfs-env.sh
-rw-r--r-- 1 hadoop hadoop  1657 9月  12  2019 httpfs-log4j.properties
-rw-r--r-- 1 hadoop hadoop    21 9月  12  2019 httpfs-signature.secret
-rw-r--r-- 1 hadoop hadoop   620 9月  12  2019 httpfs-site.xml
-rw-r--r-- 1 hadoop hadoop  3518 9月  12  2019 kms-acls.xml
-rw-r--r-- 1 hadoop hadoop  1351 9月  12  2019 kms-env.sh
-rw-r--r-- 1 hadoop hadoop  1747 9月  12  2019 kms-log4j.properties
-rw-r--r-- 1 hadoop hadoop   682 9月  12  2019 kms-site.xml
-rw-r--r-- 1 hadoop hadoop 13326 9月  12  2019 log4j.properties
-rw-r--r-- 1 hadoop hadoop   951 9月  12  2019 mapred-env.cmd
-rw-r--r-- 1 hadoop hadoop  1764 9月  12  2019 mapred-env.sh
-rw-r--r-- 1 hadoop hadoop  4113 9月  12  2019 mapred-queues.xml.template
-rw-r--r-- 1 hadoop hadoop  1027 6月  29 16:49 mapred-site.xml
drwxr-xr-x 2 hadoop hadoop  4096 9月  12  2019 shellprofile.d/
-rw-r--r-- 1 hadoop hadoop  2316 9月  12  2019 ssl-client.xml.example
-rw-r--r-- 1 hadoop hadoop  2697 9月  12  2019 ssl-server.xml.example
-rw-r--r-- 1 hadoop hadoop  2642 9月  12  2019 user_ec_policies.xml.template
-rw-r--r-- 1 hadoop hadoop    10 9月  12  2019 workers
-rw-r--r-- 1 hadoop hadoop  2250 9月  12  2019 yarn-env.cmd
-rw-r--r-- 1 hadoop hadoop  6056 9月  12  2019 yarn-env.sh
-rw-r--r-- 1 hadoop hadoop  2591 9月  12  2019 yarnservice-log4j.properties
-rw-r--r-- 1 hadoop hadoop  1159 6月  29 17:41 yarn-site.xml
hadoop@ben-VirtualBox:~/ws/hadoop-3.1.3$
etc/hadoop目录

相关文章: