上一篇使用Docker搭建了Hadoop的完全分布式:网站日志流量分析系统(该系统目前用虚拟机实现了离线分析模块,实时分析由于资源问题尚未完成---这次spark集群用于该项目的实时分析)

一、根据架构图搭建基础环境

使用Docker搭建Spark集群(用于实现网站流量实时分析模块)

  ①Scala版本:2.13以及JDK版本:1.8.231,scala下载地址:https://www.scala-lang.org/download/(安装过程略)

  ②Docker版本:Docker version 19.03.5,下载地址:https://docs.docker.com/install/linux/docker-ce/centos/(安装过程略)

  ③搭建zookeeper集群(版本:3.4.14),下载地址:http://mirror.bit.edu.cn/apache/zookeeper/

  ④搭建hadoop集群(版本:2.7.7),下载地址:https://archive.apache.org/dist/hadoop/common/

  ⑤安装flume(版本:1.9.0),下载地址:http://flume.apache.org/download.html

  ⑥搭建Kafka集群(版本:2.4.0),下载地址:http://kafka.apache.org/downloads

  ⑦搭建HBase集群(版本:0.98.17),下载地址:https://archive.apache.org/dist/hbase/

  ⑧搭建Spark集群(版本:2.4.4),下载地址:https://www.apache.org/dyn/closer.lua/spark/spark-2.4.4/spark-2.4.4-bin-hadoop2.7.tgz

 基于以上环境来搭建Spark集群,最终实现网站流量的实时分析(离线分析模块已完成)--------网站日志流量分析系统,鄙人使用6个容器来实现以上环境的搭建,如下所示

                                                                   使用Docker搭建Spark集群(用于实现网站流量实时分析模块)

二、启动容器并固定IP

  可参考鄙人博客使用Docker搭建Hadoop集群(伪分布式与完全分布式)里面有固定ip相关说明。

1、Dockerfile构建具备ssh的centos镜像

1.1编写Dockerfile

FROM centos

# 镜像的作者  
 MAINTAINER xiedong

# 安装openssh-server和sudo软件包,并且将sshd的UsePAM参数设置成no  
RUN yum install -y openssh-server sudo
RUN sed -i 's/UsePAM yes/UsePAM no/g' /etc/ssh/sshd_config
#安装openssh-clients
RUN yum  install -y openssh-clients

# 添加测试用户root,密码root,并且将此用户添加到sudoers里  
RUN echo "root:root" | chpasswd
RUN echo "root   ALL=(ALL)       ALL" >> /etc/sudoers
RUN ssh-keygen -t dsa -f /etc/ssh/ssh_host_dsa_key
RUN ssh-keygen -t rsa -f /etc/ssh/ssh_host_rsa_key
# 启动sshd服务并且暴露22端口  
RUN mkdir /var/run/sshd
EXPOSE 22
CMD ["/usr/sbin/sshd", "-D"]
Dockerfile

相关文章:

  • 2022-12-23
  • 2021-11-20
  • 2021-05-21
  • 2022-12-23
  • 2021-12-27
  • 2021-07-24
  • 2021-08-25
  • 2022-12-23
猜你喜欢
  • 2021-11-07
  • 2021-05-22
  • 2021-12-19
  • 2021-10-21
  • 2022-12-23
相关资源
相似解决方案