最新版大数据平台安装部署指南,HDP-2.6.5.0,ambari-2.6.2.0
一、服务器环境配置 1 系统要求 名称 地址 操作系统 root密码 Master1 10.1.0.30 Centos 7.7 Root@bidsum1 Master2 10.1.0.105 Centos 7.7 Worker1 10.1.0.127 Centos 7.7 Worker2 10.1. ... »
一、服务器环境配置 1 系统要求 名称 地址 操作系统 root密码 Master1 10.1.0.30 Centos 7.7 Root@bidsum1 Master2 10.1.0.105 Centos 7.7 Worker1 10.1.0.127 Centos 7.7 Worker2 10.1. ... »
1、硬件配置 采用3台虚拟机 节点名称 IP地址 内存 硬盘 节点角色 node1 192.168.1.6 2GB 10GB NameNode、ResoucerManager、ZKFC、DataNode、NodeManager、JournalNode、QuorumPeerMain node2 192 ... »
环境为伪分布。 1、下载相关文件: lzo-2.10.tar.gz:https://www.oberhumer.com/opensource/lzo/ hadoop-lzo-master.zip:https://github.com/twitter/hadoop-lzo/archive/master ... »
1、硬件配置 采用3台虚拟机 节点名称 IP地址 内存 硬盘 节点角色 node1 192.168.1.6 2GB 10GB NameNode、ResoucerManager、ZKFC、DataNode、NodeManager、JournalNode、QuorumPeerMain node2 192 ... »
一、引言 Hive:由Facebook开源用于解决海量结构化日志的数据统计工具。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 1.1.1 优点 1) 操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手)。 2) 避免了去写Ma ... »
1. HDFS概述 Hadoop 分布式系统框架中,首要的基础功能就是文件系统,在 Hadoop 中使用 FileSystem 这个抽象类来表示我们的文件系统,这个抽象类下面有很多子实现类,究竟使用哪一种,需要看我们具体的实现类,在我们实际工作中,用到的最多的就是HDFS(分布式文件系统)以及Loc ... »
1. HDFS概述 Hadoop 分布式系统框架中,首要的基础功能就是文件系统,在 Hadoop 中使用 FileSystem 这个抽象类来表示我们的文件系统,这个抽象类下面有很多子实现类,究竟使用哪一种,需要看我们具体的实现类,在我们实际工作中,用到的最多的就是HDFS(分布式文件系统)以及Loc ... »
目标: 监控Oracle某张记录表,有新增数据则获取表数据,并推送到微信企业。 流程: Kafka实时监控Oracle指定表,获取该表操作信息(日志),使用Spark Structured Streaming消费Kafka,获取数据后清洗后存入指定目录,Python实时监控该目录,提取文本里面数据并 ... »
系列文章: 大数据系列:一文初识Hdfs 大数据系列2:Hdfs的读写操作 大数据谢列3:Hdfs的HA实现 通过前文,我们对Hdfs的已经有了一定的了解,本文将继续之前的内容,介绍Yarn与Yarn在MapReduce 2的应用 MapReduce1 作业流程 在介绍Yarn之前,我们先介绍一下M ... »
在之前的文章:大数据系列:一文初识Hdfs , 大数据系列2:Hdfs的读写操作 中Hdfs的组成、读写有简单的介绍。 在里面介绍Secondary NameNode和Hdfs读写的流程。 并且在文章结尾也说了,Secondary NameNode并不是我常说的HA,(High Availabili ... »
在前文大数据系列1:一文初识Hdfs中,我们对Hdfs有了简单的认识。 在本文中,我们将会简单的介绍一下Hdfs文件的读写流程,为后续追踪读写流程的源码做准备。 Hdfs 架构 首先来个Hdfs的架构图,图中中包含了Hdfs 的组成与一些操作。 对于一个客户端而言,对于Hdfs的操作不外乎也就读写两 ... »
最近有位同事经常问一些Hadoop的东西,特别是Hdfs的一些细节,有些记得不清楚,所以趁机整理一波。 会按下面的大纲进行整理: 简单介绍Hdfs 简单介绍Hdfs读写流程 介绍Hdfs HA实现方式 介绍Yarn统一资源管理器 追一下Hdfs读写的源码 同时也有其他方面的整理,有兴趣可以看看: 算 ... »
小马哥大数据基础专栏: 最简单的解释 MapReduce 思想, 最简单的 MapReduce 入门案例. ... »
一、区别 ①本质上相同,都是把Map端数据分类处理后交由Reduce的过程。 ②数据流有所区别,MR按map, spill, merge, shuffle, sort, r educe等各阶段逐一实现。Spark基于DAG数据流,可实现更复杂数据流操作(根据宽/窄依赖实现) ③实现功能上有所区别,M ... »
基于源码源码分析hadoop namenode格式化和启动过程实现 (According to the source code analysis hadoop namenode formatting and startup process implementation.) ... »
1、配置网络环境及jar准备 hadoop-2.7.2-src.tar.gz jdk-8u144-linux-x64.tar.gz apache-ant-1.9.9-bin.tar.gz(build工具,打包用的) apache-maven-3.0.5-bin.tar.gz protobuf-2.5 ... »
Hadoop安装配置 环境 1, JDK8 --> 位置: /opt/jdk8 2, Hadoop2.10: --> 位置: /opt/bigdata/hadoop210 3, CentOS 7虚拟机试验集群规划 一,安装步骤 1, 解压缩 cd /opt/bigdata tar -zxvf had ... »
对于文件的存储、传输、磁盘IO读取等操作在使用Hadoop生态圈的存储系统时是非常常见的,而文件的大小等直接影响了这些操作的速度以及对磁盘空间的消耗。 此时 ... »
笔者鼓弄了两个星期,终于把所有有关hadoop的环境配置好了,一是虚拟机上的完全分布式集群,但是为了平时写代码的方便,则在windows上也配置了hadoop的伪分布式集群,同时在IDEA上就可以编写代码,同时在windows环境下进行运行。(如果不配置windows下的伪分布式集群,则在IDEA上 ... »
1.概述 最近有同学留言咨询Kafka数据落地到Hive的一些问题,今天笔者将为大家来介绍一种除Flink流批一体以外的方式(流批一体下次再单独写一篇给大家分享)。 2.内容 首先,我们简单来描述一下数据场景,比如有这样一个数据场景,有一批实时流数据实时写入Kafka,然后需要对Topic中的数据进 ... »