hadoop

数据库之Hive概论和架构和基本操作

目录 Hive概论 Hive架构  Hive安全和启动 Hive数据库操作 Hive内部表操作-数据添加 Hive内部表特点 Hive外部表操作 Hive表操作-分区表 Hive概论 Hive是一个构建在Hadoop上的数据仓库框架,最初,Hive是由Facebook开发,后台移交由Apa »

hdfs集群的扩容和缩容

目录 1、背景 2、集群黑白名单 3、准备一台新的机器并配置好hadoop环境 3.1 我们现有的集群规划 3.2 准备一台新的机器 3.2.1 查看新机器的ip 3.2.2 修改主机名和host映射 3.2.3 配置时间同步 3.2.4 关闭防火墙 3.2.5 新建hadoop部署用户 3. »

【深入浅出 Yarn 架构与实现】6-1 NodeManager 功能概述

本节开始将对 Yarn 中的 NodeManager 服务进行剖析。 NodeManager 需要在每个计算节点上运行,与 ResourceManager 和 ApplicationMaster 进行交互。管理节点的计算资源以及调度容器。后续将对 NM 的功能职责、状态机、容器生命周期和资源隔离等 »

shuofxz

linux下安装Hadoop的详细教程

目录 一:安装JDK 1.执行以下命令,下载JDK1.8安装包。 2.执行以下命令,解压下载的JDK1.8安装包。 3.移动并重命名JDK包。 4.配置Java环境变量。 5.查看Java是否成功安装。 二:安装Hadoop 1. 执行以下命令,下载Hadoop安装包。 2. 执行以下命令, »

hadoop之MapReduce框架原理

目录 MapReduce框架的简单运行机制: Mapper阶段:  InputFormat数据输入: 切片与MapTask并行度决定机制: job提交过程源码解析: 切片逻辑: 1)FileInputFormat实现类 进行虚拟存储 (1)虚拟存储过程: Shuffle阶段: 排序: »

【深入浅出 Yarn 架构与实现】5-3 Yarn 调度器资源抢占模型

本篇将对 Yarn 调度器中的资源抢占方式进行探究。分析当集群资源不足时,占用量资源少的队列,是如何从其他队列中抢夺资源的。我们将深入源码,一步步分析抢夺资源的具体逻辑。 本篇将对 Yarn 调度器中的资源抢占方式进行探究。分析当集群资源不足时,占用量资源少的队列,是如何从其他队列中抢夺 »

shuofxz

【深入浅出 Yarn 架构与实现】5-3 Yarn 调度器资源抢占模型

本篇将对 Yarn 调度器中的资源抢占方式进行探究。分析当集群资源不足时,占用量资源少的队列,是如何从其他队列中抢夺资源的。我们将深入源码,一步步分析抢夺资源的具体逻辑。 本篇将对 Yarn 调度器中的资源抢占方式进行探究。分析当集群资源不足时,占用量资源少的队列,是如何从其他队列中抢夺 »

shuofxz

Hadoop之Mapreduce序列化

目录 什么是序列化:     什么是反序列化: 为什么要序列化: Java的序列化: Hadoop序列化: 自定义序列化接口:   实现序列化的步骤: 先看源码进行简单分析: 序列化案例实操: 案例需求: (1)输入数据: (2)输入数据格式: (3)期望输出数据格式 需求分析: 编写Map »

Hadoop之Mapreduce序列化

目录 什么是序列化:     什么是反序列化: 为什么要序列化: Java的序列化: Hadoop序列化: 自定义序列化接口:   实现序列化的步骤: 先看源码进行简单分析: 序列化案例实操: 案例需求: (1)输入数据: (2)输入数据格式: (3)期望输出数据格式 需求分析: 编写Map »

【深入浅出 Yarn 架构与实现】5-2 Yarn 三种调度器

本篇文章将深入介绍 Yarn 三种调度器。Yarn 本身作为资源管理和调度服务,其中的资源调度模块更是重中之重。下面将介绍 Yarn 中实现的调度器功能,以及内部执行逻辑。 本篇文章将深入介绍 Yarn 三种调度器。Yarn 本身作为资源管理和调度服务,其中的资源调度模块更是重中之重。下 »

shuofxz

【深入浅出 Yarn 架构与实现】5-2 Yarn 三种调度器

本篇文章将深入介绍 Yarn 三种调度器。Yarn 本身作为资源管理和调度服务,其中的资源调度模块更是重中之重。下面将介绍 Yarn 中实现的调度器功能,以及内部执行逻辑。 本篇文章将深入介绍 Yarn 三种调度器。Yarn 本身作为资源管理和调度服务,其中的资源调度模块更是重中之重。下 »

shuofxz

hdfs的异构存储

在我们实际的开发过程中,我们的某些数据可能经常使用,但是过了一段时间,这个数据就不怎么使用了,即我们的数据存在一个`热`、`温`、`冷`等这些特性。那么针对`数据的热度`,我们可以采用不同的策略,存储到不同的存储介质上。 目录 1 背景 2 hdfs异构存储类型和存储策略 2.1 »

huan1993

hdfs的异构存储

在我们实际的开发过程中,我们的某些数据可能经常使用,但是过了一段时间,这个数据就不怎么使用了,即我们的数据存在一个`热`、`温`、`冷`等这些特性。那么针对`数据的热度`,我们可以采用不同的策略,存储到不同的存储介质上。 目录 1 背景 2 hdfs异构存储类型和存储策略 2.1 »

huan1993

Java大数据开发Hadoop MapReduce

目录 1 MapRedcue的介绍 1.1 MapReduce定义 1.2 MapReduce的思想 1.3 MapReduce优点 1.4 MapReduce的缺点 1.5 MapReduce进程 1.6 MapReduce-WordCount 2 Hadoop序列化 2.1 序列化的定义 »

Java大数据开发Hadoop MapReduce

目录 1 MapRedcue的介绍 1.1 MapReduce定义 1.2 MapReduce的思想 1.3 MapReduce优点 1.4 MapReduce的缺点 1.5 MapReduce进程 1.6 MapReduce-WordCount 2 Hadoop序列化 2.1 序列化的定义 »