数据库之Hive概论和架构和基本操作
目录 Hive概论 Hive架构 Hive安全和启动 Hive数据库操作 Hive内部表操作-数据添加 Hive内部表特点 Hive外部表操作 Hive表操作-分区表 Hive概论 Hive是一个构建在Hadoop上的数据仓库框架,最初,Hive是由Facebook开发,后台移交由Apa »
目录 Hive概论 Hive架构 Hive安全和启动 Hive数据库操作 Hive内部表操作-数据添加 Hive内部表特点 Hive外部表操作 Hive表操作-分区表 Hive概论 Hive是一个构建在Hadoop上的数据仓库框架,最初,Hive是由Facebook开发,后台移交由Apa »
目录 1、背景 2、集群黑白名单 3、准备一台新的机器并配置好hadoop环境 3.1 我们现有的集群规划 3.2 准备一台新的机器 3.2.1 查看新机器的ip 3.2.2 修改主机名和host映射 3.2.3 配置时间同步 3.2.4 关闭防火墙 3.2.5 新建hadoop部署用户 3. »
NodeManager(NM)中的状态机分为三类:Application、Container 和 LocalizedResource,它们均直接或者间接参与维护一个应用程序的生命周期。 一、简介 NodeManager(NM)中的状态机分为三类:Application、Container »
本节开始将对 Yarn 中的 NodeManager 服务进行剖析。 NodeManager 需要在每个计算节点上运行,与 ResourceManager 和 ApplicationMaster 进行交互。管理节点的计算资源以及调度容器。后续将对 NM 的功能职责、状态机、容器生命周期和资源隔离等 »
hadoop-3.1.0启动hadoop集群时还有可能可能会报如下错误: [root@localhost sbin]# start-all.shStarting namenodes on [hadoop]ERROR: Attempting to operate on hdfs namenode a »
目录 一:安装JDK 1.执行以下命令,下载JDK1.8安装包。 2.执行以下命令,解压下载的JDK1.8安装包。 3.移动并重命名JDK包。 4.配置Java环境变量。 5.查看Java是否成功安装。 二:安装Hadoop 1. 执行以下命令,下载Hadoop安装包。 2. 执行以下命令, »
目录 MapReduce框架的简单运行机制: Mapper阶段: InputFormat数据输入: 切片与MapTask并行度决定机制: job提交过程源码解析: 切片逻辑: 1)FileInputFormat实现类 进行虚拟存储 (1)虚拟存储过程: Shuffle阶段: 排序: »
本篇将对 Yarn 调度器中的资源抢占方式进行探究。分析当集群资源不足时,占用量资源少的队列,是如何从其他队列中抢夺资源的。我们将深入源码,一步步分析抢夺资源的具体逻辑。 本篇将对 Yarn 调度器中的资源抢占方式进行探究。分析当集群资源不足时,占用量资源少的队列,是如何从其他队列中抢夺 »
本篇将对 Yarn 调度器中的资源抢占方式进行探究。分析当集群资源不足时,占用量资源少的队列,是如何从其他队列中抢夺资源的。我们将深入源码,一步步分析抢夺资源的具体逻辑。 本篇将对 Yarn 调度器中的资源抢占方式进行探究。分析当集群资源不足时,占用量资源少的队列,是如何从其他队列中抢夺 »
目录 什么是序列化: 什么是反序列化: 为什么要序列化: Java的序列化: Hadoop序列化: 自定义序列化接口: 实现序列化的步骤: 先看源码进行简单分析: 序列化案例实操: 案例需求: (1)输入数据: (2)输入数据格式: (3)期望输出数据格式 需求分析: 编写Map »
目录 什么是序列化: 什么是反序列化: 为什么要序列化: Java的序列化: Hadoop序列化: 自定义序列化接口: 实现序列化的步骤: 先看源码进行简单分析: 序列化案例实操: 案例需求: (1)输入数据: (2)输入数据格式: (3)期望输出数据格式 需求分析: 编写Map »
本篇文章将深入介绍 Yarn 三种调度器。Yarn 本身作为资源管理和调度服务,其中的资源调度模块更是重中之重。下面将介绍 Yarn 中实现的调度器功能,以及内部执行逻辑。 本篇文章将深入介绍 Yarn 三种调度器。Yarn 本身作为资源管理和调度服务,其中的资源调度模块更是重中之重。下 »
本篇文章将深入介绍 Yarn 三种调度器。Yarn 本身作为资源管理和调度服务,其中的资源调度模块更是重中之重。下面将介绍 Yarn 中实现的调度器功能,以及内部执行逻辑。 本篇文章将深入介绍 Yarn 三种调度器。Yarn 本身作为资源管理和调度服务,其中的资源调度模块更是重中之重。下 »
资源调度器是 YARN 中最核心的组件之一,它是 ResourceManager 中的一个插拔式服务组件,负责整个集群资源的管理和分配。 Yarn 默认提供了三种可用资源调度器,分别是FIFO (First In First Out )、 Yahoo! 的 Capacity Scheduler 和 »
资源调度器是 YARN 中最核心的组件之一,它是 ResourceManager 中的一个插拔式服务组件,负责整个集群资源的管理和分配。 Yarn 默认提供了三种可用资源调度器,分别是FIFO (First In First Out )、 Yahoo! 的 Capacity Scheduler 和 »
在我们实际的开发过程中,我们的某些数据可能经常使用,但是过了一段时间,这个数据就不怎么使用了,即我们的数据存在一个`热`、`温`、`冷`等这些特性。那么针对`数据的热度`,我们可以采用不同的策略,存储到不同的存储介质上。 目录 1 背景 2 hdfs异构存储类型和存储策略 2.1 »
在我们实际的开发过程中,我们的某些数据可能经常使用,但是过了一段时间,这个数据就不怎么使用了,即我们的数据存在一个`热`、`温`、`冷`等这些特性。那么针对`数据的热度`,我们可以采用不同的策略,存储到不同的存储介质上。 目录 1 背景 2 hdfs异构存储类型和存储策略 2.1 »
目录 导读 Hadoop、Hive 是什么 运行环境 Java 环境 Mysql 下载 Hadoop、Hive 和 驱动 安装 Hadoop core-site.xml hdfs-site.xml mapred-site.xml yarn-site.xml hadoop-env.cmd »
目录 1 MapRedcue的介绍 1.1 MapReduce定义 1.2 MapReduce的思想 1.3 MapReduce优点 1.4 MapReduce的缺点 1.5 MapReduce进程 1.6 MapReduce-WordCount 2 Hadoop序列化 2.1 序列化的定义 »
目录 1 MapRedcue的介绍 1.1 MapReduce定义 1.2 MapReduce的思想 1.3 MapReduce优点 1.4 MapReduce的缺点 1.5 MapReduce进程 1.6 MapReduce-WordCount 2 Hadoop序列化 2.1 序列化的定义 »