zookeeper-操作与应用场景-《每日五分钟搞定大数据》

Zookeeper作为一个分布式协调系统提供了一项基本服务: 分布式锁服务 ,分布式锁是分布式协调技术实现的核心内容。像配置管理、任务分发、组服务、分布式消息队列、分布式通知/协调等,这些应用实际上都是基于这项基础服务由用户自己摸索出来的。 1.Zookeeper在大数据系统中的常见应用 zooke ... »

【大数据安全】CDH集群禁用Kerberos

在调试Kerberos的时候可能会有需要禁用的场景。以下是各组件禁用Kerberos的相关配置。 环境 CDH版本:5.11.2 Linux版本:7.4.1708 Docker版本:Docker version 18.06.0 ce JDK版本:1.8 Zookeeper : false 的Serv ... »

理解HDFS

HDFS HDFS (Hadoop Distributed FileSystem) 是 Hadoop 分布式文件系统,以流式数据访问模式来存储超大文件,运行与商业硬件集群上,管理网络中跨多台计算机存储的文件系统,是分布式计算中数据管理的的基础。 流式数据访问模式 : 指的是数据不是一次性获取过来,而 ... »

Hadoop 综合揭秘——HBase的原理与应用

HBase(Hadoop Database)是一个高可靠性、高性能、面向列、可伸缩的分布式数据库,典型的 NoSQL(Not Only SQL)数据库。本文主要向各位介绍 HBase 的发展历史,基础结构与原理,应用的场景,对常用的 JAVA API 操作进行梳理,对RowKey的设计展开讨论。在最... ... »

一起学Hadoop——使用自定义Partition实现hadoop部分排序

排序在很多业务场景都要用到,今天本文介绍如何借助于自定义Partition类实现hadoop部分排序。本文还是使用java和python实现排序代码。 1、部分排序。 部分排序就是在每个文件中都是有序的,和其他文件没有关系,其实很多业务场景就需要到部分排序,而不需要全局排序。例如,有个水果电商网站, ... »

一起学Hadoop——使用IDEA编写第一个MapReduce程序(Java和Python)

上一篇我们学习了MapReduce的原理,今天我们使用代码来加深对MapReduce原理的理解。 wordcount是Hadoop入门的经典例子,我们也不能免俗,也使用这个例子作为学习Hadoop的第一个程序。本文将介绍使用java和python编写第一个MapReduce程序。 本文使用Idea2 ... »

Map端数据倾斜

Map端数据倾斜 MapReduce任务的数据倾斜一般指的是Reduce端数据倾斜,Map端怎么还会出现数据倾斜呢。~~ Mapper任务如下图所示,其中一个map任务耗时特别长 跑了一个ETL程序,两个Map分别读取两类数据,一个是lzo格式,另外一个是txt格式。 map任务通常是一个数据块一个 ... »

YARN基础配置

一、配置yarn集群 1.配置yarn-env.sh 添加:export JAVA_HOME=/opt/module/jdk1.8.0_144 2.配置yarn-site.xml <!-- reducer获取数据的方式--> <property> <name>yarn.nodemanager.aux ... »

hdfs java api操作

1,导入jar包用maven构建项目,添加pom文件: 测试时可导入Junit: 2,获取文件系统 hadoop的文件系统操作类基本都在org.apache.hadoop.fs中 所有的操作都是通过抽象的文件系统FileSystem,要拿到具体实现类进行操作,下图是FileSystem所有的实现类, ... »

第9章 HBase操作

HBase集群建立在Hadoop集群基础之上,而且依赖于ZooKeeper,所以在搭建HBase集群之前需要把Hadoop集群搭建起来,并且搭建好ZooKeeper集群。Hadoop与ZooKeeper集群的搭建在前面章节已讲解过,在此不再赘述。 9.1 集群环境搭建 HBase集群搭建的详细步骤如 ... »

hdfs命令行操作

集群环境中,可以在任意一个节点上通过命令行操作hdfs,hdfs命令很多都跟Linux文件系统命令一样,只是都要加上hadoop fs。可通过hadoop fs -help查看hdfs命令: 1,列出目录: hadoop fs -ls / 2,创建目录: hadoop fs -mkdir /stud ... »

第4章 HDFS操作

[TOC] 4.1 命令行操作 可以通过命令行接口与HDFS系统进行交互,这样更加简单直观。下面就介绍一些HDFS系统的常用操作命令。 1.ls 使用ls命令可以查看HDFS系统中的目录和文件。例如,查看HDFS文件系统根目录下的目录和文件,命令如下: hadooop fs –ls / 递归列出HD ... »

hadoop完全分布式安装

环境介绍 服务器软件版本 操作系统 CentOS 6.5 x86_64 Java 1.7.0_79 hadoop 2.6.1 hadoop各个节点集群架构 主机名 ip 角色 hadoop01 192.168.103.137 ResourceManager/NameNode/SecondaryNam ... »

hadoop伪分布式安装

hadoop有三种运行模式: 1,本地运行模式:hadoop的默认模式,没有守护进程,所有的程序都在同一个jvm里运行,在该模式下调试MR程序非常方便。 2,伪分布式模式,所有进程运行在一台服务器,效果跟分布式模式一样。 3,分布式模式:进程运行在多台服务器上。 一、本地运行模式: 这是hadoop ... »

Hadoop大数据挖掘从入门到进阶实战

1.概述 大数据时代,数据的存储与挖掘至关重要。企业在追求高可用性、高扩展性及高容错性的大数据处理平台的同时还希望能够降低成本,而Hadoop为实现这些需求提供了解决方案。面对Hadoop的普及和学习热潮,笔者愿意分享自己多年的开发经验,带领读者比较轻松地掌握Hadoop数据挖掘的相关知识。这边是笔 ... »

hadoop基础与实践--流程解惑

看过好多本hadoop的书,对整个过程始终存在一些疑问,今天终于搞清楚了。立个low-flag。 整体架构好复杂的感觉?其实不复杂 整体架构,namenode/metanode负责维护所有的元数据,datanode负责实际的物理存储,同一份数据datanode上必定多个副本,从而保证高可用。 hdf ... »

hadoop安装文档

一、准备 该准备工作在三台机器上都需要进行,首先使用 vmvare 创建 1 个虚拟机,这台虚拟机是 master,一会需要把 master 克隆出两台 slave 点确定然后开启此虚拟机 然后添加/boot 分区,大小为 1G,文件系统选 ext4 然后添加 swap 分区,注意,swap 分区为 ... »