Hadoop框架:NameNode工作机制详解

NameNode运行时元数据需要存放在内存中,同时在磁盘中备份元数据的fsImage,当元数据有更新或者添加元数据时,修改内存中的元数据会把操作记录追加到edits日志文件中,这里不包括查询操作。如果NameNode节点发生故障,可以通过FsImage和Edits的合并,重新把元数据加载到内存中,此... ... »

Hadoop框架:HDFS读写机制与API详解

本文源码:GitHub·点这里 || GitEE·点这里 一、读写机制 1、数据写入 客户端访问NameNode请求上传文件; NameNode检查目标文件和目录是否已经存在; NameNode响应客户端是否可以上传; 客户端请求NameNode文件块Block01上传服务位置; NameNode响 ... »

Hadoop框架:HDFS简介与Shell管理命令

本文源码:GitHub·点这里 || GitEE·点这里 一、HDFS基本概述 1、HDFS描述 大数据领域一直面对的两大核心模块:数据存储,数据计算,HDFS作为最重要的大数据存储技术,具有高度的容错能力,稳定而且可靠。HDFS(Hadoop-Distributed-File-System),它是 ... »

关于大数据技术的一点思考

大数据技术在当下时代,已经不算是什么新鲜东西了。但绝大部分同学往往又是没机会接触大数据相关底层技术的,包括我自己。 不过,俗话说没吃过猪肉还没见过猪跑吗?哈哈,今天就来说说我对大数据技术的思考吧,希望会给部分同学解开一些迷惑! 1.什么是大数据? 我们不搞虚的:大数据就是数据量比较大的场景,比如上T ... »

大数据平台Hadoop集群搭建

客户端访问hdfs上的某一文件,首先要向namenode请求文件的元数据信息,然后nn就会告诉客户端,访问的文件在datanode上的位置,然后客户端再依次向datanode请求对应的数据,最后拼接成一个完整的文件;这里需要注意一个概念,datanode存放文件数据是按照文件大小和块大小来切分存放... ... »

hadoop分布式格式化时出现异常java.net.unknownhostexception

当搭建好分布式集群后,准备使用命令格式化时 hdfs namenode format 在日志的最后一行出现 java.net.unknownhostexception的异常,通常是你的主机名没有配置好,在core-site.xml文件中的主机名与hosts文件、network文件里的主机名不一致。 ... »

MapReduce之Combiner合并

Combiner是MR程序中Mapper和Reducer之外的一种组件(本质是一个Reducer类) Combinr组件的父类就是Reducer Conbimer只有在驱动类里设置了之后,才会运行 Combiner和Reducer的区别在于运行的位置: map sort copy sort(shuf ... »

MapReduce之WritableComparable排序

@ 排序概述 排序是MapReduce框架中最重要的操作之一。 Map Task和ReduceTask均会默认对数据按照key进行排序。该操作属于Hadoop的默认行为。任何应用程序中的数据均会被排序,而不管逻辑上是否需要。 黑默认排序是按照字典顺序排序,且实现该排序的方法是快速排序。 对于MapT ... »

MapReduce之自定义分区器Partitioner

@ 问题引出 要求将统计结果按照条件输出到不同文件中(分区)。 比如:将统计结果按照手机归属地不同省份输出到不同文件中(分区) 默认Partitioner分区 public class HashPartitioner<K,V> extends Partitioner<K,V>{ public int ... »

MapReduce之MapTask工作机制

1. 阶段定义 MapTask:map >sort map:Mapper.map()中将输出的key-value写出之前 sort:Mapper.map()中将输出的key-value写出之后 2. MapTask工作机制 Read阶段 MapTask通过用户编写的RecordReader,从输入I ... »

java大数据最全课程学习笔记(5)--MapReduce精通(一)

目前CSDN,博客园,简书同步发表中,更多精彩欢迎访问我的gitee pages MapReduce精通(一) MapReduce入门 MapReduce定义 MapReduce优缺点 优点 缺点 MapReduce核心思想 总结:分析WordCount数据流走向深入理解MapReduce核心思想。 ... »

MapReduce之自定义InputFormat

在企业开发中,Hadoop框架自带的InputFormat类型不能满足所有应用场景,需要自定义InputFormat来解决实际问题。 自定义InputFormat步骤如下: (1)自定义一个类继承FilelnputFormat。 (2)自定义一个类继承RecordReader,实现一次读取一个完整文 ... »

java大数据最全课程学习笔记(3)--HDFS 简介及操作

目前CSDN,博客园,简书同步发表中,更多精彩欢迎访问我的gitee pages HDFS 简介及操作 HDFS概述 HDFS产出背景及定义 HDFS优缺点 HDFS组成架构 HDFS文件块大小(重点) 块在传输时,每64K还需要校验一次,因此块大小,必须为2的n次方,最接近100M的就是128M! ... »

使用MapReduce运行WordCount案例

@ 一、准备数据 注意:准备的数据的格式必须是文本,每个单词之间使用制表符分割。编码必须是utf-8无bom 二、MR的编程规范 MR的编程只需要将自定义的组件和系统默认组件进行组合,组合之后运行即可! 三、编程步骤 ①Map阶段的核心处理逻辑需要编写在Mapper中 ②Reduce阶段的核心处理逻 ... »

Hadoop进阶命令使用介绍

hadoop生产环境的使用是很复杂的,有些公司是CDH或者Ambari等管理工具运维的,有些是原生的集群俗称裸奔,前者优缺点是运维,查看监控等容易,对于底层理解不友好;裸奔集群反之,裸奔集群的很多东西都需要定制和自己开发,比如监控用zabbix,告警用企业微信,节点的异构严重的,需要二次开发配置文件 ... »