hadoop基础与实践--流程解惑

看过好多本hadoop的书,对整个过程始终存在一些疑问,今天终于搞清楚了。立个low-flag。 整体架构好复杂的感觉?其实不复杂 整体架构,namenode/metanode负责维护所有的元数据,datanode负责实际的物理存储,同一份数据datanode上必定多个副本,从而保证高可用。 hdf ... »

hadoop安装文档

一、准备 该准备工作在三台机器上都需要进行,首先使用 vmvare 创建 1 个虚拟机,这台虚拟机是 master,一会需要把 master 克隆出两台 slave 点确定然后开启此虚拟机 然后添加/boot 分区,大小为 1G,文件系统选 ext4 然后添加 swap 分区,注意,swap 分区为 ... »

pig安装配置及实例

一、前提 1、 hadoop集群环境配置好(本人hadoop版本:hadoop-2.7.3) 2、 windows基础环境准备: jdk环境配置、esclipse环境配置 二、搭建pig环境 1、下载pig: 在Apache下载最新的Pig软件包,点击下载会推荐最快的镜像站点,以下为下载地址:htt ... »

hadoop面试时的一些问题解答

linux部分 1.请阐述swap分区作用,您认为hadoop集群中的linux是否必须有swap分区? 答:在Linux中,如果一个进程的内存空间不足,那么,它会将内存中的部分数据暂时写到磁盘上,当需要时,再将磁盘上的数据动态置换到内存中,通常而言,这种行为会大大降低进程的执行效率。在MapRed ... »

用spark导入数据到hbase

集群环境:一主三从,Spark为Spark On YARN模式 Spark导入hbase数据方式有多种 1.少量数据:直接调用hbase API的单条或者批量方法就可以 2.导入的数据量比较大,那就需要先生成hfile文件,在把hfile文件加载到hbase里面 下面主要介绍第二种方法: 该方法主要 ... »

从架构特点到功能缺陷,重新认识分析型分布式数据库

本文是分布式数据库的总纲文章的第一部分,列举了三类不同技术方案(MPP/Hadoop/Mesa),主要探讨分析性分布式数据库的发展和技术差异;后续的第二部分则是交易性数据库的一些关键特性分析。Ivan开始计划的分布式数据库是不含分析场景的,所以严格来说本篇算是番外篇,后续待条件具备将以独立主题的方式... ... »

MapReduce的架构及原理

MapReduce是一种分布式计算模型,是Hadoop的主要组成之一,承担大批量数据的计算功能。MapReduce分为两个阶段:Map和Reduce。 一、MapReduce的架构演变 客户端向JobTracker提交一个作业,JobTracker会把这个作业拆分成多份,然后分配给TaskTrack ... »

Apache 流框架 Flink,Spark Streaming,Storm对比分析(一)

本文由 网易云 发布。 1.Flink架构及特性分析 Flink是个相当早的项目,开始于2008年,但只在最近才得到注意。Flink是原生的流处理系统,提供high level的API。Flink也提供 API来像Spark一样进行批处理,但两者处理的基础是完全不同的。Flink把批处理当作流处理中 ... »

hadoop_eclipse及HDT插件的使用

Hadoop Development Tools (HDT)是开发hadoop应用的eclipse插件,http://hdt.incubator.apache.org/介绍了其特点,安装,使用等,针对Windows版的eclipse,介绍一种不同的安装方式、和使用方式。 1 下载HDT 打开:htt ... »

HDFS的java api操作

HDFS的java api操作是通过构造一个HDFS的访问客户端对象,然后通过该客户端对象操作(增删改查)HDFS集群上的文件。 ... »

大数据科学新发展展望:不得不知的四大趋势

作者:个推CTO猪立叶 从2012年开始,几乎人人(至少是互联网界)言必称大数据,似乎不和大数据沾点边都不好意思和别人聊天。从2016年开始,大数据系统逐步开始在企业中进入部署阶段,大数据的炒作逐渐散去,随之而来的是应用的蓬勃发展期,一些代表成熟技术的标志性IPO在国内外资本市场也不断出现。转眼间, ... »

centos7.4下离线安装CDH5.7

(一)安装前的规划 (1)操作系统版本:centos7.4(64bit) (2)软件安装包 3个安装包: CDH-5.7.6-1.cdh5.7.6.p0.6-el7.parcel.sha1 CDH-5.7.6-1.cdh5.7.6.p0.6-el7.parcel manifest.json (3)主 ... »

hadoop基础教程免费分享

Hadoop实际上不是一个文件系统,实际上,它是一个软件框架,支持数据密集型分布式应用程序,Hadoop可以成为一个针对数据密集型应用程序的非常有效的解决方案。对于Hadoop需要学习的内容,小编整理了一份Hadoop基础视频教程 ... »

快速了解掌握中文自然语言处理

NLP是什么 在计算机领域, NLP(Natural Language Processing),也就是人们常说的「自然语言处理」,就是研究如何让计算机读懂人类语言。这包括,既要能让计算机理解自然语言文本的意义,也能以自然语言文本来表达给定的深层的意图、思想等。所以,这项技术往往体现了人工智能的最高任 ... »

CentOS 6.4 配置 Hadoop 2.6.5

(以下所有文件:点此链接 里面还有安装的视频教学,我这里是亲测了一次,如有报错请看红色部分。实践高于理论啊兄弟们!!) 一.安装CentOS 6.4 在VMWare虚拟机上,我设置的用户是hadoop,密码是hadoop; 二.安装完成后以root用户进入,密码还是之前设的密码hadoop。 配置网 ... »

Cannot find a valid baseurl for repo: base

Linux下执行yum命令的时候一直报错:Cannot find a valid baseurl for repo: base 网上找了好多办法都没有解决。。。 我之前也遇到过一次, 但现在这个方法不行了。。。 我又试了很多方法,下面列举一下: 1. 2. 3. 4. 最后解决这个问题,是因为各种都 ... »

Apace Ignite剖析

1.概述 Apache Ignite和Apache Arrow很类似,属于大数据范畴中的内存分布式管理系统。在《Apache Arrow 内存数据》中介绍了Arrow的相关内容,它统一了大数据领域各个生态系统的数据格式,避免了序列化和反序列化所带来的资源开销(能够节省80%左右的CPU资源)。今天来 ... »