HBase操作命令总结

1,如何运行hbase (1),如何查找hbase的安装目录whereis用来查找程序的安装目录、帮助文档等等,如下: whereis hbase 结果如下,目录下一级包含bin的就是hbase的安装目录。[hadoop@cdh002 bin]$ whereis hbasehbase: /usr/b ... »

用spark导入数据到hbase

集群环境:一主三从,Spark为Spark On YARN模式 Spark导入hbase数据方式有多种 1.少量数据:直接调用hbase API的单条或者批量方法就可以 2.导入的数据量比较大,那就需要先生成hfile文件,在把hfile文件加载到hbase里面 下面主要介绍第二种方法: 该方法主要 ... »

Kudu vs HBase

本文由 网易云 发布。 背景 Cloudera在2016年发布了新型的分布式存储系统——kudu,kudu目前也是apache下面的开源项目。Hadoop生态圈中的技术繁多,HDFS作为底层数据存储的地位一直很牢固。而HBase作为Google BigTable的开源产品,一直也是Hadoop生态圈 ... »

HBase最佳实践 - 集群规划

本文由 网易云 发布。 作者:范欣欣 本篇文章仅限本站分享,如需转载,请联系网易获取授权。 HBase自身具有极好的扩展性,也因此,构建扩展集群是它的天生强项之一。在实际线上应用中很多业务都运行在一个集群上,业务之间共享集群硬件、软件资源。那问题来了,一个集群上面到底应该运行哪些业务可以最大程度上利 ... »

YCSB测试HBase远程完全分布式集群

本文会着重介绍一下YCSB测试远程完全分布式集群的操作差异。虽然网上有很多介绍YCSB测试HBase的文章,但都是针对本地HBase伪分布式集群的。大家都知道,稍微正式一些的压测都会要求测试客户端与目标集群分离部署,而且伪分布式集群通常不会在生产环境下使用,本身也没有太大的压测意义。本文会着重介绍一... ... »

Spark DataFrame写入HBase的常用方式

Spark是目前最流行的分布式计算框架,而HBase则是在HDFS之上的列式分布式存储引擎,基于Spark做离线或者实时计算,数据结果保存在HBase中是目前很流行的做法。例如用户画像、单品画像、推荐系统等都可以用HBase作为存储媒介,供客户端使用。 因此Spark如何向HBase中写数据就成为很 ... »

HBase MetaStore和Compaction剖析

1.概述 客户端读写数据是先从HBase Master获取RegionServer的元数据信息,比如Region地址信息。在执行数据写操作时,HBase会先写MetaStore,为什么会写到MetaStore。本篇博客将为读者剖析HBase MetaStore和Compaction的详细内容。 2. ... »

Kylin与CDH兼容性剖析

1. 概述 Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。 2. 内容 在集成Kylin到CDH Hadoop环境中时,发现新版 ... »

HBase笔记

1.应用场景和特点 hbase => 当数据量非常大的时候才会体现出hbase的优势 特点: 海量数据存储 => 单表可有上百亿行。上百万的列。也就是对列没有限制。 => 关系型数据库正常单表不超过五百万行,不超过三十列。 面向列 => 动态添加数据的时候生成列。单独对列进行各种操作。 多版本 稀疏 ... »

hbase (local mode) remote access

如果初学hbase,没必要弄一个集群,hbase的local mode够用了。 这里写一个简单的教程。适用于初学hbase,想要用代码访问hbase的童鞋们。 目录: 0. 准备 1). 开发环境 2). 修改centos 7.3的机器名 3). centos里安装jdk 1. 安装hbase (l ... »

大数据学习系列之八----- Hadoop、Spark、HBase、Hive搭建环境遇到的错误以及解决方法

前言 在搭建大数据Hadoop相关的环境时候,遇到很多了很多错误。我是个喜欢做笔记的人,这些错误基本都记载,并且将解决办法也写上了。因此写成博客,希望能够帮助那些搭建大数据环境的人解决问题。 说明 : 遇到的问题以及相应的解决办法是对于个人当时的环境,具体因人而异。如果碰到同样的问题,本博客的方法无 ... »

HBase存储剖析与数据迁移

1.概述 HBase的存储结构和关系型数据库不一样,HBase面向半结构化数据进行存储。所以,对于结构化的SQL语言查询,HBase自身并没有接口支持。在大数据应用中,虽然也有SQL查询引擎可以查询HBase,比如Phoenix、Drill这类。但是阅读这类SQL查询引擎的底层实现,依然是调用了HB ... »

HBase表预分区与压缩

1.建立HBase预分区表。sql语句如下: 或者 分区文件格式如下: 00|10|20|30|40|50|60|70| 优点:合理设计rowkey 能让各个region 的并发请求 平均分配(趋于均匀) 使IO 效率达到最高 2.如果在建表之后没有设置压缩而数据量又很大怎么办。 ①disable ... »