HBase基准性能测试报告

作者:范欣欣 本次测试主要评估线上HBase的整体性能,量化当前HBase的性能指标,对各种场景下HBase性能表现进行评估,为业务应用提供参考。本篇文章主要介绍此次测试的基本条件,HBase在各种测试场景下的性能指标(主要包括单次请求平均延迟和系统吞吐量)以及对应的资源利用情况,并对各种测试结果进 ... »

HBase Region合并分析

1.概述 HBase中表的基本单位是Region,日常在调用HBase API操作一个表时,交互的数据也会以Region的形式进行呈现。一个表可以有若干个Region,今天笔者就来和大家分享一下Region合并的一些问题和解决方法。 2.内容 在分析合并Region之前,我们先来了解一下Region ... »

分布式存储系统Kudu与HBase的简要分析与对比

本文来自网易云社区 作者:闽涛 背景 Cloudera在2016年发布了新型的分布式存储系统——kudu,kudu目前也是apache下面的开源项目。Hadoop生态圈中的技术繁多,HDFS作为底层数据存储的地位一直很牢固。而HBase作为Google BigTable的开源产品,一直也是Hadoo ... »

Hadoop 综合揭秘——HBase的原理与应用

HBase(Hadoop Database)是一个高可靠性、高性能、面向列、可伸缩的分布式数据库,典型的 NoSQL(Not Only SQL)数据库。本文主要向各位介绍 HBase 的发展历史,基础结构与原理,应用的场景,对常用的 JAVA API 操作进行梳理,对RowKey的设计展开讨论。在最... ... »

HBase基本操作

本文内容:利用SpringBoot整合HBase,基于HBaseJavaAPI的二次封装,可以直接引用jar包使用,目前测试已支持HBase1.1.2和HBase1.4.6两个版本。下文内容为该项目的使用方式,同时也介绍了HBaseJavaAPI的基本使用。 项目地址:https://gitee.c ... »

Phoenix的安装使用与SQL查询HBase

一. Phoenix的简介 1. 什么是phoenix 现有hbase的查询工具有很多如:Hive,Tez,Impala,Shark/Spark,Phoenix等。今天主要说Phoenix。phoenix是一个在hbase上面实现的基于hadoop的OLTP技术,具有低延迟、事务性、可使用sql、提 ... »

HBase性能调优总结

一. HBase的通用优化 1 高可用 在 HBase 中 Hmaster 负责监控 RegionServer 的生命周期,均衡 RegionServer 的负载,如果 Hmaster 挂掉了,那么整个 HBase 集群将陷入不健康的状态,并且此时的工作状态并不会维持太久。所以 HBase 支持对  ... »

HBase BulkLoad批量写入数据实战

1.概述 在进行数据传输中,批量加载数据到HBase集群有多种方式,比如通过HBase API进行批量写入数据、使用Sqoop工具批量导数到HBase集群、使用MapReduce批量导入等。这些方式,在导入数据的过程中,如果数据量过大,可能耗时会比较严重或者占用HBase集群资源较多(如磁盘IO、H ... »

hbase 安装(集群模式)

环境:jdk 1.8 + hadoop2.7.6+zookeeper3.4.9+centos7 一.安装zookeeper(集群模式) 0.安装机器 ip hostname 192.168.100.9 ns1 192.168.100.10 dn1 1.下载zookeeper 2.zookeeper ... »

HBase优化实战

本文来自网易云社区。 背景 Datastream一直以来在使用HBase分流日志,每天的数据量很大,日均大概在80亿条,10TB的数据。对于像Datastream这种数据量巨大、对写入要求非常高,并且没有复杂查询需求的日志系统来说,选用HBase作为其数据存储平台,无疑是一个非常不错的选择。 HBa ... »

第9章 HBase操作

HBase集群建立在Hadoop集群基础之上,而且依赖于ZooKeeper,所以在搭建HBase集群之前需要把Hadoop集群搭建起来,并且搭建好ZooKeeper集群。Hadoop与ZooKeeper集群的搭建在前面章节已讲解过,在此不再赘述。 9.1 集群环境搭建 HBase集群搭建的详细步骤如 ... »

剖析HBase负载均衡和性能指标

1.概述 在分布式系统中,负载均衡是一个非常重要的功能,在HBase中通过Region的数量来实现负载均衡,HBase中可以通过hbase.master.loadbalancer.class来实现自定义负载均衡算法。下面将为大家剖析HBase负载均衡的相关内容以及性能指标。 2.内容 在HBase系 ... »

HBase数据库相关调查

HBase数据库相关调查 1、 HBase相关概念模型 l 表(table),与关系型数据库一样就是有行和列的表 l 行(row),在表里数据按行存储、行由行键(rowkey)唯一标识,没有数据类型统一为byte[]数组 l 列族(column family),行里的数据按列族分组String类型, ... »

HBase操作命令总结

1,如何运行hbase (1),如何查找hbase的安装目录whereis用来查找程序的安装目录、帮助文档等等,如下: whereis hbase 结果如下,目录下一级包含bin的就是hbase的安装目录。[hadoop@cdh002 bin]$ whereis hbasehbase: /usr/b ... »

用spark导入数据到hbase

集群环境:一主三从,Spark为Spark On YARN模式 Spark导入hbase数据方式有多种 1.少量数据:直接调用hbase API的单条或者批量方法就可以 2.导入的数据量比较大,那就需要先生成hfile文件,在把hfile文件加载到hbase里面 下面主要介绍第二种方法: 该方法主要 ... »

Kudu vs HBase

本文由 网易云 发布。 背景 Cloudera在2016年发布了新型的分布式存储系统——kudu,kudu目前也是apache下面的开源项目。Hadoop生态圈中的技术繁多,HDFS作为底层数据存储的地位一直很牢固。而HBase作为Google BigTable的开源产品,一直也是Hadoop生态圈 ... »

HBase最佳实践 - 集群规划

本文由 网易云 发布。 作者:范欣欣 本篇文章仅限本站分享,如需转载,请联系网易获取授权。 HBase自身具有极好的扩展性,也因此,构建扩展集群是它的天生强项之一。在实际线上应用中很多业务都运行在一个集群上,业务之间共享集群硬件、软件资源。那问题来了,一个集群上面到底应该运行哪些业务可以最大程度上利 ... »

YCSB测试HBase远程完全分布式集群

本文会着重介绍一下YCSB测试远程完全分布式集群的操作差异。虽然网上有很多介绍YCSB测试HBase的文章,但都是针对本地HBase伪分布式集群的。大家都知道,稍微正式一些的压测都会要求测试客户端与目标集群分离部署,而且伪分布式集群通常不会在生产环境下使用,本身也没有太大的压测意义。本文会着重介绍一... ... »