分区简介

Hive中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。分区表实际上对应一个HDFS文件系统上的文件夹,该文件夹下是该分区的数据文件。

HIVE的分区通过在创建表时启用partition by实现,具体分区的标识是插入内容时指定的。当要查询某一分区的内容时可以采用where语句,通过WHERE子句中的表达式选择查询所需要的指定的分区,这样的查询效率会提高很多。

示例:

  1. 准备数据
    在Linux的/usr/local/test目录下面创建如下三个文件
    • stu1.txt:
      zhangsan 13 male shiziBan
      lisi 14 female musicBan
      wanger 19 male musicBan
      mazi 15 male shiziBan
    • stu2.txt:
      qianwu 12 female wudaoBan
      zhaoliu 16 female shiziBan
      lisi 18 male wudaoBan
      xiangming 13 female shiziBan
    • stu3.txt:
      wangwei 18 female wudaoBan
      ligang 10 male musicBan

创建分区表

Hive 分区

  1. 导入数据
    Hive 分区

查看数据

Hive 分区
Hive 分区
Hive 分区
Hive 分区

增加分区

Hive 分区

删除分区

Hive 分区

查看分区个数

Hive 分区

查看分区结构

Hive 分区
Hive 分区

二级分区

二级分区指是2个分区字段
示例:
第一步:创建二级分区表:
Hive 分区
第二步:导入数据
Hive 分区
第三步:查询数据

Hive 分区

分区和数据关联的方式

方式一:先上传数据后恢复

  1. 创建目录并上传文件
    Hive 分区
  2. 修复之后才能查询到数据

Hive 分区

方式二:先上传数据后添加分区

  1. 创建目录、上传数据
    Hive 分区
  2. 添加分区后查询
    Hive 分区

方式三:先创建文件夹后load数据到分区

  1. 创建文件夹
    Hive 分区
  2. load数据到分区
    Hive 分区
  3. 查询
    Hive 分区

相关文章:

  • 2021-09-30
  • 2021-10-25
  • 2021-12-13
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
猜你喜欢
  • 2022-03-04
  • 2021-02-26
  • 2022-12-23
  • 2021-07-29
  • 2021-10-25
相关资源
相似解决方案