参考官网:https://cwiki.apache.org/confluence/display/Hive/StatsDev

一、Hive分析统计语句如下:

ANALYZE TABLE [db_name.]tablename [PARTITION(partcol1[=val1], partcol2[=val2], ...)]  -- (Note: Fully support qualified table name since Hive 1.2.0, see HIVE-10007.)

  COMPUTE STATISTICS 

  [FOR COLUMNS]          -- (Note: Hive 0.10.0 and later.)

  [CACHE METADATA]       -- (Note: Hive 2.1.0 and later.)

  [NOSCAN];

 

二、使用举例

--使用noscan,不会scan file,因此很快。但只能得到文件数numFiles和HDFS存储空间大小totalSize

hive> ANALYZE TABLE qfqhqtest COMPUTE STATISTICS noscan;
Table default.qfqhqtest stats: [numFiles=1, numRows=0, totalSize=816618, rawDataSize=0]

 

-- 不使用scan,则会scan file,会得到行数 numRows和原始数据大小rawDataSize(未压缩),并更新到元数据表中,下次noscan也能得到这些字段

hive> ANALYZE TABLE qfqhqtest COMPUTE STATISTICS;

Table default.qfqhqtest stats: [numFiles=1, numRows=7867, totalSize=816618, rawDataSize=800884]

hive> ANALYZE TABLE qfqhqtest COMPUTE STATISTICS noscan;
Table default.qfqhqtest stats: [numFiles=1, numRows=7867, totalSize=816618, rawDataSize=800884]
OK
Time taken: 0.151 seconds

 

统计字段含义

Hive ANALYZE NOSCAN

 

 

相关文章: