文件的加载,只需要三步就够了,废话不多说,来直接的吧。

一、建表

话不多说,直接开始。

建表,对于日志文件来说,最后有分区,在此案例中,对年月日小时进行了分区。

建表tracktest_log,分隔符为“\t”部分:

在hive的default库中,建表,建表语句为:

 1 create table tracktest_log (
 2 id                         string ,
 3 url                        string ,
 4 referer                    string ,
 5 keyword                    string ,
 6 type                       string ,
 7 guid                       string ,
 8 pageId                     string ,
 9 moduleId                   string ,
10 linkId                     string ,
11 attachedInfo               string ,
12 sessionId                  string ,
13 trackerU                   string ,
14 trackerType                string ,
15 ip                         string ,
16 trackerSrc                 string ,
17 cookie                     string ,
18 orderCode                  string ,
19 trackTime                  string ,
20 endUserId                  string ,
21 firstLink                  string ,
22 sessionViewNo              string ,
23 productId                  string ,
24 curMerchantId              string ,
25 provinceId                 string ,
26 cityId                     string ,
27 fee                        string ,
28 edmActivity                string ,
29 edmEmail                   string ,
30 edmJobId                   string ,
31 ieVersion                  string ,
32 platform                   string ,
33 internalKeyword            string ,
34 resultSum                  string ,
35 currentPage                string ,
36 linkPosition               string ,
37 buttonPosition             string)  PARTITIONED BY (ds string,hour string)  
38 ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';
建表语句

相关文章: