文件的加载,只需要三步就够了,废话不多说,来直接的吧。
一、建表
话不多说,直接开始。
建表,对于日志文件来说,最后有分区,在此案例中,对年月日和小时进行了分区。
建表tracktest_log,分隔符为“\t”部分:
在hive的default库中,建表,建表语句为:
1 create table tracktest_log ( 2 id string , 3 url string , 4 referer string , 5 keyword string , 6 type string , 7 guid string , 8 pageId string , 9 moduleId string , 10 linkId string , 11 attachedInfo string , 12 sessionId string , 13 trackerU string , 14 trackerType string , 15 ip string , 16 trackerSrc string , 17 cookie string , 18 orderCode string , 19 trackTime string , 20 endUserId string , 21 firstLink string , 22 sessionViewNo string , 23 productId string , 24 curMerchantId string , 25 provinceId string , 26 cityId string , 27 fee string , 28 edmActivity string , 29 edmEmail string , 30 edmJobId string , 31 ieVersion string , 32 platform string , 33 internalKeyword string , 34 resultSum string , 35 currentPage string , 36 linkPosition string , 37 buttonPosition string) PARTITIONED BY (ds string,hour string) 38 ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';