【问题标题】:Athena: Skip Header line with LazySimpleSerdeAthena:使用 LazySimpleSerde 跳过标题行
【发布时间】:2017-09-27 09:27:56
【问题描述】:
想知道是否可以在 Aws Athena 中跳过 org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe 中的标题行。我试过tblproperties ( 'skip.header.line.count' = '1' ),但没有用。我标头它与 OpenCSVSerDe 一起使用,但它似乎只支持 string 数据类型,这将在查询中完成大量工作。
【问题讨论】:
标签:
amazon-web-services
hive
amazon-athena
【解决方案1】:
我刚刚尝试了以下方法:
创建 CSV 并将其上传到 S3:
breed_id, breen_name, category
1,pug,toy
2,German Shepard,working,
3,Scottish Terrier,Working
在 Athena 中运行以下 DDL:
create external table dogs (
breed_id int,
breen_name string,
category string
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n'
LOCATION 's3://XXXXXXXXXXXXXX/'
TBLPROPERTIES ('skip.header.line.count'='1')
;
然后运行以下查询:
SELECT * FROM "default"."dogs" LIMIT 10;
产生以下结果: