【发布时间】:2021-06-15 00:00:31
【问题描述】:
我在 AWS Athena 中创建外部表时遇到问题。我有超过 1000 个 csv 文件,都带有页眉和页脚,我想创建一个 Athena 表来可视化和分析所有数据。
我尝试使用以下代码,但似乎删除页脚的属性不起作用:
CREATE EXTERNAL TABLE test.multi_file_test(
`value1` string COMMENT '',
`value2` string COMMENT '',
`value3` string COMMENT '')
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\;'
STORED AS INPUTFORMAT
'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
's3://s3_path'
TBLPROPERTIES (
'areColumnsQuoted'='false',
'skip.header.line.count'='1',
'skip.footer.line.count'='1' <<<--- It doesn't seem to work
我得到了这个结果
| value1 | value2 | value3 |
|---|---|---|
| from_file1 | A | 1 |
| from_file1 | B | 1 |
| footer_file1 | ||
| from_file2 | A | 2 |
| from_file2 | B | 2 |
| footer_file2 | ||
| from_file3 | A | 3 |
| from_file3 | B | 3 |
| footer_file3 |
但我需要得到这个结果:
| value1 | value2 | value3 |
|---|---|---|
| from_file1 | A | 1 |
| from_file1 | B | 1 |
| from_file2 | A | 2 |
| from_file2 | B | 2 |
| from_file3 | A | 3 |
| from_file3 | B | 3 |
任何建议或解决方案都会很棒。
谢谢大家
【问题讨论】:
标签: amazon-web-services csv amazon-s3 footer amazon-athena