【问题标题】:Skip footer from csv files in s3 to Athena从 s3 中的 csv 文件跳过页脚到 Athena
【发布时间】:2021-06-15 00:00:31
【问题描述】:

我在 AWS Athena 中创建外部表时遇到问题。我有超过 1000 个 csv 文件,都带有页眉和页脚,我想创建一个 Athena 表来可视化和分析所有数据。

我尝试使用以下代码,但似乎删除页脚的属性不起作用:

CREATE EXTERNAL TABLE test.multi_file_test(
  `value1` string COMMENT '', 
  `value2` string COMMENT '', 
  `value3` string COMMENT '')
ROW FORMAT DELIMITED 
  FIELDS TERMINATED BY '\;' 
STORED AS INPUTFORMAT 
  'org.apache.hadoop.mapred.TextInputFormat' 
OUTPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
  's3://s3_path'
TBLPROPERTIES (
'areColumnsQuoted'='false',
'skip.header.line.count'='1',
'skip.footer.line.count'='1' <<<--- It doesn't seem to work

我得到了这个结果

value1 value2 value3
from_file1 A 1
from_file1 B 1
footer_file1
from_file2 A 2
from_file2 B 2
footer_file2
from_file3 A 3
from_file3 B 3
footer_file3

但我需要得到这个结果:

value1 value2 value3
from_file1 A 1
from_file1 B 1
from_file2 A 2
from_file2 B 2
from_file3 A 3
from_file3 B 3

任何建议或解决方案都会很棒。

谢谢大家

【问题讨论】:

    标签: amazon-web-services csv amazon-s3 footer amazon-athena


    【解决方案1】:

    如果您使用的是 Athena 引擎版本 1,那么这将不起作用,因为它基于 Presto 0.172,其中属性 'skip.footer.line.count'='1' 添加在 Presto 0.199 中。您必须切换到基于 Presto 0.217 的 Athena 引擎版本 2 才能正常工作。

    我已经在版本 2 中进行了测试,并且能够看到这项工作。请参阅 this 了解 Athena 中的更改版本。

    【讨论】:

      【解决方案2】:

      恐怕amazon athena没有办法这样做。

      【讨论】:

      • 请参阅@Prabhakar Reddy 以获得问题的解决方案
      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2018-07-17
      • 1970-01-01
      • 2019-02-02
      • 1970-01-01
      • 1970-01-01
      • 2019-12-02
      • 1970-01-01
      相关资源
      最近更新 更多