【发布时间】:2019-10-26 22:03:15
【问题描述】:
我们有一些以管道分隔的 .txt 报告进入 S3 中的一个文件夹,我们在该文件夹上运行 Glue 爬虫来确定 Athena 中的架构和查询。
报告的格式最近发生了变化,所以中间有两个新列。
旧文件:
Columns A B C D E F
Data a1 b1 c1 d1 e1 f1
带有额外“G”和“H”列的新文件:
Columns A B G H C D E F
Data a2 b2 g2 h2 c2 d2 e2 f2
我们在 Athena 中看到的爬虫创建的表中得到了什么:
Columns A B C D E F G H <- Puts new columns at the end. OK
Data a1 b1 c1 d1 e1 f1 <- Correct for old data
Data a2 b2 g2 h2 e2 f2 <- 4 columns incorrect and 2 missing
这是胶水爬虫中的某种错误,还是有办法对其进行配置,以便将正确的数据放在正确的列中(而不是运行数据清理脚本来转换输入文件)?
【问题讨论】:
标签: amazon-web-services amazon-athena aws-glue