【发布时间】:2018-06-30 13:58:56
【问题描述】:
我在 S3 存储桶中有几千个文件,格式如下:
├── bucket
│ ├── somedata
│ │ ├── year=2016
│ │ ├── year=2017
│ │ │ ├── month=11
│ │ | │ ├── sometype-2017-11-01.parquet
│ | | | ├── sometype-2017-11-02.parquet
│ | | | ├── ...
│ │ │ ├── month=12
│ │ | │ ├── sometype-2017-12-01.parquet
│ | | | ├── sometype-2017-12-02.parquet
│ | | | ├── ...
│ │ ├── year=2018
│ │ │ ├── month=01
│ │ | │ ├── sometype-2018-01-01.parquet
│ | | | ├── sometype-2018-01-02.parquet
│ | | | ├── ...
│ ├── moredata
│ │ ├── year=2017
│ │ │ ├── month=11
│ │ | │ ├── moretype-2017-11-01.parquet
│ | | | ├── moretype-2017-11-02.parquet
│ | | | ├── ...
│ │ ├── year=...
等
预期行为: AWS Glue Crawler 为 somedata、moredata 等中的每一个创建一个表。它根据孩子的路径名为每个表创建分区。
实际行为: AWS Glue Crawler 执行上述行为,但 ALSO 也会为数据的每个分区创建一个单独的表,从而产生数百个无关表(以及每个数据添加的更多无关表 + 新爬网)。
我认为没有地方可以设置某些东西或以其他方式防止这种情况发生...有没有人建议最好的方法来防止创建这些不必要的表?
【问题讨论】:
-
我遇到了同样的问题:我需要一张桌子,但我得到了数百张。爬虫定义中有一个checkbox,好像是创建单表的一种方式,但是好像不起作用。
标签: amazon-web-services parquet aws-glue