【发布时间】:2019-04-04 13:34:27
【问题描述】:
我在 s3 中有 2Gb csv 文件(管道分隔),
在其上运行胶水爬虫,创建新表。
从 aws-athena 运行查询时,它发现零记录(即使它正确返回列) 没有应用任何分区,只是尽可能默认运行爬虫。 有什么建议吗?
注意 - 所有操作都使用 aws consol
【问题讨论】:
-
你在爬虫中提供的S3路径是什么?
-
s3://my-bucket-test/short_inputs/ 而子文件夹中的文件:2019/2/1/file.txt
-
这是一个老问题,无论如何,也许这个注释会有所帮助。我们遇到了特定 csv 数据源和默认爬虫放入 Glue 表属性 (
org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe) 的默认序列化库的问题。在我们的例子中,Athena 查询的记录集报告了一些使用这个序列化库的数据源的空内容(不是零记录,而是实际上是空记录)。有帮助的是(在表属性中)将序列化库更改为org.apache.hadoop.hive.serde2.OpenCSVSerde。
标签: amazon-web-services csv amazon-athena aws-glue