【发布时间】:2023-04-03 21:00:01
【问题描述】:
我有一组文件,其中的列比我们实际需要的多。其中,包含的列和顺序可能是可变的。使用此表创建:
CREATE EXTERNAL TABLE `test1column`(
`column3` string)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS INPUTFORMAT
'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
's3://bucketpath/folder'
TBLPROPERTIES (
'has_encrypted_data'='false',
'transient_lastDdlTime'='1524150460')
Athena 只是拉入第一列,因此输出最终为:
column3
---------
column1
val1
val2
val3
我正在以编程方式创建这些表,因此我希望不必通读每个列名并创建一个包含比我需要的更多数据的表。如果无法使用 Athena 仅将某些列映射到表中,那么我想我必须这样做。
【问题讨论】:
标签: amazon-web-services aws-sdk amazon-athena