【发布时间】:2020-01-13 18:36:42
【问题描述】:
鉴于:Hive Version 2.3.0 onwards,我有一个 Hive 表和一个固定的 DDL 很长时间以来。现在raw data 与text 文件以columns 的不同顺序出现,并且必须以具有固定分区标准的parquet 格式存储数据。我的问题是当传入数据有different arrangement of columns时如何处理这种情况。
例子:
CREATE TABLE users ( col1 string, col2 int, col3 string ... )
PARTITIONED BY (...)
STORED AS PARQUET;
和传入的数据排列是一样的
col1 col3 col2
(row) x p 1
y q 2
在text 文件中,请注意列顺序更改。
我很难找到正确的信息,谁能解释如何处理这种情况的最佳实践?如果是小文件,我们可以使用脚本来更正文本,但如果它是批量的,并且每次文本文件都有不同的排列,怎么办?感谢任何答案/反馈。
【问题讨论】:
标签: hive bigdata hiveql devops data-warehouse