【发布时间】:2020-06-01 10:44:31
【问题描述】:
我有一个按年、月和日分区的配置单元表
CREATE TABLE t1 (
...
)
PARTITIONED BY (
year INT,
month INT,
day INT'
)
STORED AS PARQUET;
我需要从中获取最近 7 天/分区的数据。寻找如何获取最近 7 天数据的第一步,例如:
val formatter = DateTimeFormatter.ofPattern("yyyy-MM-dd")
val runDate = date
val runDay = LocalDate.parse(runDate.toString, formatter)
val runDayMinus7 = runDay.minusDays(7)
但后来我面对桥下的巨魔。有没有办法通过多个分区在这两个日期之间选择数据?否则,有什么方法我不需要将多个分区更改为单个分区 YYYYMMDD?
要么是scala,要么是hive。
提前致谢
【问题讨论】:
标签: scala apache-spark hive hive-partitions