【发布时间】:2020-11-19 15:36:31
【问题描述】:
假设在 hdfs 上我有一个文件夹 /usr/data/,其中包含许多按日期组织的日期数据,例如 /usr/data/date=xxxx。我想在 zeppelin notebook 中加载一周的数据,所以我所做的是
val data = spark.read.parque("/usr/data/").filter("DATE>='2020-06-05' && 'DATE<=2020-06-12'")
但是,由于/usr/data/的整个数据量太大,无法加载,有没有什么方法可以只加载一周的数据,而不是先加载整个文件夹?谢谢
【问题讨论】:
-
过滤条件打印错误 - 引号位于 && 之后,必须在 = 之后。
标签: apache-spark hdfs parquet