【发布时间】:2018-05-15 12:14:21
【问题描述】:
我有一个包含许多拼花文件的文件夹,其名称如下:
user_2018-03-15_checked_products.parquet
user_2018-03-15_unchecked_products.parquet
user_2018-03-14_checked_products.parquet
user_2018-03-14_unchecked_products.parquet
user_2018-03-13_checked_products.parquet
user_2018-03-13_unchecked_products.parquet
user_2018-03-12_checked_products.parquet
user_2018-03-12_unchecked_products.parquet
我阅读所有文件如下:
val df = spark.read.parquet("path/to/folder")
该文件夹包含 100 Gb 的数据,并且其大小正在逐渐增加。但我只需要读取过去 3 天的数据。目前,我阅读了整个文件夹,然后申请 filter?是否可以使用某种掩码来仅选择属于过去 3 天的那些文件名而不是读取整个文件夹?
【问题讨论】:
标签: scala apache-spark apache-spark-sql parquet