【发布时间】:2019-11-09 22:47:30
【问题描述】:
对不起,标题的火车残骸......不知道该怎么形容它。
我一次从某个目录提取一个类别的文件。类别是文件名的一部分,遵循非常特定的格式,但有一些问题让我的流程中断。
示例文件名:
.../Bike.txt
如果特定类别的源数据过多,系统将创建编号文件来处理溢出。在这种情况下,文件可能如下所示:
.../Bike_1.txt
.../Bike_2.txt
我需要获取特定类别的文件,无论它是“Bike.txt”还是“Bike_1.txt”。我想我可以使用通配符来查找匹配“Bike*.txt”的文件。问题是我可能还有一个名为“Bike_Helmet.txt”的文件,如果我目前正在查看自行车类别,我不想摄取该文件。
这是使用 Databricks 中的 PySpark 完成的。到目前为止,我一直使用 glob 库来处理这个问题,但我不确定它是否能满足我的需要。
总结一下,指定类别后,我想找到符合以下格式的文件:
.../[类别].txt
.../[类别]_[一个数字].txt
但我不想检索格式为 .../[category]_[non-numeric string].txt 的文件。
有没有办法一次性做到这一点,或者我必须先根据 .../[category].txt 然后 .../[category]_[0-9]* 摄取。 txt第二遍?
【问题讨论】:
标签: python-3.x pyspark glob