【发布时间】:2019-10-07 15:38:18
【问题描述】:
我有一个文件夹,里面的文件类似于 -
./env_california_0100.xml
./env_california_0200.xml
./env_california_0300.xml
./env_california_0400.xml
./env_0100.xml
./env_0200.xml
./env_0300.xml
./env_0400.xml
使用 pyspark,如果我想读取名称包含字符串 'california' 的文件,那么我会使用
df=spark.read.format("com.databricks.spark.xml").option("rowTag","someTag").load("/some_folder/*california*.xml")
但是如何读取没有字符串 'california' 的文件呢?
【问题讨论】:
-
试试
!(*california*)*.xml(未经测试) -
/some_folder/*california*.xml是一个 glob 模式。为什么是regex标签? -
@pault ` !(california)*.xml ` 不起作用
-
@Wiktor Stribiżew 我们如何在 PySpark 中使用 glob?