【发布时间】:2019-06-27 11:27:39
【问题描述】:
我们的设置是 PySpark。假设我使用 spark.read.csv 函数创建了一个数据帧 df,即
df = spark.read.csv("directory/name_file.csv")
现在我需要一种方法来提取“name_file”,而无需手动复制和粘贴。换句话说,我想要一个只包含字符串“name_file”的火花列表或数据框。
请仅提供涉及 PySpark SQL 或与 PySpark 兼容的 Python 代码的解决方案。
这个问题看起来很简单,但我花了很多时间寻找解决方案却一无所获。
【问题讨论】:
-
也许这篇文章会有所帮助:stackoverflow.com/questions/39868263/…
-
为什么不用
name_file创建变量filename,然后在"directory/{}.csv".format(filename)和任何其他地方使用它。 -
感谢 Tomasz 和 Reportgunner,使用链接的答案我能够提取所有目录。现在的问题是我只保留文件名,但 PySpark 不允许我将 basename 函数与该代码结合起来。你对此有什么想法吗?