【发布时间】:2020-08-26 15:25:48
【问题描述】:
我的工作流程如下所示:
for i in some_list:
if i not in os.listdir(a_directory):
x = do_something(i)
x.to_pickle(f"{a_directory}/{i}")
os.listdir 很昂贵,因为目录很大,而且它位于网络文件系统上。
我有多个工人在做这项工作,所以我不能只列出目录的内容一次。如果我这样做了,那么我的工人就会重复他们的工作,而且do_something 毕竟比os.listdir 更昂贵。
有没有什么东西可以寻找特定文件的存在,而不是将它们全部转储到 python 列表中让我进行字符串匹配?
【问题讨论】:
标签: python parallel-processing filesystems