【发布时间】:2018-12-12 08:54:48
【问题描述】:
我正在尝试在 python 中读取数千小时的 wav 文件并获取它们的持续时间。这基本上需要打开 wav 文件,获取帧数并考虑采样率。下面是代码:
def wav_duration(file_name):
wv = wave.open(file_name, 'r')
nframes = wv.getnframes()
samp_rate = wv.getframerate()
duration = nframes / samp_rate
wv.close()
return duration
def build_datum(wav_file):
key = "/".join(wav_file.split('/')[-3:])[:-4]
try:
datum = {"wav_file" : wav_file,
"labels" : all_labels[key],
"duration" : wav_duration(wav_file)}
return datum
except KeyError:
return "key_error"
except:
return "wav_error"
按顺序执行此操作将花费太长时间。我的理解是多线程在这里应该有所帮助,因为它本质上是一个 IO 任务。因此,我就是这样做的:
all_wav_files = all_wav_files[:1000000]
data, key_errors, wav_errors = list(), list(), list()
start = time.time()
with concurrent.futures.ThreadPoolExecutor(max_workers=1) as executor:
# submit jobs and get the mapping from futures to wav_file
future2wav = {executor.submit(build_datum, wav_file): wav_file for wav_file in all_wav_files}
for future in concurrent.futures.as_completed(future2wav):
wav_file = future2wav[future]
try:
datum = future.result()
if datum == "key_error":
key_errors.append(wav_file)
elif datum == "wav_error":
wav_errors.append(wav_file)
else:
data.append(datum)
except:
print("Generated exception from thread processing: {}".format(wav_file))
print("Time : {}".format(time.time() - start))
令我沮丧的是,我得到了以下结果(以秒为单位):
Num threads | 100k wavs | 1M wavs
1 | 4.5 | 39.5
2 | 6.8 | 54.77
10 | 9.5 | 64.14
100 | 9.07 | 68.55
这是预期的吗?这是一个 CPU 密集型任务吗?多处理会有帮助吗?我怎样才能加快速度?我正在从本地驱动器读取文件,它在 Jupyter 笔记本上运行。 Python 3.5。
编辑:我知道 GIL。我只是假设打开和关闭文件本质上是 IO。 People's analysis 已经表明,在 IO 情况下,使用多处理可能会适得其反。因此我决定改用多处理。
我猜现在的问题是:这个任务IO绑定了吗?
EDIT EDIT:对于那些想知道的人,我认为它受 CPU 限制(一个核心已达到 100%)。这里的教训是不要对任务做出假设并自己检查。
【问题讨论】:
-
请记住,如果您正在从传统(旋转)硬盘驱动器读取,一次读取多个文件可能会使速度变慢。特别是,在传统/旋转硬盘驱动器中,驱动器磁头可能需要(相对)较长的时间才能从驱动器中心的一个距离寻找到另一个距离,并从多个文件中并行读取如果它们一次只读取一个(连续)文件,则可以强制驱动器头来回搜索更多。
-
如果从磁盘读取,这不是正确的 IO 任务。
-
@MadPhysicist 你能详细说明一下吗?
-
Python 线程是异步的,但不是并发的。当您的 io 操作是并发的(例如网络请求)时,这会有所帮助,如果不是完全的瓶颈(例如旋转磁盘),则会带来巨大的麻烦。
标签: python multithreading python-3.x multiprocessing