【发布时间】:2017-06-06 23:47:32
【问题描述】:
类似于this question,我遇到了分布式Dask 的内存问题。然而,在我的例子中,解释并不是客户端试图收集大量数据。
这个问题可以基于一个非常简单的任务图来说明:delayed 操作列表会生成一些固定大小约为 500 MB 的随机数据帧(以模拟从文件加载许多分区)。任务图中的下一个操作是获取每个 DataFrame 的大小。最后,所有尺寸都缩小为一个总尺寸,即必须返回给客户端的数据很小。
出于测试目的,我正在运行一个本地调度程序/工作程序单线程,限制为 2GB 内存,即:
$ dask-scheduler
$ dask-worker localhost:8786 --nthreads 1 --memory-limit 2000000000
我对任务图的期望是,worker 永远不需要超过 500 MB 的 RAM,因为在 “生成数据”之后直接运行 “获取数据大小” > 应该立即使数据变小。但是,我观察到工作人员需要更多的内存:
因子 2 表示必须在内部复制数据。因此,任何使分区大小接近节点物理内存的尝试都会导致MemoryErrors 或大量交换。
非常感谢任何能对此有所了解的信息。特别是:
- 我是否可以控制数据重复,是否可以避免?还是一般的经验法则是让有效负载远低于 50% 以解决数据重复问题?
- 工作人员
memory-limit如何影响此行为?从我的测试来看,使用较低的阈值似乎更早触发 GC(和/或溢出到磁盘?),但另一方面,还有其他内存峰值甚至超过了使用较高阈值的峰值内存。
请注意,我知道我可以通过在第一次操作中获取大小 within 来解决此特定问题,并且可能 Dask 的单机执行器更适合该问题,但我在问用于教育目的。
附件一:测试代码
from __future__ import division, print_function
import pandas as pd
import numpy as np
from dask import delayed
from dask.distributed import Client, Executor
def simulate_df_partition_load(part_id):
"""
Creates a random DataFrame of ~500 MB
"""
num_rows = 5000000
num_cols = 13
df = pd.DataFrame()
for i in xrange(num_cols):
data_col = np.random.uniform(0, 1, num_rows)
df["col_{}".format(i)] = data_col
del data_col # for max GC-friendliness
print("[Partition {}] #rows: {}, #cols: {}, memory: {} MB".format(
part_id, df.shape[0], df.shape[1],
df.memory_usage().sum() / (2 ** 20)
))
return df
e = Executor('127.0.0.1:8786', set_as_default=True)
num_partitions = 2
lazy_dataframes = [
delayed(simulate_df_partition_load)(part_id)
for part_id in xrange(num_partitions)
]
length_partitions = [df.shape[0] for df in lazy_dataframes]
dag = delayed(sum)(length_partitions)
length_total = dag.compute()
附件 2: DAG 插图
【问题讨论】:
-
你是如何得到显示内存的图表的?加上图表是每个工人还是所有工人?
-
@AmyChodorowski 这只是来自 Dask 监控仪表板,我认为它仅指一名工人。请注意,这个问题是几年前的问题,也许 Dask 监控仪表板已经发生了一点变化。
标签: python dask dask-delayed