【发布时间】:2017-11-06 13:37:23
【问题描述】:
我试图了解map_partitions in dask 的作用。这是我的例子:
import dask.dataframe as dd
import pandas as pd
from dask.multiprocessing import get
import random
df = pd.DataFrame({'col_1':random.sample(range(10000), 100), 'col_2': random.sample(range(10000), 100) })
def test_f(df):
print(df.col_1)
print("------------")
ddf = dd.from_pandas(df, npartitions=8)
ddf['result'] = ddf.map_partitions(test_f ).compute(get=get)
这是输出:
0 1.0
1 1.0
Name: col_1, dtype: float64
------------
为什么我的数据框没有完整打印出来?输出是什么意思?
【问题讨论】:
-
我们是否可以使用 map_partitions 提高速度?
标签: python dataframe parallel-processing dask