【问题标题】:Get PARTITION_ID in Dask for Data Frame在 Dask 中为数据框获取 PARTITION_ID
【发布时间】:2021-04-12 19:57:21
【问题描述】:

拆分pandas DFs后是否可以得到dask中的partition_id

例如:

import dask.dataframe as dd
import pandas as pd
df = pd.DataFrame(np.random.randn(10,2), columns=["A","B"])
df_parts = dd.from_pandas(df, npartitions=2)
part1 = df_parts.get_partition(0)

在 2 个部分中,part1first_partition。那么是否可以执行以下操作:

part1.get_partition_id() => which will return 0 or 1

或者是否可以通过迭代df_partsget the partition ID

【问题讨论】:

    标签: pandas dataframe dask dask-delayed dask-dataframe


    【解决方案1】:

    不确定内置函数,但您可以使用enumerate(df_parts.to_delayed()) 实现您想要的。

    to_delayed 将生成延迟对象列表,每个分区一个,因此您可以迭代它们,并使用enumerate 跟踪序列号。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2020-07-28
      • 2020-10-31
      • 1970-01-01
      • 2021-02-12
      • 1970-01-01
      • 2017-11-10
      • 1970-01-01
      相关资源
      最近更新 更多