【问题标题】:Dask Dataframe - Many tasks/partitions for small dataframeDask Dataframe - 小型数据帧的许多任务/分区
【发布时间】:2020-04-30 19:39:19
【问题描述】:

我一直在使用 Dask 处理大型数据帧并执行连接/过滤器等操作。最终结果是一个我知道有 8 行的数据框。但是,如果我的 dask 数据框是f,我在其中检查f 我得到npartitions=81Dask Name: assign, 10633 tasks。这是为什么?写入 .h5 文件花了将近 5 个小时,我才发现结果中只有 8 行。有什么办法可以加快速度吗?

分区数为 81,看起来太高了。我把它降低到 5,仍然需要 4 个小时。

【问题讨论】:

    标签: python pandas dataframe dask


    【解决方案1】:

    这应该没关系。最后你会有很多空分区,但这没关系。如果您对此感兴趣,那么您可以随时致电df.repartition(1)

    输出的分区数是输入分区数和您执行的操作的函数。但是,它没有考虑您的数据值(所有这些都是在 Dask 查看您的数据之前确定的)。

    如果 Dask 很慢,那么我建议您查看 Dask 文档中的“了解性能”页面以了解原因。

    https://docs.dask.org/en/latest/understanding-performance.html

    【讨论】:

      猜你喜欢
      • 2020-02-13
      • 2020-01-24
      • 1970-01-01
      • 2022-11-10
      • 2018-07-06
      • 2017-11-23
      • 1970-01-01
      • 2018-09-07
      • 1970-01-01
      相关资源
      最近更新 更多