【发布时间】:2021-06-03 02:45:36
【问题描述】:
我需要在 dask 数据帧上使用 pd.cut。
This answer 表示 map_partitions 将通过传递 pd.cut 作为函数来工作。
似乎 map_partitions 一次只将一个分区传递给函数。但是, pd.cut 将需要访问我的 df 的整个列才能创建垃圾箱。所以,我的问题是:在这种情况下,map_partitions 是否会真正在整个数据帧上运行,还是我会用这种方法得到不正确的结果?
【问题讨论】: