【发布时间】:2019-02-02 00:39:40
【问题描述】:
我有两张大表,其中一张相对较小,大约 800 万行和一列。其他是大的 1.73 亿行和一列。第一个数据帧的索引是 IntervalIndex (eg (0,13], (13, 20], (20, 23], ...),第二个是有序数 (1,2,3, ...) ). 两个 DataFrame 都是这样排序的
DF1 类别
(0,13] 1
(13 20] 2
.... Df2 值
1 5.2
2 3.4
3 7.8
想要的
Df3
指标值类别
1 5.2 1
2 3.4 1
3 7.8 1
我想要两个在 data_frame2.index 上返回类似于 MySQL 的内连接(更快的算法)
我希望能够在集群中以精细的方式执行它,因为当我使用较小的第二个数据集生成内部连接时,结果是使用 map_partitions 为 10 行消耗 105MEGABYTE 的内存。 另一个问题是我不能使用 scatter 两次,如果第一个 DaskDF=client.scatter(dataframe2) 然后是 DaskDF=client.submit(fun1,DaskDF) 我无法像 client.submit(fun2,DaskDF) 那样做某事。
【问题讨论】:
标签: python pandas distributed-computing dask