【发布时间】:2020-04-20 23:55:00
【问题描述】:
我正在使用带有初始化 4 个内核的 pandasallel 包在 pandas 数据帧上运行应用函数。但不幸的是,进程 os 甚至没有处理单个记录。与没有 Pandarallel 并行功能的情况相同,需要 3 分钟才能完成该过程。
在 1000 条记录数据帧上运行实验。实际上我有 200 万个数据集,这就是我正在研究 pandarallel 的地方。
附上相同的截图
数据集的大小为 6 MB,RAM 为 16 GB。这种僵局情况可能是什么问题?
【问题讨论】:
-
如果你在控制台而不是 jupyter 中运行它会发生什么?
-
它在控制台中工作@EricTruett
-
我记得 jupyter 中的多处理问题。我想我通过将我的多处理代码放在一个文件中然后导入函数来解决它,所以你可能想尝试一下。
-
是的,这样就可以了。
标签: python pandas pandarallel