【问题标题】:Pandarellel not progressing and at deadlockPandarellel 没有进展并陷入僵局
【发布时间】:2020-04-20 23:55:00
【问题描述】:

我正在使用带有初始化 4 个内核的 pandasallel 包在 pandas 数据帧上运行应用函数。但不幸的是,进程 os 甚至没有处理单个记录。与没有 Pandarallel 并行功能的情况相同,需要 3 分钟才能完成该过程。

在 1000 条记录数据帧上运行实验。实际上我有 200 万个数据集,这就是我正在研究 pandarallel 的地方。

附上相同的截图

数据集的大小为 6 MB,RAM 为 16 GB。这种僵局情况可能是什么问题?

【问题讨论】:

  • 如果你在控制台而不是 jupyter 中运行它会发生什么?
  • 它在控制台中工作@EricTruett
  • 我记得 jupyter 中的多处理问题。我想我通过将我的多处理代码放在一个文件中然后导入函数来解决它,所以你可能想尝试一下。
  • 是的,这样就可以了。

标签: python pandas pandarallel


【解决方案1】:

Jupyter 中的 multiprocessing 存在问题。尝试将您的代码作为脚本或在 ipython 控制台中运行。如果它有效,那么您可以将代码放在单独的文件中并将函数导入您的 jupyter notebook。

# separatefile.py

def multiprocessing_function(params):

在jupyter中

from separatefile import multiprocessing_function

multiprocessing_function(params)

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2022-07-14
    • 2014-10-21
    • 2020-04-07
    • 1970-01-01
    • 2019-04-28
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多