【发布时间】:2019-03-30 14:58:29
【问题描述】:
我正在尝试执行一个大型选择查询(大约 50 000 000 行,200 000 000 行,15 列)并使用 psycopg2 将所有这些数据提取到 pandas 数据框。在 pgadmin 服务器状态工具中,我可以看到,我的查询活跃了大约半小时,然后变得空闲。我读到这意味着服务器正在等待新命令。另一方面,我的 python 脚本仍然没有数据,它也在等待它们(没有错误,看起来数据正在下载)。
总结一下,数据库在等,python在等,我还要等吗?有幸福结局的机会吗?还是 python 无法处理大量的 od 数据?
【问题讨论】:
-
您能解释一下为什么您认为需要将所有数据集加载到内存中吗?你可以改用一种算法来分块处理你的数据吗?
-
这个问题更适合 codereview,在那里您可以就如何优化代码的(空间)性能提出建议,因为您的基本示例似乎工作正常(最多 700 万行) .
标签: python postgresql psycopg2