【发布时间】:2012-12-05 09:42:35
【问题描述】:
我在尝试尽快完成的并行处理任务上需要一些帮助。
它只是将一个较大的数据帧分成较小的块,并在每个块上运行相同的脚本。
我认为这被称为尴尬的并行。
如果有人可以建议使用亚马逊云服务或 picloud 完成此任务的模板,我将不胜感激。
我已经初步涉足亚马逊 ec2 和 picloud(我将在每个数据块上运行的脚本是在 python 中),但我意识到我可能 在没有任何帮助的情况下都不知道如何做到这一点。
因此,任何指针将不胜感激。我只是在寻找基本帮助(对于那些知道的人),例如使用 ec2 或 picloud 或其他任何东西设置并行内核或 cpus 所涉及的主要步骤,并行运行脚本,并保存脚本输出,即脚本将其计算结果写入 csv 文件。
我正在运行 ubuntu 12.04,我的 python 2.7 脚本不涉及非标准库,只涉及 os 和 csv。脚本并不复杂,只是数据对于我的机器和时间框架来说太大了。
【问题讨论】:
-
数据有多大?它是在一个大文件中还是在许多小文件中?
-
磁盘上的数据约为 50mb。我在其中的一小部分上运行了脚本,这需要 80 分钟才能完成。时间似乎是线性缩放的,我想我正在以这个速度查看 1000 小时的处理时间!就在那时,我想到了可能将其拆分为许多不同的核心。
标签: python parallel-processing amazon-ec2 cloud