【发布时间】:2014-05-06 17:09:01
【问题描述】:
我有一个相对较大的文件 - 大约 10GB 需要处理。如果 MRJob 决定将其分类到 RAM 或类似的东西中,我怀疑它不适合我笔记本电脑的 RAM。
同时,我不想设置 hadoop 或 EMR - 工作并不紧急,我可以在睡觉前简单地启动 worker 并在第二天早上得到结果。换句话说,我对本地模式很满意。我知道,性能不会很完美,但现在还可以。
那么它可以在一台薄弱的机器上处理这样的“大”文件吗?如果是 - 您建议做什么(除了设置自定义 tmp 目录以指向文件系统,而不是指向会很快耗尽的 ramdisk)。假设我们使用的是 0.4.1 版本。
【问题讨论】:
标签: mrjob