【问题标题】:Can I use MRJob to process big files in local mode?我可以使用 MRJob 在本地模式下处理大文件吗?
【发布时间】:2014-05-06 17:09:01
【问题描述】:

我有一个相对较大的文件 - 大约 10GB 需要处理。如果 MRJob 决定将其分类到 RAM 或类似的东西中,我怀疑它不适合我笔记本电脑的 RAM。

同时,我不想设置 hadoop 或 EMR - 工作并不紧急,我可以在睡觉前简单地启动 worker 并在第二天早上得到结果。换句话说,我对本地模式很满意。我知道,性能不会很完美,但现在还可以。

那么它可以在一台薄弱的机器上处理这样的“大”文件吗?如果是 - 您建议做什么(除了设置自定义 tmp 目录以指向文件系统,而不是指向会很快耗尽的 ramdisk)。假设我们使用的是 0.4.1 版本。

【问题讨论】:

    标签: mrjob


    【解决方案1】:

    我认为 RAM 大小不会成为 mrjob 的 python 运行器的问题。每个步骤的输出都应该写到磁盘上的临时文件中,所以我相信它不应该填满 RAM。将输出转储到磁盘是 Hadoop 应该采用的方式(以及由于 IO 导致速度慢的原因)。所以我会运行这项工作,看看它是如何进行的。

    如果 RAM 大小有问题,您可以在笔记本电脑上创建足够的交换空间以使其至少运行,但如果分区不在 SSD 上会很慢。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2012-03-31
      • 1970-01-01
      • 2011-10-07
      • 2019-08-07
      • 2015-06-03
      • 1970-01-01
      相关资源
      最近更新 更多