【发布时间】:2011-07-31 21:34:50
【问题描述】:
我正在使用 Python 编写的映射器和缩减器在 Hadoop(在 Amazon 的 EMR 上)中运行流式作业。我想知道如果我在 Java 中实现相同的映射器和减速器(或使用 Pig),我将体验到的速度提升。
特别是,我正在寻找人们从流式传输迁移到自定义 jar 部署和/或 Pig 的经验,以及包含这些选项的基准比较的文档。我找到了这个question,但答案对我来说不够具体。我不是在寻找 Java 和 Python 之间的比较,而是在 Hadoop 中的自定义 jar 部署和基于 Python 的流之间的比较。
我的工作是从 Google Books NGgram 数据集中读取 NGram 计数并计算聚合度量。计算节点上的 CPU 利用率似乎接近 100%。 (我想听听您对 CPU 密集型作业或 IO 密集型作业的区别的看法)。
谢谢!
澳大利亚
【问题讨论】:
标签: java python streaming hadoop mapreduce