【发布时间】:2014-07-04 16:06:36
【问题描述】:
我有一个项目,要求以分布式方式从外部来源下载文件。我们已经对 Hadoop 进行了大量投资,并希望利用 MapReduce——但更多的是作为分布式任务而不是 ETL。
1) 以前有人做过吗?
2) 是否应该只有一个没有 Reducer 的 Mapper?
3) 将 FTP/HTTP 连接的抽象实现传递给 Mapper 的最佳方式是什么? -- 需要明确的是,我的意思是我想要一种无需进行集成测试即可对其进行单元测试的好方法,因此需要一种模拟 FTP/HTTP 的方法。
4) MapReduce 是处理这类事情的最佳方法吗? -- 我们在滥用 MapReduce 吗?
谢谢。
【问题讨论】:
-
我会说“是的,你在这里滥用 map/reduce”,但这只是我。
-
我认为这也是“滥用 map/reduce”,但有可能,mapper 是这里更好的方法。
标签: java http ftp hadoop mapreduce