【发布时间】:2010-10-30 15:50:18
【问题描述】:
我研究 MapReduce 有一段时间了,它似乎是实现容错分布式计算的一种非常好的方法。我阅读了很多关于该主题的论文和文章,在一系列虚拟机上安装了 Hadoop,并进行了一些非常有趣的测试。我真的认为我了解 Map 和 Reduce 步骤。
但这是我的问题:我不知道它如何帮助进行 http 服务器日志分析。
我的理解是,大公司(例如 Facebook)使用 MapReduce 来计算他们的 http 日志,以加快从中提取受众统计数据的过程。我工作的公司虽然比 Facebook 小,但每天都有大量的网络日志需要计算(100Go 每月增长 5% 到 10%)。现在我们在单个服务器上处理这些日志,它工作得很好。但立即想到分配计算作业是一种很快就会有用的优化。
以下是我现在无法回答的问题,非常感谢您的帮助:
- MapReduce 概念真的可以应用于博客分析吗?
- MapReduce 是最聪明的方法吗?
- 如何在各种计算实例之间拆分 Web 日志文件?
谢谢。
尼古拉斯
【问题讨论】:
标签: distributed mapreduce logfile-analysis