【发布时间】:2015-11-24 07:51:19
【问题描述】:
我必须使用 Hadoop 相关工具 分析存储在生产服务器上的 Gzip 压缩日志文件。
我无法决定如何做到这一点,以及使用什么,以下是我考虑使用的一些方法(请随意推荐其他方法):
- 水槽
- 卡夫卡
- 地图减少
在我做任何事情之前,我需要从生产服务器获取压缩文件并处理它们,然后将它们推送到 Apache HBase
【问题讨论】:
-
用apache钻怎么样?
-
日志有多大(未压缩)?
-
马克,每个日志实际上是 200MB,并且大部分是 10 个文件。
-
所以您说的是每天可能有 2GB 的日志数据? hbase 是一个严格的要求吗,因为对于这么少的数据来说它似乎有点过分了(你可以在一个 HDD 上放置几年的价值)。如果您有一定的灵活性,@MarkoBonaci 的 Databricks 建议很合适,或者查看类似 Splunk 之类的东西,它几乎是为这种情况设计的。
-
谢谢马克,但我们还没有确认。
标签: hadoop mapreduce apache-spark apache-storm flume