【发布时间】:2014-03-19 08:41:58
【问题描述】:
首先让我说我是 Hadoop 的新手。我的要求是使用 Hadoop 基础架构分析服务器日志文件。我朝着这个方向迈出的第一步是使用 Flume HDFS sink 流式传输日志文件并将它们原始转储到我的单节点 Hadoop 集群中。现在我有一堆文件,其中的记录看起来像这样:
timestamp req-id level module-name message
我的下一步是解析文件(分离出字段)并将它们存储回来,以便为搜索做好准备。
我应该使用什么方法?我可以使用 Hive 执行此操作吗? (对不起,如果问题很幼稚)。互联网上提供的信息非常丰富。
【问题讨论】: