处理 HDFS 文件答案

【问题标题】：Processing HDFS files处理 HDFS 文件
【发布时间】：2014-03-19 08:41:58
【问题描述】：

首先让我说我是 Hadoop 的新手。我的要求是使用 Hadoop 基础架构分析服务器日志文件。我朝着这个方向迈出的第一步是使用 Flume HDFS sink 流式传输日志文件并将它们原始转储到我的单节点 Hadoop 集群中。现在我有一堆文件，其中的记录看起来像这样：

timestamp req-id level module-name message

我的下一步是解析文件（分离出字段）并将它们存储回来，以便为搜索做好准备。

我应该使用什么方法？我可以使用 Hive 执行此操作吗？（对不起，如果问题很幼稚）。互联网上提供的信息非常丰富。

【问题讨论】：

标签： hadoop hdfs

【解决方案1】：

根据您的解释，您有时间序列数据。带有 HDFS 的 Hadoop 本身并不意味着随机访问或查询。您可以使用 HBase 作为 hadoop 的数据库作为 HDFS 作为后端文件系统。它有利于随机访问。此外，为了您需要解析和重新排列数据，您可以利用 Hadoop 的 MapReduce.HBase 内置支持。 HBase 可用于 MapReduce Job 的输入/输出。

您可以从here 获得基本信息。为了更好地理解，请尝试 HBase / HBase in Action 书籍的权威指南。

【讨论】：

【解决方案2】：

您可以使用 HCatalog 或 Impala 进行更快的查询。

【讨论】：