【问题标题】:Processing HDFS files处理 HDFS 文件
【发布时间】:2014-03-19 08:41:58
【问题描述】:

首先让我说我是 Hadoop 的新手。我的要求是使用 Hadoop 基础架构分析服务器日志文件。我朝着这个方向迈出的第一步是使用 Flume HDFS sink 流式传输日志文件并将它们原始转储到我的单节点 Hadoop 集群中。现在我有一堆文件,其中的记录看起来像这样:

timestamp req-id level module-name message

我的下一步是解析文件(分离出字段)并将它们存储回来,以便为搜索做好准备。

我应该使用什么方法?我可以使用 Hive 执行此操作吗? (对不起,如果问题很幼稚)。互联网上提供的信息非常丰富。

【问题讨论】:

    标签: hadoop hdfs


    【解决方案1】:

    根据您的解释,您有时间序列数据。带有 HDFS 的 Hadoop 本身并不意味着随机访问或查询。您可以使用 HBase 作为 hadoop 的数据库作为 HDFS 作为后端文件系统。它有利于随机访问。 此外,为了您需要解析和重新排列数据,您可以利用 Hadoop 的 MapReduce.HBase 内置支持。 HBase 可用于 MapReduce Job 的输入/输出。

    您可以从here 获得基本信息。为了更好地理解,请尝试 HBase / HBase in Action 书籍的权威指南。

    【讨论】:

      【解决方案2】:

      您可以使用 HCatalog 或 Impala 进行更快的查询。

      【讨论】:

        猜你喜欢
        • 2014-05-21
        • 2015-10-18
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2017-11-06
        • 2017-04-16
        • 1970-01-01
        相关资源
        最近更新 更多