【问题标题】:Hadoop Input files OrderHadoop 输入文件顺序
【发布时间】:2011-01-26 21:22:05
【问题描述】:

我将数据文件排列在名为日期的文件夹中。目录结构

  • /data/2011/01/01
  • /data/2011/01/02

等等,在每个目录中,我需要解析大约 50 个文件,我将输入作为 /data/** /** /** 输入 hadoop,以便它可以解析所有文件。我的问题是

  1. 如何让 hadoop 对输入进行排序。我需要按日期解析文件。
  2. 在解析特定日期的文件时,我需要预加载与该日期相关联的数据结构,并且位于同一日期目录中。

谢谢 安库什

【问题讨论】:

    标签: hadoop


    【解决方案1】:
    1. 您无法对输入进行排序。在“最坏情况”的情况下,如果您的输入文件数量与在集群中运行的任务数量相同,那么它们都将在同一时刻并行处理。
    2. 也许您可以创建一个“FileInputFormat”的自定义实现来读取所需的配置文件并执行您需要的操作?

    【讨论】:

      猜你喜欢
      • 2010-11-16
      • 1970-01-01
      • 2012-10-25
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多