【问题标题】:Pig lookup external records by a set of keysPig 通过一组键查找外部记录
【发布时间】:2013-07-10 19:18:08
【问题描述】:

我的数据库系统中有一些数据,由于几个原因,我无法使用 LOAD 语句提取这些数据。我需要 Pig 通过键(标识符)查找此数据,但如果我实现 Java UDF,我担心一对一键查找的性能。基本上,如果我的关系上有 10,000 个条目,我想以某种方式在 500 个键的集合中查找这些数据。 Pig 是否提供了一个接口,允许我调用一个 java 方法,该方法将接收一组键并返回一组答案(包或映射),这些答案可以连接或以某种方式分配给 Pig 关系中的元组?

提前感谢您的帮助!

【问题讨论】:

    标签: hadoop mapreduce apache-pig


    【解决方案1】:

    几个建议:

    • 您能否编写您的 UDF 以期望在一个批次中查询一袋标识符 - 那么您只需要编写猪将您的 10,000 个标识符分成多个批次(袋 - 虽然我不是确定这有多“简单”),然后是后续的猪代码以展平并重新加入 UDF 输出
    • 使用 MAPREDUCE 关键字,并在映射器实现中进行批量查询

    【讨论】:

      猜你喜欢
      • 2011-10-21
      • 2016-04-07
      • 2015-07-16
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多