【问题标题】:Using file located on a remote http server in pig LOAD statement?在 pig LOAD 语句中使用位于远程 http 服务器上的文件?
【发布时间】:2014-08-11 17:47:27
【问题描述】:

我正在尝试读取猪作业中的 txt 文件,并将其与位于我们 hdfs 上的数据连接起来。

所以基本上我想做的是:

current_ids = LOAD 'http://host/dir/file.txt' USING PigStorage(',') AS (id:int);
bindings = LOAD '$hdfs_path' USING AvroStorage();
joined_ids = JOIN current_ids BY id, bindings by user_id;

第一:这可能吗?我想是的。

第二:我该怎么做,或者我可以从哪里获得更多答案。我出人意料地被困在这个问题上:)。

如果可能的话,我们宁愿不必将 txt 文件上传到我们的 hdfs。

谢谢!

【问题讨论】:

    标签: hadoop apache-pig


    【解决方案1】:

    向一些hadoop专家提出这个问题,他们回答:

    “你不能这样做。手动下载它并 CopyFromLocal 放入 HDFS。否则我们很可能会使用我们的 Hadoop 集群对一个糟糕的小型网络服务器进行 DDoS 攻击”

    问题解决了!

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2017-01-13
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-05-23
      相关资源
      最近更新 更多