【发布时间】:2016-03-17 14:22:27
【问题描述】:
我只是使用 Flume 流式传输一些 twitter 数据并将其集群到 HDFS 现在我尝试将其加载到 pig 中进行分析。由于默认的 JsonLoader 函数无法加载数据,所以我在谷歌搜索一些可以加载这种类型的库数据。我找到了这个link 并按照那里的说明进行操作。
这是结果
REGISTER '/home/hduser/Downloads/json-simple-1.1.1.jar';
2016-02-22 20:54:46,539 [main] INFO org.apache.hadoop.conf.Configuration.deprecation - fs.default.name is deprecated. Instead, use fs.defaultFS
其他拖曳命令也一样。
现在,当我尝试使用此命令加载数据时
load_tweets = LOAD '/TwitterData/' USING com.twitter.elephantbird.pig.load.JsonLoader('-nestedLoad') AS myMap;
它告诉我这个错误
2016-02-22 20:58:01,639 [main] ERROR org.apache.pig.tools.grunt.Grunt - ERROR 1070: Could not resolve com.twitter.elephantbird.pig.load.JsonLoader using imports: [, java.lang., org.apache.pig.builtin., org.apache.pig.impl.builtin.]
Details at logfile: /home/hduser/pig-0.15.0/pig_1456153061619.log
那么如何解决并正确加载呢?
注意:我的数据是关于最近上映的电影死侍推特数据。
【问题讨论】:
标签: hadoop twitter apache-pig