【发布时间】:2015-06-26 16:24:54
【问题描述】:
我有一个 python 脚本需要访问和查询 MaxMind (.mmdb) 文件类型。我目前的想法是将 MaxMind 文件加载到 HDFS 的分布式缓存中,然后通过 Pig 将其传递给我的 Python 脚本。我目前的猪脚本是:
SET mapred.cache.file /path/filelocation/;
SET mapred.createsymlink YES;
SET mapred.cache.file hdfs://localserver:8020/pathtofile#filename;
REGISTER 'pythonscript' USING jython AS myudf;
logfile= LOAD 'filename' USING PigStorage(',') AS (x:int);
RESULT = FOREACH logfile GENERATE myudf.pyFunc(x,"how to pass in MaxMind file");
关于如何在将文件加载到 python 脚本内的分发缓存后访问该文件有什么想法吗?
谢谢
【问题讨论】:
标签: python apache-pig user-defined-functions