【问题标题】:How Add Archive or Project Python to Hive如何将存档或 Python 项目添加到 Hive
【发布时间】:2015-06-06 12:14:52
【问题描述】:
例如,我如何将存档添加到 hive:
hive> 添加归档 path_project/my_project.tar.gz;
并执行此查询:
select transform(field_1,field_2) USING 'python path_project/script.py' from my_yable limit 1;
我试过了,但没用。
谢谢
【问题讨论】:
标签:
hadoop
hive
transform
archive
hiveql
【解决方案1】:
我想把这个复制到hadoop map reduce -archives not unpacking archives,但它不允许我这样做,因为答案不被接受。
ADD ARCHIVE path_project/my_project.tar.gz;
当你添加档案path_project/my_project.tar.gz时,档案会被解压到my_project.tar.gz/,所以你需要将脚本引用为
SELECT transform(field_1,field_2)
USING 'python my_project.tar.gz/script.py'
FROM my_yable
LIMIT 1;
如果您查看文档Class DistributedCache 中的示例,则它暗示了约定。顺便说一句:支持的存档格式是
存档(zip、tar 和 tgz/tar.gz 文件)在工作节点上未存档