【发布时间】:2015-08-30 06:07:45
【问题描述】:
我有一个 hadoop 集群,我正在使用 Numpy、SciPy 和 Pandas 进行数据分析。我希望能够使用命令的“--file”参数以 zip/tar 文件的形式提交我的 hadoop 作业。该 zip 文件应该包含我的 python 程序需要执行的所有内容,这样无论我的脚本在集群中的哪个节点上执行,我都不会在运行时遇到 ImportError。
由于公司政策,在每个节点上安装这些库并不完全可行,尤其是对于探索性/敏捷开发。我确实安装了 pip 和 virtualenv 来根据需要创建沙箱。
我查看了zipimport 和python packaging,但这些似乎都不能满足我的需求/我在使用这些工具时遇到了困难。
有没有人幸运地做到了这一点?我似乎无法在网上找到任何成功案例。
谢谢!
【问题讨论】:
-
不确定这些特定的依赖关系,但 pex 非常适合创建一个文件:pex.readthedocs.org/en/latest
标签: python hadoop numpy pandas hadoop-streaming