【问题标题】:Packaging like jar for pyspark包装像 pyspark 的罐子
【发布时间】:2016-06-09 14:02:36
【问题描述】:

我有一个 pyspark 项目,它带有一个运行 spark-streaming 的 python 脚本。我有一些使用--packages 标志运行的外部依赖项。

然而,在 scala 中,我们可以使用 maven 下载所有需要的包,使用主 spark 程序制作一个 jar 文件并将所有内容放在一个 jar 中,然后只需使用 spark-submit 将其提交到集群(我的案例)。

pyspark 有类似jar 这样的东西吗?

spark的官方文档中没有这样的信息。他们只是提到使用spark-submit <python-file> 或添加--py-files,但它不如jar 文件那么专业。

任何建议都会有所帮助!谢谢!

【问题讨论】:

    标签: python apache-spark jar pyspark hadoop-yarn


    【解决方案1】:

    文档说您可以使用 zip 或 egg。

    对于 Python 应用程序,只需传递 .py 文件代替 JAR,然后使用 --py-files 将 Python .zip、.egg 或 .py 文件添加到搜索路径。

    Source

    您可能还会发现other parameters 很有用。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2011-10-10
      • 1970-01-01
      • 2011-07-24
      • 2020-03-09
      • 2012-06-04
      • 2015-06-27
      • 1970-01-01
      • 2012-09-03
      相关资源
      最近更新 更多