【发布时间】:2014-08-08 13:59:14
【问题描述】:
我正在尝试将 Spark 与 Python 一起使用。我从downloads 页面安装了 Spark 1.0.2 for Hadoop 2 二进制分发版。我可以在 Python 交互模式下运行快速入门示例,但现在我想编写一个使用 Spark 的独立 Python 脚本。 quick start documentation 说只导入 pyspark,但这不起作用,因为它不在我的 PYTHONPATH 上。
我可以运行bin/pyspark 并看到模块安装在SPARK_DIR/python/pyspark 下。我可以手动将其添加到我的 PYTHONPATH 环境变量中,但我想知道首选的自动化方法。
为独立脚本添加pyspark 支持的最佳方式是什么?我在 Spark 安装目录下的任何地方都看不到 setup.py。如何为依赖 Spark 的 Python 脚本创建 pip 包?
【问题讨论】:
-
pyspark 可执行文件是否运行?然后从那里,您可以查询 pyspark 包所在的位置,并确保在您的 PYTHONPATH 中包含适当的路径以用于独立模块。
-
好点。我修改了问题。
-
我认为,由于安装整个 Spark 生态系统非常复杂,我会尽量设置 PYTHONPATH。在任何情况下,您都将使用 spark-submit 执行脚本 - 您对此有什么问题吗?
-
哦,我明白了。所以我不编写独立的 Spark Python 脚本。我使用 pyspark 依赖项编写 Python 脚本,然后将其提交到 Spark 集群。我没有从快速开始的文章中明白这一点,但我想这是有道理的。 Hadoop 的工作方式相同。如果这是正确的,您应该将其作为答案提交,@mdurant。谢谢。
-
请先尝试一下 :)
标签: python apache-spark