【问题标题】:Set SPARK-HOME path variable in windows and pycharm在 windows 和 pycharm 中设置 SPARK-HOME 路径变量
【发布时间】:2015-11-19 17:14:13
【问题描述】:

我是 SPARK 的新手,并试图在 Windows 中使用它。我能够使用带有 hadoop 的预构建版本成功下载并安装 Spark 1.4.1。在以下目录中:

/my/spark/directory/bin

我可以运行 spark-shell 和 pyspark.cmd 并且一切正常。我正在处理的唯一问题是我想在 Pycharm 中编码时导入 pyspark。现在我正在使用以下代码来使事情正常进行:

import sys
import os
from operator import add

os.environ['SPARK_HOME'] = "C:\spark-1.4.1-bin-hadoop2.6"
sys.path.append("C:\spark-1.4.1-bin-hadoop2.6/python")
sys.path.append("C:\spark-1.4.1-bin-hadoop2.6/python/build")

try:
    from pyspark import SparkContext
    from pyspark import SparkConf

except ImportError as e:
    print ("Error importing Spark Modules", e)
    sys.exit(1)

我想知道是否有更简单的方法可以做到这一点。我正在使用 Windows 8 - Python 3.4 和 Spark 1.4.1

【问题讨论】:

    标签: python windows pyspark


    【解决方案1】:

    关于easiest way I've found. 我通常使用如下函数来减少重复性。

    def configure_spark(spark_home=None, pyspark_python=None):
        spark_home = spark_home or "/path/to/default/spark/home"
        os.environ['SPARK_HOME'] = spark_home
    
        # Add the PySpark directories to the Python path:
        sys.path.insert(1, os.path.join(spark_home, 'python'))
        sys.path.insert(1, os.path.join(spark_home, 'python', 'pyspark'))
        sys.path.insert(1, os.path.join(spark_home, 'python', 'build'))
    
        # If PySpark isn't specified, use currently running Python binary:
        pyspark_python = pyspark_python or sys.executable
        os.environ['PYSPARK_PYTHON'] = pyspark_python
    

    然后,你可以在导入pyspark之前调用该函数:

    configure_spark('/path/to/spark/home')
    from pyspark import SparkContext
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2011-11-21
      • 1970-01-01
      • 1970-01-01
      • 2017-06-09
      • 1970-01-01
      • 2018-09-26
      • 2016-03-10
      • 1970-01-01
      相关资源
      最近更新 更多