【问题标题】:Jupyter Notebook with Apache Spark (Kernel Error)带有 Apache Spark 的 Jupyter Notebook(内核错误)
【发布时间】:2023-03-18 13:39:01
【问题描述】:
我的目标是将 Jupyter Notebook (IPython) 与 Apache Spark 一起使用。我正在使用 Apache Toree 来执行此操作。我正在为 SPARK_HOME 设置环境变量并使用 Jupyter 配置 Apache Toree 安装。一切似乎都很好。
当我运行以下命令时,会打开一个 juypter 浏览器 ipython notebook --profile=pyspark
当我在下拉菜单中选择 Apache Toree - PySpark 时,我无法在我的笔记本中编码并且我有这个视图(Python 2 可以):
红色按钮给出:
怎么了?请帮忙?
【问题讨论】:
标签:
python
apache-spark
ipython
pyspark
apache-toree
【解决方案1】:
不是一个真正的答案,但如果您不迷恋 toree,只是需要一个本地 spark 来学习和实验,您可以下载一份 spark 副本,解压缩并在笔记本的开头使用它:
import os
import sys
os.environ['SPARK_HOME']="<path where you have extracted the spark file>"
sys.path.append( os.path.join(os.environ['SPARK_HOME'], 'python') )
sys.path.append( os.path.join(os.environ['SPARK_HOME'], 'bin') )
sys.path.append( os.path.join(os.environ['SPARK_HOME'], 'python/lib/py4j-0.10.4-src.zip') )
from pyspark import SparkContext,SparkConf
from pyspark.sql import SQLContext, Row
import pyspark.sql.functions as sql
sc = SparkContext()
sqlContext = SQLContext(sc)
print sc.version