【问题标题】:how to run spark from jupyter on yarn client如何在纱线客户端上从 jupyter 运行 spark
【发布时间】:2019-02-14 10:03:33
【问题描述】:

我使用 cloudera manager 部署了一个集群并安装了 spark parcel, 在 shell 中输入 pyspark 时,它可以工作,但在 jupyter 上运行以下代码会引发异常

代码

import sys
import py4j
from pyspark.sql import SparkSession
from pyspark import SparkContext, SparkConf
conf = SparkConf()
conf.setMaster('yarn-client')
conf.setAppName('SPARK APP')
sc = SparkContext(conf=conf)
# sc= SparkContext.getOrCreate()
# sc.stop()

def mod(x):
    import numpy as np
    return (x, np.mod(x, 2))

rdd = sc.parallelize(range(1000)).map(mod).take(10)
print (rdd)

例外

/usr/lib/python3.6/site-packages/pyspark/context.py in _do_init(self, master, appName, sparkHome, pyFiles, environment, batchSize, serializer, conf, jsc, profiler_cls)
    187         self._accumulatorServer = accumulators._start_update_server(auth_token)
    188         (host, port) = self._accumulatorServer.server_address
--> 189         self._javaAccumulator = self._jvm.PythonAccumulatorV2(host, port, auth_token)
    190         self._jsc.sc().register(self._javaAccumulator)
    191 

TypeError: 'JavaPackage' object is not callable

【问题讨论】:

标签: apache-spark pyspark cloudera-cdh


【解决方案1】:

搜索升技后,spark使用的版本1.6与python3.7不兼容,必须使用python2.7运行

【讨论】:

    猜你喜欢
    • 2017-06-24
    • 2017-05-17
    • 2017-01-26
    • 2016-07-23
    • 2014-01-14
    • 2020-10-11
    • 2018-04-04
    • 1970-01-01
    • 2023-04-02
    相关资源
    最近更新 更多