【问题标题】:SparkContext' object has no attribute 'prallelizeSparkContext' 对象没有属性 'prallelize
【发布时间】:2020-07-06 20:13:32
【问题描述】:

您好,我正在尝试在 jupyter notebook 中运行我的第一个 pyspark 代码。我遇到了问题,因为 SparkContext' 对象没有属性 'prallelize.你能帮帮我吗?

代码如下:

import findspark
findspark.init()
findspark.find()
import pyspark
findspark.find()

给我的结果是:C:\Users\Owner\spark-3.0.0-bin-hadoop2.7\spark-3.0.0-bin-hadoop2.7'--

from pyspark import SparkContext,SparkConf
from pyspark.sql import SparkSession
conf = pyspark.SparkConf().setAppName('SparkApp').setMaster('local')
sc = pyspark.SparkContext(conf=conf)
spark = SparkSession(sc)


myRDD = sc.prallelize([('Ross',19),('Joey',18),('Rachel',16),('Pheobe',18),('Chandler',17),('Monica',20),('Ram',25),('Hari',10)])

上面的代码给了我如下所示的错误: AttributeError: 'SparkContext' 对象没有属性 'prallelize'

【问题讨论】:

    标签: python-3.x pyspark


    【解决方案1】:

    你可以试试:

     from pyspark.sql import SparkSession 
    
     spark = SparkSession.builder.master("local").getOrCreate() 
     sc = spark.sparkContext
     rdd_names = sc.parallelize([(1, "Joe"), (2, "Thomas"), (3, "Michael"), (4, "Sean")])
    

    【讨论】:

    • 现在代码按预期工作。谢谢你。我无法弄清楚到底是什么问题。你能告诉我到底是什么问题吗?另外,因为我自己正在学习 pyspark,这是我的第一个代码。您能否向我推荐一些好的资源来学习 Pyspark 的 youtube 视频或在线资源?
    • 您似乎使用了一些已弃用的 Sparksession 初始化(使用生成器方法,此处也记录了 spark.apache.org/docs/2.1.0/api/python/…)。除了官方 Pyspark 文档之外,您还可以查看 Databricks,他们有很多 pyspark 教程 (docs.databricks.com/languages/python.html) 或查看此 Spark 备忘单:datacamp.com/community/blog/pyspark-cheat-sheet-python
    • :肯定会这样做。谢谢。
    【解决方案2】:

    是类型错误,应该是

    myRDD = sc.parallelize([('Ross',19),('Joey',18),('Rachel',16),('Pheobe',18),('Chandler',17),('Monica',20),('Ram',25),('Hari',10)])
    

    【讨论】:

    • 我可以找到我的 RDD sytanx 和你的之间的确切差异。能否请您告诉我确切的问题是什么或问题出在哪里?
    • 在您发布的代码中错误输入为sc.prallelize(),其中正确的预期方法是sc.parallelize,您也可以参考Spark API
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2012-12-01
    • 2021-08-03
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多