SparkContext' 对象没有属性 'prallelize答案

【问题标题】：SparkContext' object has no attribute 'prallelizeSparkContext' 对象没有属性 'prallelize
【发布时间】：2020-07-06 20:13:32
【问题描述】：

您好，我正在尝试在 jupyter notebook 中运行我的第一个 pyspark 代码。我遇到了问题，因为 SparkContext' 对象没有属性 'prallelize.你能帮帮我吗？

代码如下：

import findspark
findspark.init()
findspark.find()
import pyspark
findspark.find()

给我的结果是：C:\Users\Owner\spark-3.0.0-bin-hadoop2.7\spark-3.0.0-bin-hadoop2.7'--

from pyspark import SparkContext,SparkConf
from pyspark.sql import SparkSession
conf = pyspark.SparkConf().setAppName('SparkApp').setMaster('local')
sc = pyspark.SparkContext(conf=conf)
spark = SparkSession(sc)


myRDD = sc.prallelize([('Ross',19),('Joey',18),('Rachel',16),('Pheobe',18),('Chandler',17),('Monica',20),('Ram',25),('Hari',10)])

上面的代码给了我如下所示的错误： AttributeError: 'SparkContext' 对象没有属性 'prallelize'

【问题讨论】：

标签： python-3.x pyspark

【解决方案1】：

你可以试试：

 from pyspark.sql import SparkSession 

 spark = SparkSession.builder.master("local").getOrCreate() 
 sc = spark.sparkContext
 rdd_names = sc.parallelize([(1, "Joe"), (2, "Thomas"), (3, "Michael"), (4, "Sean")])

【讨论】：

现在代码按预期工作。谢谢你。我无法弄清楚到底是什么问题。你能告诉我到底是什么问题吗？另外，因为我自己正在学习 pyspark，这是我的第一个代码。您能否向我推荐一些好的资源来学习 Pyspark 的 youtube 视频或在线资源？
您似乎使用了一些已弃用的 Sparksession 初始化（使用生成器方法，此处也记录了 spark.apache.org/docs/2.1.0/api/python/…）。除了官方 Pyspark 文档之外，您还可以查看 Databricks，他们有很多 pyspark 教程 (docs.databricks.com/languages/python.html) 或查看此 Spark 备忘单：datacamp.com/community/blog/pyspark-cheat-sheet-python。
：肯定会这样做。谢谢。

【解决方案2】：

是类型错误，应该是

myRDD = sc.parallelize([('Ross',19),('Joey',18),('Rachel',16),('Pheobe',18),('Chandler',17),('Monica',20),('Ram',25),('Hari',10)])

【讨论】：

我可以找到我的 RDD sytanx 和你的之间的确切差异。能否请您告诉我确切的问题是什么或问题出在哪里？
在您发布的代码中错误输入为sc.prallelize()，其中正确的预期方法是sc.parallelize，您也可以参考Spark API