【发布时间】:2020-03-15 10:36:17
【问题描述】:
总的来说,我对 AWS 和 Spark(非常)陌生,我正在尝试在 Amazon EMR 中运行笔记本实例。当我尝试导入 pyspark 以启动会话并从 s3 加载数据时,我收到错误 No module named 'pyspark'。我创建的集群填充了 Spark 选项,我做错了什么?
【问题讨论】:
-
你是否安装了python包,例如
pip install pyspark? -
您可以按照here的步骤进行配置
-
感谢 cmets,很抱歉我花了这么长时间才回复。此解决方案适用于本地,但我的问题是 AWS 在 EMR 模块中生成和管理的笔记本实例。关于如何在 EMR 笔记本中解决此问题的任何想法?
-
我确实尝试了“在新集群上”选项。如果我没记错的话,我应该在“编辑软件设置”中复制/粘贴该代码。
标签: python amazon-web-services pyspark jupyter-notebook amazon-emr