【发布时间】:2021-12-30 18:29:17
【问题描述】:
在 Hadoop 之上的 3 个节点上安装 Apache Spark 后,我遇到了以下问题:
问题 1- Python 版本:
我在工人身上设置 python 时遇到问题。这是 .bashrc 文件中的设置,与 spark-env.sh 文件中的设置相同。
alias python3='/usr/bin/python3'
export PYSPARK_PYTHON=/usr/bin/python3
export PYSPARK_DRIVER_PYTHON=/usr/bin/python3
在 Spark 日志(纱线日志 --applicationId
export USER="hadoop"
export LOGNAME="hadoop"
export PYSPARK_PYTHON="python3"
虽然我在主节点和工作节点上安装了 pandas 库(pip install pandas)并确保它已安装,但在使用命令 /home/hadoop/spark/bin/spark-submit --master yarn --deploy-mode cluster sparksql_recommender_system_2.py 时我不断收到以下消息
ModuleNotFoundError: No module named 'pandas' <br>
令人惊讶的是,这个错误只是在集群模式下,而我在客户端部署模式下没有这个错误。
命令which python 返回/usr/bin/python,其中库pandas 存在。
2天后,我在网上找不到我的答案。一次偶然的机会,我尝试使用 sudo 安装 pandas,它成功了 :)。
sudo pip install pandas
但是,我的预期是 Spark 将使用 /usr/bin/python 中的 python 用于 hadoop 用户,而不是 root 用户。我该如何解决?
问题 2-VScode ssh 的不同行为
我使用 VScode ssh 插件连接到我开发代码的服务器。当从一台主机 (PC) 执行此操作时,我可以使用 spark-submit,但在我的另一台 PC 上,我必须使用确切的路径 /home/hadoop/spark/bin/spark-submit。这很奇怪,因为我使用 VSCode ssh 到相同的服务器和文件。知道如何解决吗?
【问题讨论】:
标签: python apache-spark visual-studio-code