【发布时间】:2021-11-05 14:18:18
【问题描述】:
您好,我正在交互式使用 pyspark。我认为我无法正确加载 LOCAL 文件。
如何检查当前目录,以便我可以转到浏览器查看该实际文件?
或者是pyspark所在的默认目录?谢谢
【问题讨论】:
您好,我正在交互式使用 pyspark。我认为我无法正确加载 LOCAL 文件。
如何检查当前目录,以便我可以转到浏览器查看该实际文件?
或者是pyspark所在的默认目录?谢谢
【问题讨论】:
除非您在同一路径下的所有工作人员中都有相同的文件,否则您无法加载本地文件。例如,如果您想在 spark 中读取 data.csv 文件,请将此文件复制到同一路径下的所有工作人员(例如 /tmp/data.csv)。现在可以使用 sc.textFile("file:///tmp/data.csv") 创建 RDD。
当前工作目录是您启动 pyspark 的文件夹。您可以使用 ipython 启动 pyspark 并运行 pwd 命令来检查工作目录。 [在 spark-env.sh 中设置 PYSPARK_DRIVER_PYTHON=/path/to/ipython 使用 ipython]
【讨论】:
import os
cwd = os.getcwd()
print(cwd)
【讨论】: