【问题标题】:pyspark: how to show current directory?pyspark:如何显示当前目录?
【发布时间】:2021-11-05 14:18:18
【问题描述】:

您好,我正在交互式使用 pyspark。我认为我无法正确加载 LOCAL 文件。

如何检查当前目录,以便我可以转到浏览器查看该实际文件?

或者是pyspark所在的默认目录?谢谢

【问题讨论】:

    标签: directory pyspark


    【解决方案1】:

    除非您在同一路径下的所有工作人员中都有相同的文件,否则您无法加载本地文件。例如,如果您想在 spark 中读取 data.csv 文件,请将此文件复制到同一路径下的所有工作人员(例如 /tmp/data.csv)。现在可以使用 sc.textFile("file:///tmp/data.csv") 创建 RDD。

    当前工作目录是您启动 pyspark 的文件夹。您可以使用 ipython 启动 pyspark 并运行 pwd 命令来检查工作目录。 [在 spark-env.sh 中设置 PYSPARK_DRIVER_PYTHON=/path/to/ipython 使用 ipython]

    【讨论】:

      【解决方案2】:
      import os
      cwd = os.getcwd()    
      print(cwd)
      

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 2016-11-23
        • 1970-01-01
        • 2010-12-22
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多