【问题标题】:How to get Python in Qubole to save CSV and TXT files to Azure data lake?如何在 Qubole 中获取 Python 以将 CSV 和 TXT 文件保存到 Azure 数据湖?
【发布时间】:2020-08-03 19:21:55
【问题描述】:

我将 Qubole 连接到 Azure 数据湖,我可以启动一个 spark 集群,并在其上运行 PySpark。但是,我无法保存任何本机 Python 输出,例如文本文件或 CSV。除了 Spark SQL DataFrames,我无法保存任何东西。 我应该怎么做才能解决这个问题? 提前谢谢!

【问题讨论】:

    标签: python azure qubole


    【解决方案1】:

    如果我正确理解了您的问题,我相信您无法将 pyspark 命令输出的结果下载到文本或 CSV 中,而您可以将 spark sql 命令输出以漂亮的表格格式下载。

    不幸的是,Python 或 Shell 命令输出的输出文本没有直接的字段分隔符。您需要用逗号分隔输出,以便下载原始输出并将其保存为 csv。

    如果这不是您的意思,请与屏幕截图详细信息一起分享更多详细信息,以说明您究竟想做什么。因为这将有助于我们更好地回答您的问题。

    【讨论】:

    • 我实际上无法保存任何 Python,即使它根本不是 spark 上下文,即使我使用的是 Qubole 启动器中的 Python 笔记本。例如,我无法将列表保存到文本文件或 Pandas 数据框为 CSV。它给了我一个错误,说没有这样的文件或目录。这似乎是一个不相关的错误。因为我有文件夹,我正在创建文件。
    • 您介意用您所面临的错误的屏幕截图记录支持票吗。我们可以进一步调试。
    • 会的。谢谢
    【解决方案2】:

    我解决了。我需要使用 textFile() 详细信息和示例代码 here 将文件添加到 PySpark 会话 对于我想要的任何文件,我需要将它添加到 spark 会话中。例如,如果我需要从 Azure 数据湖添加 .py 文件,我需要使用 addPyFile() 和文件路径添加它。

    【讨论】:

      猜你喜欢
      • 2022-08-21
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2020-03-29
      • 2023-01-31
      • 2019-06-03
      • 1970-01-01
      • 2021-04-13
      相关资源
      最近更新 更多