【发布时间】:2020-08-03 19:21:55
【问题描述】:
我将 Qubole 连接到 Azure 数据湖,我可以启动一个 spark 集群,并在其上运行 PySpark。但是,我无法保存任何本机 Python 输出,例如文本文件或 CSV。除了 Spark SQL DataFrames,我无法保存任何东西。 我应该怎么做才能解决这个问题? 提前谢谢!
【问题讨论】:
我将 Qubole 连接到 Azure 数据湖,我可以启动一个 spark 集群,并在其上运行 PySpark。但是,我无法保存任何本机 Python 输出,例如文本文件或 CSV。除了 Spark SQL DataFrames,我无法保存任何东西。 我应该怎么做才能解决这个问题? 提前谢谢!
【问题讨论】:
如果我正确理解了您的问题,我相信您无法将 pyspark 命令输出的结果下载到文本或 CSV 中,而您可以将 spark sql 命令输出以漂亮的表格格式下载。
不幸的是,Python 或 Shell 命令输出的输出文本没有直接的字段分隔符。您需要用逗号分隔输出,以便下载原始输出并将其保存为 csv。
如果这不是您的意思,请与屏幕截图详细信息一起分享更多详细信息,以说明您究竟想做什么。因为这将有助于我们更好地回答您的问题。
【讨论】:
我解决了。我需要使用 textFile() 详细信息和示例代码 here 将文件添加到 PySpark 会话
对于我想要的任何文件,我需要将它添加到 spark 会话中。例如,如果我需要从 Azure 数据湖添加 .py 文件,我需要使用 addPyFile() 和文件路径添加它。
【讨论】: