Pyspark 在纱线集群模式下将文件写入本地答案

【问题标题】：Pyspark write files to local on yarn cluster modePyspark 在纱线集群模式下将文件写入本地
【发布时间】：2019-11-25 03:08:28
【问题描述】：

我正在尝试运行我的 pyspark 代码。我的目标目录是本地目录。我提交 spark-submit 命令的用户是超级用户，拥有从 hdfs 读取文件并将文件写入本地的所有权限。

作业正在运行，没有任何错误，但没有创建输出目录或文件。

我已在我的 spark 代码中将 HADOOP_USER_NAME 设置为超级用户以避免权限问题。

有人可以帮忙

【问题讨论】：

【解决方案1】：

如果您在 YARN 集群模式下运行，那么 YARN ApplicationMaster 实际上是在一个节点上运行，因此将在该节点本地写出。如果您找到它是哪个节点，那么您应该在那里找到您的输出目录和文件。

【讨论】：