【发布时间】:2017-08-23 11:09:04
【问题描述】:
我有一个 spark 应用程序,它当前在本地模式下运行,并将输出写入本地 UNIX 目录中的文件。
现在,我想在纱线集群模式下运行相同的作业,但仍想写入那个 UNIX 文件夹。
我可以使用相同的 saveAsTextFile(path) 吗?
【问题讨论】:
标签: apache-spark
我有一个 spark 应用程序,它当前在本地模式下运行,并将输出写入本地 UNIX 目录中的文件。
现在,我想在纱线集群模式下运行相同的作业,但仍想写入那个 UNIX 文件夹。
我可以使用相同的 saveAsTextFile(path) 吗?
【问题讨论】:
标签: apache-spark
是的,你可以。但这不是最好的做法。 spark 本身可以独立运行,也可以在分布式文件系统上运行。我们使用分布式文件系统的原因是数据量很大,预期的输出可能很大。
因此,如果您完全确定输出将适合您的本地文件系统,请选择它,或者您可以使用以下命令将其保存到本地存储中。
bin/hadoop fs -copyToLocal /hdfs/source/path /localfs/destination/path
【讨论】: