【发布时间】:2019-12-03 20:03:59
【问题描述】:
我正在 AWS 上的 EMR 集群中测试 pyspark 作业。目标是使用 Lambda 函数来触发 spark 作业,但现在我手动运行 spark 作业。因此,我通过 SSH 连接到主节点,然后运行 spark 作业,如下所示:
spark-submit /home/hadoop/testspark.py mybucket
mybucket - 传递给 spark 作业的参数。
保存RDD的行是
rddFiltered.repartition(1).saveAsTextFile("/home/hadoop/output.txt")
火花作业似乎正在运行,但它会将输出文件放在某个位置 - 输出目录 hdfs://ip-xxx-xx-xx-xx.ec2.internal:8020/home/hadoop/output.txt。
- 它的确切位置在哪里,如何查看内容?原谅我对 HDFS 和 Hadoop 的无知。
- 最后,我想将 output.txt 重命名为有意义的名称,然后转移到 S3,只是还没到那里。
- 如果我重新运行 spark 作业,它会显示“输出目录 hdfs://ip-xxx-xx-xx-xx.ec2.internal:8020/home/hadoop/output.txt 已经存在”。如何防止这种情况发生或至少覆盖文件?
谢谢
【问题讨论】:
标签: pyspark amazon-emr