【发布时间】:2015-09-22 23:26:56
【问题描述】:
我正在尝试在 Amazon Ec2 中使用集群模式执行 spark 程序
spark-submit --master spark://<master-ip>:7077 --deploy-mode cluster --class com.mycompany.SimpleApp ./spark.jar
并且该类有一行尝试读取文件:
JavaRDD<String> logData = sc.textFile("/user/input/CHANGES.txt").cache();
即使我能够在独立模式下阅读,我也无法在集群模式下阅读此 txt 文件。在集群模式下,它正在寻找从 hdfs 读取。所以我使用
将文件放在 /root/persistent-hdfs 的 hdfshadoop fs -mkdir -p /wordcount/input
hadoop fs -put /app/hadoop/tmp/input.txt /wordcount/input/input.txt
我可以使用hadoop fs -ls /workcount/input 查看该文件。但 Spark 仍然无法读取该文件。知道我做错了什么。谢谢。
【问题讨论】:
标签: hadoop amazon-ec2 apache-spark