【发布时间】:2015-03-19 01:12:02
【问题描述】:
我已经在 Ubuntu 中安装了 sparkR 以支持 Hadoop 版本 2.4.0,按照说明 here。
我可以看到带有 Hadoop 2.4.0 和 YARN 支持的 Spark 程序集 JAR 是在以下位置创建的 ./assembly/target/scala-2.10/spark-assembly-1.0.0-SNAPSHOT-hadoop2.4.0.jar。
下面从本地读取文件的 R 代码可以正常工作:
library(SparkR)
sc <- sparkR.init("local[2]", "SparkR", "/usr/local/spark",
list(spark.executor.memory="1g"))
lines <- textFile(sc, "//home//manohar//text.txt")
但是,尝试从 hdfs 读取文件时出现错误。
library(SparkR)
sc <- sparkR.init()
lines <- textFile(sc, "hdfs://localhost:9000//in//text.txt")
错误:
Error in .jcall(getJRDD(rdd), "Ljava/util/List;", "collect") :
org.apache.hadoop.ipc.RemoteException: Server IPC version 9 cannot communicate with client version 4
不知道我在哪里做错了。感谢任何帮助。
【问题讨论】:
标签: r hadoop apache-spark hdfs