【发布时间】:2017-01-12 09:48:57
【问题描述】:
我已将 .csv 文件存储在 Hadoop HDFS 上,
hadoop dfs -ls /afs
DEPRECATED: Use of this script to execute hdfs command is deprecated.
Instead use the hdfs command for it.
17/01/12 15:15:49 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Found 1 item
-rw-r--r-- 2 hduser supergroup 203572404 2017-01-10 12:04 /afs/Accounts.csv
我想使用 SparkR 将此文件导入 rstudio。
我尝试了以下命令:
sc<-sparkR.session(master = "spark://MasterNode:7077",appName = "SparkR",sparkHome = "/opt/spark")
sContext<- sparkRSQL.init(sc)
library(data.table)
library(dplyr)
df<- read.df(sContext, "hdfs://MasterNode:54310/afs/Accounts.csv")
发生以下错误:
> df<- read.df(sContext, "hdfs://MasterNode:54310/afs/Accounts.csv")
Error in handleErrors(returnStatus, conn) :
No status is returned. Java SparkR backend might have failed.
In addition: Warning message:
In writeBin(requestMessage, conn) : problem writing to connection
请帮助我使用 SparkR 将 Accounts.csv 文件导入 rstudio。
【问题讨论】:
-
为什么不直接使用github.com/RevolutionAnalytics/rhdfs?
-
我已经安装了 rhdfs。但想使用 sparkR 导入 csv。我的意思是我想使用 R-spark 函数从 hdfs 导入 csv 文件。你能推荐任何可以用来从hdfs导入csv文件的spark函数吗?