【发布时间】:2016-08-14 00:58:17
【问题描述】:
这是我第一次在 Databricks Cloud Community Edition 上尝试使用 Spark R 来完成与 RStudio 相同的工作。但是遇到了一些奇怪的问题。
Spark R 似乎确实支持 ggplot2、plyr 等软件包,但数据必须采用 R 列表格式。当我使用train <- read.csv("R_basics_train.csv") 时,我可以在R Studio 中生成这种类型的列表,变量train 这是你使用typeof(train) 时的列表。
但是,在Spark R中,当我读取与“train”相同的csv数据时,它会被转换成dataframe,而这不是我们之前使用的Spark Python DataFrame,因为我不能使用collect()函数将其转换为列表......当你使用typeof(train)时,它显示类型是"S4",但实际上类型是数据帧......
那么,无论如何,在 Spark R 中我可以将数据帧转换为 R 列表,以便我可以使用 ggplot2、plyr 中的方法吗?
您可以在此处找到原始 .csv 训练数据: train
【问题讨论】:
-
你能告诉我们
dput(train)是什么吗? -
我将 .csv 训练数据放在我的 GitHub 中:github.com/hanhanwu/Hanhan_Data_Science_Practice/blob/master/…
-
或者如果 train 很大并且
head可以工作,则执行dput(head(train)) -
head 不是数据探索的好选择。使用 R Studio 时,很容易判断缺失数据在哪里,以及每列的详细摘要。但我没有发现 Spark R 可以做到这些。 head() 也无济于事...
-
dput(head(train))在这里可能很好。我知道一些关于 S4 对象的知识,但我需要一个可以使用的示例,然后才能向您展示如何转换。
标签: r csv dataframe rstudio sparkr