【发布时间】:2016-08-25 15:04:42
【问题描述】:
我有一个 SparkDataFrame,我想在其上使用 dapply() 应用一些函数并添加一个新列。
SparkR 中的 dapply 期望模式与被调用函数的输出相匹配。 例如,
#Creating SparkDataFrame
sdf<-as.DataFrame(iris)
#Initiating Schema
schm<-structType(structField("Sepal_Length", "double"),structField("Sepal_Width", "double"),structField("Petal_Length","double"),structField("Petal_Width","double"),structField("Species","string"),structField("Specie_new","string"))
#dapply code
sdf2<-dapply(sdf,function(y)
{
y$Specie_new<-substr(y$Specie,nchar(y$Species)-1,nchar(y$Species))
return(y)
},schm)
有没有更好的方法来做同样的事情?我的意思是如果我有 100 列,那么这将不是一个可行的选择,在这些情况下我应该怎么做?
【问题讨论】:
标签: r apache-spark sparkr