Sparklyr 与 SparkR：解决函数参数的问题答案

【问题标题】：Sparklyr with SparkR: Trouble resolving function argumentsSparklyr 与 SparkR：解决函数参数的问题
【发布时间】：2019-09-04 11:57:23
【问题描述】：

我正在运行 Sparklyr 和 SparkR。当我尝试使用spark_read_csv() 创建的数据表调用schema() 函数时，我收到以下错误（select() 和lapply() 函数上出现类似错误）：

（函数（类，fdef，mtable）中的错误：

无法找到用于签名的函数“模式”的继承方法 ‘"tbl_spark"’

以下是我的版本信息：

R 版本 3.5.3 (2019-03-11)

平台：x86_64-w64-mingw32/x64（64位）

运行于：Windows Server >= 2012 x64（内部版本 9200）

... 其他附加包： [1]

sparklyr_1.0.9005 SparkR_2.4.1

这里是一些示例代码：

library(SparkR, lib.loc = c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib")))
library(sparklyr)

...

sc <- spark_connect(master = "spark://<server>",spark_home = 
"C:/Users/paul/Downloads/spark-2.4.1-bin-hadoop2.7", app_name = "sparklyr",config=config)

...

AWIDData = spark_read_csv(sc, name = "AWIDData", path = "hdfs://<server>/AWID/dataset-headers-tst.csv")

...

SparkR::schema(AWIDData)

我希望这会为 tbl_spark 数据表创建架构结构，但在解析要调用的正确函数时会出现某种错误。

【问题讨论】：

标签： r sparkr sparklyr

【解决方案1】：

混淆可能是混合了 SparkR 和 sparklyr 两个包中的函数的结果。由于您已经通过 sparklyr 函数 (spark_read_csv) 创建了与数据源的连接，因此您需要使用 sparklyr 函数 sdf_schema 而不是 schema。

【讨论】：