【发布时间】:2017-05-18 03:24:16
【问题描述】:
我正在使用 SparkR 处理一些在其技术堆栈中包含 R 和 spark 的项目。
我必须使用从验证函数返回的布尔值创建新列。我可以使用 spark 数据帧和如下表达式轻松完成这项工作:
sdf1$result <- sdf1$value == sdf2$value
问题是当我必须比较两个不同长度的数据帧时。
使用函数操作sdf1 和sdf2 数据帧并将值分配给sdf1 的新列的最佳方法是什么?假设我想生成一个最小长度在sdf1 和sdf2 之间的列。
【问题讨论】:
-
像
sdf1$result <- sdf1$value == sdf2$value这样的逻辑运算对于不同长度的向量是无效的。你能举个例子吗,你想做什么?
标签: r apache-spark data-science sparkr