【问题标题】:Adding a column with function values to Spark dataframes with SparkR使用 SparkR 将具有函数值的列添加到 Spark 数据帧
【发布时间】:2017-05-18 03:24:16
【问题描述】:

我正在使用 SparkR 处理一些在其技术堆栈中包含 R 和 spark 的项目。

我必须使用从验证函数返回的布尔值创建新列。我可以使用 spark 数据帧和如下表达式轻松完成这项工作:

sdf1$result <- sdf1$value == sdf2$value

问题是当我必须比较两个不同长度的数据帧时。

使用函数操作sdf1sdf2 数据帧并将值分配给sdf1 的新列的最佳方法是什么?假设我想生成一个最小长度在sdf1sdf2 之间的列。

【问题讨论】:

  • sdf1$result &lt;- sdf1$value == sdf2$value这样的逻辑运算对于不同长度的向量是无效的。你能举个例子吗,你想做什么?

标签: r apache-spark data-science sparkr


【解决方案1】:

如果您有不同长度的数据框,我在逻辑上假设您有一些列来确定如何排列两个数据框之间的值。您必须在这些列上的两个数据帧之间执行连接(请参阅 SparkR::merge / SparkR::join),然后执行比较操作以在结果数据帧上创建新列。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2022-01-03
    • 2017-12-10
    • 2021-12-23
    • 2023-04-07
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多