【发布时间】:2017-10-03 00:15:28
【问题描述】:
我有一个带有一组计算列的 Apache Spark 数据框。对于数据框中的每一行(大约 2000 行),我希望获取 10 列的行值并找到第 11 列相对于其他 10 列的最接近的值。
我想我会采用这些行值并将其转换为列表,然后使用 abs 值计算来确定最接近的值。
但我被困在如何将行值转换为列表的问题上。我已经取出一列并使用 collect_list 将这些值转换为列表,但不确定当列表来自单行和多列时如何处理。
【问题讨论】: