【发布时间】:2018-04-19 06:12:21
【问题描述】:
我有一个包含两列的 apache spark 数据框,我想将第二列中的所有值复制到一个列表中。让我知道是否有任何一种方法可以做到这一点。我是新来的火花
【问题讨论】:
-
你能给出一个示例数据框和预期结果吗?这会让问题更清楚。
标签: python apache-spark dataframe
我有一个包含两列的 apache spark 数据框,我想将第二列中的所有值复制到一个列表中。让我知道是否有任何一种方法可以做到这一点。我是新来的火花
【问题讨论】:
标签: python apache-spark dataframe
我假设您想将数据框第二列的内容本地存储在列表中。为此,可以使用以下步骤。它们可能不是最快或最好的方法:
rows = df.select("column_name_2").collect()
# => Returns a list of Rows with one column
my_list = map(lambda x: x["column_name_2"], rows)
# => Extracts the column value out of the row construct
您不必选择第一行中的列,但它减少了在驱动程序内存中存储行所需的空间。
【讨论】: