【发布时间】:2017-12-28 07:55:15
【问题描述】:
由于数据量大,我不得不使用pyspark将不同行中的dataframe值(一个列表)组合起来。
这样的数据框:
x = sqlContext.createDataFrame([("A", ['1','2','3']),("B", ['4','2','5','6']),("C", ['2','4','9','10']),("D", ['11','12','15','16'])],["index", "num_group"])
+-----+----------------+
|index| num_group|
+-----+----------------+
| A| [1, 2, 3]|
| B| [4, 2, 5, 6]|
| C| [2, 4, 9, 10]|
| D|[11, 12, 15, 16]|
+-----+----------------+
我想通过具有相同元素的列表合并num_group,如下所示:
(索引是一个无意义的值或字符串)
+-------------------------+
| num_group|
+-------------------------+
|[1, 2, 3, 4, 5, 6, 9, 10]|
| [11, 12, 15, 16]|
+-------------------------+
我想我可以使用 graphframes GraphX 来查找连接并根据不同行中的相等值合并两行或多行。
有可能吗?我不太了解documents 的例子。
任何帮助将不胜感激。
【问题讨论】:
标签: python python-3.x python-2.7 pyspark spark-graphx