【发布时间】:2020-05-11 21:12:51
【问题描述】:
我正在尝试使用 spark 为数据帧创建一个有限的排序列表,但是我想不出一种快速且低内存的方法。
我的数据框由三列、两个键 ID 和一个距离列组成,我想获取靠近每个 ID 的前 n=50 个 ID 的列表。我尝试 groupBy 然后是 collect_list 然后是 sort_array,然后是 UDF 以仅获取 ID,最后通过 UDF 传递它以获取第一个 n=50,但它非常慢,有时会出现内存错误。
# Sample Data
val dataFrameTest = Seq(
("key1", "key2", 1),
("key1","key3", 2),
("key1", "key5" ,4),
("key1", "key6" ,5),
("key1","key8" ,6),
("key2", "key7" ,3),
("key2", "key9" ,4),
("key2","key5" ,5)
).toDF("id1", "id2", "distance")
如果限制是 2 想要
"key1" | ["key2", "key3"]
"key2" | ["key7", "key8"]
当前方法:
sorted_df = dataFrameTest.groupBy("key1").agg(collect_list(struct("distance", "id2")).alias("toBeSortedCol")).
withColumn("sortedList", sort_array("toBeSortedCol"))
我的数据非常大,所以 spark 是唯一的解决方案。感谢任何帮助/指导。
【问题讨论】:
-
你的是一个图数据,也许你可以利用 Spark-GraphX 来处理它。如果 key 的唯一数量(key1 和 key2 )都不太高,可以考虑将数据集转换为 Distance-Matrix,然后进行处理,en.wikipedia.org/wiki/Distance_matrix
标签: scala apache-spark memory aggregation collect