【发布时间】:2021-02-19 06:13:17
【问题描述】:
我有一些文档,我必须从中提取每个单词,然后每个文档使用 Pyspark 聚合该单词出现的次数。我已经设法把它变成下面的格式
["of#['d2:3', 'd4:10', 'd1:6', 'd3:13', 'd5:6', 'd6:9', 'd7:5']",
"is#['d2:3', 'd4:8', 'd1:5', 'd3:1', 'd5:4', 'd6:6', 'd7:1']",
"country#['d2:3', 'd1:1', 'd5:2', 'd6:2']",
"in#['d2:5', 'd4:13', 'd1:2', 'd3:2', 'd5:2', 'd6:3', 'd7:3']",
"seventh#['d2:1']"]
如何将上述 rdd 转换为类似的东西
of#d2:3, d4:10, d1:6, d3:13, d5:6, d6:9, d7:5,
is#d2:3, d4:8, d1:5, d3:1, d5:4, d6:6, d7:1,
country#d2:3, d1:1, d5:2, d6:2,
in#d2:5, d4:13, d1:2, d3:2, d5:2, d6:3, d7:3,
seventh#d2:1
我尝试了以下代码行,但出现错误。希望能提供一些关于我哪里出错的意见。
print(x.map(lambda x:str(x[0])+"#"+str(x[1])).take(5))
【问题讨论】:
标签: python apache-spark pyspark rdd