【发布时间】:2017-11-09 14:35:43
【问题描述】:
我正在尝试从 RDD 数据中选择特定列。我的数据如下所示:
colA | colB
1 | cat,bat
2 | cat
3 | horse,elephant, mouse
我想提取不同长度的 colB。我试着做:
coldata = rdd.map(lambda x: x[1])
只提取cat,cat,horse
我希望提取的数据是:
colB
cat,bat
cat
horse,elephant,mouse
我通过执行以下操作来创建 RDD:
sqlContext = SQLContext(sc)
data = sc.textFile("filename").map(lambda line: line.split(","))
【问题讨论】:
-
你能展示一下rdd是如何创建的吗?
-
我已将代码添加到我的原始帖子中。谢谢。
-
好的,colA 和 colB 是怎么分开的?我假设用逗号
,? -
是的,它们用逗号分隔。