【发布时间】:2016-07-12 03:26:36
【问题描述】:
我有一个大文件(a.txt),如下所示,其中文件中有一个特殊标记,将数据分组
a1
a2
$$$$$$$$
a1
c1
b1
c2
$$$$$$$$
d1
d2
$$$$$$$$
...
我想使用类似的python代码:
line = sc.textFile("a.txt")
line1 = line.filter() or line.filter.map()...
...
将组项目分成几个组,如下所示: (a1,a2), (a1, c1, b1,c2), (d1, d2)....但是不知道怎么做,有人可以帮忙吗?
【问题讨论】:
-
@zero323,我搜索了相关主题,找不到重复的问题。如果你找到了,请给我链接。谢谢。这个不是重复的!!
-
您想根据特定的分隔符组合记录,对吗?这应该在阅读链接问题中解释的内容时完成。
-
a1, a2, $$$$$$$$ ... 不在一行中。链接的问题不同。
-
是的,完全正确。这就是你不能使用 textFile 的原因。
-
@zero323,我找到了你提到的链接,我会仔细检查,谢谢!
标签: python dictionary apache-spark filter rdd