【发布时间】:2015-07-03 18:12:48
【问题描述】:
我在 S3 中有大约 200 个文件,例如 a_file.json.bz2,这些文件的每一行都是 JSON 格式的记录,但有些字段由 pickle.dumps 序列化,例如datetime 字段。 bzip压缩后每个文件大约1GB。现在我需要在 Spark(实际上是 pyspark)中处理这些文件,但我什至无法取出每条记录。那么这里的最佳做法是什么?
ds.take(10) 给了
[(0, u'(I551'),
(6, u'(dp0'),
(11, u'Vadv_id'),
(19, u'p1'),
(22, u'V479883'),
(30, u'p2'),
(33, u'sVcpg_id'),
(42, u'p3'),
(45, u'V1913398'),
(54, u'p4')]
显然不是按每条记录进行拆分的。
谢谢。
【问题讨论】:
标签: apache-spark pyspark