【发布时间】:2016-03-31 07:33:21
【问题描述】:
我有一些文件(part-00000.gz、part-00001.gz、part-00002.gz、...),每个部分都相当大。我需要使用每个部分的文件名,因为它包含时间戳信息。据我所知,在 pyspark 中似乎只有 wholeTextFiles 可以将输入读取为(文件名,内容)。但是,使用 wholeTextFiles 时出现内存不足的错误。所以,我的猜测是,wholeTextFiles 在没有分区操作的情况下读取整个部分作为映射器中的内容。我也找到了这个答案(How does the number of partitions affect `wholeTextFiles` and `textFiles`?)。如果是这样,我怎样才能得到一个相当大的部分文件的文件名。谢谢
【问题讨论】:
标签: python apache-spark pyspark