【发布时间】:2013-11-15 04:27:22
【问题描述】:
我有一个大型数据集,它作为序列文件被摄取到 HDFS 中,关键是文件元数据并重视整个文件内容。我正在使用 SequenceFileInputFormat,因此我的拆分基于序列文件同步点。
我面临的问题是当我摄取非常大的文件时,我基本上是将整个文件加载到 Mapper/Reducer 的内存中,因为值是整个文件内容。我正在寻找在保留序列文件容器的同时流式传输文件内容的方法。我什至考虑过编写自定义拆分,但不确定如何保留序列文件容器。
任何想法都会有所帮助。
【问题讨论】: