【发布时间】:2012-03-29 12:12:06
【问题描述】:
我在 HDFS 目录中有一堆小文件。虽然文件的体积相对较小,但每个文件的处理时间量很大。也就是说,64mb 文件(TextInputFormat 的默认拆分大小)甚至需要几个小时才能处理。
我需要做的是减小分割大小,这样我就可以利用更多节点来完成一项工作。
所以问题是,如何通过10kb 分割文件?我是否需要为此实现自己的InputFormat 和RecordReader,或者是否需要设置任何参数?谢谢。
【问题讨论】:
标签: java hadoop mapreduce distributed-computing