【发布时间】:2012-06-18 16:07:58
【问题描述】:
大师!
很长一段时间我找不到以下问题的答案:hadoop 如何在写入过程中拆分大文件。 例子: 1) 块大小 64 Mb 2) 文件大小 128 Mb(平面文件,包含文本)。
当我写文件时,它将被分成两部分(文件大小/块大小)。 但是... 可能会发生以下情况 Block1 将在 ... word300 word301 我 Block 2 将开始 rd302 word303 ... 写case会是
Block1 将结束于 ... word300 word301 Block 2 将开始 word302** word303 ...
或者你可以在写hadoop拆分算法的地方链接。
提前谢谢你!
【问题讨论】:
标签: hadoop mapreduce hadoop-streaming