【发布时间】:2011-04-28 06:15:33
【问题描述】:
我正在使用 hadoop map-reduce 作业进行一些文本处理。我的工作已完成 99.2% 并停留在最后的地图工作上。
地图输出的最后几行如下所示。上次,当这个问题发生时,我尝试打印出从 map 发出的键值,并注意到其中一个键有大量与之关联的值,我认为它在对这些值进行排序时似乎卡住了。然后,我停止从地图作业中发出该键并且它工作正常。
我认为,同样的问题又发生了,打印出键值对是一项乏味的工作,因为这项工作需要时间。有更好的选择吗?就像配置 hadoop 一样,如果它们在排序上花费太多时间,就会忘记一些键。有没有这样的。
2010-10-20 14:43:32,274 信息 org.apache.hadoop.mapred.MapTask:溢出地图输出:缓冲区已满 = true 2010-10-20 14:43:32,274 信息 org.apache.hadoop.mapred.MapTask:bufstart = 0; bufend = 79698262; bufvoid = 99614720 2010-10-20 14:43:32,274 信息 org.apache.hadoop.mapred.MapTask:kvstart = 0; kvend = 6601;长度 = 327680 2010-10-20 14:43:33,272 信息 org.apache.hadoop.mapred.MapTask:完成溢出 0 2010-10-20 14:50:44,113 信息 org.apache.hadoop.mapred.MapTask:溢出地图输出:缓冲区已满 = true 2010-10-20 14:50:44,113 信息 org.apache.hadoop.mapred.MapTask:bufstart = 79698262; bufend = 59800449; bufvoid = 99614720 2010-10-20 14:50:44,113 信息 org.apache.hadoop.mapred.MapTask:kvstart = 6601; kvend = 9039;长度 = 327680 2010-10-20 14:50:44,864 信息 org.apache.hadoop.mapred.MapTask:完成溢出 1 2010-10-20 14:58:33,105 信息 org.apache.hadoop.mapred.MapTask:溢出地图输出:缓冲区已满 = true 2010-10-20 14:58:33,105 信息 org.apache.hadoop.mapred.MapTask:bufstart = 59800449; bufend = 39893455; bufvoid = 99614720 2010-10-20 14:58:33,105 信息 org.apache.hadoop.mapred.MapTask:kvstart = 9039; kvend = 11228;长度 = 327680 2010-10-20 14:58:33,817 信息 org.apache.hadoop.mapred.MapTask:完成溢出 2 2010-10-20 15:06:48,675 信息 org.apache.hadoop.mapred.MapTask:溢出地图输出:缓冲区已满 = true 2010-10-20 15:06:48,675 信息 org.apache.hadoop.mapred.MapTask:bufstart = 39893455; bufend = 20000988; bufvoid = 99614720 2010-10-20 15:06:48,675 信息 org.apache.hadoop.mapred.MapTask:kvstart = 11228; kvend = 13286;长度 = 327680 2010-10-20 15:06:49,395 信息 org.apache.hadoop.mapred.MapTask:完成溢出 3 2010-10-20 15:15:23,514 信息 org.apache.hadoop.mapred.MapTask:溢出地图输出:缓冲区已满 = true 2010-10-20 15:15:23,514 信息 org.apache.hadoop.mapred.MapTask:bufstart = 20000988; bufend = 78879; bufvoid = 99614720 2010-10-20 15:15:23,514 信息 org.apache.hadoop.mapred.MapTask:kvstart = 13286; kvend = 15265;长度 = 327680 2010-10-20 15:15:24,230 信息 org.apache.hadoop.mapred.MapTask:完成溢出 4 2010-10-20 15:24:35,797 信息 org.apache.hadoop.mapred.MapTask:溢出地图输出:缓冲区已满 = true 2010-10-20 15:24:35,797 信息 org.apache.hadoop.mapred.MapTask:bufstart = 78879; bufend = 79807573; bufvoid = 99614720 2010-10-20 15:24:35,797 信息 org.apache.hadoop.mapred.MapTask:kvstart = 15265; kvend = 17188;长度 = 327680 2010-10-20 15:24:36,500 信息 org.apache.hadoop.mapred.MapTask:完成溢出 5 2010-10-20 15:33:33,391 信息 org.apache.hadoop.mapred.MapTask:溢出地图输出:缓冲区已满 = true 2010-10-20 15:33:33,391 信息 org.apache.hadoop.mapred.MapTask:bufstart = 79807573; bufend = 59907680; bufvoid = 99614720 2010-10-20 15:33:33,391 信息 org.apache.hadoop.mapred.MapTask:kvstart = 17188; kvend = 19074;长度 = 327680 2010-10-20 15:33:34,114 信息 org.apache.hadoop.mapred.MapTask:完成溢出 6 2010-10-20 15:42:39,913 信息 org.apache.hadoop.mapred.MapTask:溢出地图输出:缓冲区已满 = true 2010-10-20 15:42:39,913 信息 org.apache.hadoop.mapred.MapTask:bufstart = 59907680; bufend = 40011208; bufvoid = 99614720 2010-10-20 15:42:39,913 信息 org.apache.hadoop.mapred.MapTask:kvstart = 19074; kvend = 20926;长度 = 327680 2010-10-20 15:42:40,597 信息 org.apache.hadoop.mapred.MapTask:完成溢出 7 2010-10-20 15:51:49,668 信息 org.apache.hadoop.mapred.MapTask:溢出地图输出:缓冲区已满 = true 2010-10-20 15:51:49,668 信息 org.apache.hadoop.mapred.MapTask:bufstart = 40011208; bufend = 20111383; bufvoid = 99614720 2010-10-20 15:51:49,668 信息 org.apache.hadoop.mapred.MapTask:kvstart = 20926; kvend = 22759;长度 = 327680 2010-10-20 15:51:50,378 信息 org.apache.hadoop.mapred.MapTask:完成溢出 8 2010-10-20 16:01:05,893 信息 org.apache.hadoop.mapred.MapTask:溢出地图输出:缓冲区已满 = true 2010-10-20 16:01:05,893 信息 org.apache.hadoop.mapred.MapTask:bufstart = 20111383; bufend = 196929; bufvoid = 99614720 2010-10-20 16:01:05,894 信息 org.apache.hadoop.mapred.MapTask:kvstart = 22759; kvend = 24572;长度 = 327680 2010-10-20 16:01:06,634 INFO org.apache.hadoop.mapred.MapTask:完成溢出 9 2010-10-20 16:10:25,000 信息 org.apache.hadoop.mapred.MapTask:溢出地图输出:缓冲区已满 = true 2010-10-20 16:10:25,000 信息 org.apache.hadoop.mapred.MapTask:bufstart = 196929; bufend = 79900267; bufvoid = 99614720 2010-10-20 16:10:25,000 信息 org.apache.hadoop.mapred.MapTask:kvstart = 24572; kvend = 26370;长度 = 327680 2010-10-20 16:10:25,776 信息 org.apache.hadoop.mapred.MapTask:完成溢出 10 2010-10-20 16:19:48,283 信息 org.apache.hadoop.mapred.MapTask:溢出地图输出:缓冲区已满 = true 2010-10-20 16:19:48,283 信息 org.apache.hadoop.mapred.MapTask:bufstart = 79900267; bufend = 59993676; bufvoid = 99614720 2010-10-20 16:19:48,284 信息 org.apache.hadoop.mapred.MapTask:kvstart = 26370; kvend = 28152;长度 = 327680 2010-10-20 16:19:49,042 信息 org.apache.hadoop.mapred.MapTask:完成溢出 11谢谢
【问题讨论】:
标签: java algorithm hadoop distributed mapreduce