【发布时间】:2016-03-02 12:51:12
【问题描述】:
在文件 part-00000 中,我们可以找到所有过程的结果(map+reduce),但我想查看第一步(映射)的结果,然后是整个结果。
我正在使用 python map-reduce 脚本开发 Hadoop Cloudera。
【问题讨论】:
标签: python hadoop dictionary cloudera reduce
在文件 part-00000 中,我们可以找到所有过程的结果(map+reduce),但我想查看第一步(映射)的结果,然后是整个结果。
我正在使用 python map-reduce 脚本开发 Hadoop Cloudera。
【问题讨论】:
标签: python hadoop dictionary cloudera reduce
我猜你想输出map的结果或map的过程,一种解决方案是将map的结果输出到stderr。 前任: 如果是蟒蛇:
import sys
print >> sys.stderr, "result of map"
如果外壳:
echo -e "result of map" >&2
然后,你可以在hadoop作业日志中看到map的结果
【讨论】:
如果这只是为了了解数据和密钥的初始分析目的,那么您可能希望将 Reducer 计数设置为 0 并获取地图的输出。 -D mapred.reduce.tasks =0 是java中的一种方式,对Python也是如此。
【讨论】: