【发布时间】:2013-11-30 17:36:45
【问题描述】:
我正在尝试做一个简单的任务:我需要使用带有 Python 的 Hadoop 流将文本文件转换为大写。
我想通过使用TextInputFormat 来实现,它将文件位置键和文本值传递给映射器。问题在于 Hadoop 流式处理 automatically discards the file position keys,这是保持文档顺序所必需的。
如何将输入的文件位置信息保留到映射器?或者有没有更好的方法使用 Hadoop 流将文档转换为大写?
谢谢。
【问题讨论】:
-
文件有多大 - 您需要为此使用多个映射器吗?
标签: python hadoop position streaming line-numbers