【发布时间】:2013-06-15 07:14:50
【问题描述】:
所以我有十个不同的文件,每个文件看起来像这样。
<DocID1> <RDF Document>
<DocID2> <RDF Document>
.
.
.
.
<DocID50000> <RDF Document>
实际上每个文件大约有 56,000 行。每行都有一个文档 ID 和一个 RDF 文档。
我的目标是将每个映射器作为输入键值对传递给每个映射器,并为输出键值对发出多个。在 reduce 步骤中,我会将这些存储到 Hive 表中。
我有几个问题要开始了,我对 RDF/XML 文件完全陌生。
我应该如何解析文档的每一行以分别传递给每个映射器?
是否有控制映射器输入大小的有效方法?
【问题讨论】:
标签: java xml hadoop mapreduce rdf