Hadoop in action 专利示例说明答案

【问题标题】：Hadoop in action Patent example explanationHadoop in action 专利示例说明
【发布时间】：2014-04-03 02:18:16
【问题描述】：

我正在浏览 Hadoop 中的专利数据示例。您能否详细解释一下正在使用的数据集？

专利引用数据集
该数据集包含两列引用和被引专利。引用列是指提交专利的所有者ID？引用列是指构成第二个数据集的关键的专利 ID？
专利描述数据集
该数据集中有多个字段。为了形成这两个数据集的映射，第一个数据集中的 citing 或 cited 列在第二个数据集的第一列中具有相应的键（专利 em>)?

【问题讨论】：

标签： hadoop hadoop-streaming hadoop-partitioning

【解决方案1】：

让我们先弄清楚一些与专利相关的术语。

什么是引用？

引文是一个文档链接在一起的文档提到另一个具有相关内容

请参阅此link 以了解有关专利的更多信息:)

“专利引用数据集”——该数据集仅提及专利引用。

更像是说专利 A 使用专利 B、C 和 D

“引用”、“引用”

3858241,956203

3858241,1324234

3858241,3398406

3858241,3557384

3858241,3634889

3858242,1515701

3858242,3319261

3858242,3668705

3858242,3707004

从书中复制粘贴，因此此处专利号 3858242 引用（使用/引用）其他 4 项专利，专利号 3858241 引用（使用/参考）其他 5 项专利

专利描述数据集 -- 有点像主表，它只是保存每个专利的数据。

希望这可以为您解决一些问题。

【讨论】：

【解决方案2】：

我想在解决 HiA 书中的 Top K 记录时存在误解，在第 4.7 节中，它说： “前 K 条记录——更改 AttributeMax.py（或 AttributeMax.php）以输出整个记录，而不仅仅是最大值。重写它，使 MapReduce 作业输出具有前 K 值的记录，而不仅仅是最大值。”

要使用的输入数据集实际上是 apat63_99.txt 文件，并且练习要求具有前 K 值（CLAIMS）的记录，而不仅仅是最大值。正如清单 4.6 中描述的 AttributeMax.py 给出了最大声明的记录。

【讨论】：