【问题标题】:Hadoop in action Patent example explanationHadoop in action 专利示例说明
【发布时间】:2014-04-03 02:18:16
【问题描述】:
我正在浏览 Hadoop 中的专利数据示例。
您能否详细解释一下正在使用的数据集?
专利引用数据集
该数据集包含两列引用和被引专利。 引用列是指提交专利的所有者ID? 引用列是指构成第二个数据集的关键的专利 ID?
专利描述数据集
该数据集中有多个字段。
为了形成这两个数据集的映射,第一个数据集中的 citing 或 cited 列在第二个数据集的第一列中具有相应的键(专利 em>)?
【问题讨论】:
标签:
hadoop
hadoop-streaming
hadoop-partitioning
【解决方案1】:
让我们先弄清楚一些与专利相关的术语。
什么是引用?
引文是一个文档链接在一起的文档
提到另一个具有相关内容
请参阅此link 以了解有关专利的更多信息:)
“专利引用数据集”——该数据集仅提及专利引用。
更像是说专利 A 使用专利 B、C 和 D
“引用”、“引用”
3858241,956203
3858241,1324234
3858241,3398406
3858241,3557384
3858241,3634889
3858242,1515701
3858242,3319261
3858242,3668705
3858242,3707004
从书中复制粘贴,因此此处专利号 3858242 引用(使用/引用)其他 4 项专利,
专利号 3858241 引用(使用/参考)其他 5 项专利
专利描述数据集 -- 有点像主表,它只是保存每个专利的数据。
希望这可以为您解决一些问题。
【解决方案2】:
我想在解决 HiA 书中的 Top K 记录时存在误解,在第 4.7 节中,它说:
“前 K 条记录——更改 AttributeMax.py(或 AttributeMax.php)以输出整个记录,而不仅仅是最大值。重写它,使 MapReduce 作业输出具有前 K 值的记录,而不仅仅是最大值。”
要使用的输入数据集实际上是 apat63_99.txt 文件,并且练习要求具有前 K 值(CLAIMS)的记录,而不仅仅是最大值。正如清单 4.6 中描述的 AttributeMax.py 给出了最大声明的记录。