【问题标题】:Hadoop in action Patent example explanationHadoop in action 专利示例说明
【发布时间】:2014-04-03 02:18:16
【问题描述】:

我正在浏览 Hadoop 中的专利数据示例。 您能否详细解释一下正在使用的数据集?

  1. 专利引用数据集
    该数据集包含两列引用和被引专利。 引用列是指提交专利的所有者ID? 引用列是指构成第二个数据集的关键的专利 ID?

  2. 专利描述数据集
    该数据集中有多个字段。 为了形成这两个数据集的映射,第一个数据集中的 citingcited 列在第二个数据集的第一列中具有相应的键(专利 em>)?

【问题讨论】:

    标签: hadoop hadoop-streaming hadoop-partitioning


    【解决方案1】:

    让我们先弄清楚一些与专利相关的术语。

    什么是引用?

    引文是一个文档链接在一起的文档 提到另一个具有相关内容

    请参阅此link 以了解有关专利的更多信息:)

    “专利引用数据集”——该数据集仅提及专利引用。

    更像是说专利 A 使用专利 B、C 和 D

    “引用”、“引用”

    3858241,956203

    3858241,1324234

    3858241,3398406

    3858241,3557384

    3858241,3634889

    3858242,1515701

    3858242,3319261

    3858242,3668705

    3858242,3707004

    从书中复制粘贴,因此此处专利号 3858242 引用(使用/引用)其他 4 项专利, 专利号 3858241 引用(使用/参考)其他 5 项专利

    专利描述数据集 -- 有点像主表,它只是保存每个专利的数据。

    希望这可以为您解决一些问题。

    【讨论】:

      【解决方案2】:

      我想在解决 HiA 书中的 Top K 记录时存在误解,在第 4.7 节中,它说: “前 K 条记录——更改 AttributeMax.py(或 AttributeMax.php)以输出整个记录,而不仅仅是最大值。重写它,使 MapReduce 作业输出具有前 K 值的记录,而不仅仅是最大值。”

      要使用的输入数据集实际上是 apat63_99.txt 文件,并且练习要求具有前 K 值(CLAIMS)的记录,而不仅仅是最大值。正如清单 4.6 中描述的 AttributeMax.py 给出了最大声明的记录。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2016-02-19
        • 2015-05-29
        • 1970-01-01
        • 2015-08-02
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多