【问题标题】:Nutch [1.x] - What is the difference between webgraph and readlinkdb commands?Nutch [1.x] - webgraph 和 readlinkdb 命令有什么区别?
【发布时间】:2017-04-23 00:22:37
【问题描述】:

我很难理解 Apache Nutch 1.x 的工作原理,文档也没有太大帮助。

基本上,我想从爬取的数据中生成内链和外链。

来自 Nutch 维基:

ReadLinkDB:​​

Readlinkdb 是 org.apache.nutch.crawl.LinkDbReader 的别名

这个阅读器类使我们能够从 在链接数据库中。我们可以检索到的两种信息是

整个链接数据库的转储,然后将其写入文本文件 易于查看。与特定 URL 相关的特定信息。

网络图表:

WebGraph 是 org.apache.nutch.scoring.webgraph.WebGraph 的别名

这个类创建三个数据库,一个用于inlinks,一个用于outlinks, 和一个节点数据库,其中包含指向 url 的 in 和 outlinks 的数量 以及该网址的当前分数。

运行这两个命令后,生成的输出文件大小不同。 WebGraph命令读取segments目录生成inlinks和outlinks,而ReadLinkDB命令读取linkDB。

您能帮我理解其中的区别吗?

谢谢。

【问题讨论】:

    标签: apache web-crawler nutch


    【解决方案1】:

    LinkDb 和 WebGraph 都是第一个数据结构

    • LinkDb 包含每个页面的链接和锚文本,它是一个地图⟨URL => [⟨from_URL, anchor_text⟩, ...]⟩。它支持对anchor texts 的索引。
    • WebGraph 更复杂,由 3 个子结构构成:InlinkDb、OutlinkDb、NodeDb。它包含比 LinkDb 更多的信息,还包含链接时间戳和类型、链接计数器和分数。其目的是逐步构建超链接图并在其上运行链接排名算法。

    【讨论】:

    • 感谢您的解释!
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2023-01-26
    • 1970-01-01
    • 2016-04-22
    • 1970-01-01
    相关资源
    最近更新 更多