Nutch [1.x] - webgraph 和 readlinkdb 命令有什么区别？答案

【问题标题】：Nutch [1.x] - What is the difference between webgraph and readlinkdb commands?Nutch [1.x] - webgraph 和 readlinkdb 命令有什么区别？
【发布时间】：2017-04-23 00:22:37
【问题描述】：

我很难理解 Apache Nutch 1.x 的工作原理，文档也没有太大帮助。

基本上，我想从爬取的数据中生成内链和外链。

来自 Nutch 维基：

ReadLinkDB：

Readlinkdb 是 org.apache.nutch.crawl.LinkDbReader 的别名

这个阅读器类使我们能够从在链接数据库中。我们可以检索到的两种信息是

整个链接数据库的转储，然后将其写入文本文件易于查看。与特定 URL 相关的特定信息。

网络图表：

WebGraph 是 org.apache.nutch.scoring.webgraph.WebGraph 的别名

这个类创建三个数据库，一个用于inlinks，一个用于outlinks，和一个节点数据库，其中包含指向 url 的 in 和 outlinks 的数量以及该网址的当前分数。

运行这两个命令后，生成的输出文件大小不同。 WebGraph命令读取segments目录生成inlinks和outlinks，而ReadLinkDB命令读取linkDB。

您能帮我理解其中的区别吗？

谢谢。

【问题讨论】：

标签： apache web-crawler nutch

【解决方案1】：

LinkDb 和 WebGraph 都是第一个数据结构

LinkDb 包含每个页面的链接和锚文本，它是一个地图⟨URL => [⟨from_URL, anchor_text⟩, ...]⟩。它支持对anchor texts 的索引。
WebGraph 更复杂，由 3 个子结构构成：InlinkDb、OutlinkDb、NodeDb。它包含比 LinkDb 更多的信息，还包含链接时间戳和类型、链接计数器和分数。其目的是逐步构建超链接图并在其上运行链接排名算法。

【讨论】：

感谢您的解释！

ReadLinkDB：​​

网络图表：

ReadLinkDB：