【发布时间】:2017-04-23 00:22:37
【问题描述】:
我很难理解 Apache Nutch 1.x 的工作原理,文档也没有太大帮助。
基本上,我想从爬取的数据中生成内链和外链。
来自 Nutch 维基:
ReadLinkDB:
Readlinkdb 是 org.apache.nutch.crawl.LinkDbReader 的别名
这个阅读器类使我们能够从 在链接数据库中。我们可以检索到的两种信息是
整个链接数据库的转储,然后将其写入文本文件 易于查看。与特定 URL 相关的特定信息。
网络图表:
WebGraph 是 org.apache.nutch.scoring.webgraph.WebGraph 的别名
这个类创建三个数据库,一个用于inlinks,一个用于outlinks, 和一个节点数据库,其中包含指向 url 的 in 和 outlinks 的数量 以及该网址的当前分数。
运行这两个命令后,生成的输出文件大小不同。 WebGraph命令读取segments目录生成inlinks和outlinks,而ReadLinkDB命令读取linkDB。
您能帮我理解其中的区别吗?
谢谢。
【问题讨论】:
标签: apache web-crawler nutch