在 nutch 中跟踪到从其爬取外部链接的基本 url 的路径答案

【问题标题】：trace the path to the base url from which the external link has been crawled in nutch在 nutch 中跟踪到从其爬取外部链接的基本 url 的路径
【发布时间】：2016-11-16 09:07:41
【问题描述】：

我已经实现了一个深度为 3 的 Nutch 爬虫。现在，当我将数据提取到 cassandra 中时，我有一个包含 URL 和来自该特定 URL 的数据的表。那么有没有什么办法可以追溯到本机 URL 的路径，该深度爬取的 URL 已在 seed.txt 中更新并被爬取。

【问题讨论】：

标签： cassandra nutch

【解决方案1】：

所以基本上您想知道特定 URL 来自哪个种子 URL（在您的 seed.txt 文件中）？如果是这种情况，那么基本上很容易，seed.txt 文件支持添加custom metadata key/vale pair after the URL。基本上只需使用以下格式：

URL <tab> key=value

例如：

http://my-news-site.com    source=news

之后，您需要使用和配置 urlmeta 插件，以将该元数据传播到种子 URL 的所有外链中。这将导致您最终在索引中为原始种子 URL 及其所有外链添加一个 source 字段。

【讨论】：

这对我的内部链接和外部链接有帮助吗？就像一个特定的 URL 有另一个来自不同域的 URL 链接到它？ @豪尔赫路易斯
Yes @user7140275 这会将您想要的元数据（包括在seed.txt 文件中指定的元数据）传播到网页上检测到的每个外链。目前有一个开放的 Jira 票 NUTCH-1872 关于过滤元数据传播到哪些外链