【发布时间】:2016-11-16 09:07:41
【问题描述】:
我已经实现了一个深度为 3 的 Nutch 爬虫。现在,当我将数据提取到 cassandra 中时,我有一个包含 URL 和来自该特定 URL 的数据的表。那么有没有什么办法可以追溯到本机 URL 的路径,该深度爬取的 URL 已在 seed.txt 中更新并被爬取。
【问题讨论】:
我已经实现了一个深度为 3 的 Nutch 爬虫。现在,当我将数据提取到 cassandra 中时,我有一个包含 URL 和来自该特定 URL 的数据的表。那么有没有什么办法可以追溯到本机 URL 的路径,该深度爬取的 URL 已在 seed.txt 中更新并被爬取。
【问题讨论】:
所以基本上您想知道特定 URL 来自哪个种子 URL(在您的 seed.txt 文件中)?如果是这种情况,那么基本上很容易,seed.txt 文件支持添加custom metadata key/vale pair after the URL。基本上只需使用以下格式:
URL <tab> key=value
例如:
http://my-news-site.com source=news
之后,您需要使用和配置 urlmeta 插件,以将该元数据传播到种子 URL 的所有外链中。这将导致您最终在索引中为原始种子 URL 及其所有外链添加一个 source 字段。
【讨论】:
seed.txt 文件中指定的元数据)传播到网页上检测到的每个外链。目前有一个开放的 Jira 票 NUTCH-1872 关于过滤元数据传播到哪些外链