【问题标题】:trace the path to the base url from which the external link has been crawled in nutch在 nutch 中跟踪到从其爬取外部链接的基本 url 的路径
【发布时间】:2016-11-16 09:07:41
【问题描述】:

我已经实现了一个深度为 3 的 Nutch 爬虫。现在,当我将数据提取到 cassandra 中时,我有一个包含 URL 和来自该特定 URL 的数据的表。那么有没有什么办法可以追溯到本机 URL 的路径,该深度爬取的 URL 已在 seed.txt 中更新并被爬取。

【问题讨论】:

    标签: cassandra nutch


    【解决方案1】:

    所以基本上您想知道特定 URL 来自哪个种子 URL(在您的 seed.txt 文件中)?如果是这种情况,那么基本上很容易,seed.txt 文件支持添加custom metadata key/vale pair after the URL。基本上只需使用以下格式:

    URL <tab> key=value
    

    例如:

    http://my-news-site.com    source=news
    

    之后,您需要使用和配置 urlmeta 插件,以将该元数据传播到种子 URL 的所有外链中。这将导致您最终在索引中为原始种子 URL 及其所有外链添加一个 source 字段。

    【讨论】:

    • 这对我的内部链接和外部链接有帮助吗?就像一个特定的 URL 有另一个来自不同域的 URL 链接到它? @豪尔赫路易斯
    • Yes @user7140275 这会将您想要的元数据(包括在seed.txt 文件中指定的元数据)传播到网页上检测到的每个外链。目前有一个开放的 Jira 票 NUTCH-1872 关于过滤元数据传播到哪些外链
    猜你喜欢
    • 1970-01-01
    • 2017-08-17
    • 2013-02-07
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-06-26
    • 1970-01-01
    相关资源
    最近更新 更多