【问题标题】:nutch and sitemap.xmlnutch 和 sitemap.xml
【发布时间】:2011-04-29 05:11:01
【问题描述】:

apache-nutch 是否支持站点地图? 或者我如何自己实现它?我如何使用优先级字段,是否应该将其相乘以提升字段?

【问题讨论】:

    标签: search solr search-engine nutch


    【解决方案1】:

    我不知道。 根据您期望的行为,它们是多种实现,您可以更具体吗? 例如: +您可以使提交的新站点地图被“注入”并获得高分,因此它们会更早地被抓取。为此,只需在开始新的抓取/获取/索引周期之前添加一个注入命令 +您可以创建一个评分插件,该插件将提升站点地图中的 URL... 但是您不能像站点地图所指示的那样在 URL 级别定义重新抓取时间段。 Nutch 具有内置功能,可以更频繁地重新抓取 URL,反之亦然。但是,您可以决定以频繁的刷新率来提高 URL 的得分,以便他们更早地被抓取...

    【讨论】:

      【解决方案2】:

      我猜他们现在支持它。我在这个链接上找到了它

      https://wiki.apache.org/nutch/SitemapFeature

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2016-08-10
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2016-06-13
        • 2015-08-17
        相关资源
        最近更新 更多