【问题标题】:Nutch 1.2 - Why won't nutch crawl url with query strings?Nutch 1.2 - 为什么不使用查询字符串抓取 url?
【发布时间】:2016-09-23 19:17:14
【问题描述】:

我是 Nutch 的新手,不太确定这里发生了什么。我运行 nutch 并抓取我的网站,但它似乎忽略了包含查询字符串的 URL。我已经在 crawl-urlfilter.txt 页面中注释掉了过滤器,所以它现在看起来像这样:

# skip urls with these characters
#-[]

#skip urls with slash delimited segment that repeats 3+ times
#-.*(/[^/]+)/[^/]+\1/[^/]+\1/

所以,我认为我已经有效地删除了任何过滤器,所以我告诉 nutch 接受它在我的网站上找到的所有 url。

有人有什么建议吗?或者这是 nutch 1.2 中的错误?我应该升级到 1.3,这会解决我遇到的这个问题吗?还是我做错了什么?

【问题讨论】:

标签: nutch


【解决方案1】:

在这里查看我之前的问题Adding URL parameter to Nutch/Solr index and search results

第一个“编辑”应该回答您的问题。

【讨论】:

    【解决方案2】:
    # skip URLs containing certain characters as probable queries, etc.
    #-[?*!@=]
    

    您必须将其评论或修改为:

    # skip URLs containing certain characters as probable queries, etc.
    -[*!@]
    

    【讨论】:

      【解决方案3】:

      默认情况下,爬虫不应抓取带有查询字符串的链接,以避免垃圾邮件和虚假搜索引擎。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2014-08-25
        • 2015-12-29
        • 1970-01-01
        • 1970-01-01
        • 2012-11-02
        • 1970-01-01
        相关资源
        最近更新 更多