Nutch 1.2 - 为什么不使用查询字符串抓取 url？答案

【问题标题】：Nutch 1.2 - Why won't nutch crawl url with query strings?Nutch 1.2 - 为什么不使用查询字符串抓取 url？
【发布时间】：2016-09-23 19:17:14
【问题描述】：

我是 Nutch 的新手，不太确定这里发生了什么。我运行 nutch 并抓取我的网站，但它似乎忽略了包含查询字符串的 URL。我已经在 crawl-urlfilter.txt 页面中注释掉了过滤器，所以它现在看起来像这样：

# skip urls with these characters
#-[]

#skip urls with slash delimited segment that repeats 3+ times
#-.*(/[^/]+)/[^/]+\1/[^/]+\1/

所以，我认为我已经有效地删除了任何过滤器，所以我告诉 nutch 接受它在我的网站上找到的所有 url。

有人有什么建议吗？或者这是 nutch 1.2 中的错误？我应该升级到 1.3，这会解决我遇到的这个问题吗？还是我做错了什么？

【问题讨论】：

标签： nutch

【解决方案1】：

第一个“编辑”应该回答您的问题。

【讨论】：

【解决方案2】：

# skip URLs containing certain characters as probable queries, etc.
#-[?*!@=]

您必须将其评论或修改为：

# skip URLs containing certain characters as probable queries, etc.
-[*!@]

【讨论】：

【解决方案3】：

默认情况下，爬虫不应抓取带有查询字符串的链接，以避免垃圾邮件和虚假搜索引擎。

【讨论】：