【发布时间】:2016-09-23 19:17:14
【问题描述】:
我是 Nutch 的新手,不太确定这里发生了什么。我运行 nutch 并抓取我的网站,但它似乎忽略了包含查询字符串的 URL。我已经在 crawl-urlfilter.txt 页面中注释掉了过滤器,所以它现在看起来像这样:
# skip urls with these characters
#-[]
#skip urls with slash delimited segment that repeats 3+ times
#-.*(/[^/]+)/[^/]+\1/[^/]+\1/
所以,我认为我已经有效地删除了任何过滤器,所以我告诉 nutch 接受它在我的网站上找到的所有 url。
有人有什么建议吗?或者这是 nutch 1.2 中的错误?我应该升级到 1.3,这会解决我遇到的这个问题吗?还是我做错了什么?
【问题讨论】:
标签: nutch