【发布时间】:2015-05-29 10:09:00
【问题描述】:
我对 Nutch 很陌生。我正在使用 Nutch 2.3 来抓取一个网站,在这里我只想抓取一些与特定模式匹配的链接。正如我们所知,我们必须使用regex-urlfilter.txt.. 所以我在我的 regex-urlfilter.txt 文件中配置了类似下面的内容,但结果是 0 个已抓取的 URL。
我要抓取的网址应符合以下模式:
http://abc.test.com/profiles/people/a/1.html
在上面的 URL 中,我们可以在末尾看到/a/1.html。我只想在这部分应用正则表达式。字母'a' could be [a-z] 和数字'1' could be [1-20]。 URL( http://abc.test.com/profiles/people)的其余部分没有变化。
希望我的要求现在很清楚
下面是我在/bin/seed/urls.txt中写的
http://abc.test.com/profiles/people/a/1.html
我也试过http://abc.test.com/
下面是我在 regex-urlfilter.txt 文件中的正则表达式模式
# accept anything else
+^http://abc.test.com/profiles/people/([a-z]*\.)/([0-20]*\.).html
我在抓取时得到 0 个 URL。我假设我在 urls.txt 文件或 regex-urlfilter.txt
中犯了一些错误有人请帮我正确配置
提前谢谢..
【问题讨论】:
标签: regex web-crawler nutch