【发布时间】:2012-12-14 18:22:33
【问题描述】:
我正在运行 Nutch v. 1.6,它可以正确抓取特定网站,但我似乎无法为文件 NUTCH_ROOT/conf/regex-urlfilter.txt 获取正确的语法。
我要抓取的网站有一个类似这样的网址:
http://www.example.com/foo.cfm
在该页面上有许多与以下模式匹配的链接:
http://www.example.com/foo.cfm/Bar_-_Foo/Extra/EX/20817/ID=6976
我也想抓取与上面第二个示例匹配的链接。在我的regex-urlfilter.txt 中,我有以下内容:
+^http://www.example.com/foo.cfm$
+^http://www.example.com/foo.cfm/(.+)*$
Nutch 匹配第一个并正确抓取它,但似乎没有使用其他过滤器拾取链接。如何让 Nutch 像上面第二个那样抓取 URL?
我尝试了以下方法,但没有成功:
+^http://www.example.com/foo.cfm/(.+)*$
+^http://www.example.com/foo.cfm/(.)*$
+^http://www.example.com/foo.cfm/.+$
+^http://www.example.com/foo.cfm/(.*)*$
在我的NUTCH_ROOT/urls/nutch 我有:
http://www.example.com/foo.cfm/
【问题讨论】:
标签: regex web-crawler nutch