【发布时间】:2013-04-19 16:46:49
【问题描述】:
好的,我已经问过了,但我想我并没有按照 stackoverflow 期望的方式问它。希望这次我能得到更多的运气和答案。
我正在尝试运行 nutch 来抓取此站点:http://www.tigerdirect.com/
我希望它抓取该网站和所有子链接。
问题是它不工作。在我的 reg-ex 文件中,我尝试了几件事,但都没有奏效:
+^http://([a-z0-9]*\.)*tigerdirect.com/
+^http://tigerdirect.com/([a-z0-9]*\.)*
我的 urls.txt 是:
http://tigerdirect.com
基本上我想要完成的是抓取他们网站上的所有产品页面,这样我就可以创建一个电子产品的搜索引擎(我正在使用 solr)。最终,我也想爬取 bestbuy.com、newegg.com 和其他网站。
顺便说一句,我按照这里的教程进行操作:http://wiki.apache.org/nutch/NutchTutorial,我正在使用会话 3.3 中提到的脚本(在修复了它的错误之后)。
我有 java、android 和 bash 的背景,所以这对我来说有点新。 5 年前我曾经在 perl 中做 regex,但这都被遗忘了。
谢谢!
【问题讨论】:
标签: regex search-engine nutch