【发布时间】:2012-05-03 14:45:00
【问题描述】:
我正在寻找一种方法来查找域中的所有网页和子域。例如,在uoregon.edu 域中,我想查找该域和所有子域中的所有网页(例如cs.uoregon.edu)。
我一直在研究 nutch,我认为它可以胜任。但是,nutch 似乎会下载整个网页并将其编入索引以供以后搜索。但是,我想要一个只扫描网页以查找属于同一域的 URL 的爬虫。此外,nutch 似乎以序列化格式保存链接数据库。我该如何阅读它?我试过solr,它可以读取nutch收集的数据。但是,我认为我不需要 solr,因为我没有执行任何搜索。我只需要属于给定域的 URL。
谢谢
【问题讨论】:
-
你可以使用crawlmysite.in
标签: url solr web-crawler nutch