【发布时间】:2010-12-31 06:26:03
【问题描述】:
再次发布这个问题。我已经开始使用爬虫,但我被索引部分卡住了。我想要一种高效快速的方法来索引链接。目前我正在做的是将链接插入数据库,但是检查唯一链接是开销,所以任何人都可以建议我更好的方法来做到这一点。
您好我正在尝试构建一个网站爬虫,它将爬取整个网站并获取其中的所有链接。与“XENU”非常相似的东西。但我无法弄清楚如何去做。我脑子里有一种算法,但那会很慢,下面会提到。
- 获取主页的来源。
- 从 来源。
- 从 锚标记。
- 检查网址是否 属于同一站点或外部 网站。
- 获取网址的来源 我们在上述过程中发现和 将这些网址标记为已选中。
- 重复该过程,直到出现 没有未标记的网址。
这是我想出的一些粗略的想法。但这会很慢。那么任何人都可以建议我一些其他方法或增强这个算法。
问候, 萨加尔。
【问题讨论】:
标签: java lucene solr web-crawler