【发布时间】:2011-01-25 21:15:34
【问题描述】:
我想知道是否有任何用于爬虫的外包解决方案,它只解析给定网站的链接和页面,并输出:
1.链接树 2.页面(必要时)
谢谢!
【问题讨论】:
标签: web tree hyperlink web-crawler
我想知道是否有任何用于爬虫的外包解决方案,它只解析给定网站的链接和页面,并输出:
1.链接树 2.页面(必要时)
谢谢!
【问题讨论】:
标签: web tree hyperlink web-crawler
您不需要任何特定的框架来完成这项任务。你懂什么语言?如果您了解 Java,则可以使用 HttpClient 或 HttpUnit 库来帮助您完成爬网任务。
如果你是 python 用户,有一个很棒的框架叫做 Scrapy (http://scrapy.org/)。你应该去看看。
【讨论】: