【发布时间】:2019-01-12 22:08:06
【问题描述】:
我很想知道是否有可能以任意深度抓取网站上的所有页面和链接,即使在跟踪几个链接后顶部 URL 发生了变化?这是一个例子:
热门网址:www.topURL.com
有 3 个链接:www.topURL.com/link1、www.topURL.com/link2 和 www.topURL.com/link3
然后,如果我们点击 www.topURL.com/link1,它会将我们带到一个本身有的页面
上面有 2 个链接:www.topURL.com/link4 和 www.topURL.com/link5
但如果我们点击 www.topURL.com/link4,它会将我们带到一个包含以下 2 个链接的页面:www.anotherURL.com/link1 和 www.thirdURL.com/link1
scrapy 或任何 python 爬虫/蜘蛛可以从 www.topURL.com 开始,然后跟随链接并最终在 www.thirdURL.com/link1 上吗?
它的深度有限制吗? 有没有代码示例告诉我如何做到这一点?
感谢您的帮助。
【问题讨论】:
标签: python-3.x web-scraping scrapy web-crawler