【发布时间】:2014-07-14 14:56:44
【问题描述】:
我需要关于列出网站中所有链接的最有效方式的建议。我可以用任何一个 php vb 来做到这一点,并且我试图用 scrapy 来做,但我的问题是前 2 个输入网站的地址是不够的,我实际上必须在我的代码,并使用scrapy我试图列出页面中所有后续链接,但蜘蛛似乎永远不会结束研究。
换句话说,我需要找到一种输入网站地址的方法,返回该网站中存在的所有链接。我需要为一个学校项目做这件事,并且我正在考虑对零售业进行一项小型研究,因此我需要为给定的网站列出多达 20 000 个结果。
有什么建议吗?
【问题讨论】:
标签: hyperlink web-scraping scrapy web-crawler