【发布时间】:2014-04-08 16:50:42
【问题描述】:
我正在使用 Scrapy 抓取数千个网站。我有大量要抓取的域。一切正常,只是爬虫也跟随外部链接,这就是为什么它爬取的域太多了。我已经尝试在 SGMLlinkextractor 中使用“allow_domains”,但是当我向它解析大量域列表时,这不起作用。
所以我的问题是:如何限制对内部链接的广泛抓取?
任何想法都非常感谢。
更新:问题是由一个allow_domains列表引起的,该列表太大而无法处理scrapy
【问题讨论】:
标签: python url web-scraping filtering scrapy