【发布时间】:2012-07-19 11:15:07
【问题描述】:
我需要创建一个从网站抓取一些数据的蜘蛛。 部分数据是外部 URL。
我已经创建了从根站点抓取数据的蜘蛛,现在我想为外部网页编写蜘蛛。
我正在考虑创建一个使用 SgmlLinkExtractor 跟踪每个外部网页中的某些特定链接的爬虫。
将 start_url 列表传递给第二个蜘蛛的推荐方式是什么?
我的想法是为项目生成一个 json 文件并读取第二个蜘蛛的 start_requests 中的属性。
【问题讨论】:
标签: python web-scraping scrapy