【发布时间】:2011-05-16 19:40:20
【问题描述】:
我正在使用 Scrapy 抓取网站。我要抓取的项目页面如下所示:http://www.somepage.com/itempage/&page=x。其中x 是从1 到100 的任意数字。因此,我有一个 SgmlLinkExractor 规则,其中包含为任何类似的页面指定的回调函数。
该网站没有包含所有项目的列表页面,所以我想以某种方式很好地抓取这些网址(从1 到100)。这家伙here 似乎也有同样的问题,但想不通。
有人有解决办法吗?
【问题讨论】: