【发布时间】:2015-08-31 10:53:53
【问题描述】:
我正在使用 Scrapy 从website 中提取信息。这是蜘蛛代码(部分):
class bsSpider(CrawlSpider):
name = "bsSpider"
def __init__(self, *args, **kwargs):
super(bsSpider, self).__init__(*args, **kwargs)
self.start_urls = [kwargs.get('start_url')]
rules = (Rule (LinkExtractor(allow=('.*\?id1=.*',),restrict_xpaths=('//a[@class="prevNext next"]',)), callback="parse_items", follow= True),)
根据上述规则,它跟随下一页。现在,如果用户想提供另一个 start_url 来抓取,如何动态更新上述规则?任何形式的帮助将不胜感激。
【问题讨论】:
标签: python web-scraping scrapy scrape scrapy-spider