【发布时间】:2015-04-25 07:06:21
【问题描述】:
我正在使用CrawlSpider 和LinkExtractor 来抓取链接。
如何将参数附加到LinkExtractor 找到的链接?我想将'?pag_sortorder=0&pag_perPage=999' 添加到LinkExtractorextracts 的每个链接。
【问题讨论】:
标签: python web-scraping scrapy scrapy-spider
我正在使用CrawlSpider 和LinkExtractor 来抓取链接。
如何将参数附加到LinkExtractor 找到的链接?我想将'?pag_sortorder=0&pag_perPage=999' 添加到LinkExtractorextracts 的每个链接。
【问题讨论】:
标签: python web-scraping scrapy scrapy-spider
这是使用process_value argument的完美用例:
from scrapy.contrib.linkextractors import LinkExtractor
addition = "?pag_sortorder=0&pag_perPage=999"
LinkExtractor(process_value=lambda x: x + addition)
【讨论】:
addition 被多次添加 ?pag_sortorder=0&pag_perPage=999?pag_sortorder=0&pag_perPage=999?pag_sortorder=0&pag_perPage=999?pag_sortorder=0&pag_perPage=999?pag_sortorder=0&pag_perPage=999。