【问题标题】:scrapy append to linkextractor linksscrapy附加到linkextractor链接
【发布时间】:2015-04-25 07:06:21
【问题描述】:

我正在使用CrawlSpiderLinkExtractor 来抓取链接。

如何将参数附加到LinkExtractor 找到的链接?我想将'?pag_sortorder=0&pag_perPage=999' 添加到LinkExtractorextracts 的每个链接。

【问题讨论】:

    标签: python web-scraping scrapy scrapy-spider


    【解决方案1】:

    这是使用process_value argument的完美用例:

    from scrapy.contrib.linkextractors import LinkExtractor
    
    addition = "?pag_sortorder=0&pag_perPage=999"
    
    LinkExtractor(process_value=lambda x: x + addition)
    

    【讨论】:

    • 感谢您的回答 - 我现在遇到一个问题,addition 被多次添加 ?pag_sortorder=0&pag_perPage=999?pag_sortorder=0&pag_perPage=999?pag_sortorder=0&pag_perPage=999?pag_sortorder=0&pag_perPage=999?pag_sortorder=0&pag_perPage=999
    • @EliquidVape 您能否分享您目前拥有的完整代码,以便我可以重现问题并进行调试?谢谢!
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-04-27
    • 1970-01-01
    • 1970-01-01
    • 2017-11-15
    • 1970-01-01
    相关资源
    最近更新 更多