【问题标题】:set useragent in scrapy file在scrapy文件中设置用户代理
【发布时间】:2017-02-01 19:16:22
【问题描述】:

我希望根据请求将我的useragent 设置为不同的值。

我目前有在网页上查找链接的代码:

    wee_result_page = []
    start_urls = ['oneurl.com']

    NEXT_PAGE_SELECTOR = 'a.sb_pagN ::attr(href)'
    next_page = response.css(NEXT_PAGE_SELECTOR).extract_first()
    if next_page:
        yield scrapy.Request(
            response.urljoin(next_page),
            callback=self.parse,
            headers={'referer':start_urls}
        )
        wee_result_page.append(response.urljoin(next_page)) 

我想知道在哪里以及如何在此处添加 user agent 字符串,该字符串会随每个请求而变化?

谢谢

【问题讨论】:

    标签: python python-3.x web-scraping scrapy


    【解决方案1】:

    您可以将每个请求设置为标头或创建自定义下载器中间件,将随机用户代理附加到每个请求,但是有许多可用的用户代理轮换中间件,例如,这将为您完成这项工作。) https://github.com/cnu/scrapy-random-useragent

    【讨论】:

    • 感谢您的回答,如何创建settings 文件以使用这些中间件?
    猜你喜欢
    • 2013-09-26
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多