【问题标题】:Different Scrapy Requests, Same Output Value不同的 Scrapy 请求,相同的输出值
【发布时间】:2019-02-13 12:12:41
【问题描述】:

对于一个项目,我正在运行大量针对某些搜索词的 Scrapy 请求。这些请求使用相同的搜索词但不同的时间范围,如下面 URL 中的日期所示。

尽管 URL 引用的日期和页面不同,但我收到的值与所有请求的输出相同。看起来脚本正在获取获得的第一个值,并将相同的输出分配给所有后续请求。

有谁知道这些“结果重复”的原因以及如何解决?

import scrapy

 class QuotesSpider(scrapy.Spider):
    name = 'quotes'
    allowed_domains = ['google.com']
    start_urls = ['https://www.google.com/search?q=Activision&biw=1280&bih=607&source=lnt&tbs=cdr%3A1%2Ccd_min%3A01%2F01%2F2004%2Ccd_max%3A12%2F31%2F2004&tbm=nws',
                  'https://www.google.com/search?q=Activision&biw=1280&bih=607&source=lnt&tbs=cdr%3A1%2Ccd_min%3A01%2F01%2F2005%2Ccd_max%3A12%2F31%2F2005&tbm=nws',
                  'https://www.google.com/search?q=Activision&biw=1280&bih=607&source=lnt&tbs=cdr%3A1%2Ccd_min%3A01%2F01%2F2006%2Ccd_max%3A12%2F31%2F2006&tbm=nws',
    ]

    def parse(self, response):
        item = {
            'search_title': response.css('input#sbhost::attr(value)').get(),
            'results': response.css('#resultStats::text').get(),
            'url': response.url,
        }
        yield item

请在下面找到我收到的给定请求的输出:

【问题讨论】:

  • 这三个网址的输出是否“相同”?
  • 我刚刚将输出添加到原始问题文本中
  • 您对输出的期望是什么? search_title 对于您的所有 URL 都是相同的,因此在输出中将是相同的。 url 值显然是不同的。而results 可能是一样的,因为这是 Google 决定给你的。
  • 这些都应该引用不同的网页,因此产生不同的结果。根据源文本,搜索范围“2005”的 resultStats 值例如是<div id="resultStats">About 455 results<nobr>
  • 当您在浏览器中打开一个 URL 时,您很可能会看到不同的结果。 Google 可能会识别出您是机器人并返回一些通用缓存值(例如 14,500,000)您需要关注的是通过运行scrapy shell 可以看到的结果。 是蜘蛛的作用——不是你在浏览器中看到的。如果您在 shell 中看到这些值,那么这就是您在运行蜘蛛程序时将得到的。

标签: python scrapy


【解决方案1】:

我实际上找到了一个线程discussing a similar problem with BeautifulSoup。解决方案是在脚本中添加标头,从而使脚本使用浏览器作为用户代理。

headers = {
    "User-Agent":
        "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36"
}
payload = {'as_epq': 'James Clark', 'tbs':'cdr:1,cd_min:01/01/2015,cd_max:01/01/2015', 'tbm':'nws'}
r = requests.get("https://www.google.com/search", params=payload, headers=headers)

将标头引用应用到 Scrapy seems to be different though 的方法。有谁知道如何最好地将它包含在脚本中,尤其是参考start_urls

【讨论】:

    猜你喜欢
    • 2018-05-18
    • 2020-08-02
    • 2022-01-10
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-10-17
    相关资源
    最近更新 更多