【问题标题】:How can I use scrapy on booking.com without being blocked?如何在 booking.com 上使用 scrapy 而不会被阻止?
【发布时间】:2021-03-06 19:22:31
【问题描述】:

我正在尝试使用 python 插件 scrapy 从 booking.com 抓取酒店评论。

我的问题是,scrapy 无法找到所需的数据(例如负面反馈)。我认为,这是因为网站中嵌入了 javascript 代码。

因此,我尝试在 settings.py 文件中更改我的用户代理,但没有任何改变。然后我尝试模拟浏览器请求,但不确定是否正确。

这里是我要抓取评论的酒店的链接:https://www.booking.com/hotel/de/best-western-plus-marina-star-lindau.de.html

这是我的蜘蛛:

import scrapy


class FeedbacktestSpider(scrapy.Spider):
    name = 'feedbacktest'
    allowed_domains = ['www.booking.com/']
    start_urls = ['https://www.booking.com/hotel/de/best-western-plus-marina-star-lindau.de.html']

def start_requests(self):
    urls=['https://www.booking.com/hotel/de/best-western-plus-marina-star-lindau.de.html']
   
    headers = {
'Host': 'www.booking.com',
'Device-Memory': '8',
'DPR': '1',
'Viewport-Width': '1920',
'RTT': '50',
'Downlink': '10',
'ECT': '4g',
'Upgrade-Insecure-Requests': '1',
'DNT': '1',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.72 Safari/537.36 Edg/89.0.774.45',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
'Sec-Fetch-Site':'same-origin',
'Sec-Fetch-Mode':'navigate',
'Sec-Fetch-User':'?1',
'Sec-Fetch-Dest':'document',
'Referer':'https://www.booking.com/',
'Accept-Encoding':' gzip, deflate, br',
'Accept-Language':'de,de-DE;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6',
'Cookie':'__utma=12798129.959027148.1615055069.1615055069.1615055069.1; __utmc=12798129; __utmz=12798129.1615055069.1.1.utmcsr=google|utmccn=(organic)|utmcmd=organic|utmctr=(not%20provided); __utmt=1; __utmb=12798129.1.10.1615055069'
}
           
    for url in urls:
        yield scrapy.Request(url = url, callback = self.parse, headers=headers)

def parse(self, response):
    pos = response.xpath("//div[@class='althotelsDiv2 use_sprites_no_back featured_reviewer']/p/span/text()").extract()
    
    yield{
        'pos': pos
        }

对于 settings.py 中的 User-Agent,我尝试了自己的 User-Agent 和 Google-Agent。

非常感谢您的帮助

【问题讨论】:

    标签: python scrapy web-crawler web-mining


    【解决方案1】:

    好的,我解决了这个问题:

    我查看了我想用我的网络工具抓取的网站,并在其中查找了请求所需数据的请求。

    然后我抓取了这个链接而不是原始链接,并在我的scrapy settings.py 中设置了 ROBOTSTXT_OBEY = False,这样我就不会被网站阻止。

    【讨论】:

    • robots.txt 存在也是有原因的。该网站不想被刮掉。只要您知道,就可以,但重要的是要知道。
    • 你也可以做Rotating Proxies策略。
    猜你喜欢
    • 2020-04-27
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-01-31
    • 2021-06-01
    • 2015-04-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多