【问题标题】:I need to scrape a web with scrapy and python but I can't resolve the address to find what I want to extract我需要用 scrapy 和 python 抓取网页,但我无法解析地址以找到我想要提取的内容
【发布时间】:2021-12-02 20:36:21
【问题描述】:

我正在尝试在 Jupyter 中使用 Python 从工作建议页面获取数据, 页面是这样的: computrabajo 我已经设法使用指南获得了头衔、公司和资格,但是当我想获得提案的描述时,会出现以下内容: Terminal 我认为原因是因为我没有正确放置路由或以下代码中调用的任何内容(DESCRIPTION_SELECTOR AND extract_first()):

def parse(self, response):
    SET_SELECTOR = '.box_border'
    for brickset in response.css(SET_SELECTOR):
        NAME_SELECTOR = 'h1 ::text'
        EMPRESA_SELECTOR = './/p[text()]/a/text()'
        CALIFICACIÓN_SELECTOR = './/p[text()]/span/text()'
        DESCRIPTION_SELECTOR = './/p[text()]/text()'
        yield {
            'name': brickset.css(NAME_SELECTOR).extract_first(),
            'empresa': brickset.xpath(EMPRESA_SELECTOR).extract_first(),
            'calificacion': brickset.xpath(CALIFICACIÓN_SELECTOR).extract_first(),
            'descripcion': brickset.xpath(DESCRIPTION_SELECTOR).extract_first()
        }

Description 这就是我想要得到的,如果我使用提取它会提取所有内容,但至少我知道可以提取

如果不是太麻烦,如果有人知道如何将我得到的那些记录保存在 csv 中,就像用漂亮的汤一样,那将对我有很大帮助。

【问题讨论】:

    标签: html python-3.x scrapy web-scraping-language


    【解决方案1】:

    您的SET_SELECTOR 下有多个<p> 标签。

    尝试使用更具体的xpath 选择器,例如:

    .//p[@class='fc_aux t_word_wrap mb10 hide_m']/text()
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2020-05-14
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2022-01-02
      • 1970-01-01
      • 2017-03-24
      相关资源
      最近更新 更多