【发布时间】:2021-12-02 20:36:21
【问题描述】:
我正在尝试在 Jupyter 中使用 Python 从工作建议页面获取数据, 页面是这样的: computrabajo 我已经设法使用指南获得了头衔、公司和资格,但是当我想获得提案的描述时,会出现以下内容: Terminal 我认为原因是因为我没有正确放置路由或以下代码中调用的任何内容(DESCRIPTION_SELECTOR AND extract_first()):
def parse(self, response):
SET_SELECTOR = '.box_border'
for brickset in response.css(SET_SELECTOR):
NAME_SELECTOR = 'h1 ::text'
EMPRESA_SELECTOR = './/p[text()]/a/text()'
CALIFICACIÓN_SELECTOR = './/p[text()]/span/text()'
DESCRIPTION_SELECTOR = './/p[text()]/text()'
yield {
'name': brickset.css(NAME_SELECTOR).extract_first(),
'empresa': brickset.xpath(EMPRESA_SELECTOR).extract_first(),
'calificacion': brickset.xpath(CALIFICACIÓN_SELECTOR).extract_first(),
'descripcion': brickset.xpath(DESCRIPTION_SELECTOR).extract_first()
}
Description 这就是我想要得到的,如果我使用提取它会提取所有内容,但至少我知道可以提取
如果不是太麻烦,如果有人知道如何将我得到的那些记录保存在 csv 中,就像用漂亮的汤一样,那将对我有很大帮助。
【问题讨论】:
标签: html python-3.x scrapy web-scraping-language