【发布时间】:2021-04-13 13:22:55
【问题描述】:
我是 Python 和网络抓取的新手,这是我关于 stackoverflow 的第一个问题。我看了几个教程,然后尝试从这个页面上的表格中提取数据:https://www.wunderground.com/hourly/ir/tehran/date/2021-04-14。
表:TABLE
但问题是我似乎无法在 scrapy shell 中访问正确的类。 这是我的蜘蛛:
import scrapy
class SpSpider(scrapy.Spider):
name = 'sp'
start_urls = ['http://https://www.wunderground.com/hourly/ir/tehran/date/2021-04-14/']
def parse(self, response):
time = response.css('span.ng-star-inserted').extract()
这就是我在终端中得到的:
In [4]: response.css('span.ng-star-inserted::text').extract()**
Out[4]:
['\xa0',
'F',
'Night',
'\xa0',
'in',
'\xa0',
'miles',
'\xa0',
'F',
'\xa0',
'%',
'\xa0',
'in',
'\xa0',
'in']
我写这篇文章的目的是只获取一个数据(这里 12 是表中的时间)。 但如您所见,列表内容不相关。我应该如何访问数据?
P.S:我正在研究 python 3.8
【问题讨论】:
标签: python web-scraping scrapy scrapy-shell