【发布时间】:2019-07-10 15:32:26
【问题描述】:
我正在尝试从网站获取天气并收集这些数据。但有些请求会返回空列表或预期的不同信息。为什么会发生这种情况以及从网站获取正确 xpath 和信息的正确格式和方法是什么。
我曾尝试使用多个网站,但无法始终如一地获得结果。
import requests
from lxml import html
site1data = requests.get('http://m.bom.gov.au/vic/melbourne/', verify =
False)
tree = html.fromstring(site1data.content)
humidity = tree.xpath('//div[@class="humidity"]/text()')
print(humidity)
预期的结果是这样的: 67% 但我得到了: ['\n\t\t\t\t\t', '\n\t\t\t\t\t', '\n\t\t\t\t\t', '\n\ t\t\t\t']
【问题讨论】:
-
里面有内部标签
//div[@class="humidity"]/p/text()。要获取所有文本节点,请使用://div[@class="humidity"]/*/text()
标签: python xpath web-scraping lxml