【发布时间】:2020-01-25 20:24:29
【问题描述】:
我正在编写一个从 URL (http://www.pmo.cz/portal/nadrze/cz/mereni_1_mes.htm) 获取一些数据的脚本。我只需要从此图表中获取数据(以及日期+时间):Chart
问题是我无法摆脱输出中的平面线,然后以某种方式检索数据...... 有没有办法摆脱线条+获取价值?我是用错误的方式做事,还是我只是愚蠢,找不到就在我眼皮底下的简单解决方案? (我只是从 python 开始,所以如果这只是另一个重复的问题,我很抱歉)
我尝试了 .rstrip 函数,尝试使用 for 循环删除它,尝试将其转换为其他数据类型,但似乎没有任何效果:(
我遵循了一个教程(我不记得是哪一个)并最终来到这里:
import requests
from bs4 import BeautifulSoup
url = 'http://www.pmo.cz/portal/nadrze/cz/mereni_1_mes.htm'
res = requests.get(url)
html = res.content
soup = BeautifulSoup(html, 'html.parser')
text = soup.find_all(text=True)
output = ''
blacklist = [
'[document]',
'noscript',
'header',
'html',
'meta',
'head',
'input',
'script',
]
for t in text:
if t.parent.name not in blacklist:
output += '{} '.format(t)
print(output)
输出:
UPOZORNĚNÍ: Veškerá uváděná data jsou bez záruky.
VD Vranov
Tok:
Dyje
Koruna hráze:
353,39 [m n.m.]
Kóta přelivu:
350,10 [m n.m.]
Maximální retenční hladina:
351,45 [m n.m.]
Hladina zásobního prostoru:
348,45 [m n.m.]
Hladina stálého nadržení:
331,45 [m n.m.]
Výškový systém:
Balt p.v.
Schema:
Přejít na aktuální data (týden)
Aktuální hodnoty (25.01.2020 21:00):
Hladina vody v nádrži [m n.m.]
341,46
Objem [mil. m3]
70,49
Přítok [m 3 .s -1 ]
3,42
Odtok [m 3 .s -1 ]
2,66
Srážky [mm]
0,0
Teplota vzduchu [°C]
-1,3
【问题讨论】:
-
我现在可以将其缩小为:(使用 output.replace("\n", "")) - 在我发布此内容后立即发现了这件事,哈哈。现在我需要以某种方式访问这些值:/
标签: html python-3.x web-scraping