【问题标题】:Python script - Web ScrapingPython 脚本 - 网页抓取
【发布时间】:2020-01-25 20:24:29
【问题描述】:

我正在编写一个从 URL (http://www.pmo.cz/portal/nadrze/cz/mereni_1_mes.htm) 获取一些数据的脚本。我只需要从此图表中获取数据(以及日期+时间):Chart

问题是我无法摆脱输出中的平面线,然后以某种方式检索数据...... 有没有办法摆脱线条+获取价值?我是用错误的方式做事,还是我只是愚蠢,找不到就在我眼皮底下的简单解决方案? (我只是从 python 开始,所以如果这只是另一个重复的问题,我很抱歉)

我尝试了 .rstrip 函数,尝试使用 for 循环删除它,尝试将其转换为其他数据类型,但似乎没有任何效果:(

我遵循了一个教程(我不记得是哪一个)并最终来到这里:

import requests
from bs4 import BeautifulSoup

url = 'http://www.pmo.cz/portal/nadrze/cz/mereni_1_mes.htm'
res = requests.get(url)
html = res.content
soup = BeautifulSoup(html, 'html.parser')
text = soup.find_all(text=True)

output = ''
blacklist = [
    '[document]',
    'noscript',
    'header',
    'html',
    'meta',
    'head', 
    'input',
    'script',
]

for t in text:
    if t.parent.name not in blacklist:
        output += '{} '.format(t)

print(output)

输出:

 UPOZORNĚNÍ: Veškerá uváděná data jsou bez záruky.









  VD Vranov 


 Tok:

 Dyje


 Koruna hráze:

 353,39 [m n.m.]


 Kóta přelivu:

 350,10 [m n.m.]


 Maximální retenční hladina:

 351,45 [m n.m.]


 Hladina zásobního prostoru:

 348,45 [m n.m.]


 Hladina stálého nadržení:

 331,45 [m n.m.]


 Výškový systém:

 Balt p.v. 




 Schema:
















 Přejít na aktuální data (týden)













 Aktuální hodnoty  (25.01.2020 21:00):


 Hladina vody v nádrži [m n.m.]


 341,46 


 Objem [mil. m3]


 70,49 


 Přítok [m 3 .s -1 ]


 3,42 


 Odtok [m 3 .s -1 ]


 2,66 


 Srážky [mm]


 0,0 


 Teplota vzduchu [°C]


 -1,3 






【问题讨论】:

  • 我现在可以将其缩小为:(使用 output.replace("\n", "")) - 在我发布此内容后立即发现了这件事,哈哈。现在我需要以某种方式访问​​这些值:/

标签: html python-3.x web-scraping


【解决方案1】:

你有很多换行符和空字符串,所以你需要删除它们。尝试进行以下更改:

output = []

for t in text:
    if t.parent.name not in blacklist:
        target = t.strip().replace('\n','') # remove spaces and newlines       
        if len(target)>0: #remove empty strings
            output.append(target)
for o in output:
    print(o)

输出:

UPOZORNĚNÍ: Veškerá uváděná data jsou bez záruky.
VD Vranov
Tok:
Dyje

等等

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2011-07-17
    • 1970-01-01
    • 1970-01-01
    • 2020-03-10
    • 2021-01-12
    • 2022-01-27
    • 1970-01-01
    相关资源
    最近更新 更多