【问题标题】:Python extract html webpage content using keywordsPython使用关键字提取html网页内容
【发布时间】:2021-01-14 16:41:23
【问题描述】:

使用python想通过匹配关键字来提取上下文,

这是我的python脚本

import requests
from bs4 import BeautifulSoup
import re
html = """ <pre>
      Companies:
       Telstra VI Huawei
      Countries:
       JPN CHN MLY
   </pre>
   <pre>
   Data center:
    US UK
   </pre>"""
r = requests.get(html)
soup = BeautifulSoup(r.content, "html.parser")
k = soup.find(text=re.compile("companies:")).parent.text
print (k)

预期输出:

Companies:
       Telstra VI Huawei

【问题讨论】:

  • 您的问题是什么?你目前的输出是多少?
  • @ThomasMunk 请查看我的 python 脚本,我想打印预期的输出。当前输出为 {}

标签: python html python-3.x


【解决方案1】:

试试这个。

from simplified_scrapy import SimplifiedDoc

html = """ <pre>
      Companies:
       Telstra VI Huawei
      Countries:
       JPN CHN MLY
   </pre>
   <pre>
   Data center:
    US UK
   </pre>"""
doc = SimplifiedDoc(html)
pre = doc.getElementByReg('Companies:')
print(pre.text)
print('-' * 50)
print(pre.replaceReg('Countries:[\s\S]*', '').strip())

结果:

Companies: Telstra VI Huawei Countries: JPN CHN MLY
--------------------------------------------------
Companies:
       Telstra VI Huawei

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2014-08-05
    • 1970-01-01
    • 2015-01-04
    • 2011-03-14
    • 2019-11-05
    • 2010-12-23
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多