【发布时间】:2013-05-01 12:35:02
【问题描述】:
我正在尝试解析网站以提取一些存储在正文中的数据,例如:
<body>
<b>INFORMATION</b>
Hookups: None
Group Sites: No
Station: No
<b>Details</b>
Ramp: Yes
</body>
我想使用 BeautifulSoup4 和 RegEx 提取 Hookups 和 Group Sites 等的值,但我对 bs4 和 RegEx 都是新手。我尝试了以下方法来获取连接值:
soup = BeautifulSoup(open('doc.html'))
hookups = soup.find_all(re.compile("Hookups:(.*)Group"))
但搜索结果为空。
【问题讨论】:
标签: python regex python-2.7 web-scraping beautifulsoup