【发布时间】:2018-04-16 16:23:07
【问题描述】:
布局如下:
<div class="App">
<div class="content">
<div class="title">Application Name #1</div>
<div class="image" style="background-image: url(https://img_url)">
</div>
<a href="http://app_url" class="signed button">install app</a>
</div>
</div>
我正在尝试获取 TITLE,然后是 APP_URL,理想情况下,当我通过 html 打印时,我希望 TITLE 成为 APP_URL 的超链接。
我的代码是这样的,但不会产生期望的结果。我相信我需要在循环中添加另一个命令来获取标题。唯一的问题是,我如何确保我抓住了 TITLE 和 APP_URL 以便它们一起出现?至少有 15 个应用程序的类为 <div class="App">。当然,我也想要所有 15 个结果。
重要提示:对于 href 链接,我需要来自名为 "signed button" 的类。
soup = BeautifulSoup(example)
for div in soup.findAll('div', {'class': 'App'}):
a = div.findAll('a')[1]
print a.text.strip(), '=>', a.attrs['href']
【问题讨论】:
标签: python html web-scraping beautifulsoup