【发布时间】:2017-06-05 02:29:04
【问题描述】:
我在表单的 HTML 中有链接
<a href="/downloadsServlet?docid=abc" target="_blank">Report 1</a>
<a href="/downloadsServlet?docid=ixyz" target="_blank">Fetch Report 2 </a>
我可以使用 BeautifulSoup 获得上述表格的链接列表
我的代码如下
from bs4 import BeautifulSoup
html_page = urllib2.urlopen(url)
soup = BeautifulSoup(html_page)
listOfLinks = list(soup.findall('a'))
但是,我想在引用链接的文本中找到包含“Fetch”一词的链接。
我试过表格
soup.findAll('a', re.compile(".*Fetch.*"))
但这不起作用。如何仅选择具有 href 且文本部分中包含“Fetch”一词的标签?
【问题讨论】:
标签: python regex web-scraping beautifulsoup