【发布时间】:2011-12-04 21:01:31
【问题描述】:
我正在尝试使用 mechanize 以某种格式打开多个页面。我想从某个页面开始,并让机械化跟踪链接中具有特定类别或文本的所有链接。例如,根 url 类似于
http://hansard.millbanksystems.com/offices/prime-minister
并且我想关注页面上具有诸如
格式的每个链接<li class='office-holder'><a href="http://hansard.millbanksystems.com/people/mr-tony-blair">Mr Tony Blair</a> May 2, 1997 - June 27, 2007</li>
换句话说,我想关注每个具有“office-holder”类或 URL 中具有 /people/ 的链接。我尝试了以下代码,但没有成功。
import mechanize
br = mechanize.Browser()
response = br.open("http://hansard.millbanksystems.com/offices/prime-minister")
links = br.links(url_regex="/people/")
print links
我正在尝试打印链接,以便在编写更多代码之前确保获得正确的链接/信息。我从中得到的错误(?)是:
<generator object _filter_links at 0x10121e6e0>
感谢任何指针或提示。
【问题讨论】:
标签: python web-scraping mechanize