【发布时间】:2013-06-07 20:04:49
【问题描述】:
我正在尝试使用 Python 3 和 BeautifulSoup 4 从网站多个页面上的表格中解析数据。除了某些页面的表格超出页面长度外,一切都运行良好。该页面仅显示 20 个条目,要获取其他条目,需要单击表格底部的 Next 以移动到表格数据继续的下一页。 我尝试过使用
nextPage = re.compile(b'Next</a>')
和
nextPageUrl = nextPage.findall(webContent)
我知道这不是 BeautifulSoup。我尝试了这个,因为我不知道如何使用 BeutifulSoup 来做到这一点。但是,它不起作用。有人可以帮助我并建议我如何获得下一页网址以继续抓取吗?感谢您提供的任何建议。
【问题讨论】:
-
update your question 以示例说明链接的 html 标记看起来如何,例如
...<a href="...">Next</a> ... -
我不确定你的意思,但你上面指出的标记正是它。谢谢您的帮助。效果很好。
标签: python beautifulsoup