【发布时间】:2016-07-21 10:57:00
【问题描述】:
我一直在使用以下代码来解析链接https://www.blogforacure.com/members.php 中的网页。该代码应返回给定页面的所有成员的链接。
from bs4 import BeautifulSoup
import urllib
r = urllib.urlopen('https://www.blogforacure.com/members.php').read()
soup = BeautifulSoup(r,'lxml')
headers = soup.find_all('h3')
print(len(headers))
for header in headers:
a = header.find('a')
print(a.attrs['href'])
但我只从上面的页面获得前 10 个链接。即使在打印美化选项时,我也只能看到前 10 个链接。
【问题讨论】:
-
结果是通过 ajax 调用加载的。当您到达页面末尾时,将从服务器获取新结果。
-
我该如何处理?
-
我的方法是使用 Selenium 与页面交互并滚动到底部,如下所述:stackoverflow.com/questions/25870906/…
标签: python html web-scraping beautifulsoup