【发布时间】:2017-09-30 08:22:16
【问题描述】:
运行我的刮板,我可以看到它会刮掉不必要的链接,而不是我需要的每所学校的链接。不过,我已经创建了正确的 xpath。该站点包含延迟加载方法。也许需要获取 json 响应。我试过了:
import requests
from lxml import html
url = "http://www.boarding.org.au/find-a-school"
def LazyLoadWeb(address):
try :
page = requests.get(address, timeout=30)
except Exception:
print('timed out')
else:
tree = html.fromstring(page.text)
titles = tree.xpath('//div[contains(@class,"clearfix")]')
for title in titles:
links=title.xpath('.//a/@href')
for link in links:
print(link)
LazyLoadWeb(url)
【问题讨论】:
-
您是否正在尝试获取底部带有“clearfix”类的链接?
-
是的,先生。或者,如果明确说明,可以选择不同的学校名称。
标签: python json web-scraping