【发布时间】:2018-11-03 10:26:10
【问题描述】:
我目前正在编写一个python selenium脚本来抓取“Likibu.com”,它是一个提供Airbnb等短期住宿的网站,预订......我已经成功获取了第一页中存在的所有数据并将它们保存在 csv 文件中,但问题是有 37 页,我还想废弃这些页面中存在的数据。我管理这段代码如下:
driver.get("https://www.likibu.com/")
page = driver.page_source
soup = BeautifulSoup(page, "lxml")
driver.get("https://www.likibu.com/{0}".format(soup.find(rel=re.compile("nofollow")).attrs["href"]))
您可以在这里找到网页的源代码:
<ul class="pagination">
<li class="disabled"><a href="#">«</a></li>
<li class="active"><a class="" rel="nofollow" href="https://www.likibu.com/fr/search/39tuzgbpnycdv7tkj102g?guests=2&destination_id=4094&page=1">1</a></li>
<li><a class="" rel="nofollow" href="https://www.likibu.com/fr/search/39tuzgbpnycdv7tkj102g?guests=2&destination_id=4094&page=37">37</a></li>
<li><a class="" rel="nofollow" href="https://www.likibu.com/fr/search/39tuzgbpnycdv7tkj102g?guests=2&destination_id=4094&page=2">»</a></li>
【问题讨论】:
标签: python html selenium-webdriver beautifulsoup selenium-chromedriver