【问题标题】:How to make a loop over the children and open the "href" for further parsing?如何对孩子进行循环并打开“href”以进行进一步解析?
【发布时间】:2017-07-08 23:33:12
【问题描述】:

我正在尝试使用 python 和 selenium 从本地房地产网站做一个解析器。我来到这里是为了选择所需的页面,我想浏览位于父目录中的每个元素并打开每个页面以进行进一步解析。

我写了一段代码来选择需要的页面:

from selenium import webdriver

driver = webdriver.Chrome()
url = "https://makler.md/md/"
driver.get(url)
driver.find_element_by_xpath('//*[@id="rublist_lev1"]/li[1]/a').click() # acces Imobiliare
driver.find_element_by_link_text("Vânzare apartamente, camere").click() # acces Apartamente

HTML 是:

我需要循环遍历父目录:

<div class="ls-short ">

选择每个具有如下 ID 的孩子:

<article class="" id="tr_an-265955">

并单击链接到它的页面。

【问题讨论】:

    标签: python html parsing selenium-webdriver web-scraping


    【解决方案1】:

    我猜你需要类似下面的东西:

    links = []
    for element in driver.find_elements_by_xpath('//article[starts-with(@id, "tr_an-")]//a[@class="ls-detail_anUrl"]'):
        links.append(element.get_attribute('href'))
    for link in links:
        driver.get(link)
        # do whatever you need to do on that page...
    

    这应该将所有需要的页面链接收集到一个列表中,然后您可以循环处理每个页面

    【讨论】:

      猜你喜欢
      • 2015-02-11
      • 2018-05-06
      • 2010-11-08
      • 1970-01-01
      • 1970-01-01
      • 2013-03-18
      • 2020-02-29
      • 2022-08-06
      • 1970-01-01
      相关资源
      最近更新 更多