【问题标题】:Modify HTML content during Web Scraping在网页抓取期间修改 HTML 内容
【发布时间】:2018-03-31 17:44:27
【问题描述】:

我尝试做一些网页抓取

目标是根据邮政编码收集所有补救措施。问题是当我尝试我的代码时,我的列表是空的,因为 url 没有根据邮政编码改变。这就是为什么我想在抓取期间更改 HTML 值。

我不知道该怎么做。我尝试使用SeleniumXPATH,但我找不到任何东西。

这是 HTML 代码:(红色是我需要更改的内容。)

编辑:确实,目标是根据邮政编码收集带有名称和补救类型的分页,这就是我想在报废期间更改HTML内容的原因。

这是我目前能做的最好的,希望你能看到错误

【问题讨论】:

  • 您好,您需要包含相关代码。你试过什么?这里也没有人知道如何使用非英文页面。假设我点击您提供的第一个链接,然后点击“Specialistes du vitrage”,输入法国邮政编码 75020 并按搜索按钮。我可以看到带有分页的结果列表。那是你要的吗?好吧,如果是这样,那么无论 URL 是否更改,Selenium 都应该能够获取它。请编辑您的问题。

标签: html xpath selenium-webdriver web-scraping beautifulsoup


【解决方案1】:

这个输入是一个表单,这很好,因为Selenium 具有处理表单的特殊功能。

from selenium import webdriver

url = "https://www.maif.fr/services-en-ligne/consultationreparateurs/geolocaliserReparateur.action?view"
query = "whatever you want to put into the search box"
driver = webdriver.Chrome()
driver.get(url)
webform_input = driver.find_element_by_xpath("//input[@id='adresseInternaute']")
webform_input.send_keys(query)
webform_input.submit()

这里的关键是submit()。它将遍历 HTML 树,直到在当前表单中找到一个按钮,这意味着您不必为了单击搜索按钮而多写两行。

【讨论】:

    猜你喜欢
    • 2010-10-09
    • 1970-01-01
    • 2011-02-08
    • 1970-01-01
    • 2019-01-13
    相关资源
    最近更新 更多