在网页抓取期间修改 HTML 内容答案

【问题标题】：Modify HTML content during Web Scraping在网页抓取期间修改 HTML 内容
【发布时间】：2018-03-31 17:44:27
【问题描述】：

我尝试做一些网页抓取

目标是根据邮政编码收集所有补救措施。问题是当我尝试我的代码时，我的列表是空的，因为 url 没有根据邮政编码改变。这就是为什么我想在抓取期间更改 HTML 值。

我不知道该怎么做。我尝试使用Selenium 和XPATH，但我找不到任何东西。

这是 HTML 代码：（红色是我需要更改的内容。）

编辑：确实，目标是根据邮政编码收集带有名称和补救类型的分页，这就是我想在报废期间更改HTML内容的原因。

这是我目前能做的最好的，希望你能看到错误

【问题讨论】：

您好，您需要包含相关代码。你试过什么？这里也没有人知道如何使用非英文页面。假设我点击您提供的第一个链接，然后点击“Specialistes du vitrage”，输入法国邮政编码 75020 并按搜索按钮。我可以看到带有分页的结果列表。那是你要的吗？好吧，如果是这样，那么无论 URL 是否更改，Selenium 都应该能够获取它。请编辑您的问题。

标签： html xpath selenium-webdriver web-scraping beautifulsoup

【解决方案1】：

这个输入是一个表单，这很好，因为Selenium 具有处理表单的特殊功能。

from selenium import webdriver

url = "https://www.maif.fr/services-en-ligne/consultationreparateurs/geolocaliserReparateur.action?view"
query = "whatever you want to put into the search box"
driver = webdriver.Chrome()
driver.get(url)
webform_input = driver.find_element_by_xpath("//input[@id='adresseInternaute']")
webform_input.send_keys(query)
webform_input.submit()

这里的关键是submit()。它将遍历 HTML 树，直到在当前表单中找到一个按钮，这意味着您不必为了单击搜索按钮而多写两行。

【讨论】：