包含 JSP/JS 的 Python Beautiful Soup 抓取页面答案

【问题标题】：Python Beautiful Soup scrape page containing JSP/JS包含 JSP/JS 的 Python Beautiful Soup 抓取页面
【发布时间】：2019-02-20 20:58:22
【问题描述】：

我正在尝试从该页面获取价格：url = https://www.renodepot.com/en/steph-round-base-shower-kit-69375118

价格信息在 span 标签中给出，我无法抓取它。我为此使用的简单代码是

from requests import get
from bs4 import BeautifulSoup
response = get(url)
html_soup = BeautifulSoup(response.text, 'html.parser')
ProductPrice = html_soup.find('div',class_ = 'product_price_wrapper')

但我认为这没有任何回报

 BEGIN RenoProdDetailPriceSnippet.jsp

显示在价格 div 选项卡上方的信息会导致信息受到保护。

我什至尝试用 selenium 来做，但没有成功。我尝试了许多其他组合来获得价格，但无法获得相同的价格。

所以，我正在寻找一些想法来解决这个问题。谢谢

【问题讨论】：

您无法使用requests 抓取动态生成的页面。使用selenium 或类似的网络驱动程序。
可能是stackoverflow.com/questions/8049520/…的欺骗
Parse the JavaScript returned from BeautifulSoup的可能重复
我也尝试使用 selenium 进行此操作，但无法获得所需的信息。我什至尝试过无头网络驱动程序，但没有成功。

标签： javascript python jsp web-scraping beautifulsoup

【解决方案1】：

您无法抓取该页面，因为它需要完成 reCAPTCHA 才能访问。这是专门为阻止机器人而设计的。

如果您检查html_soup，您会发现您实际上是在搜索 reCAPTCHA 页面，而不是所需的产品页面。

【讨论】：

我打开页面并没有找到任何验证码。
这很有趣，也许它是基于位置的？当我检查 html_soup 时，它包含验证码页面。