【问题标题】:Python Beautiful Soup scrape page containing JSP/JS包含 JSP/JS 的 Python Beautiful Soup 抓取页面
【发布时间】:2019-02-20 20:58:22
【问题描述】:

我正在尝试从该页面获取价格:url = https://www.renodepot.com/en/steph-round-base-shower-kit-69375118

价格信息在 span 标签中给出,我无法抓取它。我为此使用的简单代码是

from requests import get
from bs4 import BeautifulSoup
response = get(url)
html_soup = BeautifulSoup(response.text, 'html.parser')
ProductPrice = html_soup.find('div',class_ = 'product_price_wrapper')

但我认为这没有任何回报

 BEGIN RenoProdDetailPriceSnippet.jsp 

显示在价格 div 选项卡上方的信息会导致信息受到保护。

我什至尝试用 selenium 来做,但没有成功。 我尝试了许多其他组合来获得价格,但无法获得相同的价格。

所以,我正在寻找一些想法来解决这个问题。 谢谢

【问题讨论】:

标签: javascript python jsp web-scraping beautifulsoup


【解决方案1】:

您无法抓取该页面,因为它需要完成 reCAPTCHA 才能访问。这是专门为阻止机器人而设计的。

如果您检查html_soup,您会发现您实际上是在搜索 reCAPTCHA 页面,而不是所需的产品页面。

【讨论】:

  • 我打开页面并没有找到任何验证码。
  • 这很有趣,也许它是基于位置的?当我检查 html_soup 时,它包含验证码页面。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2018-07-30
  • 1970-01-01
  • 1970-01-01
  • 2019-11-14
  • 2022-08-22
  • 2015-08-28
相关资源
最近更新 更多