【问题标题】:python scraping for javascript not working and specific datapython抓取javascript不起作用和特定数据
【发布时间】:2021-12-18 00:24:40
【问题描述】:

首先,我想scrape从java脚本加载的这个表,我只想scrape特定的数据行,例如基于基金缩写或搜索库对此,但我的基本脚本运行不正常。请帮忙

from bs4 import BeautifulSoup
from requests_html import HTMLSession
session = HTMLSession()
url = 'https://www.publicmutual.com.my/Our-Products/UT-Fund-Prices'
r = session.get(url)
r.html.render()
soup=BeautifulSoup(r.html.html,'html.parser')
table = soup.find('table', attrs={'class':'fundtable col-sm-12'})
print(table) 

我如何进行这项工作并抓取根据基金名称或基金缩写列仅显示我想要的某些行?

【问题讨论】:

  • 是汤问题还是渲染问题?
  • 对此不太确定,我该如何检查这种情况?
  • 使用浏览器复制粘贴源代码并保存为文件,然后解析
  • 我可以使用表的给定类名从源代码中删除文件。
  • 使用selenium

标签: javascript python beautifulsoup


【解决方案1】:

如果您进入 chromedevtools 并检查呈现表格的 url,您将看到表格的 html 如下: HTML

网站执行发布请求以获取 data

如果您需要 scraping 应用程序快速,您必须使用 python-requests 和 bs4 映射有效负载和 scrapy。如果速度不是问题,您可以使用 python-Selenium

【讨论】:

  • 正如目前所写,您的答案尚不清楚。请edit 添加其他详细信息,以帮助其他人了解这如何解决所提出的问题。你可以找到更多关于如何写好答案的信息in the help center
猜你喜欢
  • 2021-08-30
  • 2019-04-27
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2017-09-04
  • 2021-05-10
  • 2023-03-06
相关资源
最近更新 更多