【发布时间】:2022-01-03 17:13:04
【问题描述】:
我正在尝试为一个用于查找医学院统计数据的网站在 python 中编写一个带有 selenium 的网络爬虫。 https://mec.aamc.org/msar-ui/#/medSchoolDetails/102 提供了一个示例。我已经能够成功地抓取大部分数据,但是一些数据,例如录取人口统计数据(您应该能够在没有订阅的情况下查看)是在 highcharts 条形图中。事实证明这非常困难,因为我之前只从静态网站上抓取过数据。
我最初尝试通过 CSS 选择器查找悬停在每个栏上的文本,但是每次访问该站点时,选择器开头的几个字符都会更改,所以我不能那样做。我尝试通过使用通配符代替这些字母的 CSS 选择器查找元素的搜索方法,但我发现的所有内容的解释都太高级了,我无法理解。我也尝试搜索如何从一般的 highcharts 中抓取数据,但我还是无法理解我读到的内容。
非常感谢你们可以提供的任何帮助(如果不可能,请提供解释)。谢谢!
【问题讨论】:
-
您好,一般Highcharts的工作原理是,图表是通过SVG从数据中绘制出来的,如果您想获取数据,您需要访问负责绘制的脚本中的数据。从 HTML 标记读取数据将很难获得,因为您将获得点的位置,而不是确切的数据。
标签: python selenium web-scraping highcharts