【发布时间】:2021-02-21 01:49:19
【问题描述】:
我正在尝试遍历公司列表,并从 CSRhub 获取他们的环境评级。我会发布链接作为示例,但它只能通过登录。我的爬虫没有得到准确的数字,因为评分的位置会根据网页上表格的行而变化。
例如: 在这里,我们看到 Target 在表中有 5 行,73(能源和气候变化评级)的 xpath 是:
//[@id="rating-section"]/div/div2/div/div/table/tbody/tr[23]/td[5]/div/ table/tbody/tr/td2/div/div/span1/span*
但公司的行数各不相同,这里是我试图收集的不同元素的 xpath。
表格和网页功能没有 id 或标记良好的类。我对理解前端还很陌生。 无论公司有多少行,我如何才能选择正确的功能?
【问题讨论】:
-
如果页面有
table元素,为什么不使用pandas获取整个表格? -
你能把你要抓取的页面的网址固定下来吗