【问题标题】:Selenium scraping with HTML changing after refresh刷新后更改 HTML 的 Selenium 抓取
【发布时间】:2021-02-17 00:41:45
【问题描述】:

我正在使用 Selenium 和 python 来抓取一些页面。我有许多网页代表相同类型的对象(足球运动员信息),但每个网页的 HTML 布局略有不同。特别是我这里的主要问题是 div 类标识符在刷新或更改网页时会以一种不可预测的方式发生变化。

在特定情况下,我想在 div 中获取类标识符“jss176”的数据,但是当我到达另一个玩家时,这将变为“jss450”,例如,找不到有意义的模式。 有没有办法解决这个问题?我正在考虑从 id = "root" 的 div 开始浏览 Childs,但我似乎没有找到一段好的代码来实现这一点。 非常感谢!

【问题讨论】:

    标签: python html selenium selenium-webdriver web-scraping


    【解决方案1】:

    如果只有 id 的变化,而不是 web 结构,你可以通过 XPATH 抓取信息。

    https://www.tutorialspoint.com/what-is-xpath-in-selenium-with-python

    你可以直接访问你想要的div,在浏览器的chrome中选择“copy XPATH”选项。

    【讨论】:

    • 非常感谢!我被这么愚蠢的事情困住了!感谢您的帮助 miguelik
    猜你喜欢
    • 2021-06-15
    • 2013-05-19
    • 1970-01-01
    • 2013-01-05
    • 1970-01-01
    • 2015-04-30
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多