【问题标题】:Web Scraping: XPath for PaginationWeb Scraping:用于分页的 XPath
【发布时间】:2020-11-10 19:10:55
【问题描述】:

我正在尝试使用 Octoparse 抓取一些公司网站。我似乎无法让我的 XPath 适合分页。网站页面没有“下一步”按钮。我正在尝试从每个页面中抓取数据。 有什么建议吗?

我尝试了以下 XPath(以及其他一些失败):

//*[@id="main"]/div[2]/section/div[1]/nav/ul/li[1]/a/following-sibling::li[1]/a

这是我正在测试的公司website 的示例。

【问题讨论】:

    标签: xpath web-scraping pagination


    【解决方案1】:

    您需要当前页面的下一个页面。这对following-sibling 来说很不方便

    //li[./a[@class="current"]]/following-sibling::li[1]
    

    你可以阅读这个here

    【讨论】:

    • 当我使用您提供的 XPath 时,刮板将在第一页之后停止。但是,我能够修改您的有效解决方案(我作为答案发布)。感谢您的帮助!
    【解决方案2】:

    在我修改 Redyukov Pavel 的解决方案时回答我自己的问题:

    //a[@class='current']/../following-sibling::li[1]/a[1]
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2020-01-27
      • 2023-03-24
      • 1970-01-01
      相关资源
      最近更新 更多