【问题标题】:Cannot access HTML element using XPath in Scrapy无法在 Scrapy 中使用 XPath 访问 HTML 元素
【发布时间】:2016-06-13 19:04:52
【问题描述】:

我是网络抓取的新手,所以我在玩抓取并尝试抓取某个网站。

我正在使用 windows 上的 scrapy shell,只是试图为我想要访问的特定元素建立正确的 XPath。该元素是一个时间表,这是 HTML:

我正在尝试访问 rv-schedule-module 及其所有子节点。在 rv-schedule-module 之前,我可以访问所有节点,但除此之外,所有 XPath 调用都返回 null。例如:

调用进程会返回数据,直到我想访问 rv-schedule-module 下的 div。该调用返回 null。

我做错了什么?

【问题讨论】:

  • 也许内容是动态生成的?也许分享有问题的网站
  • rutgers.n.rivals.com 是网站。我试图访问的元素是未来游戏的时间表。它是右侧列中的最后一个元素

标签: html xml xpath web-scraping scrapy


【解决方案1】:

正如我怀疑内容是动态创建的,因为它是由 javascript 处理的!

当您检查元素时,它会在那里,但如果您检查页面源,它​​不会。 Scrapy 本身不处理 javascript,你需要像 scrapy-splashSelenium 这样的东西。

有一篇非常棒的帖子,介绍了如何使用它 - https://stackoverflow.com/a/30378765/2781701

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2021-12-28
    • 2013-08-15
    • 2022-08-03
    • 2015-09-22
    • 1970-01-01
    • 1970-01-01
    • 2022-11-16
    • 2021-04-23
    相关资源
    最近更新 更多