无法在 Scrapy 中使用 XPath 访问 HTML 元素答案

【问题标题】：Cannot access HTML element using XPath in Scrapy无法在 Scrapy 中使用 XPath 访问 HTML 元素
【发布时间】：2016-06-13 19:04:52
【问题描述】：

我是网络抓取的新手，所以我在玩抓取并尝试抓取某个网站。

我正在使用 windows 上的 scrapy shell，只是试图为我想要访问的特定元素建立正确的 XPath。该元素是一个时间表，这是 HTML：

我正在尝试访问 rv-schedule-module 及其所有子节点。在 rv-schedule-module 之前，我可以访问所有节点，但除此之外，所有 XPath 调用都返回 null。例如：

调用进程会返回数据，直到我想访问 rv-schedule-module 下的 div。该调用返回 null。

我做错了什么？

【问题讨论】：

【解决方案1】：

正如我怀疑内容是动态创建的，因为它是由 javascript 处理的！

当您检查元素时，它会在那里，但如果您检查页面源，它不会。 Scrapy 本身不处理 javascript，你需要像 scrapy-splash 或 Selenium 这样的东西。

有一篇非常棒的帖子，介绍了如何使用它 - https://stackoverflow.com/a/30378765/2781701

【讨论】：