使用 Scrapy 抓取 ajax 页面 [关闭]答案

【问题标题】：using Scrapy for crawling ajax pages [closed]使用 Scrapy 抓取 ajax 页面 [关闭]
【发布时间】：2013-06-19 09:12:49
【问题描述】：

我正在使用 Scrapy 一个月。我能够根据管道中给出的关键字抓取和抓取几个网站（事实上我已经抓取了 900 个网站）。现在，问题是当我们遇到 javapages（ajax）时，scrapy 不会抓取。我正在尝试使用以下代码selenium code for scraping ajax pages using scrapy 并进行适当的更改以抓取 ajax 页面

你们有什么好主意使用scrapy抓取javapages

第二个问题，我面临的是scrapy不抓取登录页面

【问题讨论】：

您能否更具体地说明您在抓取登录页面时遇到的问题？提供您正在使用的代码和网址。
@alecxe 。这是我的蜘蛛代码notepad.cc/huxido16
github.com/scrapinghub/scrapyjs
@StevenAlmeroth。我正在尝试使用下载中间件设置，但在 **import gtk ** 处出现错误。 error: from glib._glib import * ImportError: DLL load failed: The specified procedure could not be foun

标签： python selenium scrapy

【解决方案1】：

先监听已经使用ajax发送的Request（为此使用fiddler或firefox firebug），然后在scrapy中发出类似的Request，它会带来响应。

我无法理解“scrapy 不会抓取登录页面”是什么意思：这是否意味着您不能废弃需要您登录的页面或登录页面本身

【讨论】：

""scrapy 不会抓取登录页面""。我的意思是登录页面本身。谢谢
首先感谢您的回复。我正在使用 firebug 来监视和记录 xpath（使用 ajax 发送的请求）。我应该在我的 scrpay 项目中使用相同的 xpath。
是的，你可以在你的scrapy项目中使用相同的xpath！
请问您是否知道如何抓取登录页面itsef
好吧，我在抓取登录页面时从来没有遇到过任何问题，但是对于你的情况（你试图抓取雅虎登录页面）首先转到yahoo.com(give这个作为起始网址）然后使用 xpath 获取登录页面的 url 在该 url 上发出请求，它将可用。这应该工作