【问题标题】:using Scrapy for crawling ajax pages [closed]使用 Scrapy 抓取 ajax 页面 [关闭]
【发布时间】:2013-06-19 09:12:49
【问题描述】:

我正在使用 Scrapy 一个月。我能够根据管道中给出的关键字抓取和抓取几个网站(事实上我已经抓取了 900 个网站)。现在,问题是当我们遇到 javapages(ajax)时,scrapy 不会抓取。我正在尝试使用以下代码selenium code for scraping ajax pages using scrapy 并进行适当的更改以抓取 ajax 页面

你们有什么好主意使用scrapy抓取javapages

第二个问题,我面临的是scrapy不抓取登录页面

【问题讨论】:

  • 您能否更具体地说明您在抓取登录页面时遇到的问题?提供您正在使用的代码和网址。
  • @alecxe 。这是我的蜘蛛代码notepad.cc/huxido16
  • @StevenAlmeroth。我正在尝试使用下载中间件设置,但在 **import gtk ** 处出现错误。 error: from glib._glib import * ImportError: DLL load failed: The specified procedure could not be foun

标签: python selenium scrapy


【解决方案1】:

先监听已经使用ajax发送的Request(为此使用fiddler或firefox firebug),然后在scrapy中发出类似的Request,它会带来响应。

我无法理解“scrapy 不会抓取登录页面”是什么意思: 这是否意味着您不能废弃需要您登录的页面或登录页面本身

【讨论】:

  • ""scrapy 不会抓取登录页面""。我的意思是登录页面本身。谢谢
  • 首先感谢您的回复。我正在使用 firebug 来监视和记录 xpath(使用 ajax 发送的请求)。我应该在我的 scrpay 项目中使用相同的 xpath。
  • 是的,你可以在你的scrapy项目中使用相同的xpath!
  • 请问您是否知道如何抓取登录页面itsef
  • 好吧,我在抓取登录页面时从来没有遇到过任何问题,但是对于你的情况(你试图抓取雅虎登录页面)首先转到yahoo.com(give这个作为起始网址)然后使用 xpath 获取登录页面的 url 在该 url 上发出请求,它将可用。这应该工作
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多