【发布时间】:2017-06-06 10:12:43
【问题描述】:
我在刮http://www.germandeli.com/Meats/Sausages
我想从页面中提取每个产品(或项目)的链接。我使用scrapy shell进行测试,但它一直返回空值[]。
这是我使用的代码:
response.xpath('*//h2[@class="item-cell-name"]/a/@href')
任何帮助将不胜感激。
【问题讨论】:
-
当浏览器请求并禁用 javascript 时,会显示一条消息,内容为
To view this site, you must enable JavaScript or upgrade to a JavaScript-capable browser.。虽然scrapy不呈现javascript这可能是您的空结果的原因。 -
@FrankMartin 感谢您的回复。我认为你是对的。有什么办法可以解决这个问题吗?
-
一种方法是使用(无头)浏览器:一些使用 Selenium,另一些使用 Splash + scrapy-splash 插件:您基本上将渲染页面的任务委托给这个外部 Splash 服务浏览器会做,并在渲染后将 HTML 发回给您。
标签: scrapy