具有多个类的 Scrapy 抓取 div？答案

【问题标题】：Scrapy grab div with multiple classes?具有多个类的 Scrapy 抓取 div？
【发布时间】：2015-03-24 07:02:35
【问题描述】：

我正在尝试使用类获取 div：“产品”。问题是，一些具有“产品”类的 div 也具有“产品小”类。所以当我使用xpath('//div[@class='product']') 时，它只捕获一个类而不是多个类的 div。我怎么能用scrapy做到这一点？

例子：

【问题讨论】：

【解决方案1】：

您应该考虑对这部分查询使用 CSS 选择器。

from scrapy import Selector
sel = Selector(text='<div class="product product-small">I am a product!</div>')
print sel.css('.product').extract()

如果需要，您可以链接 CSS 和 XPath 选择器，如该页面上的示例所示。

【讨论】：

【解决方案2】：

这也可以通过xpath 解决。你只需要使用contains():

//div[contains(concat(' ', normalize-space(@class), ' '), ' product ')]

不过，是的，CSS selector 选项更紧凑、更易读。

【讨论】：