【发布时间】:2016-01-10 08:40:58
【问题描述】:
所以我在scrapy shell中,我尝试的选择器之一产生了这个:
>>> response.css(".result-title a").extract()
[u'<a href="#"><em>Membership warehouse</em></a>', u'<a href="#">Publix</a>', u'<a href="#">Kroger Pharmacy</a>']
现在只获取我这样做的文本:
>>> response.css(".result-title a::text").extract()
[u'Publix', u'Kroger Pharmacy']
很明显,这省略了第一个元素,它在文本周围有一个额外的 em 标签。我如何将它与普通文本一起提取,以便我的最终输出是:
[u'Membership warehouse', u'Publix', u'Kroger Pharmacy']
【问题讨论】: