【发布时间】:2016-04-21 20:06:39
【问题描述】:
我正在尝试使用 Scrapy 获取各种文章的 HTML。这些文章还包括我想单独处理的图像。
如果我有一篇 HTML 如下所示的文章:
<div class="article>
<p>This is a sentence.</p>
<p>This is a sentence.</p>
<img src="/path/to/image.jpg"/>
<p>This is a sentence.</p>
<p>This is a sentence.</p>
</div>
我怎样才能只抓取非图像 HTML,或者这个:
<div class="article>
<p>This is a sentence.</p>
<p>This is a sentence.</p>
<p>This is a sentence.</p>
<p>This is a sentence.</p>
</div>
我目前已经尝试过:
article = response.xpath("//div[@class='article'][not(img)]").extract()
...但这仍然包括图像。
【问题讨论】:
标签: html xml xpath web-scraping scrapy