【发布时间】:2020-08-29 22:54:26
【问题描述】:
我是 Scrapy 的新手,正在尝试抓取网页,但 HTML 元素由许多具有重复类名的 DIV 组成,例如。
<section class= "pi-item pi-smart-group pi-border-color">
<section class="pi-smart-group-head">
<h3 class = "pi-smart-data-label pi-data-label pi-secondary-font pi-item-spacing">
</section>
<section class= "pi-smart-group-body">
<div class="pi-smart-data-value pi-data-value pi-font pi-item-spacing">
<a href="abc" title="!! What I want !!"> </a>
</div>
</section>
</section>
我的问题是这个结构对许多其他元素重复,当我使用 response.css 时,我会得到多个我不想要的元素
(基本上我想从https://pokemon.fandom.com/wiki/Bulbasaur抓取每个口袋妖怪的“类型”、“物种”和“能力”,我已经完成了所有口袋妖怪的获取网址,但一直在从每个口袋妖怪获取信息)
【问题讨论】:
标签: scrapy web-crawler