【发布时间】:2020-07-26 23:36:17
【问题描述】:
<table id="myTable" class="table table-striped table-bordered text-center table-condensed removeSidePadding" style="" xpath="1">
<thead class="success" style="padding: 15px; font-family: 'Nunito', sans-serif;"></thead>
<tbody style="">
<tr class="active" data-index="0" style=""></tr>
<tr data-index="1" style=""></tr>
<tr class="active" data-index="2"></tr>
<tr data-index="3"></tr>
<tr class="active" data-index="4"></tr>
<tr data-index="5"></tr>
<tr class="active" data-index="6"></tr>
<tr data-index="7"></tr>
<tr class="active" data-index="8"></tr>
<tr data-index="9"></tr>
</tbody>
</table>
至于要展示的代码,除了 Scrapy 生成的样板文件外,我没有太多要展示的东西。我一直专门在 shell 中工作,所以我可以一一挑选这些元素,但我遇到的问题是空列表。我之前做过研究,发现scrapy不会拾取这些tbody标签,因为浏览器会生成它们。 (目前使用最新的 FireFox)。
我想要的数据在 tr 标签内,我想我以后可以完成,但我在之前的元素上苦苦挣扎。
我在 parse 方法上确实取得了一些进展,但我再次遇到 tbody 标记返回空的问题。
那么最终我该如何解析呢?
def parse(self, response):
contents = response.xpath("//table[@id='myTable']")
for content in contents:
pass
【问题讨论】:
-
您能否提供您要废弃的 URL,以便我查看?
标签: python-3.x scrapy screen-scraping