【发布时间】:2014-05-04 05:34:17
【问题描述】:
我正在尝试使用 Scrapy 抓取表格,但遇到了一个问题,即由于表格的结构,我获得了太多的子节点。
例如,表后面的td中有一个表,有点像这样:
<table>
<tr>
<td>
Text I want
</td>
<td>
<table>
<tr>
<td>
Text I do not want
</td>
</tr>
</td>
</table>
所以当我告诉它抓取时:
td[1]/text()
它抓取每个 tr 的第一个 td 中的文本——这正是我想要的——但有些 td 有自己的表格!不要问我为什么他们以这种方式构建这个东西,或者为什么实际上没有比表级别本身更深的类或 id,但事实就是如此。因此,我还将返回表格内第一个 td 中的文本……那是我不想要的(还)在后面的 td 中。
如果没有 id 或类,我如何才能更具体地了解只需要第一个 td 的文本而不需要表中更深的任何内容?
【问题讨论】:
标签: python xpath web-scraping html-table scrapy