抓取 Trulia 表答案

【问题标题】：Scraping Trulia tables抓取 Trulia 表
【发布时间】：2016-01-04 23:22:46
【问题描述】：

我正在查找表格中的数据

当搜索第一个元素“Yu(alice Fong) Elementary School”的 Xpath 时，我得到了这个：

//*[@id="elementary_tab_content"]/table/tbody/tr[1]/td[2]/a

当我寻找时：

response.xpath('//*[@id="elementary_tab_content"]/table').extract()

我得到了回应，但还不是我需要的

当我尝试时：

response.xpath('//*@id="elementary_tab_content"]/table/tbody/tr[1]/td[2]/a').extract()

我什么也没得到，实际上我添加'/tbody'后答案是空的

response.xpath('//*[@id="elementary_tab_content"]/table/tbody').extract()

如何用scrapy提取这个表的数据？

【问题讨论】：

为了提高您的问题的清晰度，您应该指定您要提取的确切内容。您是否需要使用 XPath 或者这是您最熟悉的。还请务必阅读 How to ask 指南，其中包含一些有关在 SO 上提出好问题的重要信息。

【解决方案1】：

使用类似的东西：

'//*[@id="elementary_tab_content"]/table//tr'

获取行。

tbody 通常是由浏览器为表格添加的，因此不在响应正文中。

【讨论】：