【问题标题】:Scraping Trulia tables抓取 Trulia 表
【发布时间】:2016-01-04 23:22:46
【问题描述】:

我正在查找表格中的数据

http://www.trulia.com/school-district/CA-San_Francisco_County/San_Francisco_Unified/

当搜索第一个元素“Yu(alice Fong) Elementary School”的 Xpath 时,我得到了这个:

//*[@id="elementary_tab_content"]/table/tbody/tr[1]/td[2]/a

当我寻找时:

response.xpath('//*[@id="elementary_tab_content"]/table').extract()

我得到了回应,但还不是我需要的

当我尝试时:

response.xpath('//*@id="elementary_tab_content"]/table/tbody/tr[1]/td[2]/a').extract()

我什么也没得到,实际上我添加'/tbody'后答案是空的

response.xpath('//*[@id="elementary_tab_content"]/table/tbody').extract()

如何用scrapy提取这个表的数据?

【问题讨论】:

  • 为了提高您的问题的清晰度,您应该指定您要提取的确切内容。您是否需要使用 XPath 或者这是您最熟悉的。还请务必阅读 How to ask 指南,其中包含一些有关在 SO 上提出好问题的重要信息。

标签: python web-scraping beautifulsoup scrapy


【解决方案1】:

使用类似的东西:

'//*[@id="elementary_tab_content"]/table//tr'

获取行。

tbody 通常是由浏览器为表格添加的,因此不在响应正文中。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2021-07-25
    • 2013-09-28
    • 2019-04-13
    • 2017-07-07
    • 2017-03-19
    • 1970-01-01
    • 1970-01-01
    • 2022-11-05
    相关资源
    最近更新 更多