【问题标题】:Can Trulia tables be scraped using only scrapy?可以只使用 scrapy 来抓取 Trulia 表吗?
【发布时间】:2021-03-20 07:10:13
【问题描述】:

我正在寻找这种表格的内容:

http://www.trulia.com/school-district/CA-San_Francisco_County/San_Francisco_Unified/

我可以通过以下方式获取行:

rows = response.xpath('//*[@id="middle_tab_content"]/table/tr[]').extract()

问题是表格中有几个页面保持相同的链接

http://www.trulia.com/school-district/CA-San_Francisco_County/San_Francisco_Unified/

并且行也保持相同的Xpath,表中没有变化

编辑。

@Salman:我看到了 Network 选项卡,但找不到 XHR 子选项卡

【问题讨论】:

    标签: python web-scraping scrapy


    【解决方案1】:

    正在使用XMLHttpRequest 获取下一页。如果您在浏览器中检查该页面,您将找到该请求的 url。对于第二页,它看起来像这样:

    http://www.trulia.com/q_schools_in_district.php?did=600116051&grade=elementary&page=2&sortby=testRating&sortdir=desc
    

    您可以做的是抓取一个页面,然后使用此 url 请求下一页。您只需替换&page=<page>查询中的页码即可获取每一页。

    【讨论】:

    • 你是怎么得到地址的?它在“检查元素”中,我正在使用 chrome。
    • 转到Network 选项卡,然后转到XHR 子选项卡。在这里您可以看到xhr 请求。
    • 我看到“网络”选项卡但找不到 XHR 子选项卡
    • 另外,当我尝试:scrapy shell trulia.com/… 它不起作用
    • XHR 和其他一些选项卡是过滤器。您必须启用它。单击左上角的锥形图标。从红色图标向左第二个。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2022-11-13
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2012-01-22
    • 1970-01-01
    相关资源
    最近更新 更多