【问题标题】:Possibilities of crawling pinterest and quora like sites爬取 pinterest 和 quora 之类的网站的可能性
【发布时间】:2017-08-02 06:58:56
【问题描述】:

我一直在尝试抓取一些网站(基于 AJAX)用于我的研究。我有一个条件,我应该在不登录相应网站的帐户的情况下抓取内容。


怀疑

我可以看到页面源代码在登录和不登录的情况下存在巨大差异。我知道这是因为 AJAX,但我需要以某种方式抓取其中一个网站,最好是 pinterest。我是网络抓取的新手,所以请告诉我如果你们对如何去做这件事有任何想法


附加条件
没有硒解决方案或基于 Web 驱动程序的解决方案。

【问题讨论】:

    标签: ajax web-scraping scrapy screen-scraping pinterest


    【解决方案1】:

    我会尝试走这条路:

    1. 如果有 API,请使用 API。您可以保存远程资源以及您的资源,因为您不需要渲染任何内容。您可能会发现网站是否使用 API,例如浏览器的开发者工具(网络标签、XHR)。
    2. 使用 Splash 作为渲染服务。它使用 scrapy-splash 包与 Scrapy 无缝集成,根据我的经验,它比 Selenium 更可靠。

    【讨论】:

    • 这些 API 以不同的方式构建。我在登录其中一个帐户后进行了检查。这些 API 需要很多标头信息,包括 cookie 等。我想抓取公共页面清理等内容。
    猜你喜欢
    • 1970-01-01
    • 2015-04-06
    • 1970-01-01
    • 1970-01-01
    • 2012-09-24
    • 2019-07-19
    • 2011-02-19
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多