【问题标题】:Is there a way to safely scrape a single-page application (SPA) from the browser?有没有办法从浏览器中安全地抓取单页应用程序 (SPA)?
【发布时间】:2020-04-12 19:19:24
【问题描述】:

我已经构建了一个小工具,可以使用 DOMParser 从 Web 浏览器中的网页中抓取元数据。这适用于很多网站,但某些页面(如 a tweet page)在附加的 JavaScript 加载数据之前不会添加其元数据。

我知道我可以设置某种运行 Puppeteer 的代理服务器,但我正在寻找一种可以直接在浏览器中运行的解决方案。

【问题讨论】:

    标签: javascript web-scraping single-page-application puppeteer domparser


    【解决方案1】:

    Protractor 是一个非常棒的抓取工具。它主要是用于各种网站(包括 SPA)的端到端测试工具,但如果它不仅仅是花哨的网络抓取,那么什么是端到端测试?

    我过去曾使用 Protractor 抓取过数十个网站,并且运行良好。易于安排,可以运行无头 Chrome 或 phantomJS,因此您甚至看不到页面加载。

    【讨论】:

    • 这似乎启动了一个网络服务器,但它似乎在网页中运行,或者我错过了什么?
    • (更正):not 似乎在网页中运行
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2012-12-18
    • 2013-01-10
    • 1970-01-01
    • 2021-01-02
    • 2011-07-04
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多