【问题标题】:how to crawl a website page when it is fully loaded(js, css all loaded)完全加载时如何抓取网站页面(js,css全部加载)
【发布时间】:2018-09-04 08:57:45
【问题描述】:

我想抓取一些网站页面,如亚马逊或易趣,以获取已售商品图片路径。当我检查页面时,页面完全加载后,图像 src 似乎被 javascript 修改了。

有一个名为cheerio 的库。它很简单,但它没有公开在页面完全加载后进行一些检查的方法,它只返回 html。有没有人有这方面的经验?或者是否有任何库可以用来获取真实的图像路径,因为它是由 javascript 修改的?感谢您的帮助。

【问题讨论】:

标签: node.js web-crawler


【解决方案1】:

正如 cmets 中提到的,puppeteer 可能是抓取动态页面的最佳方式。它是一个与 chrome/chromium 接口的节点库,将像常规 chrome 实例一样加载页面。

在您的page.evaluate 中,您可以使用MutationObserver 浏览器api 来观看DOM 并等待您想要的图像。

我在使用 Apify 方面有过很好的体验,它会为您运行 puppeteer 实例并提供大量免费套餐。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2014-08-09
    • 2016-06-10
    • 1970-01-01
    • 1970-01-01
    • 2023-03-05
    • 2021-07-30
    • 2021-02-05
    • 1970-01-01
    相关资源
    最近更新 更多