完全加载时如何抓取网站页面（js，css全部加载）答案

【问题标题】：how to crawl a website page when it is fully loaded(js, css all loaded)完全加载时如何抓取网站页面（js，css全部加载）
【发布时间】：2018-09-04 08:57:45
【问题描述】：

我想抓取一些网站页面，如亚马逊或易趣，以获取已售商品图片路径。当我检查页面时，页面完全加载后，图像 src 似乎被 javascript 修改了。

有一个名为cheerio 的库。它很简单，但它没有公开在页面完全加载后进行一些检查的方法，它只返回 html。有没有人有这方面的经验？或者是否有任何库可以用来获取真实的图像路径，因为它是由 javascript 修改的？感谢您的帮助。

【问题讨论】：

你可以试试puppeteer：github.com/GoogleChrome/puppeteer
你能把代码贴出来吗，你在哪里遇到这个问题？

标签： node.js web-crawler

【解决方案1】：

正如 cmets 中提到的，puppeteer 可能是抓取动态页面的最佳方式。它是一个与 chrome/chromium 接口的节点库，将像常规 chrome 实例一样加载页面。

在您的page.evaluate 中，您可以使用MutationObserver 浏览器api 来观看DOM 并等待您想要的图像。

我在使用 Apify 方面有过很好的体验，它会为您运行 puppeteer 实例并提供大量免费套餐。

【讨论】：