检索包含动态加载的链接/图像的完整网页答案

【问题标题】：Retrieving a complete webpage including dynamically loaded links/images检索包含动态加载的链接/图像的完整网页
【发布时间】：2018-09-25 10:42:03
【问题描述】：

问题

下载动态加载链接/图像的网站的完整离线工作副本

研究

Stackoverflow 上有一些问题（例如[1]、[2]、[3]）解决了这个问题，其中大多数问题的最佳答案使用wget 或httrack，这两个问题都惨遭失败（请如果我错了，请纠正我）在动态加载链接的页面上或使用srcset 而不是src 用于img 标签-或通过JS加载的任何内容-。一个相当明显的解决方案是Selenium，但是，如果您曾经在生产中使用过 Selenium，您很快就会开始看到这样的决定引起的问题（资源繁重，使用全头驱动程序非常复杂，事实并非如此为此而建），话虽如此，there are people claiming to have been using it easily in production for years

预期的解决方案

一个脚本（最好在 python 中），它解析页面中的链接并单独加载它们。我似乎找不到任何现有的脚本可以做到这一点。如果您的解决方案是“所以实现您自己的”，那么首先提出这个问题是没有意义的，我正在寻求现有的实现。

示例

Shopify.com
使用 Wix 构建的网站

【问题讨论】：

标签： python selenium web-scraping wget httrack

【解决方案1】：

现在有Selenium 的无头版本和PhantomJS 等替代版本，它们都可以与小脚本一起使用来抓取任何动态加载的网站。

我已经实现了一个通用的scraper here，并解释了更多关于主题here

【讨论】：

现在你可以使用 puppeteer，因为它甚至可以处理使用 javascript 运行
链接失效。仅供参考，它是 scrape（和 scraping、scraped、scraper）而不是废料。 “废弃”意味着像垃圾一样扔掉东西:-(