【发布时间】:2018-09-25 10:42:03
【问题描述】:
问题
下载动态加载链接/图像的网站的完整离线工作副本
研究
Stackoverflow 上有一些问题(例如[1]、[2]、[3])解决了这个问题,其中大多数问题的最佳答案使用wget 或httrack,这两个问题都惨遭失败(请如果我错了,请纠正我)在动态加载链接的页面上或使用srcset 而不是src 用于img 标签-或通过JS加载的任何内容-。一个相当明显的解决方案是Selenium,但是,如果您曾经在生产中使用过 Selenium,您很快就会开始看到这样的决定引起的问题(资源繁重,使用全头驱动程序非常复杂,事实并非如此为此而建),话虽如此,there are people claiming to have been using it easily in production for years
预期的解决方案
一个脚本(最好在 python 中),它解析页面中的链接并单独加载它们。我似乎找不到任何现有的脚本可以做到这一点。如果您的解决方案是“所以实现您自己的”,那么首先提出这个问题是没有意义的,我正在寻求现有的实现。
示例
- Shopify.com
- 使用 Wix 构建的网站
【问题讨论】:
标签: python selenium web-scraping wget httrack